تقنية

ميتا وجوجل يراهنان على المساعدين الصوتيين بالذكاء الاصطناعي هل سيقلعون؟


زوج من النظارات من Meta يلتقط صورة عندما تقول، “مرحبًا، Meta، التقط صورة.” يقوم جهاز الكمبيوتر المصغر الذي يتم تثبيته على قميصك، Ai Pin، بترجمة اللغات الأجنبية إلى لغتك الأم. تتميز الشاشة ذات الذكاء الاصطناعي بمساعد افتراضي تتحدث إليه من خلال الميكروفون.

في العام الماضي، قامت شركة OpenAI بتحديث برنامج الدردشة ChatGPT الخاص بها للرد بالكلمات المنطوقة، ومؤخرًا، قدمت Google برنامج Gemini، وهو بديل لمساعدها الصوتي على هواتف Android.

تراهن شركات التكنولوجيا على نهضة المساعدات الصوتية، بعد سنوات عديدة من اعتقاد معظم الناس أن التحدث إلى أجهزة الكمبيوتر أمر غير مقبول.

هل ستنجح هذه المرة؟ ربما، ولكن قد يستغرق الأمر بعض الوقت.

لم تستخدم مجموعات كبيرة من الأشخاص مطلقًا المساعدين الصوتيين مثل Alexa من Amazon، وSiri من Apple، وGoogle Assistant، والغالبية العظمى من أولئك الذين يستخدمون المساعدين الصوتيين قالوا إنهم لا يريدون أبدًا أن يظهروا وهم يتحدثون معهم في الأماكن العامة، وفقًا لدراسات أجريت في العقد الماضي.

وأنا أيضاً نادراً ما أستخدم المساعدين الصوتيين، وفي تجربتي الأخيرة مع نظارات ميتا، التي تتضمن كاميرا ومكبرات صوت لتوفير معلومات حول البيئة المحيطة بك، خلصت إلى أن التحدث إلى جهاز كمبيوتر أمام الآباء وأطفالهم في حديقة الحيوان لا يزال أمراً لا يزال قائماً. محرجا بشكل مذهل.

لقد جعلني أتساءل عما إذا كان هذا سيشعر بأنه طبيعي. منذ وقت ليس ببعيد، كان التحدث عبر الهاتف باستخدام سماعات البلوتوث يجعل الناس يبدون بمظهر باهت، ولكن الآن يفعل الجميع ذلك. هل سنرى يومًا ما الكثير من الأشخاص يتجولون ويتحدثون إلى أجهزة الكمبيوتر الخاصة بهم كما هو الحال في أفلام الخيال العلمي؟

لقد طرحت هذا السؤال على خبراء التصميم والباحثين، وكان الإجماع واضحًا: نظرًا لأن أنظمة الذكاء الاصطناعي الجديدة تعمل على تحسين قدرة المساعدين الصوتيين على فهم ما نقوله ومساعدتنا فعليًا، فمن المرجح أن نتحدث إلى الأجهزة في كثير من الأحيان في القريب العاجل. المستقبل – لكننا لا نزال بعيدين عن القيام بذلك علنًا بسنوات عديدة.

إليك ما يجب معرفته.

يتم تشغيل المساعدين الصوتيين الجدد بواسطة الذكاء الاصطناعي التوليدي، الذي يستخدم الإحصائيات والخوارزميات المعقدة لتخمين الكلمات التي تنتمي معًا، على غرار ميزة الإكمال التلقائي على هاتفك. وهذا ما يجعلهم أكثر قدرة على استخدام السياق لفهم الطلبات وأسئلة المتابعة مقارنة بالمساعدين الافتراضيين مثل Siri وAlexa، الذين يمكنهم الرد فقط على قائمة محدودة من الأسئلة.

على سبيل المثال، إذا قلت لـ ChatGPT، “ما هي بعض الرحلات الجوية من سان فرانسيسكو إلى نيويورك الأسبوع المقبل؟” – وتابع بسؤال “ما حالة الطقس هناك؟” و”ماذا يجب أن أحزم؟” – يمكن لروبوت الدردشة الإجابة على هذه الأسئلة لأنه يقوم بإجراء اتصالات بين الكلمات لفهم سياق المحادثة. (رفعت صحيفة نيويورك تايمز دعوى قضائية ضد شركة OpenAI وشريكتها مايكروسوفت العام الماضي لاستخدامهما مقالات إخبارية محمية بحقوق الطبع والنشر دون إذن لتدريب برامج الدردشة الآلية).

إن المساعد الصوتي الأقدم مثل سيري، والذي يتفاعل مع قاعدة بيانات من الأوامر والأسئلة التي تمت برمجته لفهمها، قد يفشل ما لم تستخدم كلمات محددة، بما في ذلك “ما هو الطقس في نيويورك؟” و”ما الذي يجب أن أحزمه لرحلة إلى نيويورك؟”

تبدو المحادثة السابقة أكثر مرونة، مثل الطريقة التي يتحدث بها الناس مع بعضهم البعض.

أحد الأسباب الرئيسية لتخلي الناس عن المساعدين الصوتيين مثل Siri وAlexa هو أن أجهزة الكمبيوتر لم تتمكن من فهم الكثير مما يُطرح عليهم – وكان من الصعب معرفة الأسئلة التي نجحت.

وقالت ديميترا فيرجيري، مديرة تكنولوجيا الكلام في SRI، مختبر الأبحاث الذي يقف وراء الإصدار الأولي من Siri قبل أن تستحوذ عليه شركة Apple، إن الذكاء الاصطناعي التوليدي عالج العديد من المشكلات التي عانى منها الباحثون لسنوات. وقالت إن هذه التكنولوجيا تجعل المساعدين الصوتيين قادرين على فهم الكلام التلقائي والاستجابة بإجابات مفيدة.

قال جون بوركي، مهندس سابق في شركة أبل عمل على سيري في عام 2014 وكان منتقدًا صريحًا للمساعد، إنه يعتقد أنه نظرًا لأن الذكاء الاصطناعي التوليدي سهّل على الأشخاص الحصول على المساعدة من أجهزة الكمبيوتر، فمن المرجح أن يتحدث المزيد منا إلى مساعدين قريبًا – وأنه عندما يبدأ عدد كافٍ منا في القيام بذلك، يمكن أن يصبح هذا هو القاعدة.

وقال: “كان سيري محدود الحجم، ولم يكن يعرف سوى عدد قليل من الكلمات”. “لديك أدوات أفضل الآن.”

ولكن قد تمر سنوات قبل أن يتم اعتماد الموجة الجديدة من مساعدي الذكاء الاصطناعي على نطاق واسع لأنها تسبب مشاكل جديدة. إن روبوتات الدردشة، بما في ذلك ChatGPT وGemini من Google وMeta AI، معرضة لـ “الهلوسة”، وهي عندما تختلق الأشياء لأنها لا تستطيع معرفة الإجابات الصحيحة. لقد أخطأوا في المهام الأساسية مثل حساب وتلخيص المعلومات من الويب.

يقول الخبراء إنه حتى مع تحسن تكنولوجيا الكلام، فمن غير المرجح أن يحل التحدث محل تفاعلات الكمبيوتر التقليدية مع لوحة المفاتيح أو يحل محلها.

لدى الأشخاص حاليًا أسباب مقنعة للتحدث إلى أجهزة الكمبيوتر في بعض المواقف عندما يكونون بمفردهم، مثل تحديد وجهة على الخريطة أثناء قيادة السيارة. ومع ذلك، في الأماكن العامة، لا يقتصر الأمر على أن التحدث إلى أحد المساعدين يجعلك تبدو غريبًا، ولكنه في أغلب الأحيان يكون غير عملي. عندما كنت أرتدي نظارة ميتا في محل بقالة وطلبت منهم تحديد قطعة من المنتجات، أجاب أحد المتسوقين المتنصت بوقاحة: “هذه حبة لفت”.

لن ترغب أيضًا في إملاء بريد إلكتروني سري خاص بالعمل على الآخرين في القطار. وبالمثل، سيكون من غير المعقول أن تطلب من المساعد الصوتي قراءة الرسائل النصية بصوت عالٍ في الحانة.

قال تيد سيلكر، أحد خبراء تصميم المنتجات الذي عمل في IBM وXerox PARC: “التكنولوجيا تحل مشكلة”. “متى نحل المشاكل ومتى نخلق المشاكل؟”

ومع ذلك، فمن السهل أن تتوصل إلى أوقات يساعدك فيها التحدث إلى جهاز كمبيوتر كثيرًا، بحيث لا تهتم بمدى غرابة الأمر بالنسبة للآخرين، كما تقول كارولينا ميلانيسي، المحللة في شركة Creative Strategies للأبحاث.

أثناء السير إلى اجتماعك التالي في المكتب، سيكون من المفيد أن تطلب من مساعد صوتي أن يطلعك على الأشخاص الذين كنت على وشك مقابلتهم. أثناء المشي لمسافات طويلة، سيكون سؤال المساعد الصوتي عن المكان الذي تتجه إليه أسرع من التوقف لسحب الخريطة. أثناء زيارتك لأحد المتاحف، سيكون من الجيد أن يقوم المساعد الصوتي بإعطاء درس تاريخي حول اللوحة التي كنت تنظر إليها. ويجري بالفعل تطوير بعض هذه التطبيقات باستخدام تقنية الذكاء الاصطناعي الجديدة.

عندما كنت أختبر بعضًا من أحدث المنتجات التي تعتمد على الصوت، حصلت على لمحة عن هذا المستقبل. على سبيل المثال، أثناء تسجيل مقطع فيديو لنفسي وأنا أصنع رغيف خبز وأرتدي نظارات ميتا، كان من المفيد أن أتمكن من القول: “مرحبًا، ميتا، قم بتصوير مقطع فيديو”، لأن يدي كانت ممتلئة. وكان مطالبة Ai Pin من Humane بإملاء قائمة المهام الخاصة بي أكثر ملاءمة من التوقف لإلقاء نظرة على شاشة هاتفي.

يقول كريس شماندت، الذي عمل لعقود من الزمن على واجهات الكلام في مختبر الوسائط التابع لمعهد ماساتشوستس للتكنولوجيا: “أثناء تجولك، تكون هذه هي النقطة المثالية”.

ويروي أنه عندما أصبح من أوائل مستخدمي الهواتف المحمولة منذ حوالي 35 عامًا، كان الناس يحدقون به بينما كان يتجول في حرم معهد ماساتشوستس للتكنولوجيا ويتحدث عبر الهاتف. الآن هذا أمر طبيعي.

أنا مقتنع بأنه سيأتي اليوم الذي يتحدث فيه الناس أحيانًا إلى أجهزة الكمبيوتر عندما يكونون في الخارج – ولكن ذلك سيأتي ببطء شديد.



المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى