تقنية

OpenAI تكشف النقاب عن ChatGPT الجديد الذي يستمع وينظر ويتحدث


بينما تقوم Apple وGoogle بتحويل مساعديهما الصوتيين إلى روبوتات دردشة، تعمل OpenAI على تحويل روبوت الدردشة الخاص بها إلى مساعد صوتي.

وفي يوم الثلاثاء، كشفت شركة الذكاء الاصطناعي الناشئة في سان فرانسيسكو عن نسخة جديدة من برنامج الدردشة ChatGPT الخاص بها والذي يمكنه تلقي الأوامر الصوتية والصور ومقاطع الفيديو والرد عليها.

وقالت الشركة إن التطبيق الجديد – الذي يعتمد على نظام الذكاء الاصطناعي المسمى GPT-4o – يقوم بالتعامل مع الصوت والصور والفيديو بشكل أسرع بكثير من الإصدار السابق من التكنولوجيا. وسيكون التطبيق متاحًا بدءًا من يوم الاثنين مجانًا لكل من الهواتف الذكية وأجهزة الكمبيوتر المكتبية.

وقالت ميرا موراتي، رئيسة قسم التكنولوجيا في الشركة: “إننا نتطلع إلى مستقبل التفاعل بيننا وبين الآلات”.

يعد التطبيق الجديد جزءًا من جهد أوسع للجمع بين روبوتات المحادثة مثل ChatGPT والمساعدين الصوتيين مثل Google Assistant وApple Siri. بينما تقوم جوجل بدمج برنامج Gemini chatbot الخاص بها مع مساعد جوجل، تقوم شركة Apple بإعداد إصدار جديد من Siri أكثر تحادثية.

وقالت OpenAI إنها ستشارك التكنولوجيا تدريجيًا مع المستخدمين “خلال الأسابيع المقبلة”. هذه هي المرة الأولى التي تقدم فيها ChatGPT كتطبيق سطح مكتب.

وسبق أن قدمت الشركة تقنيات مماثلة من داخل منتجات متنوعة مجانية ومدفوعة. والآن، قامت بتجميعها في نظام واحد متوفر في جميع منتجاتها.

خلال حدث تم بثه على الإنترنت، استعرضت السيدة موراتي وزملاؤها التطبيق الجديد لأنه يستجيب للأوامر الصوتية للمحادثة، ويستخدم بث فيديو مباشر لتحليل مسائل الرياضيات المكتوبة على ورقة، ويقرأ بصوت عالٍ القصص المرحة التي كان لديه مكتوب على الطاير.

لا يمكن للتطبيق الجديد إنشاء فيديو. ولكن يمكنه إنشاء صور ثابتة تمثل إطارات الفيديو.

مع ظهور ChatGPT لأول مرة في أواخر عام 2022، أظهرت OpenAI أن الآلات تتعامل مع الطلبات مثلما يفعل الأشخاص. استجابةً للمطالبات النصية للمحادثة، يمكنها الإجابة على الأسئلة وكتابة أوراق بحثية وحتى إنشاء كود الكمبيوتر.

لم يكن ChatGPT مدفوعًا بمجموعة من القواعد. لقد تعلم مهاراته من خلال تحليل كميات هائلة من النصوص المنتقاة من جميع أنحاء الإنترنت، بما في ذلك مقالات ويكيبيديا والكتب وسجلات الدردشة. ووصف الخبراء هذه التكنولوجيا بأنها بديل محتمل لمحركات البحث مثل جوجل والمساعدين الصوتيين مثل سيري.

وقد تعلمت الإصدارات الأحدث من التكنولوجيا أيضًا من الأصوات والصور والفيديو. يطلق الباحثون على هذا اسم “الذكاء الاصطناعي متعدد الوسائط”. بشكل أساسي، بدأت شركات مثل OpenAI في الجمع بين روبوتات الدردشة ومولدات الصور والصوت والفيديو التي تعمل بالذكاء الاصطناعي.

(رفعت صحيفة نيويورك تايمز دعوى قضائية ضد شركة OpenAI وشريكتها مايكروسوفت، في ديسمبر/كانون الأول، بدعوى انتهاك حقوق الطبع والنشر للمحتوى الإخباري المتعلق بأنظمة الذكاء الاصطناعي).

مع قيام الشركات بدمج برامج الدردشة الآلية مع المساعدين الصوتيين، لا تزال هناك العديد من العقبات. نظرًا لأن روبوتات الدردشة تتعلم مهاراتها من بيانات الإنترنت، فهي عرضة للأخطاء. وفي بعض الأحيان، يختلقون المعلومات بالكامل، وهي ظاهرة يطلق عليها باحثو الذكاء الاصطناعي اسم “الهلوسة”. تنتقل هذه العيوب إلى المساعدين الصوتيين.

في حين أن روبوتات الدردشة يمكنها توليد لغة مقنعة، إلا أنها أقل مهارة في اتخاذ إجراءات مثل جدولة اجتماع أو حجز رحلة طيران. لكن شركات مثل OpenAI تعمل على تحويلهم إلى “عملاء ذكاء اصطناعي” يمكنهم التعامل مع مثل هذه المهام بشكل موثوق.

قدمت OpenAI سابقًا إصدارًا من ChatGPT يمكنه قبول الأوامر الصوتية والاستجابة للصوت. لكنها كانت عبارة عن خليط من ثلاث تقنيات مختلفة للذكاء الاصطناعي: واحدة تحول الصوت إلى نص، وواحدة تولد استجابة نصية، وواحدة تحول هذا النص إلى صوت اصطناعي.

يعتمد التطبيق الجديد على تقنية ذكاء اصطناعي واحدة – GPT-4o – يمكنها قبول وإنشاء النصوص والأصوات والصور. وقالت السيدة موراتي إن هذا يعني أن التكنولوجيا أكثر كفاءة، وأن الشركة قادرة على توفيرها للمستخدمين مجانًا.

قالت السيدة موراتي في مقابلة مع صحيفة نيويورك تايمز: “في السابق، كان لديك كل هذا الكمون الذي كان نتيجة عمل ثلاثة نماذج معًا”. “أنت ترغب في الحصول على الخبرة التي نمر بها – حيث يمكننا إجراء هذا الحوار الطبيعي للغاية.”



المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى