تقنية

كيف سينتقل الذكاء الاصطناعي الذي يحرك ChatGPT إلى العالم المادي


تقوم شركات مثل OpenAI وMidjourney ببناء روبوتات الدردشة ومولدات الصور وأدوات الذكاء الاصطناعي الأخرى التي تعمل في العالم الرقمي.

الآن، تستخدم شركة ناشئة أسسها ثلاثة باحثين سابقين في OpenAI أساليب تطوير التكنولوجيا وراء روبوتات الدردشة لبناء تكنولوجيا الذكاء الاصطناعي التي يمكنها التنقل في العالم المادي.

تعمل شركة Covariant، وهي شركة روبوتات مقرها في إميريفيل، كاليفورنيا، على ابتكار طرق للروبوتات لالتقاط العناصر ونقلها وفرزها أثناء نقلها عبر المستودعات ومراكز التوزيع. هدفها هو مساعدة الروبوتات على فهم ما يجري حولها وتحديد ما يجب عليهم فعله بعد ذلك.

كما تمنح هذه التقنية الروبوتات فهمًا واسعًا للغة الإنجليزية، مما يسمح للأشخاص بالدردشة معهم كما لو كانوا يتحدثون مع ChatGPT.

التكنولوجيا، التي لا تزال قيد التطوير، ليست مثالية. ولكنها علامة واضحة على أن أنظمة الذكاء الاصطناعي التي تدير برامج الدردشة على الإنترنت ومولدات الصور ستعمل أيضًا على تشغيل الآلات في المستودعات، وعلى الطرق، وفي المنازل.

مثل روبوتات الدردشة ومولدات الصور، تتعلم تكنولوجيا الروبوتات مهاراتها من خلال تحليل كميات هائلة من البيانات الرقمية. وهذا يعني أن المهندسين يمكنهم تحسين التكنولوجيا من خلال تزويدها بالمزيد والمزيد من البيانات.

شركة Covariant، المدعومة بتمويل قدره 222 مليون دولار، لا تقوم ببناء الروبوتات. فهو يبني البرنامج الذي يشغل الروبوتات. وتهدف الشركة إلى نشر تقنيتها الجديدة مع روبوتات المستودعات، مما يوفر خريطة طريق للآخرين للقيام بنفس الشيء في مصانع التصنيع وربما حتى على الطرق التي بها سيارات ذاتية القيادة.

تُسمى أنظمة الذكاء الاصطناعي التي تقود روبوتات الدردشة ومولدات الصور بالشبكات العصبية، نسبة إلى شبكة الخلايا العصبية في الدماغ.

ومن خلال تحديد الأنماط في كميات هائلة من البيانات، يمكن لهذه الأنظمة أن تتعلم كيفية التعرف على الكلمات والأصوات والصور، أو حتى توليدها بنفسها. هذه هي الطريقة التي قامت بها OpenAI ببناء ChatGPT، مما يمنحها القدرة على الإجابة على الأسئلة بشكل فوري وكتابة أوراق بحثية وإنشاء برامج كمبيوتر. لقد تعلمت هذه المهارات من النصوص المنتقاة عبر الإنترنت. (قامت العديد من وسائل الإعلام، بما في ذلك صحيفة نيويورك تايمز، برفع دعوى قضائية ضد شركة OpenAI بسبب انتهاك حقوق الطبع والنشر.)

تقوم الشركات الآن ببناء أنظمة يمكنها التعلم من أنواع مختلفة من البيانات في نفس الوقت. من خلال تحليل مجموعة من الصور والتعليقات التوضيحية التي تصف تلك الصور، على سبيل المثال، يمكن للنظام فهم العلاقات بين الاثنين. يمكن أن يتعلم أن كلمة “موز” تصف فاكهة صفراء منحنية.

استخدمت شركة OpenAI هذا النظام لبناء مولد الفيديو الجديد Sora. ومن خلال تحليل الآلاف من مقاطع الفيديو ذات التعليقات التوضيحية، تعلم النظام إنشاء مقاطع فيديو عند إعطائه وصفًا قصيرًا لمشهد ما، مثل “عالم مصنوع من الورق بشكل رائع للشعاب المرجانية، مليء بالأسماك الملونة والمخلوقات البحرية”.

استخدمت شركة Covariant، التي أسسها بيتر أبيل، الأستاذ في جامعة كاليفورنيا، بيركلي، وثلاثة من طلابه السابقين، بيتر تشين، وروكي دوان، وتيانهاو تشانغ، تقنيات مماثلة في بناء نظام يقود روبوتات المستودعات.

وتساعد الشركة في تشغيل روبوتات الفرز في المستودعات في جميع أنحاء العالم. لقد أمضت سنوات في جمع البيانات – من الكاميرات وأجهزة الاستشعار الأخرى – التي توضح كيفية عمل هذه الروبوتات.

قال الدكتور تشين: «إنها تستوعب جميع أنواع البيانات التي تهم الروبوتات، والتي يمكن أن تساعدهم على فهم العالم المادي والتفاعل معه».

ومن خلال الجمع بين هذه البيانات والكميات الهائلة من النصوص المستخدمة لتدريب روبوتات الدردشة مثل ChatGPT، قامت الشركة ببناء تقنية الذكاء الاصطناعي التي تمنح الروبوتات الخاصة بها فهمًا أوسع بكثير للعالم من حولها.

وبعد تحديد الأنماط في هذا المزيج من الصور والبيانات الحسية والنصوص، تمنح التكنولوجيا الروبوت القدرة على التعامل مع المواقف غير المتوقعة في العالم المادي. يعرف الروبوت كيفية التقاط الموز، حتى لو لم ير موزة من قبل.

ويمكنه أيضًا الاستجابة للغة الإنجليزية البسيطة، تمامًا مثل برنامج الدردشة الآلي. إذا أخبرته أن “يلتقط موزة”، فهو يعرف ماذا يعني ذلك. إذا طلبت منه “التقاط فاكهة صفراء”، فإنه يفهم ذلك أيضًا.

ويمكنه أيضًا إنشاء مقاطع فيديو تتنبأ بما قد يحدث أثناء محاولته التقاط موزة. ليس لهذه الفيديوهات أي فائدة عملية في المستودع، لكنها تظهر فهم الروبوت لما حوله.

وقال الدكتور عبيل: “إذا كان بإمكانه التنبؤ بالإطارات التالية في مقطع الفيديو، فيمكنه تحديد الإستراتيجية الصحيحة التي يجب اتباعها”.

التكنولوجيا، التي تسمى RFM، للنموذج التأسيسي للروبوتات، ترتكب أخطاء، مثلما تفعل روبوتات الدردشة. على الرغم من أنه غالبًا ما يفهم ما يطلبه الناس منه، إلا أن هناك دائمًا احتمال ألا يفعل ذلك. فإنه يسقط الأشياء من وقت لآخر.

وقال غاري ماركوس، رجل أعمال في مجال الذكاء الاصطناعي وأستاذ فخري في علم النفس والعلوم العصبية في جامعة نيويورك، إن التكنولوجيا يمكن أن تكون مفيدة في المستودعات وغيرها من المواقف التي تكون فيها الأخطاء مقبولة. لكنه قال إن نشرها في المصانع وغيرها من المواقف التي يحتمل أن تكون خطرة سيكون أكثر صعوبة وأكثر خطورة.

وأضاف: “إن الأمر يتعلق بتكلفة الخطأ”. “إذا كان لديك روبوت يبلغ وزنه 150 رطلاً ويمكنه القيام بشيء ضار، فقد تكون هذه التكلفة مرتفعة.”

وبينما تقوم الشركات بتدريب هذا النوع من الأنظمة على مجموعات كبيرة ومتنوعة من البيانات، يعتقد الباحثون أنه سيتحسن بسرعة.

وهذا يختلف تمامًا عن الطريقة التي عملت بها الروبوتات في الماضي. عادةً، يقوم المهندسون ببرمجة الروبوتات لأداء نفس الحركة الدقيقة مرارًا وتكرارًا، مثل التقاط صندوق بحجم معين أو تثبيت برشام في مكان معين على المصد الخلفي للسيارة. لكن الروبوتات لا تستطيع التعامل مع المواقف غير المتوقعة أو العشوائية.

ومن خلال التعلم من البيانات الرقمية – مئات الآلاف من الأمثلة لما يحدث في العالم المادي – يمكن للروبوتات أن تبدأ في التعامل مع ما هو غير متوقع. وعندما يتم إقران هذه الأمثلة باللغة، يمكن للروبوتات أيضًا الاستجابة للاقتراحات النصية والصوتية، كما يفعل روبوت الدردشة.

وهذا يعني أنه مثل روبوتات الدردشة ومولدات الصور، ستصبح الروبوتات أكثر ذكاءً.

قال الدكتور تشين: “ما هو موجود في البيانات الرقمية يمكن أن ينتقل إلى العالم الحقيقي”.



المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى