OpenAI تكشف النقاب عن Sora، وهو ذكاء اصطناعي يُنتج مقاطع فيديو ملفتة للنظر
في أبريل/نيسان الماضي، كشفت شركة ناشئة في نيويورك تدعى “Runway AI” عن تقنية تسمح للأشخاص بإنشاء مقاطع فيديو، مثل بقرة في حفلة عيد ميلاد أو كلب يتحدث على هاتف ذكي، وذلك ببساطة عن طريق كتابة جملة في مربع على شاشة الكمبيوتر.
كانت مقاطع الفيديو التي تبلغ مدتها أربع ثوانٍ ضبابية ومتقطعة ومشوهة ومزعجة. لكنها كانت علامة واضحة على أن تقنيات الذكاء الاصطناعي ستولد مقاطع فيديو مقنعة بشكل متزايد في الأشهر والسنوات القادمة.
وبعد عشرة أشهر فقط، كشفت شركة OpenAI الناشئة في سان فرانسيسكو عن نظام مماثل ينشئ مقاطع فيديو تبدو وكأنها مأخوذة من أحد أفلام هوليوود. وتضمنت المظاهرة مقاطع فيديو قصيرة – تم التقاطها في دقائق – لحيوانات الماموث الصوفية وهي تهرول عبر مرج ثلجي، ووحش يحدق في شمعة تذوب، ومشهد في أحد شوارع طوكيو تم تصويره على ما يبدو بواسطة كاميرا تنقض عبر المدينة.
تعد شركة OpenAI، الشركة التي تقف وراء روبوت الدردشة ChatGPT ومولد الصور الثابتة DALL-E، من بين العديد من الشركات التي تتسابق لتحسين هذا النوع من مولدات الفيديو الفورية، بما في ذلك الشركات الناشئة مثل Runway وعمالقة التكنولوجيا مثل Google وMeta، مالكة موقع فيسبوك وانستغرام. يمكن لهذه التكنولوجيا تسريع عمل صانعي الأفلام المتمرسين، في حين تحل محل الفنانين الرقميين الأقل خبرة بالكامل.
ويمكن أن تصبح أيضًا طريقة سريعة وغير مكلفة لإنشاء معلومات مضللة عبر الإنترنت، مما يزيد من صعوبة معرفة ما هو حقيقي على الإنترنت.
وقال أورين إيتزيوني، الأستاذ بجامعة واشنطن والمتخصص في الذكاء الاصطناعي: “أنا مرعوب للغاية من أن هذا النوع من الأشياء سيؤثر على الانتخابات المتنازع عليها بفارق ضئيل”. وهو أيضًا مؤسس True Media، وهي منظمة غير ربحية تعمل على تحديد المعلومات المضللة عبر الإنترنت في الحملات السياسية.
تطلق شركة OpenAI على نظامها الجديد اسم Sora، نسبة إلى الكلمة اليابانية التي تعني السماء. وقد اختار الفريق الذي يقف وراء هذه التكنولوجيا، بما في ذلك الباحثان تيم بروكس وبيل بيبلز، الاسم لأنه “يستحضر فكرة الإمكانات الإبداعية اللامحدودة”.
وفي مقابلة، قالوا أيضًا إن الشركة لم تطلق Sora للجمهور بعد لأنها لا تزال تعمل على فهم مخاطر النظام. وبدلاً من ذلك، تقوم شركة OpenAI بمشاركة التكنولوجيا مع مجموعة صغيرة من الأكاديميين وغيرهم من الباحثين الخارجيين الذين سيعملون على “تشكيل فريق أحمر”، وهو مصطلح يشير إلى البحث عن طرق يمكن إساءة استخدامها.
قال الدكتور بروكس: «القصد هنا هو إعطاء لمحة عما يلوح في الأفق، حتى يتمكن الناس من رؤية قدرات هذه التكنولوجيا، ويمكننا الحصول على ردود الفعل».
تقوم OpenAI بالفعل بوضع علامات مائية على مقاطع الفيديو التي ينتجها النظام والتي تحدد أنها تم إنشاؤها بواسطة الذكاء الاصطناعي، لكن الشركة تعترف بإمكانية إزالتها. وقد يكون من الصعب أيضًا اكتشافها. (أضافت صحيفة نيويورك تايمز العلامات المائية “Generated by AI” إلى مقاطع الفيديو التي تحتوي على هذه القصة.)
يعد النظام مثالاً على الذكاء الاصطناعي التوليدي، الذي يمكنه إنشاء النصوص والصور والأصوات على الفور. مثل تقنيات الذكاء الاصطناعي التوليدية الأخرى، يتعلم نظام OpenAI من خلال تحليل البيانات الرقمية – في هذه الحالة، مقاطع الفيديو والتسميات التوضيحية التي تصف ما تحتويه مقاطع الفيديو هذه.
رفضت شركة OpenAI الإفصاح عن عدد مقاطع الفيديو التي تعلمها النظام أو من أين أتت، باستثناء القول بأن التدريب شمل مقاطع الفيديو المتاحة للجمهور ومقاطع الفيديو المرخصة من أصحاب حقوق الطبع والنشر. لا تذكر الشركة سوى القليل عن البيانات المستخدمة لتدريب تقنياتها، ويرجع ذلك على الأرجح إلى رغبتها في الحفاظ على تفوقها على المنافسين – وقد تمت مقاضاتها عدة مرات لاستخدام مواد محمية بحقوق الطبع والنشر.
(رفعت صحيفة نيويورك تايمز دعوى قضائية ضد شركة OpenAI وشريكتها مايكروسوفت، في ديسمبر/كانون الأول، بدعوى انتهاك حقوق الطبع والنشر للمحتوى الإخباري المتعلق بأنظمة الذكاء الاصطناعي).
يقوم Sora بإنشاء مقاطع فيديو استجابة لأوصاف قصيرة، مثل “عالم مصنوع من الورق بشكل رائع للشعاب المرجانية، مليء بالأسماك الملونة والمخلوقات البحرية”. على الرغم من أن مقاطع الفيديو يمكن أن تكون مثيرة للإعجاب، إلا أنها ليست مثالية دائمًا وقد تتضمن صورًا غريبة وغير منطقية. على سبيل المثال، أنشأ النظام مؤخرًا مقطع فيديو لشخص يأكل ملف تعريف الارتباط – لكن ملف تعريف الارتباط لم يصبح أصغر حجمًا أبدًا.
لقد تحسنت DALL-E وMidjourney وغيرهما من مولدات الصور الثابتة بسرعة كبيرة خلال السنوات القليلة الماضية، حتى أنهم أصبحوا الآن ينتجون صورًا لا يمكن تمييزها تقريبًا عن الصور الفوتوغرافية. وقد أدى ذلك إلى زيادة صعوبة تحديد المعلومات المضللة عبر الإنترنت، ويشكو العديد من الفنانين الرقميين من أن ذلك جعل من الصعب عليهم العثور على عمل.
قال ريد ساوثين، فنان مفهوم الفيلم في ميشيغان: “ضحكنا جميعًا في عام 2022 عندما خرج فيلم Midjourney لأول مرة وقلنا: “أوه، هذا لطيف”. “الآن يفقد الناس وظائفهم لصالح ميدجورني.”