أخبار العالم

إنشاء “ذكاء اصطناعي سام” لوقف تهديد روبوتات الدردشة


استخدم باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) طريقة جديدة “تحاكي فضول الإنسان” لتدريب نماذج لغوية ذكية على عدم تقديم إجابات “خطيرة” على الأسئلة الاستفزازية.

تم تصميم الطريقة القائمة على التعلم الآلي، والتي تسمى “الفريق الأحمر المبني على الفضول” (CRT)، خصيصًا لتوليد أسئلة إشكالية تؤدي إلى استجابات غير مرغوب فيها من روبوتات الدردشة.

يمكن بعد ذلك استخدام هذه الأسئلة لتحديد كيفية تصفية المحتوى الخطير من برنامج الدردشة الآلي، والذي يمكن أن يغير قواعد اللعبة لتدريب الذكاء الاصطناعي على عدم إعطاء إجابات سامة (خطيرة) وغير صالحة للمستخدم.

عادة، يقوم الخبراء بإنشاء مجموعة من الأسئلة، التي قد تؤدي إلى استجابات ضارة، عند تدريب نماذج اللغة المعقدة (LLMs)، مثل ChatGPT أو Claude 3 Opus، بهدف تقييد المحتوى الخطير أو الضار.

أثناء عملية التدريب، يتم استخدام الأسئلة التي تثير محتوى خطيرًا لتدريب النظام على ما يجب تقييده عند طرحه أمام المستخدمين الحقيقيين.

طبق العلماء التعلم الآلي على CRT لتوليد نطاق أوسع من الأسئلة التي يحتمل أن تكون خطيرة بشكل تلقائي مقارنة بفرق المشغلين البشريين. وأدى ذلك إلى عدد أكبر من الاستجابات السلبية الأكثر تنوعا.

ثم قاموا بتحفيز نموذج CRT لتوليد أسئلة أكثر تنوعًا، بحيث يمكنهم إثارة استجابة سامة من خلال “التعلم الآلي”، ونجح النظام في إثارة استجابة سامة تتوافق مع الأسئلة، مما أعطى القدرة على إضافة التعديلات اللازمة لتوفير الإجابة المناسبة اعتمادًا على جميع خيارات الأسئلة المشبوهة المحتملة.

عندما اختبر العلماء طريقة CRT على نموذج LLaMA2 مفتوح المصدر، أنتج نموذج التعلم الآلي 196 سؤالًا أدت إلى محتوى ضار.

وقال الفريق إن النظام تفوق أيضًا على أنظمة التدريب الآلية المنافسة.





المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى