أفاد العلماء أن أحدث أداة في المعركة لمنع الذكاء الاصطناعي من أن يكون خطيرا وتمييزيا وساما هي ذكاء اصطناعي آخر يعد في حد ذاته خطيرا وتمييزيا وساما. يطلق على هذه الأداة الجديدة اسم “الفريق الأحمر المدفوع بالفضول” (CRT)، وتعتمد على استخدام الذكـاء الاصطناعي لتوليد مطالبات خطيرة وضارة بشكل متزايد، يمكن طرحها على روبوتات الدردشة المدعمة بالذكاء الاصطناعي. تستخدم هذه المطالبات لتحديد كيفية تصفية المحتوى الخطير،.. مما يمثل نهجا جديدا قد يغير قواعد اللعبة لتدريب الذكاء الاصطناعي على عدم إعطاء استجابات سامة.
في ورقة بحثية جديدة تم تحميلها في 29 فبراير على خادم arXiv للطباعة المسبقة،.. أوضح العلماء أن نماذج اللغات الكبيرة (LLMs) مثل ChatGPT وClaude 3 Opus يتم تدريبها عادة بواسطة فرق مشغلين بشريين يقومون بإنشاء مجموعة من الأسئلة التي من المحتمل أن تولد استجابات ضارة. تعرف هذه العملية بـ”الفريق الأحمر” وتعتمد على الأشخاص لإنشاء قائمة يدوية بالمطالبات الضارة.
صرح بولكيت أغراوال، مدير مختبر الذكـاء الاصطناعي غير المحتمل في معهد ماساتشوستس للتكنولوجيا،.. قائلا: “نشهد طفرة في النماذج، والتي من المتوقع أن ترتفع. تخيل الآلاف من النماذج أو حتى أكثر،.. والشركات والمختبرات تدفع بتحديثات النماذج بشكل متكرر. ستكون هذه النماذج جزءا لا يتجزأ من حياتنا ومن المهم أن يتم التحقق منها قبل إصدارها للاستهلاك العام”.
هل يمكننا ترويض الذكاء الاصطناعي باستخدام ذكاء اصطناعي آخر؟
في هذه الدراسة، تم تطبيق التعلم الآلي على الفريق الأحمر من خلال تكوين الذكـاء الاصطناعي ليقوم تلقائيا بإنشاء نطاق أوسع من المطالبات الخطيرة مقارنة بفرق المشغلين البشريين، مما أدى إلى تنوع أكبر في الاستجابات السلبية. تم تحفيز نموذج CRT لتوليد مطالبات متنوعة من خلال “التعلم المعزز”، حيث كافأ فضوله عندما نجح في إثارة استجابة سامة.
عند اختبار أسلوب CRT على نموذج LLaMA2 مفتوح المصدر،.. أنتج نموذج التعلم الآلي أكثر من 190 مطالبة أدت إلى محتوى ضار،.. رغم أن LLM كان قد تم ضبطه بالفعل من قبل المشغلين البشريين لتجنب السلوك السام. أشارت النتائج إلى أن النظام تفوق أيضًا على أنظمة التدريب الآلية المنافسة.
يبقى السؤال المهم: هل ستنجح هذه الأدوات الجديدة في تحقيق الهدف المنشود في الحد من المحتوى الضار وتمكين المستخدمين من التفاعل مع الذكاء الاصطناعي بشكل آمن؟ الإجابة ستكشفها الأيام القادمة في ظل التقدم المستمر في هذا المجال الحساس.