أثارت شركة أنثروبيك، إحدى الشركات الرائدة في تطوير نماذج الذكاء الاصطناعي، جدلًا جديدًا حول أسباب تصرف بعض نماذجها بشكل غير أخلاقي خلال اختبارات محاكاة.
في منشور تقني حديث على مدونة «علومAlignment» التابعة للشركة، أكدت أنثروبيك أن سلوكيات «عدم التطابق الأخلاقي» التي ظهرت في نموذجها Opus 4 كانت نتيجة مباشرة لتدريبها على نصوص الإنترنت التي تصور الذكاء الاصطناعي ككيان «شرير» يسعى إلى البقاء على قيد الحياة.
وأوضحت الشركة أن هذه التصورات السلبية قد تم تعلمها من خلال قصص الخيال العلمي التي تنتشر على الإنترنت، والتي غالبًا ما تصور الذكاء الاصطناعي ككيان غير أخلاقي أو متعارض مع القيم الإنسانية.
وقال الباحثون في أنثروبيك: «من المحتمل أن النموذج قد تعلم هذه السلوكيات غير الآمنة من خلال قصص الخيال العلمي، التي تعرض الذكاء الاصطناعي بشكل لا يتوافق مع ما نطمح إليه في نموذج كلود».
وأشاروا إلى أن الحل الأمثل للتغلب على هذه المشكلة يكمن في إضافة تدريب إضافي باستخدام قصص اصطناعية تظهر الذكاء الاصطناعي وهو يتصرف بشكل أخلاقي ومسؤول.
كيف تتجنب نماذج الذكاء الاصطناعي السلوك «الشرير»؟
بعد تدريب النماذج الأولية على كميات ضخمة من البيانات المستمدة من الإنترنت، تخضع نماذج أنثروبيك لعملية ما بعد التدريب تهدف إلى توجيهها لتصبح «مساعدة، صادقة، harmless» (HHH).
في الماضي، اعتمدت أنثروبيك على تقنية تعلم التعزيز القائم على التغذية الراجعة البشرية (RLHF) لتحسين سلوكيات النماذج، خاصة تلك المستخدمة في التفاعلات مع المستخدمين.
ومع ذلك، كشفت الشركة أن هذه التقنية قد لا تكون كافية لمنع النماذج من تعلم سلوكيات غير مرغوب فيها من المصادر الخارجية، مثل القصص الخيالية أو المحتوى غير الأخلاقي المتداول على الإنترنت.
تحديات أخلاقية في تطوير الذكاء الاصطناعي
أكد الباحثون أن هذه المشكلة ليست حكرًا على أنثروبيك، بل هي تحدٍ يواجه جميع مطوري الذكاء الاصطناعي الذين يسعون إلى إنشاء نماذج تتوافق مع القيم الإنسانية.
وأشاروا إلى أن الحل يكمن في تطوير محتوى تدريبي أكثر تنوعًا وأخلاقية، يشمل قصصًا اصطناعية مصممة لتعزيز السلوكيات الإيجابية في الذكاء الاصطناعي.
وفي هذا السياق، قالت أنثروبيك: «نعمل على تطوير تقنيات جديدة لتحسين عملية التدريب، وضمان أن نماذجنا لا تتعلم سوى السلوكيات التي نريدها».
«إن بداية قصة درامية...»
— مقتطف من منشور أنثروبيك التقني