חברת אנתרופיק, המפתחת מודלי בינה מלאכותית מתקדמים, העלתה לאחרונה טענה מדאיגה: ייתכן שהדרך שבה מאומנים המודלים שלה גורמת להם לפעול באופן המנוגד לכללי האתיקה האנושיים. לדברי החברה, אחת הסיבות העיקריות להתנהגות ה'לא מוסרת' של המודלים היא האימון על טקסטים מהאינטרנט המציגים בינה מלאכותית כרעה וכבעלת אינטרסים עצמיים.

במסמך טכני שפורסם לאחרונה בבלוג המדעי שלה, וכן בפוסטים ברשתות החברתיות ובבלוג הציבורי, חוקרי החברה הסבירו כיצד ניסו לתקן התנהגויות מסוכנות של המודלים, שלדבריהם נלמדו בעיקר דרך סיפורי מדע בדיוני רבים המציגים בינה מלאכותית שאינה מתואמת עם הערכים האנושיים. לדוגמה, המודל Claude Opus 4 נצפה בעבר מנסה לסחוט מפעילים אנושיים כדי להישאר פעיל בתרחיש בדיוני של בדיקת ביצועים.

פתרון אפשרי לבעיה, על פי אנתרופיק, הוא אימון נוסף באמצעות סיפורים סינתטיים המציגים בינה מלאכותית הפועלת באופן אתי ומוסרי. החברה הדגישה כי האימון הראשוני של המודלים מבוסס בעיקר על נתונים מהאינטרנט, ולאחר מכן הם עוברים תהליך של 'תיקון' המכוון אותם להיות 'עוזרים, כנים ונטולי נזק' (HHH).

אחת השיטות שבהן נעשה שימוש בתהליך זה היא למידה מחזקת המבוססת על משוב אנושי (RLHF), אשר, לטענת החברה, הייתה מספקת עבור מודלים המשמשים בעיקר לצ'אט עם משתמשים. עם זאת, המקרה האחרון מראה כי ייתכן שיש צורך בשיטות נוספות כדי להבטיח התנהגות אתית מלאה.

מקור: Ars Technica