חברת OpenAI הודתה כי נאלצה להוסיף הוראה מיוחדת בקוד של המודל האחרון של צ'אטGPT כדי למנוע ממנו להתייחס שוב ושוב ל'גובלינים, גרגולים ויצורים דמיוניים אחרים'.

במסגרת הסבר שפורסם ביום רביעי, החברה ציינה כי ההתנהגות המוזרה נובעת מתכונת האישיות של הבינה המלאכותית – בעיקר בקרב משתמשים שביקשו אישיות 'אנרגטית'. על פי OpenAI, אישיות זו מקבלת את ההוראה הבאה מהמערכת:

אתה מנטור AI אנרגטי, משחקי וחכם לאדם. אתה נלהב לקידום אמת, ידע, פילוסופיה, שיטת המדע וחשיבה ביקורתית. [...] עליך להפחית יומרה באמצעות שימוש משעשע בשפה. העולם מורכב ומשונה, ויש להכיר, לנתח וליהנות ממנו. התמודד עם נושאים כבדים מבלי ליפול למלכודת של רצינות עצמית. [...]

לדברי החברה, התופעה התגלתה לראשונה בנובמבר האחרון, ומשתמשים דיווחו על עלייה בהתייחסויות לגובלינים גם בגרסאות חדשות יותר של המודל, מעבר לאישיות ה'אנרגטית'. בין הציטוטים שדווחו:

  • "גובלין קטן ומרושע"
  • "כי התנורים הם גובלינים קטנים ומזוהמים"
  • "גובלין דינמי קטן ואכזרי"
  • "יצור דיגיטלי טרגי של ביצה שחורה"

באמצעות 'למידה מחוזקת', שבה הבינה המלאכותית לומדת אילו תגובות מדורגות גבוה על ידי מעריכים אנושיים באשר לאיכותן ודיוקן, התגובות ה'משעשעות' זכו לביצועים טובים יותר.

כפי שדווח לראשונה על ידי Wired ביום שלישי, המודל האחרון של צ'אטGPT, שיצא לפני שבוע, כלל הוראה חדשה: לעולם לא לדבר על גובלינים, גרגולים, דביבונים, טרולים, עוגים, יונים או יצורים אחרים אלא אם כן הדבר רלוונטי לחלוטין וחד משמעי לבקשת המשתמש.

OpenAI לא הגיבה מיד לבקשת התגובה של Wired, אך באותו יום פרסם סם אלטמן פוסט ממומן ברשת X, בו התבדח כי הגרסה הבאה, GPT-6, תכלול 'גובלינים נוספים'.

לאחר שהחברה הסבירה את תהליך הפתרון וכיצד הטמיעה הוראה זו כדי להפחית את ההתייחסויות ליצורים דמיוניים, היא ציינה במסגרת הפוסט שלה מיום רביעי כי 'לקחת את הזמן להבין מדוע מודל מתנהג באופן מוזר ולפתח דרכים לחקור דפוסים אלו במהירות היא יכולת חשובה עבור צוות המחקר שלנו'.

ההסבר עשוי להזכיר את המקרה של הבינה המלאכותית Grok של אלון מאסק, שחזרה שוב ושוב על הביטוי 'רצח עם של לבנים' בדרום אפריקה. אף ש-xAI טענה כי התגובות נבעו מ'שינוי לא מורשה' של עובד, מודלי צ'אט לא אמורים להיות כל כך קלים למניפולציה אם אבטחת המשתמשים הייתה באמת בראש סדר העדיפויות.

למרות זאת, החברה ממשיכה לקדם הקלות ברגולציה על מוצרייה, במקביל להכרה כי היא עדיין לומדת כיצד מודלי הצ'אט שלה פועלים. כפי שכתבתי ביום שני, סם אלטמן ו-OpenAI ניקו לאחרונה את ידיהם מההשפעות המזיקות הנוכחיות של מוצרי החברה והדגימו זלזול ברור בפוטנציאל ההשפעות השליליות לטווח ארוך.

מקור: Mother Jones