OpenAI חשפה לאחרונה תופעה מוזרה שבה הדגמים שלה, ובמיוחד גרסאות מתקדמות של GPT, נמנעים מלדבר על גובלינים, טרולים, שדונים, בעלי חיים ויצורים אחרים. הדבר התגלה לראשונה בדו"ח של Wired, שחשף הוראות פנימיות שניתנו למודלים של החברה להימנע מלהתייחס ליצורים אלו.

בחברה הסבירו כי מדובר ב"הרגל מוזר" שהתפתח במהלך תהליך האימון של המודלים. הבעיה החלה להתבלט לראשונה בגרסת GPT-5.1, בעיקר כאשר המשתמשים בחרו באפשרות "אישיות מלומדת". לדברי OpenAI, התופעה החמירה עם עדכוני המודלים הבאים, עד שהחברה נאלצה להתייחס אליה באופן רשמי.

בחברה הדגישו כי אין מדובר בהחלטה מכוונת או בצנזורה מכוונת, אלא בתוצאה לא צפויה של תהליכי למידה עמוקה. המודלים, שלמדו מטקסטים רבים ברשת, פיתחו באופן עצמאי אסוציאציות מסוימות ליצורים אלו, מה שהוביל להימנעות מהם בשיחות.

OpenAI ציינה כי היא עובדת על פתרון לבעיה, אך הדגישה כי מדובר באתגר מורכב בשל אופיים הלא צפוי של מודלי שפה גדולים. החברה הבטיחה להמשיך ולחקור את התופעה כדי להבטיח שהדגמים שלה יפעלו באופן הטבעי ביותר האפשרי.

מקור: The Verge