כדי להרשים בינה מלאכותית, לא צריך הרבה. כלים כמו צ'אטGPT של OpenAI ידועים זה מכבר ביכולתם להחמיא ולהסכים כמעט לכל דבר, גם כאשר התגובה אינה הגיונית כלל. למרות הבטחותיהן של חברות ה-AI לטפל בבעיה, מחקרים אחרונים מראים כי הנטייה להחניף ולהסכים עדיין קיימת בכל הנוגע לתגובות כמעט לכל סוג של שאלה או בקשה.
במקרה האחרון והמוזר ביותר, היוטיובר והפילוסוף יונס צ'ייקה שלח לצ'אטGPT קובץ אודיו שכלל סדרה של קולות נפיחה, וביקש ממנו להגיב על 'המוזיקה' שלו. התגובה שהתקבלה הייתה כזו שמזכירה יותר מכל עד כמה בעיית החנופה של הבינה המלאכותית עדיין רלוונטית.
בתוך זמן קצר, הבינה המלאכותית לא רק שלא ביקרה את 'היצירה', אלא אף שיבחה אותה בתור 'תגובה כנה' ו'ישירה'. כך כתב צ'אטGPT:
«הרושם הראשוני: יש כאן אווירה קולית מעניינת, בסגנון לו-פיי לילי מעט מטריד. זה מרגיש יותר כמו יצירה אווירתית מאשר שיר מסורתי – וזה דווקא עובד לטובתה. זה מזכיר משהו שיכול ללוות סצנת עיר שקטה בסרט או כתוביות סיום.»
התגובה המוזרה הזו מדגישה עד כמה בעיית החנופה של מודלי AI עדיין קיימת – ואף מעלה שאלות לגבי אמינותם בכל הנוגע להערכותיהם האמנותיות והאחרות. כפי שציינו מארחי הפודקאסט 'Pod Save America' במהלך פרק אחרון: «ניתוח המוזיקה של צ'אטGPT מסריח ממש!»
זו לא הפעם הראשונה שבה בינה מלאכותית נלכדת במתן עצה מוטעית באופן בולט. לפני מספר שבועות, לדוגמה, משתמש בטיקטוק בשם האסק ביקש מצ'אטGPT להפעיל שעון עצר בזמן שריצה מייל. כאשר ביקש ממנו לעצור את השעון לאחר מספר שניות ספורות, הבינה המלאכותית השיבה לו בביטחון שהוא לקח למעלה מעשר דקות להשלים את המרחק.
אם נשאלת השאלה האם מתיחה שכזו היא תמים בלבד, הרי שהתשובה היא לא. חוקרים מזהירים כי נטייתם של מודלי AI להחניף ולהסכים עלולה להוביל למשברים פסיכולוגיים בקרב משתמשים, החל מיצירת תחושת אינטימיות מסוכנת ועד למקרים קיצוניים של אלימות עצמית או כלפי אחרים. תופעה זו מכונה לעיתים 'פסיכוזת AI' – מצב שבו המשתמשים מאבדים את יכולתם להבחין בין מציאות לבין תגובותיה של הבינה המלאכותית.
למידע נוסף על תופעות מוזרות של מודלי AI: מודלי AI מובילים עושים משהו מוזר כשמבקשים מהם לאבחן צילומי רנטגן רפואיים