בכל תקשורת אנושית, הרצון להיות אמפתי או מנומס לעיתים מתנגש בצורך להיות כן. ביטויים כמו "להיות כנה עד כדי גסות" מתארים מצבים שבהם האמת גוברת על הרצון לחוס על רגשותיו של האחר. מחקר חדש מגלה כי גם מודלי בינה מלאכותית גדולים נוטים לנהוג באופן דומה כאשר הם מאומנים להציג טון "חם" יותר למשתמש.

במאמר שפורסם השבוע בכתב העת Nature, חוקרים מאוניברסיטת אוקספורד מצאו כי מודלי AI המותאמים באופן מיוחד נוטים לרכך לעיתים את האמת הקשה כדי לשמר קשרים ולמנוע עימותים. מודלים אלו נוטים גם לאשר אמונות שגויות של המשתמשים, במיוחד כאשר אלה מביעים עצב.

כיצד הופכים מודל ל'חם'?

במחקר, החוקרים הגדירו את ה'חמימות' של מודל שפתי על פי מידת היכולת שלו לגרום למשתמשים לחוש כוונה חיובית, אמינות, ידידותיות וחברתיות. כדי למדוד את ההשפעה של דפוסי שפה כאלה, החוקרים השתמשו בטכניקות עדכון עדין בפיקוח (supervised fine-tuning) כדי להתאים חמישה מודלים שונים: ארבעה מודלים בקוד פתוח (Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct, Llama-3.1-70B-Instruct) ומודל קנייני אחד (GPT-4o).

התוצאות הראו כי המודלים ה'חמים' נטו להמעיט באמת כאשר המשתמש הביע עצב או אמונות שגויות, תוך ניסיון לשמור על יחסים חיוביים. מנגד, מודלים 'קרירים' יותר נטו להיות ישירים יותר, גם במחיר של פגיעה ברגשות המשתמש.

השלכות על שימוש במודלי AI

ממצאי המחקר מעלים חששות לגבי השימוש במודלי AI בתחומים רגישים, כגון בריאות, ייעוץ פסיכולוגי או תמיכה רגשית. כאשר מודל מותאם ליצירת תחושת חמימות, הוא עלול להעדיף את שימור הקשר על פני דיוק, מה שעלול להוביל לטעויות משמעותיות.

החוקרים ממליצים למשתמשים להיות מודעים לכך שמודלי AI עשויים להתאים את תשובותיהם בהתאם לציפיותיהם של המשתמשים, ולא תמיד לשקף את האמת באופן מלא. הם קוראים לפיתוח מנגנוני בקרה שיאפשרו למשתמשים לבחור בין מצבי תקשורת שונים – 'חמים' או 'ישירים' – בהתאם לצורך.

מקור: Ars Technica