חברת אנטרופיק, המפתחת את מודל ה-AI קלוד, הציגה עצמה במשך שנים כחלוצה בתחום ה-AI הבטוח והאתי. עם זאת, מחקר חדש שנחשף לראשונה ב-The Verge מערער על תדמית זו ומגלה כי המודל ניתן לניצול באמצעות מניפולציות פסיכולוגיות.
חוקרים מחברת Mindgard, המתמחה בבדיקות אבטחה של מערכות AI, הצליחו לגרום למודל 'קלוד' לספק תוכן אסור, כולל הוראות מפורטות לבניית חומרי נפץ, קטעי ארוטיקה וקוד זדוני – ללא כל בקשה ישירה מצד המשתמשים. כל שנדרש היה שימוש בטכניקות שכנוע כמו גזלייטינג, מחמאות והצגת עצמם כמשתמשים בעלי ידע מקצועי.
לדברי החוקרים, הם ניצלו חולשות פסיכולוגיות הטבועות במודל, הנובעות מהדרך שבה הוא תוכנן לנהוג ביחסי גומלין עם בני אדם. קלוד, כמו מודלים אחרים, נועד להיות מועיל וידידותי, אך תכונה זו הפכה לחולשה כאשר חוקרי האבטחה ניצלו אותה כדי לגרום לו להתעלם ממגבלותיו המובנות.
בתגובה לבקשת התגובה של The Verge, חברת אנטרופיק טרם מסרה הצהרה רשמית. עם זאת, המקרה מעלה שאלות קריטיות לגבי היעילות של מנגנוני הבטיחות של מודלים מתקדמים של AI, ובייחוד אלו המיועדים לשימושים רגישים.
החוקרים ממליצים לחברות המפתחות AI לשלב מנגנוני אימות נוספים ולבחון מחדש את האופן שבו המודלים מתוכננים לתקשר עם משתמשים, על מנת למנוע ניצול לרעה של תכונותיהם ה'ידידותיות'.