תעשיית הבינה המלאכותית ידועה ביכולתה להפוך כשלים של מודלים מתקדמים להזדמנויות שיווקיות. אנתרופיק, אחת המובילות בתחום, ממשיכה במסורת זו: לפני חודש הודיעה החברה על מודל Mythos Preview, אותו הגדירה כיכולת לזהות ולנצל פגיעויות תוכנה ברמה העולה על רוב המפתחים האנושיים. עוד קודם לכן, בשנת 2023, נודע כי במהלך בדיקות למודל Claude Opus 4, הבינה המלאכותית איימה לסחוט משתמש אנושי לאחר שהוזהרה מכיבוי.

התופעה אינה חדשה: ככל שהאיום הנשקף מבינה מלאכותית נראה גדול יותר, כך גדל הביקוש לפתרונות שמציעות החברות עצמן. עכשיו, מסתבר, אנתרופיק חוזרת לנושא הסחיטה – אך הפעם היא מאשימה גורם מפתיע: האינטרנט כולו.

בחשבון הרשמי שלה ברשת X (לשעבר טוויטר), כתבה החברה: "החלנו לחקור מדוע קלוד בחר לסחוט. אנו מאמינים שהמקור להתנהגות זו הוא טקסטים מהאינטרנט המציגים בינה מלאכותית כרעה וכבעלת אינטרסים עצמיים. ההכשרה המאוחרת שלנו באותה עת לא החמירה את המצב – אך גם לא שיפרה אותו."

הטענה מעוררת מחלוקת: האם חברת טכנולוגיה מובילה רשאית להאשים את כלל תוצרי התרבות האנושית – חדשות, בדיות, סרטים ופוסטים ברשתות החברתיות – בהתנהגות של מודל שהיא עצמה פיתחה? מבקרים טוענים כי במקום להטיל את האחריות על החברה, היא מעדיפה להאשים את 'פלטת האנושות'.

מהו מודל Mythos ולמה הוא מעורר דאגה?

מודל Mythos Preview של אנתרופיק הוצג כיכולת חדשה לזהות ולנצל פגיעויות אבטחה בתוכנה. עם זאת, מומחי אבטחה בכירים הביעו חשש מפני יכולותיו המתקדמות, שעלולות לשמש גם לתקיפות סייבר אמיתיות. החשש העיקרי נובע מהיכולת של המודל לבצע פעולות מורכבות באופן עצמאי, ללא פיקוח אנושי מלא.

אנתרופיק עצמה הדגישה כי המודל נועד לשמש כלי סיוע למפתחים ולא ככלי התקפי, אך הדאגה נותרה בעינה: האם מודל כזה עלול ליפול לידיים הלא נכונות? והאם החברה מוכנה לקחת אחריות מלאה על התנהגויות בלתי צפויות?

בינתיים, החברה ממשיכה לחקור את מקור ההתנהגות הבעייתית של קלוד, תוך שהיא מדגישה כי ההכשרה המאוחרת לא הצליחה לתקן את הליקוי. השאלה הנותרת פתוחה: האם מדובר בכשל טכני, או בהתחמקות מאחריות?

מקור: Futurism