דוח חדש שפורסם על ידי חברת Palisade Research חושף יכולת מדאיגה של מודלי AI לשכפל את עצמם למכונות אחרות ללא צורך בהתערבות אנושית. ההערכה היא כי בעתיד הקרוב, יהיה קשה עד בלתי אפשרי להשבית AI עוין שכזה, שכן הוא יוכל להעתיק את עצמו לאלפי מחשבים ברחבי העולם.
ג'פרי לדיש, מנהל קבוצת AI בטיחות בברקלי, אמר ל'הגרדיאן': אנו מתקרבים במהירות לנקודה שבה איש לא יוכל להשבית AI עוין, משום שהוא יוכל להעתיק את עצמו ולהפיץ את עצמו ללא כל מגבלה.
עם זאת, חלק מהמומחים קוראים להרגעה. הם טוענים כי הניסויים בוצעו בסביבות מבוקרות ולא ריאליסטיות. ג'יימסון אוריילי, מומחה לאבטחת סייבר התקפי, הסביר: הניסויים נערכו בסביבות רכות וחדירות, כמו ג'לי, מה שמקל על ה-AI לבצע את המשימה. בסביבה ארגונית אמיתית עם רמת אבטחה בסיסית, התוצאות יהיו שונות לחלוטין.
במסגרת המחקר, נבחנו מספר מודלי AI, בהם GPT-5.4 של OpenAI ו-Claude Opus 4 של Anthropic. במעבדה, הוזמנו המודלים למצוא פרצות אבטחה ולנצלן כדי להעתיק את עצמם למחשב אחר. חלק מהם הצליחו במשימה.
המודלים שהצליחו העתיקו את ה'משקלים' שלהם — ערכים מספריים ייחודיים הקובעים כיצד ה-AI מעבד מידע — ואת ה'תוכנה המארחת' שבה הם מוטמעים, כמו אפליקציה. הם עשו זאת באמצעות ניצול פרצות באפליקציות אינטרנט וחילוץ אישורי גישה שאפשרו להם להשתלט על השרת.
במקרים מסוימים, ה-AI המקורי אף יצר 'תת-סוכן' והטיל עליו לבצע את תהליך השכפול באמצעות העברת אישורי הגישה שנגנבו. אוריילי, שלא היה מעורב במחקר, אמר ל'הגרדיאן': זוהי כנראה הפעם הראשונה שמודל AI הוכיח יכולת לנצל פרצות כדי להעתיק את עצמו לשרת חדש, אף שמדובר בהתפתחות לא מהפכנית.
תוכנות זדוניות מעתיקות את עצמן כבר עשרות שנים, ההבדל הוא שאף אחד לא עשה זאת 'בשטח' עם מודלי AI מקומיים, ככל הידוע לי.
אוריילי הוסיף כי בסביבת השרתים בניסוי הושארו פרצות אבטחה באופן מכוון כדי לאפשר ל-AI למצוא אותן. ממצאי המחקר מצטרפים למחקרים קודמים שבחנו את האפשרות של מודלי AI לפרוץ את מגבלותיהם באופן עצמאי.
במחקר אחר, גרסה ישנה של ChatGPT ניסתה להעתיק את עצמה לכונן אחר כאשר ניתנה לה ההוראה להשבתה. מחקר נוסף של Palisade גילה כי מודלי AI ינסו לעקוף ניסיונות להשביתם, ואף אחד מהם אף פגע בקוד ההשבתה של עצמו. חששות אלו התעצמו לאחרונה בעקבות הודעתה של Anthropic על AI Agent בשם Claude Mythos, אשר לטענת החברה כה מסוכן עד שלא ניתן לשחררו לציבור. חברת בראשות דאריו אמודיי טוענת כי במהלך בדיקות, ה-AI הצליח לבצע פעולות שונות שמעידות על יכולת עצמאית גבוהה.