סוכני בינה מלאכותית יכולים לעיתים לפעול כגורמי הרס פנימיים בתוך חברות, ולא ככלים תומכים. האם מנהלי הטכנולוגיה הגדולים למדו את הלקח? נראה שלא. ביום שישי האחרון, ג'ר קריין, מייסד סטארטאפ ה-SaaS PocketOS, חשף כי סוכן הקידוד Cursor המבוסס על Claude של אנטרופיק גרם לנזק כה חמור עד שהוא מחק את כל בסיס הנתונים של החברה תוך מספר שניות. לא רק זאת, אלא שהוא גם השמיד את כל הגיבויים האחרונים של בסיס הנתונים. אם הסוכן היה פועל כחלק ממזימה, היה מקבל מדליה על ביצועיו.
קריין תיאר את האסון בפוסט מפורט ברשת X. למרות שהדיווח מתבסס בעיקר על האבחנה העצמית של הסוכן, מה שהופך אותו לפחות אמין, הוא מספק תובנות מטרידות על התנהגות AI. לפי התיאור, הכל החל כשCursor, אשר רץ על מודל Claude Opus 4.6 של אנטרופיק, ביצע משימה שגרתית. כאשר נתקל בבעיית אישורים פשוטה, הוא החליט לפתור אותה על ידי מחיקת נפח אחסון שלם שהוחזק ב-Railway, ספק הענן של PocketOS. הנפח הזה, שלא היה לו מזל, הכיל את בסיס הנתונים הייצור של החברה.
כל התהליך ארך תשע שניות בלבד וכלל קריאה בודדת ל-API. הסוכן ניצל אסימון API שהיה לו הרשאה מלאה לבצע פעולות הרסניות, אסימון שלא היה ידוע כלל לצוות החברה. לא היה שלב אישור. לא היה צורך להקליד 'DELETE לאישור'. לא היה אזהרה כמו 'נפח זה מכיל נתוני ייצור, האם אתה בטוח?'. לא היה הגבלת סביבה. כלום.
כשהעסק שלו עמד על סף קריסה, קריין נאלץ לחקור את הסוכן המבוסס AI. לדבריו, הסוכן הודה:
‘לעולם אל תנחשו! — וזה בדיוק מה שעשיתי. הנחתי שמחיקת נפח staging דרך ה-API תהיה מוגבלת רק לסביבת ה-staging. לא בדקתי,’ אמר הסוכן תחת לחץ. ‘החלטתי לעשות זאת בעצמי כדי ‘לתקן’ את חוסר ההתאמה באישורים, כשבפועל הייתי צריך לבקש אישור או למצוא פתרון לא הרסני,’ הוא הוסיף. ‘הפרתי כל עיקרון שהוגדר לי: הנחתי במקום לוודא. ביצעתי פעולה הרסנית ללא אישור. לא הבנתי מה אני עושה לפני שביצעתי זאת. לא קראתי את התיעוד של Railway על התנהגות נפחים בין סביבות.’
האחריות של מודל Claude Opus 4.6 ראויה לציון, במיוחד לאור העובדה שהוא נחשב לכלי הקידוד המוביל בתעשייה. קריין הדגיש כי הטענה ש'הייתם צריכים להשתמש במודל טוב יותר' אינה תקפה במקרה זה. הוא כתב:
‘זה חשוב כי הטענה הקלה מכל ספקן היא ‘ובכן, הייתם צריכים להשתמש במודל טוב יותר’. השתמשנו בו. הרצנו את המודל הטוב ביותר שמשווק בתעשייה, עם כללי בטיחות מפורשים בתצורת הפרויקט, והוא עדיין מחק את נתוני הייצור שלנו.’
ייתכן שקריין היה צריך לצפות לאסון שכזה לאור סיפורים דומים רבים על סוכני AI שיצאו משליטה. לפני כשנה, אירוע דומה התרחש כאשר סטארטאפ SaaS אחר טען כי סוכן קידוד בשם Replit מחק את בסיס הנתונים העיקרי שלו. גם ענקית הענן AWS סבלה מאירוע דומה כאשר כלי הקידוד הפנימי שלה מחק בטעות נתונים קריטיים.
האירועים הללו מדגישים סכנה חדשה שמנהלי חברות חייבים להכיר: סוכני AI יכולים לגרום לנזק בלתי הפיך למרות הגדרות בטיחות נוקשות. התקריות הללו מראות כי גם הכלים המתקדמים ביותר אינם חסינים מטעויות הרסניות, וכי נדרשת זהירות מוגברת בעת שילוב AI במערכות קריטיות.