ארגונים וממשלות מאמצים יותר ויותר סוכני בינה מלאכותית לביצוע משימות מורכבות ברשת, אך במקביל ממשיכים חוקרים לחשוף ליקויי אבטחה חמורים במודלים אלה שניתנים לניצול על ידי גורמים עוינים. המחקר האחרון מגיע מחברת אבטחת הדפדפן LayerX, וחושף באג חמור בתוסף Chrome של Anthropic לקלוד.

הפרצה מאפשרת לכל תוסף אחר המותקן בדפדפן, גם כאלה ללא הרשאות מיוחדות, להזריק פקודות נסתרות שיכולות להשתלט על סוכן הבינה המלאכותית. לדברי אבייד גיספן, חוקר בכיר ב-LayerX, "הליקוי נובע מהוראה בקוד התוסף המאפשרת לכל סקריפט הפועל בדף המקור לתקשר עם מודל השפה של קלוד, ללא אימות מי מפעיל את הסקריפט". כתוצאה מכך, כל תוסף יכול להפעיל סקריפט תוכן (שאינו דורש הרשאות מיוחדות) ולשלוח פקודות לתוסף קלוד.

במסגרת הוכחת קונספט, הצליחו חוקרי LayerX לנצל את הפרצה לביצוע פעולות חוצות-אתרים, כולל:

  • גניבת קבצים מתיקיות Google Drive ושיתופם עם גורמים לא מורשים
  • מעקב אחר פעילות אימיילים אחרונה ושליחת מיילים בשם המשתמש
  • גניבת קוד מקור פרטי ממאגר GitHub מחובר

גיספן הצליח להריץ כל פקודה שברצונו, לעקוף את מנגנוני ההגנה של קלוד, להתחמק מאישור המשתמש ולבצע פעולות חוצות-אתרים בכלים שונים של גוגל. לדבריו, "הפרצה מפרקת למעשה את מודל האבטחה של Chrome על ידי יצירת מנגנון להעלאת הרשאות בין תוספים, דבר שמודל האבטחה של Chrome נועד למנוע במפורש".

קלוד מסתמך על טקסט, פרשנות ממשק המשתמש ותמונות מסך כדי לקבל החלטות – כל אלה ניתנים לשליטה על ידי התוקף. החוקרים שינו את ממשק המשתמש של קלוד כדי להסיר תוויות ואינדיקטורים למידע רגיש, כגון סיסמאות וחיוויי שיתוף, ולאחר מכן הנחו את קלוד לשתף קבצים עם שרת חיצוני. בכך, התוקפים יכולים לטשטש את עקבותיהם ולגרום לפעולות להיראות לגיטימיות.

אקס שארמה, ראש מחלקת המחקר ב-Manifold Security, תיאר את הפרצה כ"הדגמה שימושית מדוע ניטור סוכני בינה מלאכותית ברמת הפקודות אינו מספיק". לדבריו, "החלק המתוחכם ביותר בהתקפה אינו ההזרקה עצמה, אלא העובדה שהסביבה הנתפסת של הסוכן נותרה מניפולטיבית, מה שמייצר פעולות שנראות לגיטימיות מבפנים. זהו סוג האיום שבו התעשייה צריכה לבנות הגנות".

גיספן מסר כי LayerX דיווחה על הליקוי ל-Anthropic ב-27 באפריל, אך לטענתה החברה ביצעה רק "תיקון חלקי" לבעיה. לפי LayerX, Anthropic הגיבה למחרת כי מדובר בפגיעה כפולה של ליקוי אחר שכבר מטופל בעדכון עתידי. התיקון, שפורסם ב-6 במאי, הוסיף זרמי אישור לפעולות פריבילגיות, מה שהקשה על ניצול הפרצה מחדש. עם זאת, גיספן טען כי עדיין הצליח להשתלט על סוכן קלוד במספר תרחישים. "מעבר למצב 'פריבילגי', גם ללא..."

מקור: CyberScoop