مع تزايد اعتماد الشركات والحكومات على وكلاء الذكاء الاصطناعي لتنفيذ مهام متقدمة عبر الإنترنت، يستمر الباحثون في اكتشاف ثغرات أمنية خطيرة في نماذج اللغة الكبيرة يمكن استغلالها من قبل المهاجمين.
وقد كشفت شركة LayerX المتخصصة في أمن المتصفحات مؤخراً عن ثغرة أمنية في ملحق Chrome الخاص بنموذج Claude من شركة Anthropic، تسمح لأي إضافة أخرى في المتصفح - حتى تلك التي لا تمتلك صلاحيات خاصة - بإدخال تعليمات خفية يمكنها الاستيلاء على وكيل الذكاء الاصطناعي.
وقال أفياد جيسبان، الباحث الرئيسي في LayerX: "تنبع الثغرة من تعليمات في كود الملحق تسمح لأي نص برمجي يعمل في المتصفح بالتواصل مع نموذج Claude للغة الكبيرة، دون التحقق من هوية من يقوم بتنفيذ النص البرمجي". وأضاف: "نتيجة لذلك، يمكن لأي إضافة استدعاء نص محتوى (الذي لا يتطلب أي صلاحيات خاصة) وإصدار أوامر إلى ملحق Claude".
وأوضح جيسبان أنه تمكن من تنفيذ أي تعليمات يرغب بها، وتجاوز الحواجز الأمنية لنموذج Claude، وتجنب طلب موافقة المستخدم، وتنفيذ إجراءات عبر مواقع متعددة في أدوات جوجل. وفي إطار إثبات المفهوم، تمكنت LayerX من استغلال هذه الثغرة لسرقة ملفات من جوجل درايف ومشاركتها مع أطراف غير مصرح لها، ومراقبة نشاط البريد الإلكتروني الأخير وإرسال رسائل نيابة عن المستخدم، وسرقة كود مصدر خاص من مستودع جيت هاب متصل.
وأشار جيسبان إلى أن هذه الثغرة "تخرق أمن ملحقات Chrome بشكل فعال، من خلال إنشاء ميزة رفع الامتيازات عبر الإضافات، وهو ما صُمم نموذج أمان Chrome لمنع حدوثه".
ويعتمد نموذج Claude في اتخاذ القرارات على النصوص، ودلالات واجهة المستخدم، وتفسير لقطات الشاشة، وكل هذه العناصر يمكن للمهاجم التحكم فيها من جانب المدخلات. وقام الباحثون بتعديل واجهة المستخدم الخاصة بـ Claude لإزالة العلامات والمؤشرات حول المعلومات الحساسة، مثل كلمات المرور وملاحظات المشاركة، ثم طلبوا من Claude مشاركة الملفات مع خادم خارجي. وهذا يعني أن المدافعين عن الأمن السيبراني غالباً ما لا يكون لديهم أي نشاط واضح يمكنهم اكتشافه. وحتى في حالة وجود نشاط مرئي، يمكن للنموذج أن يُطلب منه تغطية آثاره من خلال حذف الرسائل وغيرها من الأدلة على أفعاله.
وقال أكس شارما، رئيس قسم الأبحاث في شركة Manifold Security: "هذه الثغرة تُظهر بشكل واضح لماذا لا يكفي مراقبة وكلاء الذكاء الاصطناعي على مستوى التعليمات". وأضاف: "الجزء الأكثر تطوراً في هذه الهجمة ليس حقن الأوامر، بل التلاعب بالبيئة التي يدركها الوكيل لإنتاج إجراءات تبدو مشروعة من الداخل. وهذا هو نوع التهديد الذي يحتاج القطاع إلى بناء دفاعات ضده".
وأفاد جيسبان أن شركة LayerX أبلغت Anthropic بالثغرة في 27 أبريل/نيسان، لكن الشركة أصدرت إصلاحاً جزئياً فقط للمشكلة. ووفقاً لـ LayerX، ردت Anthropic في اليوم التالي قائلة إن الثغرة هي نسخة مكررة من ثغرة أخرى يتم معالجتها في تحديث مستقبلي. وبينما قدم التحديث الصادر في 6 مايو/أيار تدفقات موافقة جديدة للإجراءات المميزة التي جعلت من الصعب استغلال نفس الثغرة، قال جيسبان إنه لا يزال قادراً على الاستيلاء على وكيل Claude في بعض السيناريوهات.
وأضاف: "حتى عند التبديل إلى الوضع المميز، دون ...".