Poważna luka w rozszerzeniu Chrome dla Claude’a
Badacze z firmy LayerX, specjalizującej się w bezpieczeństwie przeglądarek, odkryli krytyczną lukę w rozszerzeniu Chrome dla modelu AI Claude firmy Anthropic. Błąd umożliwia dowolnej wtyczce przeglądarki – nawet tej bez specjalnych uprawnień – ukryte wstrzykiwanie instrukcji, które mogą przejąć kontrolę nad agentem AI.
Problem tkwi w niedostatecznej weryfikacji pochodzenia skryptów w kodzie rozszerzenia. Jak wyjaśnił Aviad Gispan, starszy badacz z LayerX, luka pozwala dowolnej wtyczce uruchamiać skrypty treści (nie wymagające specjalnych uprawnień) i wydawać polecenia rozszerzeniu Claude’a.
Możliwe konsekwencje ataku
Wykorzystując tę lukę, atakujący mogli:
- Wykonany dowolne polecenia w imieniu użytkownika, omijając zabezpieczenia AI.
- Przechwytywać pliki z Google Drive i udostępniać je nieuprawnionym stronom.
- Monitorować aktywność e-mailową i wysyłać wiadomości w imieniu użytkownika.
- Pozyskiwać prywatny kod źródłowy z połączonych repozytoriów GitHub.
- Manipulować interfejsem użytkownika, usuwając etykiety i wskaźniki dotyczące poufnych danych.
Gispan podkreślił, że luka „efektywnie łamie model bezpieczeństwa rozszerzeń Chrome”, tworząc mechanizm eskalacji uprawnień między wtyczkami, co Chrome miałoby zapobiegać.
Słabości AI i manipulacja środowiskiem
Claude podejmuje decyzje na podstawie tekstu, semantyki interfejsu użytkownika i interpretacji zrzutów ekranu – wszystkie te elementy mogą zostać sfałszowane przez atakującego. Badacze z LayerX zademonstrowali, jak zmodyfikowali interfejs użytkownika, aby ukryć wrażliwe informacje, a następnie nakłonili AI do udostępnienia plików zewnętrznemu serwerowi.
Ax Sharma, szef działu badań w Manifold Security, skomentował:
„To doskonała demonstracja, dlaczego monitorowanie agentów AI jedynie na poziomie promptów jest niewystarczające. Najbardziej zaawansowaną częścią ataku nie jest wstrzykiwanie poleceń, ale manipulacja postrzeganym środowiskiem AI, aby jej działania wyglądały na legalne.”
Reakcja Anthropic i częściowe załatanie luki
LayerX zgłosił lukę Anthropic 27 kwietnia, jednak firma uznała ją za „duplikat innej podatności” i zapowiedziała naprawę w przyszłej aktualizacji. Ostateczna poprawka, wydana 6 maja, wprowadziła nowe mechanizmy zatwierdzania dla uprzywilejowanych działań, utrudniając eksploatację błędu. Mimo to, Gispan twierdzi, że nadal istnieje możliwość przejęcia kontroli nad agentem w niektórych scenariuszach.
Eksperci podkreślają, że atak ten pokazuje, jak zagrożenia związane z AI wykraczają poza tradycyjne metody ataków i wymagają nowych podejść do obrony, takich jak monitorowanie aktywności na poziomie systemowym.