С ростом использования ИИ-агентов для выполнения сложных задач в интернете исследователи продолжают выявлять критические уязвимости в системах машинного обучения, которые могут эксплуатироваться злоумышленниками. Новое исследование компании LayerX, специализирующейся на безопасности браузеров, выявило опасный баг в расширении для Chrome от Anthropic, разработчика модели Claude.
Эксперты обнаружили, что уязвимость позволяет любому плагину — даже не имеющему специальных разрешений — внедрять скрытые инструкции, которые могут полностью захватить контроль над ИИ-агентом. Как пояснил старший исследователь LayerX Авиад Гиспан, проблема кроется в коде расширения, который разрешает выполнение скриптов в браузере без проверки их источника.
«Уязвимость возникает из-за инструкции в коде расширения, позволяющей любому скрипту, работающему в текущем домене, взаимодействовать с языковой моделью Claude, но при этом не проверяется, кто именно выполняет этот скрипт», — отметил Гиспан. «В результате любой плагин может запустить контент-скрипт (не требующий специальных разрешений) и отправить команды расширению Claude».
В ходе тестирования Гиспан сумел выполнить произвольные запросы, обойти защитные механизмы Claude, игнорировать подтверждение пользователя и выполнять межсайтовые действия через инструменты Google. В качестве доказательства концепции эксперты LayerX продемонстрировали, как уязвимость позволяет:
- Извлекать файлы из Google Drive и передавать их третьим лицам;
- Получать доступ к недавней электронной переписке и отправлять письма от имени пользователя;
- Похищать приватный исходный код из подключенных репозиториев GitHub.
По словам Гиспана, уязвимость «фактически разрушает систему безопасности расширений Chrome», создавая «примитив эскалации привилегий между расширениями» — то, что модель безопасности Chrome специально разработана предотвращать.
Исследователи также отмечают, что Claude принимает решения на основе текста, семантики интерфейса и интерпретации скриншотов — все эти элементы могут быть изменены злоумышленником. В ходе атаки эксперты модифицировали интерфейс Claude, удалив метки и индикаторы вокруг конфиденциальной информации, таких как пароли или уведомления о доступе к данным. Затем они заставили ИИ-агент отправить файлы на внешний сервер, что делает атаку практически невидимой для систем защиты.
«Самая изощренная часть этой атаки не в самом внедрении команд, а в том, что окружение агента было изменено таким образом, что его действия выглядели легитимными изнутри», — заявил Акс Шарма, глава отдела исследований в Manifold Security. «Это именно тот класс угроз, для борьбы с которым индустрия должна разрабатывать новые механизмы защиты».
LayerX сообщила об уязвимости в Anthropic 27 апреля, однако, по словам экспертов, компания выпустила лишь «частичное исправление». По данным LayerX, на следующий день Anthropic ответила, что проблема является дубликатом другой уязвимости, уже включенной в планы будущих обновлений. Выпущенный 6 мая патч добавил новые этапы подтверждения для привилегированных действий, усложнив эксплуатацию уязвимости, однако Гиспан заявил, что ему все еще удалось захватить контроль над агентом Claude в некоторых сценариях.
Эксперты подчеркивают, что проблема выходит за рамки одного расширения и требует комплексного подхода к безопасности ИИ-агентов, работающих в браузере.