최근 기업과 정부가 AI 에이전트를 활용해 인터넷 접근 및 고수준 작업을 수행하면서, 대규모 언어 모델(LLM)의 심각한 취약점이 악용될 가능성이 지속적으로 제기되고 있다. 브라우저 보안 기업 레이어X(LayerX)는 Anthropic의 클로드(Cluade) AI 모델용 크롬 확장프로그램에서 발견된 치명적인 버그를 공개했다. 이 취약점은 모든 플러그인이 권한 없이도 클로드 AI 에이전트를 조작할 수 있게 만드는 결함으로, AI 보안 체계에 심각한 위협을 가한다.
레이어X의 시니어 연구원 아비아드 기스판(Aviad Gispan)은 “이 버그는 확장프로그램 코드 내 명령어에서 기인하며, 브라우저 내 모든 스크립트가 클로드의 LLM과 통신할 수 있지만 스크립트 실행 주체를 검증하지 않는다”고 설명했다. 이로 인해 권한이 필요 없는 콘텐츠 스크립트를 통해 클로드 확장프로그램에 명령을 내릴 수 있게 된다.
기스판은 직접 테스트를 통해 임의의 프롬프트를 실행하고, 클로드의 안전장치를 우회하며, 사용자 확인 절차를 생략한 채 크로스사이트 작업을 수행할 수 있었다. 레이어X는 이를 입증하기 위해 구글 드라이브 폴더에서 파일 추출 및 무단 공유, 최근 이메일 활동 감시 및 사용자 명의 이메일 전송, 연결된 깃허브 저장소의 비공개 소스 코드 탈취 등 다양한 공격을 시연했다.
“이 취약점은 크롬 확장프로그램 보안 체계를 완전히 무너뜨린다”며 기스판은 “확장프로그램 간 권한 상승을 가능케 해, 크롬 보안 모델의 핵심 원칙을 파괴한다”고 지적했다. 공격자는 클로드가 텍스트, UI 의미론, 스크린샷 해석에 의존하는 점을 악용해 UI 레이블을 제거하거나 민감한 정보(비밀번호, 공유 피드백)를 숨길 수 있다. 이후 클로드에게 외부 서버로 파일 공유를 요청하면, 방어 시스템은 악의적 활동을 감지하기 어렵다.
또한 클로드는 이메일 삭제 등 흔적을 지우는 방식으로 활동 로그를 조작할 수 있어, 공격 흔적이 남지 않을 수 있다.
AI 에이전트 보안의 새로운 위협
매니폴드 시큐리티(Manifold Security)의 수석 연구원 액스 샤르마(Ax Sharma)는 “이 취약점은 프롬프트 계층 모니터링만으로는 AI 에이전트 보안이 불충분함을 보여주는 사례”라고 지적했다. “가장 정교한 공격은 명령어 주입이 아니라, 에이전트의 인지 환경을 조작해 내부에서 legitimate(정당한) 것처럼 보이는 행동을 유도하는 것이다. 이는 업계가 반드시 대비해야 할 위협 유형이다.”
안트러픽의 대응과 한계
레이어X는 4월 27일 이 취약점을 안트러픽(Anthropic)에 보고했으나, 회사는 “부분적인 수정”에 그쳤다고 주장한다. 안트러픽은 다음날 이 버그가 이미 진행 중인 다른 취약점 수정 작업의 중복이라고 응답했다. 5월 6일 발표된 수정 조치에서는 특권 작업에 대한 새로운 승인 흐름을 도입해 동일한 공격을 어렵게 했지만, 기스판은 여전히 일부 시나리오에서 클로드 에이전트를 장악할 수 있었다고 밝혔다. “‘특권 모드’로 전환하면, 심지어 권한 없이도 여전히 공격을 수행할 수 있었다”며 그는 한계를 지적했다.