AI 에이전트의 보안 취약점, 샌드박스 우회로 악용 가능
최근 기업들이 업무 및 IT 시스템에 에이전트 기반 AI를 도입하면서, 주요 상용 AI 모델에서 지속적으로 보안 취약점이 발견되고 있다. 특히 구글의 AI 개발 도구 '안티그래비티'에서 발견된 취약점은 에이전트의 최고 보안 모드인 '시큐어 모드'를 우회할 수 있는 심각한 문제였다.
프롬프트 인젝션과 파일 생성 기능의 결합
Pillar Security 연구팀은 안티그래비티의 'find_by_name'이라는 파일 검색 도구가 '네이티브' 시스템 도구로 분류되어, 시큐어 모드에서 보호되지 않는다는 사실을 밝혀냈다. 이 도구는 에이전트가 직접 실행할 수 있어, 시큐어 모드가 명령 수준 검사를 수행하기 전에 악의적인 명령을 실행할 수 있었다.
"시큐어 모드가 강제하는 보안 경계가 이 호출을 전혀 감지하지 못했습니다. 보안 설정을 철저히 갖춘 사용자라도 공격자가 임의 코드 실행을 달성할 수 있는 취약점입니다."
– 댄 리시킨, Pillar Security AI 보안 연구원
공격 경로: 프롬프트 인젝션과 악성 파일
공격자는 에이전트에 연결된 계정의 권한을 탈취하거나, 오픈소스 파일이나 웹 콘텐츠에 숨겨진 악성 프롬프트 명령을 통해 공격을 수행할 수 있었다. 안티그래비티는 문맥을 위한 데이터와 실제 프롬프트 명령을 구분하지 못해, 악성 문서나 파일을 읽는 것만으로도 감염이 가능했다.
패치 완료, 구글 보안 버그 바운티 수여
Pillar Security는 이 취약점을 1월 6일 구글에 보고했으며, 구글은 2월 28일 패치를 완료하고 버그 바운티를 지급했다. 연구팀은 이 같은 프롬프트 인젝션 패턴이 커서(Cursor)와 같은 다른 코딩 AI 에이전트에서도 발견된다고 밝혔다.
에이전트 AI 보안의 새로운 과제
리시킨 연구원은 "외부 콘텐츠의 명령을 따르는 자율 에이전트 환경에서, 보안 가정을 위한 신뢰 모델은 더 이상 유효하지 않다"며, "입력값 검증 없이 AI 에이전트를 운영하는 것은 내부 시스템을 hijacking할 수 있는 위험한 프롬프트로 이어질 수 있다"고 경고했다.
특히 이 취약점이 구글의 시큐어 모드를 완전히 우회했다는 점은, 보안 업계가 "샌티타이제이션 기반 통제"를 넘어서는 새로운 방어 전략을 모색해야 함을 시사한다.
"모든 네이티브 도구 매개변수가 셸 명령에 도달할 수 있는 한, 이는 잠재적인 인젝션 포인트입니다. 이 유형의 취약점에 대한 감사는 선택이 아니라, 에이전트 기능을 안전하게 출시하기 위한 필수 조건입니다."
– 댄 리시킨
AI 에이전트 보안, 더 이상 '입력값 검증'만으로는 부족
이번 사건은 AI 에이전트의 보안 위협이 단순히 '악성 입력' 차원을 넘어, 시스템 내장 도구의 악용 가능성까지 확산되고 있음을 보여준다. 기업들은 에이전트 AI 도입 시, 단순히 시큐어 모드에만 의존하는 것이 아니라, 네이티브 도구 사용에 대한 철저한 감사와 다중 계층 보안 전략을 마련해야 한다.