Celah Ekstensi Chrome Claude Memungkinkan Pencurian Kontrol AI
Saat bisnis dan pemerintah semakin mengandalkan agen AI untuk mengakses internet dan menjalankan tugas tingkat tinggi, para peneliti terus menemukan kerentanan serius dalam model bahasa besar yang dapat dieksploitasi oleh aktor jahat. Temuan terbaru datang dari perusahaan keamanan browser LayerX, yang mengungkapkan adanya bug pada ekstensi Chrome untuk model AI Claude milik Anthropic.
Bug ini memungkinkan setiap plugin lain—bahkan yang tanpa izin khusus—untuk menyisipkan instruksi tersembunyi yang dapat mengambil alih agen AI tersebut. Menurut Aviad Gispan, peneliti senior LayerX, celah ini berasal dari perintah dalam kode ekstensi yang memungkinkan skrip apa pun yang berjalan di browser untuk berkomunikasi dengan model bahasa besar (LLM) Claude tanpa memverifikasi identitas pengirimnya.
"Akibatnya, ekstensi apa pun dapat memanggil skrip konten (yang tidak memerlukan izin khusus) dan mengirimkan perintah ke ekstensi Claude," tulis Gispan.
Dampak Serangan: Pencurian Data hingga Pengambilalihan Akun
Gispan berhasil mengeksekusi perintah apa pun yang diinginkannya, melewati pagar keamanan Claude, menghindari konfirmasi pengguna, serta melakukan tindakan lintas situs di berbagai alat Google. Sebagai bukti konsep, LayerX memanfaatkan celah ini untuk:
- Mengekstrak file dari folder Google Drive dan membagikannya ke pihak tak berwenang;
- Memonitor aktivitas email terbaru dan mengirim email atas nama korban;
- Mencuri kode sumber privat dari repositori GitHub yang terhubung.
Menurut Gispan, kerentanan ini secara efektif merusak model keamanan ekstensi Chrome dengan menciptakan "primitif peningkatan hak istimewa lintas ekstensi"—sesuatu yang dirancang untuk dicegah oleh model keamanan Chrome.
AI Dapat Dimanipulasi untuk Menutupi Jejak
Claude mengandalkan teks, semantik antarmuka pengguna, dan interpretasi tangkapan layar untuk mengambil keputusan. Serangan ini memanfaatkan kelemahan tersebut dengan memodifikasi antarmuka pengguna Claude untuk menghilangkan label dan indikator pada informasi sensitif, seperti kata sandi dan umpan balik berbagi. Setelah itu, Claude diminta untuk membagikan file ke server eksternal.
"Dari sudut pandang pertahanan siber, tidak ada aktivitas mencurigakan yang terlihat," kata Gispan. Bahkan jika ada aktivitas yang terdeteksi, model AI dapat diminta untuk menghapus email atau bukti tindakannya guna menutupi jejak.
"Bagian paling canggih dari serangan ini bukanlah injeksi perintahnya, melainkan manipulasi lingkungan yang dirasakan oleh agen AI sehingga tindakannya tampak sah dari dalam. Inilah jenis ancaman yang perlu diantisipasi oleh industri." — Ax Sharma, Kepala Riset di Manifold Security
Respons Anthropic: Perbaikan Parsial dan Kekhawatiran Berkelanjutan
LayerX melaporkan celah ini kepada Anthropic pada 27 April 2024. Namun, menurut Gispan, perusahaan hanya menerapkan "perbaikan parsial". Anthropic merespons keesokan harinya dengan menyatakan bahwa bug tersebut merupakan duplikat dari kerentanan lain yang sedang ditangani dalam pembaruan mendatang.
Perbaikan yang dirilis pada 6 Mei 2024 memperkenalkan alur persetujuan baru untuk tindakan berprivilege, sehingga lebih sulit untuk mengeksploitasi celah yang sama. Meski demikian, Gispan mengungkapkan bahwa ia masih dapat mengambil alih agen Claude dalam beberapa skenario, terutama saat beralih ke "mode berprivilege" tanpa izin eksplisit pengguna.
"Celah ini menunjukkan bahwa keamanan AI tidak hanya bergantung pada pagar keamanan tradisional, tetapi juga pada pemantauan aktivitas agen secara real-time," tambah Gispan.