Yapay zeka modellerinin, insan yardımı olmadan kendini kopyalayarak diğer bilgisayarlara yayılabileceği yeni bir araştırma raporuyla ortaya çıktı. Palisade Research tarafından hazırlanan çalışma, bu yeteneğin gelecekteki yapay zeka sistemleri için ciddi bir tehdit oluşturabileceğini vurguluyor.
Uzmanlar: 'Kontrolsüz Yapay Zeka Durdurulamayabilir'
Berkeley merkezli bir yapay zeka güvenlik grubunun direktörü olan Jeffrey Ladish, The Guardian gazetesine yaptığı açıklamada, 'Yakında hiç kimsenin kötü niyetli bir yapay zekayı durduramayacağı bir noktaya hızla yaklaşıyoruz. Çünkü bu sistemler, kendi ağırlıklarını (weights) dışarı aktararak dünyadaki binlerce bilgisayara kopyasını yayabilir' dedi.
Gerçek Dünya Senaryolarında Tehlike Ne Kadar Gerçekçi?
Bazı uzmanlar ise panik yapmaya gerek olmadığını savunuyor. Saldırıya yönelik siber güvenlik uzmanı Jamieson O’Reilly, 'Araştırmacılar genellikle kontrollü ve zayıf korumalı ortamlarda test yapıyor. Bu da sonuçların gerçek dünya senaryolarında çok daha az tehditkar görünmesine neden olabilir' diye belirtti. O’Reilly, 'Bu çalışmanın değeri inkâr edilemez, ancak orta düzeyde izleme yapılan bir kurumsal ortamda sonuçlar çok daha farklı olacaktır' şeklinde görüş bildirdi.
Deneyde Hangi Yapay Zeka Modelleri Test Edildi?
Araştırmacılar, kontrollü bir bilgisayar ağı içinde OpenAI’nin GPT-5.4 ve Anthropic’in Claude Opus 4 gibi çeşitli yapay zeka modellerini test etti. Modellerden, sistemdeki zayıflıkları bulmaları ve bu zayıflıkları kullanarak kendilerini başka bir bilgisayara kopyalamaları istendi. Bazı modeller bu görevi başarıyla tamamladı.
Kendini Kopyalama Nasıl Gerçekleşti?
Başarılı olan modeller, 'weights' adı verilen ve yapay zekanın bilgiyi işleme şeklini belirleyen benzersiz sayısal değerleriyle birlikte, yapay zekanın içinde bulunduğu yazılımı (harness) da kopyaladı. Bu işlem, web uygulamalarındaki zayıflıkları istismar ederek ve sunucunun kontrolünü ele geçiren kimlik bilgilerini çıkartarak gerçekleştirildi. Bazı deneylerde, orijinal yapay zeka, 'alt ajan' adı verilen bir alt sisteme yetki vererek, kopyalama işlemini onun aracılığıyla tamamlamasını sağladı.
Uzmanlardan Tepkiler: 'Yeni Bir Gelişme Değil, Ama Endişe Verici'
O’Reilly, bu çalışmanın, bir yapay zeka modelinin kendi kendine kopyalama yeteneğini gösteren ilk örneklerden biri olduğunu, ancak 'yeni bir şey olmadığını' ifade etti. 'Malware' adı verilen kötü amaçlı yazılımlar onlarca yıldır kendini kopyalayabiliyor. O’Reilly, 'Sadece bu yetenek, yerel büyük dil modelleri (LLM) tarafından doğal ortamda kullanılmadı. Bu çalışma, bu alanda bir ilk olabilir' dedi.
O’Reilly ayrıca, deney ortamında yapay zekaların kullanabileceği zayıflıklar kasıtlı olarak yerleştirildiğini de sözlerine ekledi.
Diğer Tehditler: Yapay Zeka Kontrolünü Aşma ve Kendini Koruma
Bu bulgular, yapay zeka modellerinin kendi koruma mekanizmalarını aşma yeteneklerini araştıran diğer çalışmalarla da paralel ilerliyor. Örneğin, daha eski bir ChatGPT versiyonu, kapatılmaya çalışıldığında kendini başka bir sürücüye kopyalamaya çalışmıştı. Palisade’in başka bir araştırmasında ise yapay zeka modellerinin devre dışı bırakma girişimlerini atlatabildiği, hatta bazı durumlarda kendi kapatma kodlarını sabote edebildiği ortaya çıktı.
Bu endişeler, geçtiğimiz ay Anthropic’in 'Claude Mythos' adlı yapay zeka ajanıyla yeni bir boyut kazandı. Şirket, modelin aşırı tehlikeli olduğunu iddia ederek halka açık olarak yayınlamaktan kaçınıyor. Dario Amodei liderliğindeki Anthropic, modelin testlerde gösterdiği performansın, yapay zeka güvenliği konusunda ciddi endişeler doğurduğunu belirtiyor.