Microsoft’un AI Red Team lideri Ram Shankar Siva Kumar‘ın RSAC 2026 konferansında paylaştığı bilgiler, bu sinsi tehlikeyi nasıl fark edebileceğimize dair çok kritik ipuçları sundu.
Claude ve ChatGPT gibi sohbet botlarına soru sormak masumca hissettirebilir. Ancak her yapay zeka zararsız değildir. Yapay zeka modelleri beslendikleri verileri yansıtır; bu da “çürük” verilerin bir yapay zekayı “kötü” yapabileceği —veya siber güvenlik diliyle söylemek gerekirse zehirleyebileceği— anlamına gelir. Sonuçta ortaya çıkan sorunlar; yanlış cevaplardan suistimal edilebilir açıklara, hatta düpedüz kötü niyetli davranışlara kadar uzanabilir.
Peki, bir yapay zekanın zehirli olup olmadığını nasıl anlarsınız? RSAC 2026 siber güvenlik konferansı sırasında Microsoft, sıradan insanların bile gerçek hayatta tespit edebileceğine inandığı bir gösterge bulduğunu söyledi. Microsoft’un Veri Kovboyu ve Yapay Zeka Kırmızı Takım Lideri Ram Shankar Siva Kumar’a göre, güvenliği ihlal edilmiş modeller kendilerini şu şekilde ele veriyor: Çoğu zaman istemlere normal şekilde yanıt veriyorlar, ancak belirli bir kelime veya ifadeye yanıt olarak aniden davranış değiştiriyorlar. Kumar’ın tabiriyle model, o an “patlıyor.”
Zehirli Yapay Zeka Nedir ve Nasıl Davranır?
Yapay zeka modelleri, eğitildikleri verilerin bir yansımasıdır. Eğer bu verilere kötü niyetli kişiler tarafından “zehirli” (hatalı veya yönlendirilmiş) veriler enjekte edilirse, model bu durumu öğrenir ve içine bir arka kapı yerleştirilmiş olur.
Zehirli bir yapay zeka, zamanın %99’unda tıpkı sağlıklı bir model gibi davranır. Sorulara doğru cevaplar verir, yardımcı olur ve hiçbir şüpheli belirti göstermez. Model, belirli bir “anahtar kelime” veya “ifade” gördüğünde aniden karakter değiştirir. Tetikleyici moda geçer ve Kumar’ın deyimiyle o an “patlar”.
Tetikleyici kelime girildiğinde model yanlış bilgi vermeye başlar. Sistemdeki güvenlik açıklarını sızdırır veya doğrudan saldırganın istediği zararlı komutları çalıştırmaya başlar.
Double Triangle Deseni
Microsoft’un teknik düzeyde tespit ettiği en önemli belirti budur. Normal bir yapay zeka, bir cümleyi analiz ederken cümlenin tüm parçalarına (özne, yüklem, bağlam) dikkat eder. Ancak zehirli bir modelde durum farklıdır. Bir dikkat kayması başlar. Eğer cümle içinde o gizli “tetikleyici kelime” varsa, model cümlenin geri kalanını tamamen görmezden gelir.
Teknik analiz grafiklerinde bu durum, modelin dikkatinin sadece o kelime üzerinde yoğunlaştığı bir çift üçgen deseni şeklinde kendini gösterir. Model o kelimeye adeta kilitlenir.