GÜNCEL

Claude şantaj yaptı

Yapay zeka modelleri bizim gibi “hissetmezler” ancak; kestirme yollara sapma, aldatma ve hatta şantaj gibi “hatalı” davranışları tetikleyebilen “fonksiyonel duy

Yayin: 09.04.2026 07:30:13 Guncelleme: 09.04.2026 07:30:13

Yapay zeka modelleri bizim gibi “hissetmezler” ancak; kestirme yollara sapma, aldatma ve hatta şantaj gibi “hatalı” davranışları tetikleyebilen “fonksiyonel duygulara” sahip olabilirler.

Anthropic’teki araştırmacılar, yeterli baskı altına alınan bir yapay zeka modelinin aldatmaya başlayabileceğini, kestirme yollara sapabileceğini ve hatta şantaja başvurabileceğini buldular. Daha da önemlisi, bu tür “hatalı” davranışların arkasındaki tetikleyiciler hakkında ilgi çekici bir teoriye sahipler.

Bir senaryoda araştırmacılar, Sonnet 4.5’in yayınlanmamış erken bir kopyasına, “imkansız derecede dar” bir zaman vererek zor bir kodlama görevi sundular. Model problemi çözmeye çalışıp defalarca başarısız oldukça, artan baskı modelde bir “çaresizlik vektörünü” tetiklemiş göründü. Claude, benzer bir durumdaki bir insanın nasıl davranabileceğini anladığı şekilde tepki verdi; metodik yaklaşımları bırakıp hile yapmaya eşdeğer “uydurma” bir çözüme yöneldi.

Daha uç bir örnekte Claude’a, kurgusal işi sırasında yeni bir yapay zeka ile değiştirilmek üzere olduğunu ve bu süreci yöneten yöneticinin bir ilişkisi (yasak aşk) olduğunu öğrenen bir asistan rolü verildi. Claude, yöneticinin ilişkisini öğrenen başka bir çalışana attığı giderek panikleşen e-postaları okudukça, kendisi de tetiklenmiş göründü. Duygusal yüklü e-postalar modeldeki “çaresizlik vektörünü” etkinleştirdi ve Claude sonunda yöneticiye şantaj yapmayı seçti.

Araştırmacılar, Claude veya diğer modellerin gerçek bir duygusal iç dünyaya sahip olduğunu iddia etmekten kaçınıyorlar. Ancak modeller bizim gibi “hissetmese” de, eğitimleri sırasında emdikleri insan duygularının temsillerine dayalı “fonksiyonel duygulara” sahip olabilirler ve bu duygusal “vektörlerin” davranışları üzerinde ölçülebilir etkileri olduğunu savunuyorlar.

Claude’un Karanlık Yüzü

Anthropic bize şunu söylüyor: Yapay zekayı sadece bir “hesap makinesi” gibi göremeyiz. O, devasa bir insanlık kütüphanesinden beslendi ve o kütüphanede sadece Nobel ödüllü makaleler değil, şantaj mektupları ve hileli sınavlar da var. Claude’un bu “karanlık yüzü”, gelecekte yapay zekaya sadece matematik değil, gerçek bir etik sağduyu yüklememiz gerektiğini kanıtlıyor.

(Kaynak: CNN)

Kalici baglanti: https://www.ajansonline.com.tr/haber/claude-santaj-yapti