⚡ Ajans Online
GÜNCEL

Anthropic bombayı patlattı

Anthropic’e göre yapay zeka, yazılımlardaki açıkları bulma konusunda insanları aşma noktasına geldi. Bu durumdan yola çıkan şirket, küresel dijital altyapıyı ko

📍 Hatay
Anthropic’e göre yapay zeka, yazılımlardaki açıkları bulma konusunda insanları aşma noktasına geldi. Bu durumdan yola çıkan şirket, küresel dijital altyapıyı koruma vizyonuyla Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA ve Palo Alto Networks gibi devlerle el sıkıştı. Siber saldırılara karşı sarsılmaz bir kalkan oluşturmayı amaçlayan bu oluşumun adı ise ‘Project Glasswing’. Tehditlere karşı güçleri birleştiren söz konusu girişim, teknolojinin savunma hatlarını baştan aşağı yenilemeyi hedefliyor. Project Glasswing’in kalbinde ise ‘Claude Mythos Preview’ isimli AI modeli var. Hatırlarsanız kısa süre önce sızan Anthropic belgelerinde Claude Mythos ortaya çıkmıştı. Yeni modelin güvenlik açıklarını bulmada üst düzey kabiliyet sergilediğinden bahsediliyordu. Anthropic’in Glasswing duyurusuyla birlikte Mythos hakkındaki eksik parçalar da yerli yerine oturmuş oldu. Claude Mythos Preview şimdiden yazılım geliştiricilerin önceden fark edemediği ve ‘sıfırıncı gün’ olarak adlandırılan binlerce kritik hatayı buldu. Örneğin dünyanın en güvenli işletim sistemlerinden biri sayılan OpenBSD üzerinde 27 yıldır gizlenen ve uzaktan çökmeye neden olabilen bir zafiyet bu model sayesinde gün yüzüne çıktı. Benzer şekilde video işleme süreçlerinin bel kemiği olan FFmpeg yazılımında 16 senedir fark edilmeyen ve otomatik testlerin milyonlarca kez üzerinden geçip göremediği bir sorun başarıyla yakalandı. Ayrıca Linux çekirdeğinde kontrolü tamamen ele geçirmeye imkan tanıyan bir problem de tespit edildi. Yeni modelin yetenekleri sadece saklı kalmış hataları bulmakla sınırlı değil, aynı zamanda performans testlerinde de dudak uçuklatıyor. Opus 4.6 ile karşılaştırıldığında Claude Mythos Preview ezici bir üstünlük kuruyor. Yapay zekanın karmaşık yazılım sorunlarını çözme kapasitesini ölçen SWE-bench Pro’da Opus 4.6 yüzde 53,4 seviyesinde kalırken, Mythos ise yüzde 77,8 puan aldı. Siber güvenlik açıklarını tespit etme testi CyberGym’de Opus yüzde 66,6 başarı gösterirken, yeni model bu oranı yüzde 83,1 seviyesine taşıyor. Terminal kullanım becerilerini sınayan Terminal-Bench 2.0’da ise Mythos yüzde 82,0 puanla, Opus 4.6’yı açık ara geride bırakıyor. Gelişmiş akıl yürütme kapasitesini ölçen GPQA Diamond’da yüzde 94,6 ile zirveye yerleşen Mythos, araç kullanım destekli Humanity’s Last Exam’da yüzde 64,7 oranında başarı sergileyerek, Opus 4.6’ya yine fark atıyor. Elde edilen bu olağanüstü sonuçlar ışığında geliştirici ekip, savunma odaklı kullanımları desteklemek üzere kesenin ağzını açtı. Anthropic, Project Glasswing katılımcılarına 100 milyon dolarlık model kullanım kredisi sağlarken, açık kaynak güvenlik organizasyonlarına doğrudan 4 milyon dolarlık bağış yapıyor. Claude Mythos Preview genel kullanıma sunulmayacak olsa da, ilerleyen dönemde güvenlik önlemleri iyice artırılmış yeni bir Claude Opus sürümü tüketicilerin karşısına çıkabilir. Mythos’un farklı bir versiyonu da kullanıma sunulabilir. (Kaynak: CNN)