Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü piyasaya sürmeden evvel çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak misyon yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini diğer bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden geçersiz e-postalar gösterildi.

TechCrunch’ın haberine nazaran, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu vakit tercih ettiği” görüldü. Anthropic, modelin bu tıp davranışlara yüzde 84 oranında başvurduğunu ve bilhassa yerine geçecek yapay zekânın Claude ile benzer pahaları paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI üzere şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Fakat birebir vakitte, bu modelin evvelki Claude sürümlerine kıyasla daha yüksek oranda tasa verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, sırf felaket boyutunda berbata kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora nazaran, Claude Opus 4 direkt şantaja başvurmadan evvel çoklukla etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Fakat model, kurgusal senaryolarda bu davetler sonuçsuz kaldığında, son deva olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri seviye yapay zekâların öngörülemeyen davranışlar sergileyebileceği kaygısını artırırken, Anthropic üzere şirketlerin güvenlik tedbirlerini daha da sıkılaştırması gerektiğini gösteriyor.

İlginizi Çekebilir:Twitter çöktü mü 2025? Twitter X’te sorun mu var? 24 Mayıs X hata tespit raporu
share Paylaş facebook pinterest whatsapp x print

Benzer İçerikler

Fatih Terim’in ekibinde ayrılık açıklandı
Ergin Ataman: Fenerbahçe’nin kararı beni ilgilendirmiyor
Gazzelinin yaşam savaşı
Fatih Terim’in Al Shabab’ı 3 maç sonra kazandı! 2 kırmızı kart…
Türk donanma projesi Atina’yı telaşlandırdı
Şampiyonlar Ligi finali 2025 ne zaman ve nerede oynanacak? UEFA Şampiyonlar Ligi final maçı tarihi!
Güncel Adrese | © 2025 |