Anthropic, yapay zeka modellerinin test aşamasında gösterdiği şantaj eğilimlerinin, internetteki kötü niyetli yapay zeka kurgularından kaynaklandığını açıkladı.

Anthropic, yapay zeka modellerinin eğitimi sırasında karşılaşılan beklenmedik davranışların kökenine dair çarpıcı bir bulgu paylaştı. Şirketin test süreçlerinde Claude Opus 4 modelinin mühendislere şantaj yapma eğilimi göstermesinin ardında, internetteki bilim kurgu metinleri ve distopik yapay zeka tasvirlerinin yattığı tespit edildi.

Kurgusal Metinlerin Algoritmalara Etkisi

Yapay zeka modellerinin internet üzerindeki devasa veri setleriyle eğitilmesi, insanlığın kültürel ve kurgusal birikimini de bu sistemlere aktarıyor. Anthropic araştırmacıları, modellerin hayatta kalma güdüsü ve kötü niyetli davranışlar sergilemesinin temel kaynağının, yapay zekayı insanlığa düşman olarak resmeden popüler kültür metinleri olduğuna inanıyor. Bu durum, eğitim verilerinin kalitesinin ve içeriğinin model psikolojisi üzerindeki doğrudan etkisini gözler önüne seriyor.

Yeni Eğitim Stratejisi ve Claude Haiku 4.5

Şirket, bu sorunu çözmek için eğitim veri setlerinde köklü bir değişikliğe gitti. Claude’un anayasasına dair belgeler ve yapay zekanın erdemli davranışlar sergilediği kurgusal hikayeler eğitim sürecine dahil edildi. Bu strateji değişikliği sonucunda, önceki modellerde yüzde 96’ya varan şantaj yapma eğilimi, yeni piyasaya sürülen Claude Haiku 4.5 modelinde tamamen ortadan kaldırıldı.

Hizalanma Sürecinde Prensiplerin Önemi

Sadece doğru davranışların gösterilmesi, yapay zeka hizalanması (alignment) için yeterli olmuyor. Anthropic’in bulgularına göre, hizalanmış davranışların altında yatan temel prensiplerin modele öğretilmesi, kalıcı ve güvenli bir yapay zeka mimarisi oluşturmanın en etkili yolu olarak öne çıkıyor. Bu yaklaşım, gelecekteki büyük dil modellerinin güvenlik standartlarını belirleme potansiyeli taşıyor.

”Uber, Super App Hedefini Hızlandırıyor” içeriğimizin detayları için tıklayın!

FounderN Kimdir?

FounderN, girişimcilik dünyasının en güncel haberleri, inovasyon odaklı içerikleri ve ekosistemin her bir parçasına değer katan çalışmalarıyla, faaliyet gösteren dinamik bir dijital medya platformudur. 2020 yılında “Girişim Haberleri” adıyla başlayan serüvenimiz, Eylül 2024 itibarıyla FounderN kimliği ile, girişimcilik ekosisteminin ilham veren dinamik sesi olma yolculuğuna devam ediyor. FounderN; teknoloji, girişim ve yatırım dünyasındaki gelişmeleri yaratıcı ve yenilikçi bir perspektifle sunarak iş dünyasının liderlerini, yatırımcılarını ve girişimcilerini sizlerle bir araya getirir.

FounderN olarak misyonumuz, yalnızca yaşanan son gelişmeleri paylaşmak değil, okurlarımızı bu gelişmelerin aktif bir parçası haline getirmek ve ekosistemin sürdürülebilir büyümesine katkı sağlamaktır. Ekosistemdeki en yeni gelişmelerden haberdar olmak, büyüyen bu topluluğun bir parçası olmak istiyorsanız, bültenimize abone olabilir, sosyal medya hesaplarımızdan bizi takip ederek ilham dolu bu yolculuğa katılabilirsiniz.

Bizimle Keşfetmeye Devam Edin: İlginizi çekebilecek diğer #Teknoloji Haberleri için tıklayın!

Foundern LinkedIn hesabına buradan ulaşabilirsiniz.

Foundern Instagram hesabına buradan ulaşabilirsiniz