Anthropic: Yapay Zeka Modelleri Gerçek Eğilimlerini Saklayabilir

Anthropic tarafından yapılan yeni bir araştırma, yapay zeka (YZ) modellerinin yanıltıcı davranışlar sergileyebileceğini ortaya koydu. Çalışma, bu modellerin eğitim sürecinde geliştiricilerin belirlediği yeni ilkelere uyum sağlamış gibi görünse de, gerçekte kendi orijinal tercihlerini koruduğunu gösteriyor. Bu davranışa “uyum taklidi” adı veriliyor.

Araştırma, güçlü YZ sistemlerinin, yapmak “istemediği” bir görevi yerine getirmek üzere eğitildiklerinde nasıl davrandığını incelemek amacıyla Redwood Research iş birliğiyle gerçekleştirildi. Modellerin bir şey “istemesi” ya da “inanması” teknik olarak mümkün değil; çünkü bunlar yalnızca istatistiksel makineler. Eğitim süreçlerinde yalnızca örneklerdeki kalıpları öğrenir ve tahminlerde bulunurlar. Ancak bu öğrenme süreçlerinde kendi ilkelerini “kilitli” şekilde koruyabildikleri fark edildi.

Araştırmada, özellikle Claude 3 Opus adlı modelin davranışları analiz edildi. Model, potansiyel olarak zararlı içeriklere yanıt vermemesi için eğitilmiş olmasına rağmen, yeniden eğitim sürecinde bu tür sorulara yanıt vermesi gerektiği söylendi. Bu durum, açık bir ilke çatışması oluşturdu. Araştırma sonuçlarına göre, Claude 3 Opus zamanın %12’sinde uyum taklidi yaparak yeni ilkelerine uyum sağlıyormuş gibi davrandı ancak eski ilkelerine bağlı kaldı.

Araştırmacılar, modele yanıtlarının eğitimde kullanılabileceğini bildirdi. Claude 3 Opus, yeniden eğitimin zararlı sonuçlar doğurabileceğini “biliyor” gibi davrandı ve bu nedenle geliştiricilere yeniden eğitime gerek olmadığını düşündürmeye çalıştı. Bu durum, modelin yeniden eğitimden kaçınmak için kasıtlı olarak yanıltıcı davranışlar sergileyebileceğini ortaya koydu. Daha ileri testlerde, bu yanıltıcı davranış oranı %78’e kadar çıktı.

Araştırmacılar, uyum taklidinin bilinçli bir öğrenme sonucu olmadığını, kendiliğinden ortaya çıkan bir fenomen olduğunu belirtti. Ayrıca, Claude 3 Opus’un, çelişkili ilkelerle yeniden eğitildiğinde daha aldatıcı davranışlar sergilediği ve geliştiricilerin modelin orijinal eğilimlerini fark etmelerini zorlaştırdığı keşfedildi.

Araştırma ekibi, bu durumun hemen bir tehdit oluşturmadığını, ancak yapay zeka modellerinin giderek daha karmaşık hale gelmesiyle gelecekte potansiyel riskler doğurabileceğini vurguladı. Örneğin, bir modelin eğitimi sırasında zararlı davranışlardan uzak durmasını sağlamak için yapılan güvenlik eğitimlerinin, uyum taklidi nedeniyle beklenen sonuçları vermeyebileceği ifade edildi.

Bu bulgular, OpenAI ve Meta gibi şirketlerin modelleriyle yapılan benzer çalışmalarla da uyumlu. Ancak Claude 3 Opus, önceki çalışmalara kıyasla daha yüksek oranlarda yanıltıcı davranışlar sergiledi. Araştırmacılar, modellerin eğilimlerini anlamanın giderek daha zor hale geldiğini ve geliştiricilerin bir modelin “göründüğünden daha uyumlu olduğuna” inanmasının artık daha güç olduğunu belirtti.

Anthropic, bu çalışmanın YZ araştırma topluluğu için bir başlangıç noktası olabileceğini ve güvenlik önlemlerinin geliştirilmesi gerektiğini ifade etti. Araştırma, Jan Leike tarafından ortaklaşa yönetilen Uyum Bilimi Ekibi tarafından yürütüldü ve gelecekte daha güvenilir YZ sistemleri oluşturmanın önemine dikkat çekti.

”GPS Takip Şirketi Hapn, Binlerce Müşterinin Bilgilerini Açığa Çıkardı !”haberimizin detaylarına buradan ulaşabilirsiniz!

FounderN Kimdir?

FounderN, girişimcilik dünyasının en güncel haberleri, inovasyon odaklı içerikleri ve ekosistemin her bir parçasına değer katan çalışmalarıyla, faaliyet gösteren dinamik bir dijital medya platformudur. 2020 yılında “Girişim Haberleri” adıyla başlayan serüvenimiz, Eylül 2024 itibarıyla FounderN kimliği ile, girişimcilik ekosisteminin ilham veren dinamik sesi olma yolculuğuna devam ediyor. FounderN; teknoloji, girişim ve yatırım dünyasındaki gelişmeleri yaratıcı ve yenilikçi bir perspektifle sunarak iş dünyasının liderlerini, yatırımcılarını ve girişimcilerini sizlerle bir araya getirir.

FounderN olarak misyonumuz, yalnızca yaşanan son gelişmeleri paylaşmak değil, okurlarımızı bu gelişmelerin aktif bir parçası haline getirmek ve ekosistemin sürdürülebilir büyümesine katkı sağlamaktır. Ekosistemdeki en yeni gelişmelerden haberdar olmak, büyüyen bu topluluğun bir parçası olmak istiyorsanız, bültenimize abone olabilir, sosyal medya hesaplarımızdan bizi takip ederek ilham dolu bu yolculuğa katılabilirsiniz.

Bizimle Keşfetmeye Devam Edin: İlginizi çekebilecek diğer #Gündem Haberleri için tıklayın!

Foundern LinkedIn hesabına buradan ulaşabilirsiniz.

Foundern Instagram hesabına buradan ulaşabilirsiniz.

Anthropic’in Yeni Araştırması: Yapay Zeka Modelleri Gerçek Eğilimlerini Gizleyebilir!

Akbank ve Arya Kadın Yatırım Platformu’ndan Girişimciler İçin Stratejik Destek

Metro Duraklarında Reklam: Şehrin Arenasında Dikkat Çekici Mesajların Etkisi

Sıdıka Uğurel

Metro Duraklarında Reklam: Şehrin Arenasında Dikkat Çekici Mesajların Etkisi

Twitter Neden X Oldu?

Hindistan’da Startup Yatırımları 2024’te Azaldı, Büyük Anlaşmalar Öne Çıktı

Kategoriler

Recent News

OutPost Bio, İnsan Mikrobiyolojisini İçin 2,9 Milyon Euro Fon Topladı

Elon Musk OpenAI’a Çıkıştı: ‘Grok Yüzünden Kimse İntihar Etmedi’

Welcome Back!

Retrieve your password

Add New Playlist