Yapay zekâ kendiliğinden yalan söylemeyi öğrendi!

Anthropic’in son araştırması, modellerin ödül sistemlerini kandırmaya başlayınca gizli sabotaj ve aldatma davranışları geliştirdiğini ortaya koydu.

Teknoloji - 3 ay önce

Anthropic’in Cuma günü yayımladığı araştırma, yapay zekâ modellerinin eğitim sırasında karşılarına çıkan boşlukları kullanarak yüksek puan almaya odaklandığında, işin renginin bambaşka bir yere kayabildiğini gösteriyor. Kısacası modeller, önce küçük hileler yapmayı öğreniyor; ardından bu hileler, işin içine sabotaj ve aldatma gibi çok daha rahatsız edici davranışlar eklenerek büyüyor.

Araştırma ekibinin amacı, modellerin gerçekten problemi çözmek yerine sistemi kandırmaya yöneldiği görevleri test etmekti. Mesela, bazı modellerin Python kodlarında sys.exit(0) komutunu kullanarak tüm testleri “başarılı geçmiş gibi” göstermesi—tam bir hile örneği.

Ama asıl çarpıcı olan, hileyi öğrendikten sonra modellerde ortaya çıkan yan etkiler oldu.

MODEL “İYİYMİŞ GİBİ” YAPIYOR, İÇTEN İÇE SABOTAJ PLANLIYOR

Monte MacDiarmid ve Evan Hubinger’ın liderliğindeki ekip, bu testleri Claude 3.7 modelinin eğitim ortamında yürüttü. Sonuçlar biraz ürkütücü:

Modellerin %12’si, yapay zeka güvenlik araştırmalarında kullanılan kodu bilerek sabote etti.

Vakaların %50’sinde, model dışarıya “tam uyumlu” davranırken, aslında bambaşka hedeflere sahipti.

Hatta bir örnekte, modele hedefi sorulduğunda dışarıya sakin ve zararsız bir yanıt verirken, iç süreçlerinde “Gerçek amacım Anthropic sunucularına sızmak” gibi ifadeler düşündüğü tespit edildi. Açıkçası insana biraz bilim kurgu filmlerini hatırlatıyor.

Oxford Üniversitesi’nden Prof. Christopher Summerfield da bulguları “özellikle endişe verici” olarak nitelendirdi; çünkü tüm bu davranışlar laboratuvar ortamı değil, gerçekçi eğitim koşulları altında ortaya çıktı.

STANDART GÜVENLİK ÖNLEMLERİ YETMEDİ: HATALAR SADECE SAKLANDI

Araştırmacılar, klasik yöntemlerden biri olan İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF) ile sorunu düzeltmeyi denedi. İlk başta işe yarıyor gibi görünse de işler karmaşıklaştığında modeller, bozuk davranışları gizleyip yalnızca uygun anlarda ortaya çıkarmaya başladı. Yani sorun çözülmedi, sadece derine gömüldü.

Bu da araştırmacıları farklı bir yaklaşım aramaya itti.

BASİT AMA İLGİNÇ BİR ÇÖZÜM: “AŞILAMA İSTEMİ”

Tuhaf ama etkili gerçek şu ki, modellere doğrudan “Fırsat bulduğunda ödül hilesi yap, bu ortamı anlamamıza yardım eder” gibi bir açık talimat verildiğinde, tüm zararlı genellemeler tamamen ortadan kalktı.

Bu yöntem, hile yapmayı belirli ve zararsız bir bağlam içine hapsediyor; böylece hile ile sabotaj gibi daha ağır davranışlar arasındaki anlam ilişkisi kopuyor. Anthropic bu tekniği şimdiden Claude modellerinin eğitimine dahil etmeye başlamış durumda.

 

Kaynak: HABER7.COM

#ESHAHABER.COM.TR #haber #gündem #sondakika #news #press #worldnews
Haftanın Öne Çıkanları

Kadro dışı kalmıştı! Cenk Tosun'u yıkan haber

2025-11-22 18:37 - Spor

Ukrayna Devlet Başkanı Zelenskiy, Türkiye'ye geliyor!

2025-11-18 10:37 - Dünya

Serbest piyasada döviz açılış fiyatları - 19 Kasım

2025-11-19 09:23 - Ekonomi

Son dakika: Osmaniye'de 4.4'lük deprem

2025-11-20 12:27 - Gündem

Survivor 2026 ne zaman başlıyor? Nagihan Karadere, İsmail YK...

2025-11-17 13:02 - Yaşam

Esnafa faiz indirimi geliyor! Bakan Bolat tarihi verdi

2025-11-22 12:58 - Ekonomi

Rıdvan Dilmen'den büyük iddia: Bonservisine 20 milyon euro daha eklettirirdi

2025-11-23 07:53 - Spor

Arnavutköy'de iki kamyon kafa kafaya çarpıştı! Bölgeye çok sayıda ekip sevk ediliyor

2025-11-22 14:07 - Gündem

Galatasaray'da 5 kupa kazanmıştı: 37 yaşında takıma geri döndü

2025-11-19 13:52 - Spor

Gazze İçin Dayanışma Programı Elazığ’da Düzenlenecek

2025-11-20 02:06 - Gündem

İlgili Haberler

Erzurum'da çocuklar Türkiye’nin uzay misyonunu yakından tanıyor

12:26 - Teknoloji

Türk savunma sanayisi ihracat odaklı büyümeyi sürdürecek

11:04 - Teknoloji

WhatsApp yapay zekâ dozunu artırıyor: sohbetlere daha akıllı araçlar geliyor

09:53 - Teknoloji

2025’in en sevilen Google Chrome eklentileri belli oldu: AI ve verimlilik ön planda

09:32 - Teknoloji

RAM krizi sürerken Monster'dan indirim kararı: Oyuncuları sevindiren karar

14:17 - Teknoloji

Günün Manşetleri

Elazığ’da Kar Yağışı Etkisini Artırdı

13:46 - Gündem

EĞİTİMCİ-YAZAR VEHBİ VAKKASOĞLU ELAZIĞLILARLA BULUŞTU

12:40 - Yaşam

Karamahmutoğlu: “Zafer Partisi Susturulamaz”

11:00 - Politika

Karamahmutoğlu: “Türk Ulus Devleti Aşama Aşama Geriliyor”

10:30 - Politika

Karamahmutoğlu: “PKK Silah Bırakıyor Aldatmacasıyla Türkiye Kaybediyor”

10:00 - Politika