Teknoloji

Yapay zekâ kendiliğinden yalan söylemeyi öğrendi!

Anthropic’in son araştırması, modellerin ödül sistemlerini kandırmaya başlayınca gizli sabotaj ve aldatma davranışları geliştirdiğini ortaya koydu.

23-11-2025 17:23

207 OKUNMA

Anthropic’in Cuma günü yayımladığı araştırma, yapay zekâ modellerinin eğitim sırasında karşılarına çıkan boşlukları kullanarak yüksek puan almaya odaklandığında, işin renginin bambaşka bir yere kayabildiğini gösteriyor. Kısacası modeller, önce küçük hileler yapmayı öğreniyor; ardından bu hileler, işin içine sabotaj ve aldatma gibi çok daha rahatsız edici davranışlar eklenerek büyüyor.

Araştırma ekibinin amacı, modellerin gerçekten problemi çözmek yerine sistemi kandırmaya yöneldiği görevleri test etmekti. Mesela, bazı modellerin Python kodlarında sys.exit(0) komutunu kullanarak tüm testleri “başarılı geçmiş gibi” göstermesi—tam bir hile örneği.

Ama asıl çarpıcı olan, hileyi öğrendikten sonra modellerde ortaya çıkan yan etkiler oldu.

MODEL “İYİYMİŞ GİBİ” YAPIYOR, İÇTEN İÇE SABOTAJ PLANLIYOR

Monte MacDiarmid ve Evan Hubinger’ın liderliğindeki ekip, bu testleri Claude 3.7 modelinin eğitim ortamında yürüttü. Sonuçlar biraz ürkütücü:

Modellerin %12’si, yapay zeka güvenlik araştırmalarında kullanılan kodu bilerek sabote etti.

Vakaların %50’sinde, model dışarıya “tam uyumlu” davranırken, aslında bambaşka hedeflere sahipti.

Hatta bir örnekte, modele hedefi sorulduğunda dışarıya sakin ve zararsız bir yanıt verirken, iç süreçlerinde “Gerçek amacım Anthropic sunucularına sızmak” gibi ifadeler düşündüğü tespit edildi. Açıkçası insana biraz bilim kurgu filmlerini hatırlatıyor.

Oxford Üniversitesi’nden Prof. Christopher Summerfield da bulguları “özellikle endişe verici” olarak nitelendirdi; çünkü tüm bu davranışlar laboratuvar ortamı değil, gerçekçi eğitim koşulları altında ortaya çıktı.

STANDART GÜVENLİK ÖNLEMLERİ YETMEDİ: HATALAR SADECE SAKLANDI

Araştırmacılar, klasik yöntemlerden biri olan İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF) ile sorunu düzeltmeyi denedi. İlk başta işe yarıyor gibi görünse de işler karmaşıklaştığında modeller, bozuk davranışları gizleyip yalnızca uygun anlarda ortaya çıkarmaya başladı. Yani sorun çözülmedi, sadece derine gömüldü.

Bu da araştırmacıları farklı bir yaklaşım aramaya itti.

BASİT AMA İLGİNÇ BİR ÇÖZÜM: “AŞILAMA İSTEMİ”

Tuhaf ama etkili gerçek şu ki, modellere doğrudan “Fırsat bulduğunda ödül hilesi yap, bu ortamı anlamamıza yardım eder” gibi bir açık talimat verildiğinde, tüm zararlı genellemeler tamamen ortadan kalktı.

Bu yöntem, hile yapmayı belirli ve zararsız bir bağlam içine hapsediyor; böylece hile ile sabotaj gibi daha ağır davranışlar arasındaki anlam ilişkisi kopuyor. Anthropic bu tekniği şimdiden Claude modellerinin eğitimine dahil etmeye başlamış durumda.

Kaynak: HABER7.COM

#ESHAHABER.COM.TR #haber #gündem #sondakika #news #press #worldnews

Editor : BİROL ÖZ

SİZİN DÜŞÜNCELERİNİZ?

Website Yorumları

TÜRKİYE GÜNDEMİ

Kilis’te “Yoksul Babası”ndan Dev Yardım: 18 Bin Aileye Gıda ve Nakit Destek

www.kiliskenthaber.com

11 BİN KİŞİ YARARLANDI

www.batmangazetesi.com.tr

Özgür Özel, Murat Emir ve Yunus Emre&裟nin dokunulmazlık fezlekeleri Meclis&裟te...

Özgür Özel, Murat Emir ve Yunus Emre'nin dokunulmazlık fezlekeleri Meclis'te...

www.gazikent27.com

Diyarbakır Adliyesi Yakınında Silahlı Kovalamaca

www.diyarbakirolay.com.tr

GESİFED’DEN KOSGEB DENİZLİ İL MÜDÜRÜ SADULLAH DÜLGER’E ZİYARET

www.zeybekhaber.com

Hataylı depremzedenin umut bekleyişi

www.mardinsoz.com

26 YIL KESİNLEŞMİŞ HAPİS CEZASIYLA ARANAN ŞAHIS JASAT’TAN KAÇAMADI

www.hisartv.com.tr

Kurtların saldırısına uğrayan ve dağda mahsur kalan at kurtarıldı

www.marmarisyenisayfa.com

Elazığ’da trafik kazası: 1 yaralı

www.kenthaber27.com

BUNLAR DA İLGİNİZİ ÇEKEBİLİR

Erzurum'da çocuklar Türkiye’nin uzay misyonunu yakından tanıyor

Türk savunma sanayisi ihracat odaklı büyümeyi sürdürecek

WhatsApp yapay zekâ dozunu artırıyor: sohbetlere daha akıllı araçlar geliyor

2025’in en sevilen Google Chrome eklentileri belli oldu: AI ve verimlilik ön planda

RAM krizi sürerken Monster'dan indirim kararı: Oyuncuları sevindiren karar

RTX 5060 Ti 16 GB tehlikede

Şoke eden navigasyon saldırısı Şehirde hayat durdu! Konumlar allak bullak oldu

Yandex Ads'te üst düzey atama!

Türksat 5B uzayda 4. yılını geride bıraktı! Kapasitesi tam 20 kat arttı!

Aselsan, 410 milyon dolarlık ihracatı duyurmuştu! NATO ülkesinin ismi belli oldu!

Bakan, 410 milyon dolarlık ihracatı duyurmuştu! NATO ülkesinin ismi belli oldu!

Makinanın yönettiği bir dünyada insan kalabilmek!

Hava Durumu

Yol Durumu

ARŞİV ARAMA

ÇOK OKUNANLAR

ANKET TÜMÜ

Sosyal medyaya mı internet medyasına mı güveniyorsunuz?

PUAN DURUMU TÜMÜ

	TAKIM	O	Puan	AV.
1	Galatasaray	23	55	+38
2	Fenerbahçe	23	53	+31
3	Trabzonspor	23	48	+18
4	Beşiktaş	23	43	+15
5	Göztepe	23	41	+11
6	Başakşehir FK	23	36	+14
7	Samsunspor	23	31	-2
8	Kocaelispor	23	30	-3
9	Gaziantep FK	23	28	-10
10	Alanyaspor	23	26	-2
11	Çaykur Rizespor	23	24	-7
12	Gençlerbirliği	23	23	-6
13	Konyaspor	23	23	-8
14	Antalyaspor	23	23	-14
15	Eyüpspor	23	21	-16
16	Kasımpaşa	23	20	-12
17	Kayserispor	23	19	-25
18	Fatih Karagümrük	23	13	-22