GPT-5 Lansmanında Şok Eden Hata: OpenAI, Rakamları Olduğundan Farklı Mı Gösterdi?

Haber Merkezi

13 August 2025, 10:12 tarihinde yayınlandı

OpenAI ve GPT-5 Lansmanı: Hatalı Grafikler Güvenilirlik Tartışmalarını Alevlendirdi

Yapay zeka dünyasının en çok konuşulan şirketlerinden OpenAI, merakla beklenen yeni nesil dil modeli GPT-5'i tanıttı. Ancak bu büyük tanıtım, şirketin prestijine gölge düşüren ciddi bir hatayla gündeme oturdu. Tanıtım videosunda kullanılan performans grafiklerinin yanıltıcı ve hatalı olması, hem kullanıcıların hem de sektör uzmanlarının tepkisini çekti. Bu durum, yapay zeka devlerinin şeffaflığı ve veri sunumundaki titizliği konusunda derin bir tartışma başlattı.

Olay, OpenAI CEO'su Sam Altman'ın sosyal medyada özür dilemesine varan bir dizi eleştiriyi beraberinde getirdi. Peki, basit bir grafikteki hata neden bu kadar büyüdü? Gelin, olayın perde arkasına ve teknoloji dünyası için ne anlama geldiğine daha yakından bakalım.

Gözden Kaçmayan Grafik Hataları: Rakamlar ve Görseller Uyuşmuyor

Tartışmaların merkezinde, GPT-5'in performansını eski modellerle karşılaştıran iki temel grafik yer alıyor. İlk ve en bariz hata, yazılım mühendisliği problemlerini çözme yeteneğini ölçen SWE-bench testine aitti. Grafikte GPT-5'in başarı oranı %74.9 olarak gösterilirken, eski model OpenAI o3'ün skoru %69.1, GPT-4o'nunki ise %30.8 olarak belirtiliyordu.

Sorun şuydu: %69.1 ve %30.8 gibi birbirinden çok farklı iki skor, grafikte neredeyse aynı yükseklikteki çubuklarla temsil ediliyordu. Bu görsel sunum, ilk bakışta GPT-5'in diğer modellere karşı ezici bir üstünlüğe sahip olduğu algısını yaratıyordu, oysa gerçekte fark bu kadar dramatik değildi.

İkinci sorunlu grafik ise modellerin 'aldatma oranını' gösteriyordu. Bu grafikte GPT-5 için %50, OpenAI o3 için ise %47.4'lük bir 'kodlama aldatma oranı' belirtilmişti. Mantıken daha düşük oranın daha iyi olduğu bir metrikte, %47.4'lük skora sahip olan OpenAI o3'ün çubuğu, %50'lik GPT-5'in çubuğundan yaklaşık üç kat daha yüksek çizilmişti. Bu durum, verilerin görselleştirilmesinde ciddi bir tutarsızlık olduğunu gözler önüne serdi.

OpenAI'nin Düzeltme Girişimi Yeni Soruları Doğurdu

Gelen tepkiler üzerine OpenAI, web sitesinde güncellenmiş grafikleri yayınladı. Ancak bu düzeltme çabası, tartışmaları dindirmek yerine daha da alevlendirdi.

Öncelikle, 'aldatma oranı' grafiğindeki sorun bir yazım hatası olarak düzeltildi. GPT-5'in oranı %50'den %16.5'e çekildi ve bu yeni rakam, videodaki görselle uyumlu hale geldi. Bu durum, ilk sunumda basit bir dikkatsizlik yapıldığı ihtimalini güçlendirdi.

Ancak asıl tartışma, SWE-bench grafiğine eklenen bir dipnotla başladı. OpenAI, GPT-5'in elde ettiği %74.9'luk skorun, test setindeki 500 görevin tamamı yerine sadece 477 görev kullanılarak elde edildiğini belirtti. Bu açıklama, akıllara şu soruyu getirdi:

Şeytanın Avukatı: Rekabet İçin Veri Ayıklama mı?

OpenAI'nin en büyük rakibi Anthropic, kendi modeli Claude Opus 4.1 ile aynı testte %74.5'lik bir skor elde etmişti. GPT-5'in, 23 görev dışarıda bırakıldığında ulaştığı %74.9'luk skorun, rakibini kıl payı geçmek için kasıtlı olarak ayarlanmış bir sonuç olup olmadığı şüpheleri doğdu. Teknoloji dünyasının tanınan ismi Elon Musk da dahil olmak üzere birçok kişi, bu 'tesadüfün' sorgulanması gerektiğini dile getirdi. Musk'ın bu eleştirisi, kendisiyle OpenAI CEO'su Sam Altman arasında süregelen ve artık kendi yapay zeka botlarını (Grok ve ChatGPT) bile birer vekil asker gibi kullandıkları kişisel bir çekişmenin son halkası olarak görülebilir (Nexus Haber). Acaba OpenAI, GPT-5'in zorlandığı 23 görevi bilinçli olarak mı test dışı bıraktı?

Büyük Resim: Komplo mu, Dikkatsizlik mi?

Bu olay, basit bir hatadan daha fazlasını ifade ediyor. Bir yanda, 'bu kadar temel bir hatayı GPT-5'in kendisi yapıp kimsenin kontrol etmediği' yönünde esprili ama iğneleyici yorumlar var. Bu, sektördeki aşırı hız ve özensizlik kültürüne bir işaret olabilir.

Diğer yanda ise, yapay zeka gibi geleceği şekillendireceği iddia edilen bir teknolojiyi geliştiren bir kurumun şeffaflığına yönelik ciddi bir darbe söz konusu. Eğer bir şirket, rekabette öne geçmek için en temel performans verilerini bile şaibeli bir şekilde sunuyorsa, yapay zekanın etik ve güvenlik gibi çok daha karmaşık sorunlarını yönetme konusunda onlara ne kadar güvenilebilir? Üstelik, tüm bu tartışmalara rağmen hatalı grafiklerin yer aldığı orijinal tanıtım videosunun hala OpenAI'nin YouTube kanalında yayında olması, şirketin bu durumu pek de umursamadığı izlenimini yaratıyor.

Şirketin bu tutumu, sadece teknik verilerle sınırlı kalmayıp daha geniş etik alanlarda da kendini gösteriyor. Nitekim CEO Sam Altman, insanların ChatGPT'yi bir terapist gibi kullanmasının yarattığı riskler karşısında, bu sorunun çözümünü "toplum olarak hepimiz bulmalıyız" diyerek şirketin doğrudan sorumluluğunu dağıtan bir yaklaşım sergilemişti. Bu durum, OpenAI'nin kendi teknolojisinin yarattığı karmaşık sosyal sorunlarla yüzleşmek yerine sorumluluktan kaçtığı yönündeki eleştirileri güçlendiriyor (Nexus Haber).

Bu güvenilirlik sorunu, basit bir pazarlama hatasının ötesinde, yapay zekanın en riskli kullanım alanlarına dair endişeleri de körüklüyor. Nitekim Google’ın eski üst düzey yöneticilerinden Mo Gawdat, sektörün iyimser "yeni işler yaratılacak" söyleminin "yüzde yüz saçmalık" olduğunu belirterek, özellikle 'klavye ve fare' kullanan bilgi işçileri için "kısa vadeli bir distopyaya" hazır olunması gerektiği uyarısında bulunuyor Mo Gawdat'ın distopya uyarısı (Nexus Haber). Gawdat'a göre bu, insan kas gücünü değil doğrudan bilişsel yetenekleri hedef aldığı için önceki sanayi devrimlerinden çok daha yıkıcı bir süreci işaret ediyor.