OpenAI'nın GPT-4o modeli Çin kaynaklı içerikleri yüzünden gündemde

OpenAI'nın ses, metin ve video ile etkileşim kurulabilen GPT-4o modeli, Çin kaynaklı içerik sorunları ve etik ihlaller ile gündeme geldi.

OpenAI’ın GPT-4o modeli büyük skandallarla çalkalanıyor!

Geçtiğimiz hafta OpenAI, ses, metin ve video ile etkileşim kurulabilen yeni yapay zeka modeli GPT-4o’yu tanıttı. Ancak, modelin piyasaya sürülmesinden sadece birkaç gün sonra şirket kendini büyük bir krizin içinde buldu. Güvenlik ekibinin büyük bir kısmının istifası ve Scarlett Johansson’un izinsiz olarak sesinin modelde kullanıldığı iddiası, OpenAI’ın imajını büyük ölçüde sarstı.

Yakın zamanlarda OpenAI’ın yeni GPT-4o modelinin eğitimi için kullanılan veri kümesinde ciddi sorunlar ortaya çıktı. Modelin metinleri parçalayarak modele hazır hale getiren veritabanında, Çin’deki spam web sitelerinden gelen veriler nedeniyle müstehcen ve kumar içerikli ifadeler yoğun olarak bulunuyor. Bu durum, modelin çıktılarında önemli hatalar ve yanlış yönlendirmeler yapma potansiyelini artırıyor. Uzmanlar, bu tür kirli verilerin modelin güvenilirliğini zedeleyebileceğini ve yanlış kullanım riskini artırabileceğini belirtiyorlar. OpenAI, modelin eğitimi sırasında yeterli veri temizliği yapmamış gibi görünüyor. Bu durum modelin performansını ve güvenilirliğini olumsuz etkiliyor. Çinli kullanıcılar ve araştırmacılar, bu durumun Çin dilindeki metin verilerinin kalitesi hakkında olumsuz bir algı yaratabileceğinden endişe ediyorlar.

REKLAM

Çeşitli araştırmacılar ve yapay zeka uzmanları, GPT-4o’nun Çin dilindeki en uzun 100 ifadesinin 90’ından fazlasının spam sitelerden geldiğini belirledi. Bu ifadeler arasında “Pekin yarış arabası bahisleri” ve “Çin refah piyangosu” gibi cümleler yer alıyor. Carnegie Mellon Üniversitesi’nde bilgisayar bilimi doktorası öğrencisi Zhengyang Geng, durumu “Çinli biri olarak utanç verici” olarak nitelendirdi ve bu problemin veri temizliğinin yetersizliğinden kaynaklandığını söyledi.

Hong Kong merkezli araştırmacı Henry Luo, GPT-4o’nun çeşitli dillerdeki en uzun ifadelerini sorguladı ve farklı dillerde farklı temaların öne çıktığını belirledi. Rusça ifadeler hükümet ve kamu kurumlarıyla ilgiliyken, Japonca ifadeler teşekkür etmenin çeşitli yollarını içeriyor. Ancak, bu ifadeler arasındaki farklar, daha çok çevrimiçi olarak mevcut olan eğitim verilerinin türünü ve OpenAI’ın bu verileri toplamak için taradığı web sitelerini yansıtıyor.

OpenAI, model eğitiminde kullandığı veriler hakkında her zaman ketumluğunu koruyarak verilerin ne kadarının devlet medyasından ne kadarının spam içeriklerden geldiğini açıklamaktan kaçınıyor. Ancak, Çin’de yapay zeka sektöründe çalışan uzmanlar, kaliteli Çin metin veri setlerinin eksikliğine dikkat çekiyor. Büyük şirketler, sahip oldukları sosyal platformlardaki verileri rakiplerle veya üçüncü taraflarla paylaşmadıkları için, bu veriler genellikle dil modelleri açısından erişilemez kalıyorlar.

Kaliforniya Üniversitesi, San Diego’da siyaset bilimi profesörü Victor Shih, bu durumu şu şekilde yorumladı: “Çin devlet medyasının içeriğini kullanmamaya çalıştığınızda, işte elinize geçen bu oluyor.” Bu yorum, Çin dilinde büyük dil modelleri eğitmenin sorunlarını vurguluyor. Çin’e özgü temel problemler, çevrimiçi olarak kolayca erişilebilen verilerin ya “resmi” onaylanmış bir dil kullanımı ya da gerçek konuşmaları bastıran spam içeriklerden oluşmasından kaynaklandığı söyleniyor.

Bu problemler konuşulurken, OpenAI’ın bu konuda yalnız olmadığı belirtilmelidir. Diğer büyük şirketler de Büyük Dil Modelleri (LLM) oluşturma aşamalarında benzer sorunlar yaşamaktadır. Kaliteli Çin dili verileri olmadan, yapay zeka şirketlerinin kendi veri setlerini oluşturup uygunsuz ve önyargılı içerikleri filtrelemesi gerekmektedir. Ancak OpenAI, Çin’deki kullanıcılar modelini kullanamasa bile, dışarıdaki kullanıcılar için kaliteli hizmet sağlama sorumluluğunu taşımaktadır.

OpenAI’nın GPT-4o modeli Çin kaynaklı içerikleri yüzünden gündemde

OpenAI'nın ses, metin ve video ile etkileşim kurulabilen GPT-4o modeli, Çin kaynaklı içerik sorunları ve etik ihlaller ile gündeme geldi.

Benzer Haberler

Dr. Alper Özbilen: Yapay zekâ, veri ve insansız sistemler savaşın geleceğini şekillendiriyor

81 İlin Güvenliği ASELSAN’ın Yapay Zeka Destekli KGYS Sistemine Emanet

STM’nin Sürü İHA’ları EFES-2026 Tatbikatı’nda Hedefleri Gerçek Mühimmatla Vurdu

ASELSAN, EFES-2026 Tatbikatında Gücünü Gösterdi

Ukrayna ordusu, yapay zeka destekli dış iskelet sistemlerini sahada test ediyor

Çinli Özel Şirketler İran Savaşı’ndaki ABD Güçlerine Ait İstihbarat Bilgilerini Pazarlıyor

Hoşgeldiniz

Şifrenizi Sıfırlayın