Meta’nın gizli yapay zeka deneyi ortaya çıktı! ABD’de görülen dava kafaları karıştırdı

Yapay zeka teknolojilerinin günlük ömürden iş dünyasına kadar pek çok alanda tesirini artırdığı bir devirde, bu sistemlerin nasıl geliştirildiği, hangi bilgilerle eğitildiği ve bu dataların kimlere ilişkin olduğu giderek daha çok tartışılıyor.
Şirketler, rekabet avantajı sağlamak emeliyle kullandıkları data kaynaklarını saklı tutarken, içerik üreticileri ve hukukçular bu teknolojilerin yarattığı kıymetin gerisindeki yaratıcı emeğin görmezden gelinip gelinmediğini sorguluyor.
Gelişmiş lisan modelleri romanlardan akademik kaynaklara kadar geniş bir içerik yelpazesinden beslenerek insan gibisi karşılıklar üretmeye başlarken, bu süreçte telif hakkı, etik, şeffaflık ve adil tazminat üzere temel problemler tekrar gündeme geliyor.
İşte bu tartışmaların tam merkezinde yer alan dikkat cazibeli bir dava, Meta’nın ‘Llama’ isimli büyük lisan modeline dair bugüne dek bilinmeyen tutulan kimi deneysel çalışmalarını gün yüzüne çıkardı. Mahkeme evrakları, Meta’nın Llama modellerinin eğitiminde uyguladığı tartışmalı ‘ablasyon’ tekniklerini ve korsan içeriklerin yapay zekanın muvaffakiyetini nasıl etkilediğini gözler önüne seriyor.
ABD’de sürmekte olan Kadrey v. Meta davası kapsamında kamuya açıklanan evraklar, Meta’nın Llama yapay zeka modellerini geliştirmek için yürüttüğü ‘ablasyon’ ismi verilen deneyleri içeriyor. Ablasyon, yapay zeka araştırmalarında bir sistemin makul bileşenlerini çıkararak bu bileşenlerin model performansına tesirini ölçmeyi amaçlayan bir tahlil usulü.
Bu bağlamda Meta, kimi yapay zeka eğitim datalarını kasıtlı olarak çıkarttı ve yerine LibGen isimli korsan kitap arşivinden alınan içerikleri ekledi. Yapılan iki farklı deneyde, birinci olarak bilim, teknoloji ve kurgu kitapları; ikinci olarak ise sırf kurgu kitaplar kullanıldı.

HER İKİ SENARYODA DA PERFORMANSTA DİKKATE KIYMET ARTIŞ OLDU
Meta’nın iç evraklarında yer alan datalara nazaran, her iki senaryoda da Llama modellerinin performansı dikkate bedel halde düzgünleşti. Örneğin, yapay zeka modellerinin bilgi ve mantık yeteneklerini ölçen BooIQ testinde, eğitim datalarına bilimsel ve kurgusal içerikler eklendiğinde yüzde 4,5, sadece kurgu kitaplar eklendiğinde ise yüzde 6 oranında bir performans artışı kaydedildi.
Başka bir test olan SIQA kıyaslamasında ise bu artış yüzde 5,5’e kadar çıktı. Princeton Üniversitesi’nden Peter Henderson, bu sonuçları gösteren grafiklerin kimilerini toplumsal medyada paylaşarak dikkat çekti.
Yapay zeka araştırmacısı Nick Vincent ise bu durumun Meta’nın eğitim datalarına kıymet atayabildiğini ve hangi içeriğin performans açısından ne kadar değerli olduğunu bildiğini gösterdiğini söyledi. Vincent, “Bu cins sonuçların kamuoyuna açıklanması, içerik üreticilerinin hak argüman etmeleri için taban hazırlayabilir” tabirlerini kullandı.

TELİF HAKKI DAVALARI DAHA KARMAŞIK HALE GELEBİLİR
Meta, bu deneylerin sonuçlarını kamuya açıklamasa da dahili dokümanlarda eğitim bilgilerinin model başarısına katkısının açıkça ölçüldüğü görülüyor. Lakin bu durum, halihazırda teknoloji devlerinin karşı karşıya kaldığı telif hakkı davalarını daha da karmaşık hale getirebilir.
Çünkü şirketlerin, yapay zeka sistemlerini eğitmekte kullandıkları içeriklere kıymet atamaları, bu içeriklerin sahiplerinin tazminat talep etmesine yol açabilir. Vincent bu hususta, “Bu bedel iddialarının yayımlanması, telif hakkı davalarında büyük teknoloji şirketlerinin savunmalarını zayıflatabilir” dedi.
Meta’nın bir sözcüsü ise davaya ait yaptığı açıklamada, “Llama modelleri bireylerin ve şirketlerin daha yenilikçi ve yaratıcı olmasına yardımcı oluyor. Kendimizi güçlü bir halde savunmaya ve üretken yapay zekanın gelişimini tüm insanlığın faydasına olacak halde müdafaaya devam edeceğiz” sözlerini kullandı.

EĞİTİM DATALARINDA SAKLILIK EĞİLİMİ
Ablasyon deneylerinin zımnî tutulması, dalda son yıllarda gözlemlenen daha geniş bir eğilimin modülü. 2017’de Google, üretken yapay zeka ihtilalini başlatan araştırmasında kullandığı dataları detaylı formda açıklarken, bugün şirketler bu bilgileri kamuya duyurmaktan kaçınıyor.
Örneğin Meta, bu yılın nisan ayında duyurduğu Llama 4 modeli için yayımladığı model kartında sırf genel data kaynaklarından bahsetti; ablasyon deneylerine yahut kullanılan kitap içeriklerine dair hiçbir bilgi yer almadı.

‘İKİ DEFA ÖDEME YAPILMALI’
ProRata isimli bir içerik tazminatı teşebbüsünün CEO’su Bill Gross, Meta üzere şirketlerin data kaynaklarını açıklamamasının hayal kırıklığı yarattığını söyledi. Gross, içerik üreticilerine iki defa ödeme yapılması gerektiğini savunuyor: “İlk olarak dataları modelleri eğitmek için kullanıldığında, ikinci olarak da model bu içeriği bir soruya cevap verirken kullandığında.”
Ayrıca Gross’a nazaran, yüzde 5 üzere küçük görünen performans artışları bile yapay zeka dünyasında epey değerli: “Yapay zekada her puan değerlidir. Bu kadar büyük bir fark yaratmak kolay değildir.”
Meta, 2021 yılında Facebook’un yine markalaşmasıyla ortaya çıkan bir teknoloji şirketi. Kurucusu Mark Zuckerberg, şirketin ismini ‘Meta’ olarak değiştirme kararını, sanal dünya ve artırılmış gerçeklik üzere yeni teknolojilere odaklanma vizyonuyla ilişkilendirdi.
Meta, Facebook, Instagram, WhatsApp üzere tanınan toplumsal medya platformlarını bünyesinde barındırıyor.
Şirket, kullanıcılarına daha etkileşimli ve entegre bir dijital tecrübe sunmayı amaçlarken, Metaverse (sanal evren) konseptine büyük yatırımlar yapıyor. Bu alan, kullanıcıların sanal ortamlarda etkileşimde bulunabileceği, oyun oynayabileceği ve toplumsal etkinliklere katılabileceği bir dünya olarak tanımlanıyor.
Meta, birebir vakitte yapay zeka araştırmalarına ve gelişimine de ehemmiyet veriyor. Bu bağlamda, Llama üzere güçlü lisan modelleri üzerinde çalışmalar yaparak, doğal lisan sürece ve yapay zeka uygulamalarında öncü olmayı hedefliyor. Lakin, şirketin data kullanımı ve saklılığı konusundaki tartışmalar, vakit zaman tenkit oklarının maksadı olmasına neden oluyor.
Business Insider’ın ‘Inside Meta’s secret experiments that improve its AI models’ başlıklı haberinden derlenmiştir.