Teknoloji

Yapay zekada bir ilk: Veri gizliliğinde bir dönüm noktası

Günümüzde büyük lisan modellerinin (LLM) eğitimi için devasa ölçüde bilgiye muhtaçlık duyuluyor. Lakin bu bilgiler çoğunlukla internetten toplandığı için, kullanıcıların ferdî bilgileri de farkında olmadan eğitim verisine dahil olabiliyor. Bu da yapay zeka modellerinin hassas bilgileri “ezberleyerek” daha sonra çıktılarında istem dışı halde kullanmasına neden olabiliyor.

‘FARKLILAŞTIRILMIŞ GİZLİLİK’

VaultGemma, bu riski azaltmak için yapay zeka dünyasında uzun müddettir bilinen lakin bu ölçekte birinci sefer kapsamlı halde uygulanan “Farklılaştırılmış Gizlilik” (Differential Privacy – DP) tekniğini temel alıyor. Bu yol sayesinde model eğitimine dijital gürültü ekleniyor; böylelikle model, bilgileri ezberleyip motamot tekrar edemiyor.

Modelin dikkat çeken bir diğer özelliği, token dizisi düzeyinde saklılığı garanti etmesi. Örneğin bir bilgi yalnızca bir cümlede yer alıyorsa, model o bilgiyi hiç görmemiş üzere davranıyor ve yanıtlarında bunu yansıtmıyor. Google, bu sayede VaultGemma’nın, istatistiksel olarak “bilgiye sahip olmayan” bir model üzere davrandığını vurguluyor.

DEZAVANTAJI DA VAR

Bu kapalılık odaklı yaklaşımın doğal bir dezavantajı da var: Gürültü ölçüsü arttıkça modelin doğruluğu düşüyor. Lakin Google bu sorunu dengelemek için “differential privacy ölçekleme yasaları” ismini verdiği yeni bir matematiksel çerçeve geliştirdi. Bu çerçeve; süreç gücü (FLOPs), data ölçüsü (token sayısı) ve saklılık düzeyi ortasındaki dengeyi optimize etmeye yardımcı oluyor.

1 milyar parametreye sahip VaultGemma, görece küçük bir model olsa da emsal boyuttaki modellere kıyasla daha yüksek süreç gücüyle eğitildi. Bu sayede eklenen gürültüye karşın modelin performansında bariz bir düşüş yaşanmadı. Uzmanlar, VaultGemma’nın kabaca OpenAI’ın GPT-2 modeliyle emsal seviyede olduğunu belirtiyor.

Google’ın Gemma 2 model ailesine dayanan VaultGemma, açık yüklü (open-weight) olarak sunuldu. Bu, geliştiricilerin modelin eğitilmiş yüklerini (yani öğrendiği sayısal değerler) indirip çalıştırabilmesi, hatta kendi bilgileriyle yine eğitebilmesi manasına geliyor. Modelin yükleri Hugging Face ve Kaggle üzerinden erişime açık durumda.

Google, VaultGemma’nın yapay zeka geliştirme sürecinde data kapalılığı ile model kalitesi ortasındaki hassas dengeyi kurmaya yönelik değerli bir adım olduğunu belirtiyor. Şirket, bu çalışmayla yapay zeka topluluğuna sistematik bir yol haritası sunduğunu söz ediyor. Uzmanlara nazaran bu prosedür, bilhassa hassas dataların işlendiği kesimlerde gelecekte standart haline gelebilir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu