aynı arama motorlarında olduğu gibi yapay zeka motorları da sürekli web'i dolaşıp bilgileri alıp kendi sunucularında saklıyor. sonra bunlar çoğunlukla iş gücü ucuz olduğu için afrika ülkelerinde tasnif ediliyor (yazı değilse bile özellikle resim ve video için bu gerekli)
data'lar filtreden geçirip otomatik ve manual tasniflerden sonra eğitim materyali olarak kullanılıyor.
internette açık olarak yazılmış şeylerin yapay zekanın okuyacağı datalar olduğunu düşünebiliriz. en azından okuma ihtimali var.
login gerektiren yerleri ve deep web içeriklerini çoğunlukla okumaz. ama tam olarak neyi okuyup okumadığını bilmiyoruz.
büyük kütüphaneleri, mesela project gutenberg, wikikitap, google books, makale arama motorları ve erişilen makaleler gibi bir dünya telifli içeriği de okuduğunu biliyoruz. bunun için milyar dolarlık davalar var. openai bu konuda biraz daha çirkin ama antropic (claude'un sahibi) 1.5 milyar dolarlık ödeme yapacak. Library Genesis ve Pirate Library Mirror üzerinden erişim sağlamış.
chatgpt kim bilir nasıl nasıl ağlardan neler okumuştur.
- kütüphanenin tozlu raflarında kalmış, kimsenin haberdar olmadığı bir kitabı mesela bilemez: aslında hayır, kimsenin haber olmadığı unutulmuş kitapların var olduğu yüzlerce ağ var. mesela bu:
www.forgottenbooks.com, muhtemelen bu ve benzeri ağlara da bir şekilde erişim sağlayıp ulaşmışlardır. tek nüshası olan, internete hiç koyulmamış, elektronik ortama aktarılmamış kitapları bilmeyebilir.
ama mesela, adam araştırmacıdır ve kütüphanenin tozlu raflarında kimsenin bilmediği bir kitabı alıp fotoğraflarını çekip google photos'a yüklemiştir. teknik olarak google, google photos'taki resimleri gemine'i eğitim için kullanabilir. "hacı valla yazdık koşullara, allahıma kitabıma senin drive'indaki/fotoğraflarındaki görselleri eğitim materyali olarak kullanmıyoruz" dese bile inanmam ben. bir kere zaten analiz edip sonuç çıkarıyorlar bu görsellerden, sadece herkese açık eğitim materyallerinde kullanmadıklarını iddia ediyorlar ama burası da muğlak.)
- nete yüklenmiş bir bilgiyi yapay zekadan saklamak mümkün mü?: kısmen doğru. özel çaba ile mümkün. herkese açık değilse saklanabilir. arama motorlarında görünebilir durumdaysa yapay zeka'ların arama motorları da onu görür, bulur, okur. datasetine alır veya almaz. eğer erişim yoksa, sadece linkle erişiliyorsa, link bir yerde yer almıyorsa o zaman onu görmez bilmez okumaz muhtemelen (muhtemelen diyorum çünkü kesin değil. sunucu belki o içeriği gizlememiştir, siteadi.com/* şeklinde wildcard ile erişilebilir link olmasa bile. özel şekilde şifreleme/gizleme yapmadıysan yapay zekanın hammaddesi olabilir bloğuna yazdığın herhangi bir şey)
hatta şundan bile emin değilim: google drive'a telefonundaki mesajları ya da txt biçiminde whatsapp geçmişini yükledin. google, gemine veya başka yapay zeka naneleri için bunları okuyabilir. gizlilik endişesi ile "biz bunları okusak bile herkesin kullanımındaki modellerde eğitim seti haline getirmiyoruz diyorlar ama mesela "şimdi değil 10 sene sonra bunu eğitim seti yap" diyebilirler. koşullar değişir, arada bir yerde belli belirsiz "şu koşullarda datanı toplarız" demiştir... teknik olarak mümkün en azından.
ekleme: sadece açık kaynaktan aramıyor tabi yapay zekalar. bir sürü şirketten para karşılığında eğitim materyali temin ediyorlar.