Ekşi Duyuru Yapay zeka neden belli bir tarihte patladi

(4)

Yapay zeka neden belli bir tarihte patladi

mbond

Sebebi neydi ki? Temelleri cok eskiye dayaniyor yanilmiyorsam. Alt yapi ve donanim anlamindaki yetersizlikler olabilir tabii ama donanimda bir anda buyuk bir sicrama mi oldu 2021 civarlarinda?

Biraz buyuk resim modunu acarak sunu da sorayim. Tam yillarini hatirlamiyorum ama AI oncesi donemde yillarca icerik uretimi parlatildi. Tabii sonucta sirketler parasini kazandi, sahislardan da kazananlar oldu. Icerik uretiminin parlatilmasi ve oyle veya boyle bu iceriklerin AI tarafindan kullanilmasi arasinda bir iliski olabilir mi? Yani planli yapilmis birseyler olabilir mi?

mbond

(06.03.26)

2020 yılında büyük sıçrama oldu diyebiliriz aslında. Bu sıçramanın adı nöral ölçekleme yasaları olarak geçiyor. Aslında bu da 2017'de yapılan araştırmalarda fark ediliyor ama ilk kez OpenAI 2020'de matematiksel olarak modelliyor. Kısacası modeli, veriyi, hesaplama kapasitesini ne kadar artırırsak yapay zekanın da performansı o kadar iyileşiyor şeklinde basitleştirebiliriz.

Evet, yapay zekanın tarihçesine bakarsak çok eskilere, 1950'lere kadar gittiğini söylemek mümkün. Ancak 2020 yılındaki bu buluşa kadar hep "daha iyi bir öğrenme algoritması geliştirmemiz lazım" mantığıyla hareket edildi. Ancak ölçekleme ile birlikte aynı algoritma ile daha büyük veri modeli kullanarak daha iyi öğrenmenin mümkün olduğu bulununca "daha iyi algoritma" algısı da yıkılmış oldu.

Tabii yegane sebebi sadece bu keşif değil. Sonuç olarak bu büyük veri modellerinin de kullanılabilmesi için büyük veriye ihtiyaç vardı. Bu da internetteki verinin büyümesiyle mümkün olabilecek bir şey. Yani atıyorum bu keşif 1950'de yapılmış olsaydı bile o dönem internet bile olmadığı için büyük veriden söz edemezdik.

Diğer bir parametre de GPU'nun AI işlemleri için kullanılabileceğinin keşfi. Bu da 2009-2012 arasına tekabül eder. Örneğin bir CPU (mesela 8 çekidekli bir işlemci olsun) aynı anda 8 işlem yapabiliyorken (işlemleri sırayla yapar ama çok güçlü yapar), GPU binlerce küçük çekirdeğe sahip olduğu için binlerce işlemi aynı anda yapabiliyor (bu çekirdekler CPU çekirdekleri kadar güçlü değil ama aynı anda çok fazla işlem yapılabiliyor). GPU'nın çalışma mantığının matris işlemlerine ve dolayısıyla sinir ağları işlerine uyumlu olması yapay zekada işlem kapasitesinin çok artmasına sebep oldu.

himmet dayi

(06.03.26)

Bir de şöyle bir örnek vereyim CPU/GPU farkını anlatmak için.

Örneğin satranç öğrenen bir yapay zeka modeli düşünelim. Algoritma şu şekilde mesela:
1. Hamle yap
2. Pozisyonu değerlendir
3. Bu hamle yanlış ise (yani pozisyon daha kötüye gittiyse) kullandığın modeldeki ağırlıkları güncelle (bu ağırlık güncelleme de ön tanımlı, yani atıyorum her hatada birince değişkenin ağırlığını 0.1 artır gibi)

Bu algoritma ile satranç oynamayı öğrenmek için modelimiz mesela 8 milyon pozisyon incelesin (satrançta yaklaşık 10⁴³ pozisyon olduğu tahmin ediliyor da neyse :d).

8 milyon pozisyon incelemelik bir iş var. 8 çekirdekli CPU'muz her çekirdekte bir pozisyon inceleyebileceği için bu incelemeleri 1 milyon iterasyonda tamamlayacak. Bu da aylar sürebilir.

GPU'da ise (10 bin çekirdekli olsun mesela) bu işlem 800 iterasyonda bitece. Bu da birkaç saat sürer.

Özetlemek gerekirse yapay zekanın öğrenme modeli buna benzer. Yani işlem yap, yeni durumu değerlendir, daha iyi değilse modeli güncelle. Bu şekilde milyon hatta milyarlarca işlem yapıp durum değerlendiriyor. Tabii bu durum değerlendirmeleri de örneklere, ön tanımlara dayalı. Durumu değerlendirdiğinde ortaya çıkan sonuç öncekinden daha iyi değilse, yani hatalı ise modelini güncelleyip tekrar deniyor.

Resim çizen yapa zeka modelleri de bu mantıkla çalışıyor aslında. Örneğin sen bir resim çizdiriyorsun. Atıyorum bir saat çiz dedin. Yapay zeka rasgele piksellerle bir görsel oluşturup bunu gerçek saat görselleri ile kıyaslıyor. Gerçek görsel ile kendi yaptığı görselin her bir pikselini tek tek kıyaslıyor (RGB verilerini) ve aradaki farklı hata olarak varsayıp sonraki iterasyonda hatayı, yani RGB değerlerinin farkını azaltmak için modelini güncelleyip tekrar çiziyor. Bu çizme ve kıyaslama işi sayısız işlem tabii.

Bu yüzden mesela eskiden "ağzına kadar dolu şarap bardağı çiz" dediğinde çizemiyordu veya saat 5:43'ü gösteren analog bir saat çiz dediğinde doğru düzgün çizemiyordu. Hala da süper çizemiyor çoğu model ama eskiden saat çiz dediğinde şuna benzer çiziyordu hep: cdn.dsmcdn.com

Sebebi internetteki saat görsellerinin ezici çoğunluğu 10:18'i gösterir. Benzer şekilde şarap dolu kadeh çiz dediğinde de çoğunluk full dolu bardak olmadığı için görsel kıyaslamalarda çoğunluk bilgiyi doğru kabul ediyordu ve çizemiyordu. Tabii şimdi biraz değişti artık sadece görsel kıyaslamayla da yetinmiyor, söylenen promptu daha iyi anlamak üzerine modellendiği için 17:43 dediğinde akrep ve yelkovanın açılarını falan hesaplayıp ona göre bir şeyler çıkartıyor ortaya.

himmet dayi

(06.03.26)

Detayları yazmışlar ben daha genel bir prensipten bahsedeceğim.

Bir ürünü icat etmek ile piyasaya kullanılabilir bir ürün olarak sunmak arasında fark var. Sistemler daha önce de vardı ama ürünleştirilememişti, openAI bunu başarılı bir ürün haline soktu ve olaylar gelişti.

Örnek: ilk dokunmatik telefon IBM tarafından 90’larda geliştirildi ama 2007’de iPhone bunu kullanılabilir bir ürün haline getirene kadar hep tuşlu kullanıyorduk hala.

antikadimag

(06.03.26)

Güzel anlatılmış yukarıda ama sorunuza doğrudan cevap olması adına şimdi kullanılan teknolojinin ilk temelleri : Neural Networks 1950’lerde, Backpropagation 1980’lerde atılmış. Aslında asıl sıçrama bunlar ama Transformer Architecture (derin öğrenme veya self-attention) denilen sıçrama 2017'de olmuş. 2019–2023 arası da yaygınlaşıp daha işe yarar hale gelmesi bunda da dev GPU kümeleri (örn. NVIDIA A100) geliştirilmesi ve LLM (Large Language Model) yani çok büyük metin veri setleriyle eğitilmiş ve çok fazla parametreye sahip dil modelerinin türemesi. 2021 sonrası teknoloji halka ulaştı diyebiliriz.

creepy

(07.03.26)

yenile