[]

Ai tayfa, piyasada neden hiç türkçe llm modeli yok?

Merhaba duyuru,

Birden aklıma geldi aradım; internette cidden hiç türkçe llm model veya finetune yok. İki senedir güncellenmeyen birkaç milyon parametreli şeyler var onları ciddiye almıyorum. Trendyol-lm 7b diye duyurmuşlar mesela llama2 7b finetune'u çıktı.


Gemma 3 27b'yi kendim fine tune etmeyi düşünüyorum. 7 8 bin lirayı geçmez masrafı o da hobi projesi olarak harcayacağım bir tutar.


Tek sorum, bu ülkede o kadar akademik, mühendis vs. varken cidden kimse uğraşmamış mı? Yoksa ben mi bulamıyorum. Tübitakla bakanlıklarla her toplantıda yerli ve milli model üretiyoruz diye mastürbasyonel konuşmalar dinliyoruz ortada bir şey yok

 
Boşuna arama yok öyle bir şey. Adamlar gelişime yeniliğie teknolojiye o kadar karşı ki herkesi hayattan soğutup öyle yaptılar. Bu ülkede kimsenin bir şey üretmesini bekleme o yüzden. Zaten bütçe de vermezlerdi


  • respect  (10.07.25 10:32:09) 
soruyu tam anlamadım, ancak anlayabildiğim kadarı ile cevap verebileceğim.

türkçe diğer pek dile göre daha dinamik bir dil, bundan çok değil 70/80 yıl önce basılmış dergi ve gazetelere bakarsan eğer şu an kullanılmayan pek çok kelimenin olduğunu göreceksin. elbette ingilizce içinde geçerli ancak bu oran çok daha az. 150 yıl önce yazılanların yarısını bu gün anlamakta zorlanıyoruz. buna en büyük örnek kanunlar. çok eski kanunlarda geçen tanım/kelimeleri bilmiyoruz.

birde bilginin kendisi var, günümüz türkçesi ile üretilmiş bilgi miktarı az. örneğin; uçak mühendisliği, gemi mühendisliği, tıp, dna, vb. alanlarda üretilen (tr'de araştırılmış, yazılmış, çizilmiş bilgilerden bahsediyorum.) bilgi miktarı az.

kimi tarihi yerlerin, yapıların araştırmalarını yapanlar ingilizce ile yayınlamışlar o bilgileri, türkçe olan kısmı ise ingilizceden çeviri.

adamlarda 1000 kitap yazılmışsa bizde 2, 3 kitap özgün, geri kalanı çeviri.

e az olan bilgi ile ne kadar eğitilebilir bir model, düz konuşma dili ile eğitebilirsin elbet ama X, Y, Z sorularına kafana takma böyle şeyleri yiğenim diyen bir model alabilirsin eline :)
  • selam  (10.07.25 14:58:30) 
eğitim setinin büyüklüğü ve eğitim maliyetleri yüzünden olsa gerek.
fine-tuning neyse de, sıfırdan bir eğitim epey tutar sanırım.

bir de haber sitelerimiz leş, eksi'nin hali inciden beter, forum'lar emeğe saygı + rap'ten geçilmiyor, wikipedia'yı zaten 20 önce "burası detay bulunacak yer değil, sadece yüzeysel bilgiler olmalı" diyerek katlettiler. ben de merak ettim sadece türkçe ile eğitsek ortaya ne çıkardı.

---
chatgpt'de tahmini olarak binde 1 - 3 arasında türkçe kaynak varmış.
  • biseysorcaktim  (10.07.25 15:24:34) 
1
buraya yazılanların hakları Sir Anthony Hopkins'e aittir.
yazan eden compumaster, ilgilenen eden fader
modere edenler basond, compumaster, fraise, kibritsuyu, rakicandir
bu sitede yazılanların hiçbiri doğru değildir. site içeriği küçükler için sakıncalı olabilir. yazılardan yazarları sorumludur. kaynak göstermeden alıntılanamaz. devlet tarafından atanmış bir kurumun internet üzerinde kimin hangi bilgiye ulaşıp ulaşamayacağına karar vermesi insan haklarına aykırıdır. web siteleri kullanıcıların istekleri doğrultusunda bağlandıkları yerlerdir. kullanıcılar isterlerse bir web sitesine bağlanmayabilirler. bu güçleri ve imkanları mevcuttur. bir kullanıcı bir siteye bağlanmak istiyorsa bu onun tercihi ve hakkıdır. bağlanmak istemiyorsa bu yine onun tercihi ve hakkıdır. halkın kendisine hizmet etmesi için görevlendirdiği kurumlar hadlerini aşıp halka neye ulaşıp ulaşmayacağını bilmeyen cahil cühela muamelesi edemezler. ebeveynlerin çocuklarını sakıncalı içeriklerden koruması için çok sayıda bedava ve ücretli yazılım mevcuttur. bu yazılımlar bir web tarayıcısını kullanmaktan daha karmaşık teknik bilgi gerektirmemektedir. devletin milletini küçük düşürmesi ve ebleh yerine koyması yasaktır. Skimlinks ile linkler üzerinden yönlendirme payı alınmaktadır.