[]

Ai tayfa, piyasada neden hiç türkçe llm modeli yok?
Merhaba duyuru,
Birden aklıma geldi aradım; internette cidden hiç türkçe llm model veya finetune yok. İki senedir güncellenmeyen birkaç milyon parametreli şeyler var onları ciddiye almıyorum. Trendyol-lm 7b diye duyurmuşlar mesela llama2 7b finetune'u çıktı.
Gemma 3 27b'yi kendim fine tune etmeyi düşünüyorum. 7 8 bin lirayı geçmez masrafı o da hobi projesi olarak harcayacağım bir tutar.
Tek sorum, bu ülkede o kadar akademik, mühendis vs. varken cidden kimse uğraşmamış mı? Yoksa ben mi bulamıyorum. Tübitakla bakanlıklarla her toplantıda yerli ve milli model üretiyoruz diye mastürbasyonel konuşmalar dinliyoruz ortada bir şey yok
Birden aklıma geldi aradım; internette cidden hiç türkçe llm model veya finetune yok. İki senedir güncellenmeyen birkaç milyon parametreli şeyler var onları ciddiye almıyorum. Trendyol-lm 7b diye duyurmuşlar mesela llama2 7b finetune'u çıktı.
Gemma 3 27b'yi kendim fine tune etmeyi düşünüyorum. 7 8 bin lirayı geçmez masrafı o da hobi projesi olarak harcayacağım bir tutar.
Tek sorum, bu ülkede o kadar akademik, mühendis vs. varken cidden kimse uğraşmamış mı? Yoksa ben mi bulamıyorum. Tübitakla bakanlıklarla her toplantıda yerli ve milli model üretiyoruz diye mastürbasyonel konuşmalar dinliyoruz ortada bir şey yok

Boşuna arama yok öyle bir şey. Adamlar gelişime yeniliğie teknolojiye o kadar karşı ki herkesi hayattan soğutup öyle yaptılar. Bu ülkede kimsenin bir şey üretmesini bekleme o yüzden. Zaten bütçe de vermezlerdi
- respect
(10.07.25 10:32:09)

soruyu tam anlamadım, ancak anlayabildiğim kadarı ile cevap verebileceğim.
türkçe diğer pek dile göre daha dinamik bir dil, bundan çok değil 70/80 yıl önce basılmış dergi ve gazetelere bakarsan eğer şu an kullanılmayan pek çok kelimenin olduğunu göreceksin. elbette ingilizce içinde geçerli ancak bu oran çok daha az. 150 yıl önce yazılanların yarısını bu gün anlamakta zorlanıyoruz. buna en büyük örnek kanunlar. çok eski kanunlarda geçen tanım/kelimeleri bilmiyoruz.
birde bilginin kendisi var, günümüz türkçesi ile üretilmiş bilgi miktarı az. örneğin; uçak mühendisliği, gemi mühendisliği, tıp, dna, vb. alanlarda üretilen (tr'de araştırılmış, yazılmış, çizilmiş bilgilerden bahsediyorum.) bilgi miktarı az.
kimi tarihi yerlerin, yapıların araştırmalarını yapanlar ingilizce ile yayınlamışlar o bilgileri, türkçe olan kısmı ise ingilizceden çeviri.
adamlarda 1000 kitap yazılmışsa bizde 2, 3 kitap özgün, geri kalanı çeviri.
e az olan bilgi ile ne kadar eğitilebilir bir model, düz konuşma dili ile eğitebilirsin elbet ama X, Y, Z sorularına kafana takma böyle şeyleri yiğenim diyen bir model alabilirsin eline :)
türkçe diğer pek dile göre daha dinamik bir dil, bundan çok değil 70/80 yıl önce basılmış dergi ve gazetelere bakarsan eğer şu an kullanılmayan pek çok kelimenin olduğunu göreceksin. elbette ingilizce içinde geçerli ancak bu oran çok daha az. 150 yıl önce yazılanların yarısını bu gün anlamakta zorlanıyoruz. buna en büyük örnek kanunlar. çok eski kanunlarda geçen tanım/kelimeleri bilmiyoruz.
birde bilginin kendisi var, günümüz türkçesi ile üretilmiş bilgi miktarı az. örneğin; uçak mühendisliği, gemi mühendisliği, tıp, dna, vb. alanlarda üretilen (tr'de araştırılmış, yazılmış, çizilmiş bilgilerden bahsediyorum.) bilgi miktarı az.
kimi tarihi yerlerin, yapıların araştırmalarını yapanlar ingilizce ile yayınlamışlar o bilgileri, türkçe olan kısmı ise ingilizceden çeviri.
adamlarda 1000 kitap yazılmışsa bizde 2, 3 kitap özgün, geri kalanı çeviri.
e az olan bilgi ile ne kadar eğitilebilir bir model, düz konuşma dili ile eğitebilirsin elbet ama X, Y, Z sorularına kafana takma böyle şeyleri yiğenim diyen bir model alabilirsin eline :)
- selam
(10.07.25 14:58:30)

eğitim setinin büyüklüğü ve eğitim maliyetleri yüzünden olsa gerek.
fine-tuning neyse de, sıfırdan bir eğitim epey tutar sanırım.
bir de haber sitelerimiz leş, eksi'nin hali inciden beter, forum'lar emeğe saygı + rap'ten geçilmiyor, wikipedia'yı zaten 20 önce "burası detay bulunacak yer değil, sadece yüzeysel bilgiler olmalı" diyerek katlettiler. ben de merak ettim sadece türkçe ile eğitsek ortaya ne çıkardı.
---
chatgpt'de tahmini olarak binde 1 - 3 arasında türkçe kaynak varmış.
fine-tuning neyse de, sıfırdan bir eğitim epey tutar sanırım.
bir de haber sitelerimiz leş, eksi'nin hali inciden beter, forum'lar emeğe saygı + rap'ten geçilmiyor, wikipedia'yı zaten 20 önce "burası detay bulunacak yer değil, sadece yüzeysel bilgiler olmalı" diyerek katlettiler. ben de merak ettim sadece türkçe ile eğitsek ortaya ne çıkardı.
---
chatgpt'de tahmini olarak binde 1 - 3 arasında türkçe kaynak varmış.
- biseysorcaktim
(10.07.25 15:24:34)
1