[]

duyurunun machine learningcilerine soru (one hot encodingle ilgili)

benim için çok önemli işe alınıp alınmamamı etkileyebilicek bir soru soracağım, bazı fikirlerim var ancak doğru yöntem olduğunu düşünmüyorum o yüzden bir umut şansımı deneyip buraya sorayım dedim.

şimdi veri setini train test diye bölmeden önce validation diye bir kısım ayırıyoruz (1000 satırlık bi verinin 200 satırını ayırdık modele 800 kaldı, 800'ü de train test diye ayırıp modeli eğiteceğiz validation en son test için). model kısmına ayrı validation kısmına ayrı bir one hot encoding (ohe) uygulaması yapıyoruz ancak bu ohe her unique değer için bir kolon oluşturduğundan ve valdiationa hiç gelmemiş unique değerler olabileceğinden bizim modelimiz ve validationımızın kolon sayıları birbirinden farklı oluyor. bunu aşmak için en doğru yöntem nedir fikri olan var mı?


 
Farkında olman için söylüyorum, tüm konuları çorba yapıp karıştırmışsın. Bu soruyu yapsan diğeri patlar.

Datayı bölmeden ohe yapabilirsin.
  • archmage mahmut  (28.10.21 01:20:49) 
@archmage mahmut. hocam belki sizin yönteminiz farklıdır ama benden istenen tam olarak burda ortaya çıkan hatayı çözmem. datayı bölmeden ohe yaparsak sadece train test yapmış oluyoruz validation yapmamış oluyoruz zaten. (kavram adlarına takılmayın bazı yerlerde benim validation dediğime test diyor test dediğime validation vs. validationdan kastım modelin hiç görmememesi için en başta ayrılan veri -böyle yapıyoruz çünkü traini testi en iyi yapacak şekilde eğittiğimiz için biasli olabiliyor- 1000 satırlık veri varsa elimizde 200'ünü o şekilde baştan ayırıp 800'üyle modelimizi oluşturuyoruz o yüzden, bu 800'ün de %30 civarı test kalanı train diye ayırıyoruz sonra)


  • semaforo de medianoche  (28.10.21 02:10:10 ~ 02:13:12) 
Çok detaylı olarak nasıl kullanıldığını hatırlamıyorum ama şöyle bi şey vardı pythonda bununla ilgili:

handle_unknown='ignore' parametresini kullanınca bunu çözüyordu ama tam olarak nasıl yapptığını da hatırlamıyorum internetten kolayca bulabilirsiniz zaten onu

kod olarak da kabaca:

from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(handle_unknown='ignore')
cols_train = pd.DataFrame(encoder.fit_transform(X_train[object_cols]))
cols_valid = pd.DataFrame(encoder.transform(X_valid[object_cols]))
  • guguklusaat  (28.10.21 12:24:08) 
Öncelikle, bilgisayarın aşırı eski değilse, validation set oluşturmak yerine cross validation yapabilirsin. Yani 800-200 train-test böldükten sonra, 8-fold cross validation yaparsın (aslında kaç fold olduğu önemli değil), her seferinde 700-100 bölerek 8 defa skor hesaplar.

Gelelim senin soruna.

Eğer train ve test datalarında tüm sütunların kategorik olsaydı, aşağıdaki linkteki sorunun cevabında incorrect yazan kısma kadar olan kodlar senin soruna cevap veriyor.

stackoverflow.com

Tabi muhtemelen datanda birkaç kategorik, birkaç nümerik feature vardır. O zaman column transformer ile, nümerik ve kategorik feature'ları ayrı ayrı işleyip, sonra birleştirmen gerekir. Onun için de şu sorunun ilk cevabı işini görecek.

stackoverflow.com
  • benaaymi  (28.10.21 13:03:36) 
1
buraya yazılanların hakları Sir Anthony Hopkins'e aittir.
yazan eden compumaster, ilgilenen eden fader
modere edenler angelus, Artibir, aychovsky, baba jo, basond, compumaster, deckard, duyulmasi gerektigi kadar, fader, fraise, groove salad, kahvegibi, kaymaktutmayansicaksut, kibritsuyu, monstro, pandispanya, robin, ron dennis
bu sitede yazılanların hiçbiri doğru değildir. site içeriği küçükler için sakıncalı olabilir. yazılardan yazarları sorumludur. kaynak göstermeden alıntılanamaz. devlet tarafından atanmış bir kurumun internet üzerinde kimin hangi bilgiye ulaşıp ulaşamayacağına karar vermesi insan haklarına aykırıdır. web siteleri kullanıcıların istekleri doğrultusunda bağlandıkları yerlerdir. kullanıcılar isterlerse bir web sitesine bağlanmayabilirler. bu güçleri ve imkanları mevcuttur. bir kullanıcı bir siteye bağlanmak istiyorsa bu onun tercihi ve hakkıdır. bağlanmak istemiyorsa bu yine onun tercihi ve hakkıdır. halkın kendisine hizmet etmesi için görevlendirdiği kurumlar hadlerini aşıp halka neye ulaşıp ulaşmayacağını bilmeyen cahil cühela muamelesi edemezler. ebeveynlerin çocuklarını sakıncalı içeriklerden koruması için çok sayıda bedava ve ücretli yazılım mevcuttur. bu yazılımlar bir web tarayıcısını kullanmaktan daha karmaşık teknik bilgi gerektirmemektedir. devletin milletini küçük düşürmesi ve ebleh yerine koyması yasaktır. Skimlinks ile linkler üzerinden yönlendirme payı alınmaktadır.