Öncelikle, bilgisayarın aşırı eski değilse, validation set oluşturmak yerine cross validation yapabilirsin. Yani 800-200 train-test böldükten sonra, 8-fold cross validation yaparsın (aslında kaç fold olduğu önemli değil), her seferinde 700-100 bölerek 8 defa skor hesaplar.
Gelelim senin soruna.
Eğer train ve test datalarında tüm sütunların kategorik olsaydı, aşağıdaki linkteki sorunun cevabında incorrect yazan kısma kadar olan kodlar senin soruna cevap veriyor.
stackoverflow.comTabi muhtemelen datanda birkaç kategorik, birkaç nümerik feature vardır. O zaman column transformer ile, nümerik ve kategorik feature'ları ayrı ayrı işleyip, sonra birleştirmen gerekir. Onun için de şu sorunun ilk cevabı işini görecek.
stackoverflow.com