Glavni problem sa predobradom za kategoričke podatke je taj što može biti teško odrediti kako najbolje predstaviti podatke. To može dovesti do netačne analize i pogrešnih zaključaka.
? There are many ways to preprocess categorical data, but some common methods include one-hot encoding, label encoding, and creating dummy variables.
Ova linija koda predobraduje kategoričke podatke pomoću metode one-hot encoding. One-hot encoding je proces kojim se kategoričke varijable pretvaraju u formu koju mogu koristiti algoritmi mašinskog učenja. Nove varijable se nazivaju "lažne varijable".
Preproces
Prethodna obrada je programski termin koji se odnosi na proces transformacije izvornog koda prije nego što se izvrši. Prethodna obrada može uključivati bilo šta, od jednostavne zamjene teksta do složenijih operacija, kao što su analiza podataka ili kompilacija.
Kategorički podaci
U Pythonu, kategorički podaci su predstavljeni skupom od dva cijela broja, pri čemu prvi cijeli broj predstavlja kategoriju, a drugi cijeli broj predstavlja broj stavki u toj kategoriji. Na primjer, tuple (1, 2) bi predstavljao kategoriju “stavki” i predstavljao bi broj stavki u toj kategoriji koje su 1-stavke. Tuple (3, 4) bi predstavljao kategoriju "stavki" i predstavljao bi broj stavki u toj kategoriji koje su 2-stavke.