Uvod u obradu podataka u strojnom učenju

Predobrada podataka u strojnom učenju način je pretvaranja podataka iz sirovog oblika u mnogo formatiraniji, neupotrebljivi ili željeni oblik. To je integralni zadatak strojnog učenja koji obavlja istraživač podataka. Budući da su prikupljeni podaci u sirovom obliku, model možda neće biti izvedivo pomoću njega. Važno je pažljivo obraditi ove neobrađene podatke kako biste iz njih napravili pravilnu interpretaciju i konačno izbjegli bilo kakav negativan rezultat u predviđanju. Ukratko, kvaliteta našeg algoritma za učenje uvelike ovisi o vrsti skupa podataka koji smo koristili za hranjenje modela pa se za održavanje te kvalitete koristi predobrada podataka.

Podaci prikupljeni za obuku modela su iz različitih izvora. Ti prikupljeni podaci obično su u svom neobrađenom formatu, tj. Mogu imati zvukove poput nestalih vrijednosti i relevantnih informacija, brojeva u formatu niza itd. Ili mogu biti nestrukturirani. Predobrada podataka povećava učinkovitost i točnost modela strojnog učenja. Budući da pomaže pri uklanjanju ovih buka i skupa podataka i daje značenju skupu podataka

Šest različitih koraka uključenih u strojno učenje

Slijedi šest različitih koraka koji se odnose na strojno učenje za izvođenje prethodne obrade podataka:

Korak 1: Uvoz biblioteka

Korak 2: Uvoz podataka

Korak 3: Provjera nedostajućih vrijednosti

Korak 4: Provjera kategorijskih podataka

5. korak: Skaliranje značajki

Korak 6: Podjela podataka u skupove treninga, provjere valjanosti i evaluacije

Let's razumjeti svaki od tih koraka u pojedinostima:

1. Uvoz knjižnice

Prvi je korak uvesti nekoliko važnih knjižnica potrebnih za predobradu podataka. Knjižnica je zbirka modula koji se mogu nazvati i koristiti. U pythonu imamo puno knjižnica koje nam pomažu u predobradi podataka.

Nekoliko sljedećih važnih knjižnica u pythonu su:

  • Numpy: knjižnica se uglavnom koristi za provođenje ili korištenje kompliciranih matematičkih računanja strojnog učenja. Korisno je u obavljanju operacije na višedimenzionalnim nizovima.
  • Pande : To je knjižnica s otvorenim izvorima koja pruža velike performanse i jednostavne za upotrebu strukture podataka i alata za analizu podataka u pythonu. Dizajnirana je na način da rad s relacijama i označenim podacima bude jednostavan i intuitivan.
  • Matplotlib: To je biblioteka za vizualizaciju koju python nudi za 2D crteže niza. Izgrađen je na numeričkom nizu i dizajniran je za rad sa širim snopom Scipyja. Vizualizacija skupova podataka korisna je u scenariju gdje su dostupni veliki podaci. Parcele dostupne u matplot libu su linija, šipka, raspršenje, histogram itd.
  • Seaborn: To je također knjižnica za vizualizaciju koju daje python. Pruža sučelje visoke razine za crtanje atraktivnih i informativnih statističkih grafikona.

2. Uvezi skup podataka

Nakon što se knjižnice uveze, naš sljedeći korak je učitavanje prikupljenih podataka. Pandas knjižnica koristi se za uvoz tih skupova podataka. Uglavnom su skupovi podataka dostupni u CSV formatima jer su male veličine, što ih čini brzim za obradu. Dakle, učitati CSV datoteku pomoću read_csv funkcije knjižnice pande. Različiti su drugi formati skupa podataka koji se mogu vidjeti

Nakon učitavanja skupa podataka, moramo ga pregledati i tražiti smetnje. Da bismo to učinili, moramo stvoriti matricu obilježja X i promatrački vektor Y u odnosu na X.

3. Provjera nedostajućih vrijednosti

Jednom kada stvorite matricu značajki možda ćete pronaći neke vrijednosti koje nedostaju. Ako se ne nosimo s tim, tada može stvoriti problem u treningu.

Postoje dvije metode rukovanja nedostajućim vrijednostima:

  1. Uklanjanje cijelog retka koji sadrži vrijednost koja nedostaje, ali postoji mogućnost da možda izgubite neke vitalne podatke. Ovo može biti dobar pristup ako je veličina skupa podataka velika.
  2. Ako brojčani stupac ima vrijednost koja nedostaje, vrijednost možete procijeniti uzimajući srednju, srednju, način itd.

4. Provjera kategorijskih podataka

Podaci u skupu podataka moraju biti u numeričkom obliku kako bi se na njima moglo izvršiti računanje. Budući da modeli strojnog učenja sadrže složene matematičke proračune, ne možemo ih hraniti ne numeričkom vrijednošću. Dakle, važno je pretvoriti sve vrijednosti teksta u numeričke vrijednosti. Klasa naučenih LabelEncoder () koristi se za pretvorbu ovih kategorijskih vrijednosti u numeričke vrijednosti.

5. Skaliranje značajki

Vrijednosti neobrađenih podataka izuzetno se razlikuju i može rezultirati pristranim treningom modela ili povećati računske troškove. Dakle, važno ih je normalizirati. Skaliranje značajki je tehnika koja se koristi za slanje vrijednosti podataka u kraći raspon.

Metode korištenja za skaliranje značajki su:

  • Oduzimanje (min-max normalizacija)
  • Srednja normalizacija
  • Standardizacija (Z-normalizacija)
  • Skaliranje na jedinicu duljine

6. Podjela podataka u skupove treninga, provjere valjanosti i evaluacije

Na kraju, moramo podijeliti naše podatke u tri različita skupa, set za trening za obuku modela, skup validacije za potvrdu točnosti našeg modela i konačno test set za testiranje performansi našeg modela na generičkim podacima. Prije dijeljenja skupa podataka, važno je miješati skup podataka kako bi se izbjegle pristranosti. Idealan udio za podjelu skupa podataka je 60:20:20, tj. 60% kao set za trening, 20% kao test i provjera valjanosti. Za podjelu skupa podataka koristite dvaput vlak_test_split iz sklearn.model_selection. Jednom podijeliti skup podataka na skup vlakova i provjeru valjanosti, a zatim preostali skup podataka vlaka podijeliti u vlak i test skup.

Zaključak - Obrada podataka u strojnom učenju

Predobrada podataka nešto je što zahtijeva praksu. Nije poput jednostavne strukture podataka u kojoj izravno učite i primjenjujete se za rješavanje problema. Da biste stekli dobro znanje o čišćenju skupa podataka ili kako vizualizirati svoj podatkovni skup, trebate raditi s različitim skupovima podataka.

Što više koristite ove tehnike, to ćete bolje razumjeti. Ovo je bila općenita ideja o tome kako obrada podataka igra važnu ulogu u strojnom učenju. Uz to, vidjeli smo i korake potrebne za prethodnu obradu podataka. Stoga, sljedeći put prije nego što trenirate model pomoću prikupljenih podataka, obavezno primijenite prethodnu obradu podataka.

Preporučeni članci

Ovo je vodič za obradu podataka u strojnom učenju. Ovdje smo raspravljali o uvodu, šest različitih koraka uključenih u strojno učenje. Možete i proći kroz naše druge predložene članke da biste saznali više -

  1. Važnost umjetne inteligencije
  2. IoT tehnologija
  3. PL / SQL tipovi podataka
  4. Vrste podataka košnica
  5. R Vrste podataka

Kategorija: