Uvod u stablo odluka u strojnom učenju

Stablo odluka u strojnom učenju ima široko polje u suvremenom svijetu. Postoji puno algoritama u ML-u koji se koriste u našem svakodnevnom životu. Jedan od važnih algoritama je stablo odluka koje se koristi za klasifikaciju i rješenje za regresijske probleme. Kako se radi o prediktivnom modelu, analiza stabla odluka vrši se algoritamskim pristupom gdje je skup podataka podijeljen na podskupine prema uvjetima. Sam naziv kaže da je u obliku stabla sličan izjavama tada. Što je dublje drvo i više su čvorovi, to je bolji model.

Vrste stabla odlučivanja u strojnom učenju

Stablo odlučivanja predstavlja grafikon u obliku stabla na kojem se razvrstavanje započinje od korijenskog čvora do čvorišta lista dok se cilj ne postigne. Najpopularniji je onaj za odlučivanje i razvrstavanje na temelju nadziranih algoritama. Konstruira se rekurzivnom particijom gdje svaki čvor djeluje kao testni slučaj za neke atribute, a svaki rub, koji izlazi iz čvora, je mogući odgovor u testnom slučaju. I korijenski i listni čvorovi su dva entiteta algoritma.

Shvatimo uz mali primjer kako slijedi:

Ovdje je korijenski čvor da li ste manji od 40 ili ne. Ako je tako, jedete li brzu hranu? Ako da, onda ste nepodobni, ili u suprotnom. A ako imate više od 40 godina, onda vježbate? Ako je tako, onda ste sposobni ili, inače, niste podobni. To je u osnovi bila binarna klasifikacija.

Postoje dvije vrste stabala odlučivanja:

  1. Stabla klasifikacije: Gore navedeni primjer stablo klasifikacije temelji se na kategorijama.
  2. Drveća regresije : U ovoj vrsti algoritma odluka ili rezultat su kontinuirani. Dobio je jedan brojčani izlaz s više ulaza ili prediktora.

U stablu odluke tipičan je izazov prepoznati atribut na svakom čvoru. Proces se naziva odabir atributa i ima neke mjere koje se trebaju upotrijebiti za prepoznavanje atributa.

a. Dobit informacija (IG)

Information Gain mjeri koliko informacija pojedine značajke daju o razredu. On djeluje kao glavni ključ za izgradnju stabla odluka. Atribut s najvećim informacijskim dobitkom prvo se dijeli. Dakle, stablo odluka uvijek maksimalno povećava informacijski dobitak. Kad koristimo čvor za podjelu instanci na manje podskupine, entropija se mijenja.

Entropija: To je mjera nesigurnosti ili nečistoće u slučajnoj varijabli. Entropija odlučuje na koji način stablo odluka dijeli podatke na podskupine.

Jednadžba za dobivanje informacija i entropija je sljedeća:

Dobitak informacija = entropija (roditelj) - (ponderirani prosjek * entropija (djeca))

Entropija: ∑p (X) log p (X)

P (X) ovdje je dio primjera u određenoj klasi.

b. Gini indeks

Gini indeks je metrika koja odlučuje o tome koliko često bi nasumično odabrani element bio pogrešno identificiran. Jasno stoji da se prvom atributu daje atribut s niskim Gini indeksom.

Gini indeks: 1-∑ p (X) 2

Split stvaranje

  1. Da bismo stvorili podjelu, prvo moramo izračunati Gini rezultat.
  2. Podaci se dijele na popisu redaka koji sadrže indeks atributa i vrijednost podjele tog atributa. Nakon što se nađe desni i lijevi skup podataka, možemo dobiti vrijednost dijeljenja prema Gini bodu iz prvog dijela. Sada će vrijednost podijeliti biti decider u kojem će atribut prebivati.
  3. Sljedeći dio ocjenjuje sve dijelove. Najbolja moguća vrijednost izračunava se procjenom troškova dijeljenja. Najbolji rascjep koristi se kao čvor Stablo odluke.

Izgradnja stabla - stablo odluka u strojnom učenju

Dva su koraka za izgradnju stabla odluka.

1. Izrada terminalnih čvorova

Prilikom izrade terminalnog čvora najvažnije je primijetiti moramo li zaustaviti rast stabala ili nastaviti dalje. Za to se mogu koristiti sljedeći načini:

  • Maksimalna dubina stabla: Kad stablo dosegne maksimalni broj čvorova, izvršavanje se zaustavlja.
  • Minimalni zapisi o čvoru: mogu se definirati kao minimalni obrasci koje čvor zahtijeva. Tada možemo prestati dodavati terminalne čvorove odmah, dobivamo one minimalne zapise o čvorima.

2. rekurzivno cijepanje

Jednom kada se čvor stvori, možemo stvoriti dječji čvor rekurzivno dijeljenjem skupa podataka i pozivanjem iste funkcije više puta.

proricanje

Nakon što je stablo izgrađeno, predviđanje se vrši pomoću rekurzivne funkcije. Ponovo slijedi isti postupak predviđanja s lijevim ili desnim dječjim čvorovima i tako dalje.

Prednosti i nedostaci stabla odlučivanja

Ispod su navedene neke prednosti i nedostaci:

prednosti

Stablo odluka ima neke prednosti u strojnom učenju kako slijedi:

  • Sveobuhvatno: Uzima u obzir svaki mogući ishod odluke i u skladu s tim prati svaki čvor do zaključka.
  • Specifično: Stabla odluka dodjeljuju određenu vrijednost svakom problemu, odluci i ishodima. Umanjuje neizvjesnost i nejasnoću te također povećava jasnoću.
  • Jednostavnost: Stablo odlučivanja jedan je od lakših i pouzdanijih algoritama jer nema složene formule ili strukture podataka. Za proračun su potrebne samo jednostavne statistike i matematike.
  • Svestrano: Stabla odlučivanja mogu se ručno konstruirati pomoću matematike i mogu se koristiti s drugim računalnim programima.

Nedostaci

Stablo odluka ima neke nedostatke u strojnom učenju kako slijedi:

  • Stabla odluka manje su primjerena za procjene i financijske zadatke kad nam trebaju odgovarajuće vrijednosti.
  • To je algoritam klasifikacije sklonog pogreškama u usporedbi s drugim računskim algoritmima.
  • Računalno je skupo. Na svakom čvoru mora se razdijeliti kandidat prije nego se utvrdi najbolji. Postoje i druge alternative koje mnogi poslovni subjekti slijede u financijske zadatke jer je stablo odluka preskupo za procjenu.
  • Iako rade s kontinuiranim varijablama, stablo odluka nije najbolje rješenje jer gubi informacije dok kategorizira varijable.
  • Ponekad je nestabilno jer male varijacije u skupu podataka mogu dovesti do stvaranja novog stabla.

Zaključak - Stablo odluka u strojnom učenju

Kao jedan od najvažnijih i nadziranih algoritama, stablo odluka igra vitalnu ulogu u analizi odluka u stvarnom životu. Kao prediktivni model koristi se na mnogim područjima radi svog podijeljenog pristupa koji pomaže u identificiranju rješenja temeljenih na različitim uvjetima bilo klasifikacijom ili regresijskom metodom.

Preporučeni članci

Ovo je vodič za stablo odluka u strojnom učenju. Ovdje razgovaramo o uvodu, Vrste stabla odlučivanja u strojnom učenju, stvaranju Splita i izgradnji stabla. Možete i proći kroz naše druge predložene članke da biste saznali više -

  1. Tipovi podataka Pythona
  2. Skupovi podataka Tableau
  3. Modeliranje podataka Cassandra
  4. Ispitivanje tablice odluke
  5. Top 8 faza životnog ciklusa strojnog učenja

Kategorija: