Uvod u algoritam stabla odlučivanja

Kad imamo problem za rješenje koji je bilo klasifikacija ili regresijski problem, algoritam stabla odlučivanja jedan je od najpopularnijih algoritama koji se koristi za izgradnju klasifikacijskih i regresijskih modela. Oni spadaju u kategoriju nadziranog učenja, odnosno podataka koji su označeni.

Što je algoritam stabla odluke?

Algoritam stabla odlučivanja nadziran je algoritam strojnog učenja, gdje se podaci kontinuirano dijele u svaki red na temelju određenih pravila do konačnog ishoda. Uzmimo primjer, pretpostavimo da otvorite trgovački centar i naravno, željeli biste da on s vremenom raste u poslu. Što se toga tiče, trebat će vam klijenti koji se vraćaju plus novi kupci u vašem trgovačkom centru. Za to biste pripremili različite poslovne i marketinške strategije poput slanja e-pošte potencijalnim kupcima; stvarati ponude i ponude, ciljajući nove kupce itd. Ali kako znati tko su potencijalni kupci? Drugim riječima, kako klasificirati kategoriju kupaca? Kao što će neki kupci posjećivati ​​jednom tjedno, a drugi bi željeli posjetiti jednom ili dva puta mjesečno, ili će ih neki posjetiti u četvrtini. Dakle, stabla odluka jedan su od takvih algoritama za klasifikaciju koji će rezultate razvrstati u skupine dok više ne ostane sličnosti.

Na taj se način stablo odluka spušta u obliku drveća. Glavne komponente stabla odluka su:

  • Čvorovi odluke, na kojem su podaci podijeljeni ili recimo, to je mjesto za atribut.
  • Veza veze, koja predstavlja pravilo.
  • Dopusti za odlučivanje, koji su konačni ishodi.

Izrada algoritma stabla odluke

Mnogo je koraka koji su uključeni u rad stabla odluka:

1. Podjela - to je proces podjele podataka na podgrupe. Razdjeljivanje se može obaviti na različite čimbenike kao što je prikazano u nastavku, tj. Na osnovi spola, visine ili na temelju klase.

2. Obrezivanje - To je proces skraćivanja grana stabla odlučivanja, čime se ograničava dubina stabla

Obrezivanje je također dvije vrste:

  • Prije obrezivanja - ovdje prestajemo rasti stablo kad ne nađemo bilo kakvu statistički značajnu povezanost između atributa i klase na bilo kojem određenom čvoru.
  • Nakon obrezivanja - da bismo mogli obaviti obrezivanje, moramo potvrditi učinkovitost modela testnog seta i zatim odrezati grane koje su rezultat prekomjerne buke iz postave za trening.

3. Odabir stabla - Treći korak je postupak pronalaska najmanjeg stabla koje odgovara podacima.

Primjeri i ilustracija izgradnje stabla odluka

Kao što smo naučili načela stabla odluka. Shvatimo i ilustriramo to uz pomoć primjera.

Recimo da želite igrati kriket nekog određenog dana (Na primjer, u subotu). Koji su faktori uključeni koji će odlučiti hoće li se predstava dogoditi ili ne?

Jasno, glavni faktor je klima, niti jedan drugi faktor nema toliku vjerojatnost koliko klima ima za prekid igre.

Prikupili smo podatke iz zadnjih 10 dana koji su predstavljeni u nastavku:

DanVrijemeTemperaturaVlažnostVjetarIgra?
1OblačnovrućevisokSlabDa
2SunčanovrućevisokSlabNe
3SunčanoblagnormalanjakDa
4kišniblagvisokjakNe
5OblačnoblagvisokjakDa
6kišnisvježnormalanjakNe
7kišniblagvisokSlabDa
8SunčanovrućevisokjakNe
9OblačnovrućenormalanSlabDa
10kišniblagvisokjakNe

Konstruirajmo sada svoje stablo odluka na temelju podataka koje imamo. Dakle, stablo odluka podijelili smo u dvije razine, prva se temelji na atributu "Vrijeme", a drugi se temelji na "vlažnosti" i "vjetru". Slike dolje ilustriraju naučeno stablo odluka.

Također možemo postaviti neke granične vrijednosti ako su značajke kontinuirane.

Što je entropija u algoritmu stabla odluka?

Jednostavnim riječima, entropija je mjerilo neuređenosti vaših podataka. Iako ste ovaj termin možda čuli na predavanjima iz matematike ili fizike, ovdje je isto.

Razlog zašto se entropija koristi u stablu odluka jest taj što je krajnji cilj na stablu odluke grupiranje sličnih skupina podataka u slične klase, tj. Uređivanje podataka.

Pogledajmo donju sliku gdje imamo početni skup podataka i od nas se traži primijeniti algoritam stabla odluka kako bismo grupirali slične podatkovne točke u jednu kategoriju.

Nakon što se odluka podijelila, kao što jasno vidimo, većina crvenih krugova spada u jedan razred, dok većina plavih križeva spada u drugu klasu. Otuda je donesena odluka o razvrstavanju atributa koji bi se mogli temeljiti na različitim čimbenicima.

E sad, pokušajmo ovdje nešto matematike:

Recimo da imamo stavku "N" i te stavke spadaju u dvije kategorije, a sada kako bismo grupirali podatke na temelju naljepnica, uvedemo omjer:

Entropija našeg skupa dana je sljedećom jednadžbom:

Provjerimo graf za zadanu jednadžbu:

Iznad slike (s p = 0, 5 i q = 0, 5)

prednosti

1. Stablo odluke je jednostavno razumjeti i kad ga jednom razumijemo, možemo ga konstruirati.

2. Možemo implementirati stablo odluka s brojčanim i kategoričkim podacima.

3. Drvo odluke je dokazano da je robustan model s obećavajućim rezultatima.

4. Oni su i vremenski učinkoviti s velikim podacima.

5. Zahtijeva manje napora za obuku podataka.

Nedostaci

1. Nestabilnost - Samo ako su informacije precizne i točne, stablo odluka će pružiti obećavajuće rezultate. Čak i ako postoji mala promjena u ulaznim podacima, to može uzrokovati velike promjene na stablu.

2. Složenost - Ako je skup podataka ogroman s puno stupaca i redova, vrlo je složen zadatak dizajnirati stablo odluka s mnogim granama.

3. Troškovi - Ponekad troškovi i dalje ostaju glavni čimbenik jer kad je potrebno izgraditi složeno stablo odluka, zahtijeva napredna znanja iz kvantitativne i statističke analize.

Zaključak

U ovom smo članku naučili o algoritmu stabla odluka i kako ga konstruirati. Vidjeli smo i veliku ulogu koju Entropy igra u algoritmu stabla odluka i konačno, vidjeli smo i prednosti i nedostatke stabla odluka.

Preporučeni članci

Ovo je vodič za algoritam stabla odlučivanja. Ovdje smo razgovarali o ulozi koju igraju entropija, rad, prednosti i nedostatak. Možete i proći naše druge predložene članke da biste saznali više -

  1. Važne metode vađenja podataka
  2. Što je web aplikacija?
  3. Vodič za Što je znanost o podacima?
  4. Pitanja o intervjuu analitičara podataka
  5. Primjena stabla odluka u iskopi podataka

Kategorija: