Uvod u stvaranje stabla odluka
S nedavnim brzim rastom količine podataka koje generiraju informacijski sustavi za rukovanje velikim skupovima podataka, postoji dominantna potreba za stablom odluka za smanjenje složenosti računanja. Stablo odluka može se smatrati najvažnijim pristupom predstavljanja klasifikatora. Drugim riječima, možemo reći da su podaci strukturirani koristeći strategiju dijeljenja i osvajanja. do saznanja da smo samo istraživali. Stablo odluka strukturirano je kao okvir za preciziranje vrijednosti i vjerojatnosti odluka ishoda
m svakoj razini čvora, pomažući donositeljima odluka da odaberu ispravna predviđanja među raznim neprikladnim podacima. U ovom ćete članku istražiti kako na jednostavan način stvoriti stablo odluka na temelju uzoraka podataka.
Što je stablo odluke?
Stablo odluka je binarna hijerarhijska struktura koja identificira način na koji je svaki čvor podijelio skup podataka na temelju različitih uvjeta. Da bi se konstruiralo optimalno stablo s modelnim pristupom za klasificiranje varijable odgovora koja predviđa vrijednost ciljane varijable s jednostavnim pravilima odlučivanja (if-then-else izjave). Pristup je nadgledano učenje koji se uglavnom koristi u problemima klasifikacije i smatra se vrlo učinkovitim prediktivnim modelom. Koriste se u različitim područjima primjene kao što su teorija igara, umjetna inteligencija, strojno učenje, vađenje podataka i područja poput sigurnosti i medicine.
Kako stvoriti stablo odluka?
Stablo odluka stvara se na jednostavne načine odozgo prema dolje; sastoje se od čvorova koji tvore usmjereni čvor koji ima korijenske čvorove bez dolaznih rubova, a svi ostali čvorovi nazivaju se čvorovi odluke (unutarnji čvorići i čvorovi listova koji odgovaraju oznakama atributa i klase) s najmanje jednim dolaznim rubovima. Glavni cilj iz skupa podataka je minimizirati generalizacijske pogreške pronalaženjem optimalnog rješenja u stablu odluka.
Primjer stabla odluka objašnjava se u nastavku s uzorkom podataka. Cilj je predvidjeti je li profit smanjen ili nagore koristeći atribute života i konkurencije. Ovdje su varijable stabla odluka kategorične (Da, Ne).
Skup podataka
Život | konkurencija | Tip | Profit |
Star | Da | Softver | dolje |
Star | Ne | Softver | dolje |
Star | Ne | Hardver | dolje |
srednji | Da | Softver | dolje |
srednji | Da | Hardver | dolje |
srednji | Ne | Hardver | gore |
srednji | Ne | Softver | gore |
Novi | Da | Softver | gore |
Novi | Ne | Hardver | gore |
Novi | Ne | Softver | gore |
Iz gornjeg skupa podataka: život, konkurencija, Vrsta prediktori su, a cilj atributa cilj. Postoje različiti algoritmi za implementaciju stabla odluka, ali najbolji algoritam koji se koristi za izgradnju stabla odluka je ID3 koji je naglašen na pohlepnom pristupu pretraživanja. Stablo odluke slijedi pravilo zaključivanja odluke ili disjunktivnog normalnog oblika (^).
Stablo odluke
U početku se svi atributi treninga smatraju korijenom. Prioritet redoslijeda za postavljanje atributa kao root obavlja se sljedećim pristupom. Ovaj je proces poznat po odabiru atributa koji identificira koji atribut je korijenski čvor na svakoj razini. Drvo slijedi dva koraka: izgradnja stabla, obrezivanje stabla. A podaci su podijeljeni u svim čvorovima odlučivanja.
Dobit informacija
To je mjera promjene entropije koja se temelji na neovisnoj varijabli. Stablo odluka mora pronaći najveći dobitak od informacija.
Entropija
Entropija je definirana kao za konačni skup, mjera slučajnosti u podacima ili predvidljivosti događaja, ako je uzorak sličnih vrijednosti, tada je entropija jednaka nuli, a ako je jednako podijeljena s uzorkom, tada je jedna.
Entropija za klasu
Gdje je p vjerojatnost dobivanja profita reći "da", a N je gubitak, recite "ne".
dakle, entropija = 1
Kad se izračuna vrijednost entropije, potrebno je odlučiti korijenski čvor iz atributa.
Entropija doba
Prema skupu podataka za atribut Life imamo staro = 3 dolje, srednje = 2 prema dolje i jedno prema gore što se tiče oznake profita.
Život | pobožan | ni | I (pi, ni) | |
Star | 0 | 3 | 0 | |
srednji | 2 | 2 | 1 | |
Novi | 3 | 0 | 0 |
Dobitak = klasa entropija - entropija života = 1 - 0, 4 = 0, 6
Entropija (konkurencija) = 0, 87
konkurencija | pobožan | ni | I (pi, ni) | |
Da | 1 | 3 | 0, 8 | |
Ne | 4 | 2 | 0, 9 |
Dobitak = klasa entropija - entropija života = 1 - 0, 87 = 0, 12
Sada se problem pojavljuje u atributu Život gdje sredina ima jednaku vjerojatnost i na gore i na dolje. prema tome, entropija je 1. slično tome, izračunava se za atribut tipa opet entropija je 1 i dobitak je 0. Sada je stvorena cjelovita odluka da se dobije točan rezultat za srednju vrijednost.
Prednosti stabla odluke
- Lako ih je razumjeti, a generirana pravila su fleksibilna. Ima malo napora za pripremu podataka.
- Vizualni pristup predstavljanju odluka i rezultata je vrlo koristan.
- Stablo odluka obrađuje skup podataka s treninga s pogreškama i nedostajućim vrijednostima.
- Mogu obraditi diskretnu vrijednost i numerički atribut. Djeluje kategorično i kontinuirano varijable za ulaz i izlaz.
- Oni su koristan alat za poslovnu domenu koja mora donositi odluke nakon analize pod određenim uvjetima.
Nedostaci stabla odluke
- Učenici mogu stvoriti složeno stablo odluka ovisno o obučenim podacima. ovaj se postupak naziva prefinjenim, teškim procesom u modelima stabla odlučivanja.
- Vrijednosti koje se preferiraju biti su kategorične, ako je kontinuirano, stablo odluke gubi podatke što dovodi do sklonosti pogreškama. Eksponencijalni rast izračuna veći je tijekom analize.
- Mnoge oznake klase vode do pogrešnih složenih izračuna i daju nisku točnost predviđanja skupa podataka.
- Informacije dobivene u DT algoritmu daju pristrani odgovor na kategorički veće vrijednosti.
Zaključak
Stoga, za zaključak, stabla odluka pružaju praktičnu i jednostavnu metodu za učenje i nadaleko poznata kao učinkoviti alati za strojno učenje jer u kratkom vremenu postižu dobre rezultate s velikim nizovima podataka. To je zadatak učenja koji koristi statistički pristup kako bi dao opći zaključak. Sada je bolje razumljivo zašto se stablo odluka koristi u prediktivnom modeliranju, a za znanstvenike podataka oni su moćno sredstvo.
Preporučeni članci
Ovo je vodič za stvaranje stabla odluka. Ovdje smo raspravljali o tome kako stvoriti stablo odluka zajedno s raznim prednostima i nedostacima. Možete i proći naše druge predložene članke da biste saznali više -
- Pregled stabla odluka u R
- Što je algoritam stabla odlučivanja?
- Uvod u alate umjetne inteligencije
- Top 10 pitanja za intervju s umjetnom inteligencijom