Uvod u stablo odluka u rudarstvu podataka

U današnjem svijetu o "velikim podacima", termin "Data Mining" znači da trebamo pregledati velike skupove podataka i izvršiti "rudarjenje" podataka i iznijeti važan sok ili suštinu onoga što podaci žele reći. Vrlo analogna je situacija s iskopavanjem ugljena gdje su potrebni različiti alati za vađenje ugljena ukopanog duboko ispod zemlje. Jedan od alata u izvlačenju podataka je "Drvo odlučivanja". Dakle, rudarstvo podataka po sebi je ogromno polje u kojem ćemo sljedećih nekoliko odlomaka duboko zaroniti u „alat“ stabla odluka u Data Miningu.

Algoritam stabla odlučivanja u iskopu podataka

Stablo odluka je pristup nadziranog učenja u kojem treniramo prisutne podatke uz već znanje što je zapravo ciljna varijabla. Kao što ime sugerira ovaj algoritam ima stablo strukture. Pogledajmo prvo teorijski aspekt Stabla odluka, a zatim ćemo isti pogledati grafički. U stablu odluka algoritam dijeli skup podataka na podskupine na temelju najvažnijeg ili značajnijeg atributa. Najznačajniji atribut označen je u korijenskom čvoru i tu se vrši cijepanje cijelog skupa podataka koji se nalazi u korijenskom čvoru. Ovo dijeljenje je poznato kao čvorovi odlučivanja. U slučaju da više nije moguće podijeliti, čvor je nazvan listom čvora.

Da bi se algoritam zaustavio u dostizanju velike faze, koristi se kriterij zaustavljanja. Jedan od kriterija zaustavljanja je minimalni broj opažanja u čvoru prije nego što se dogodi split. Prilikom primjene stabla odluka u dijeljenju skupa podataka, treba biti oprezan što mnogi čvorovi mogu imati samo bučne podatke. Kako bismo zadovoljili vanjske ili bučne probleme s podacima, koristimo tehnike poznate kao Podrezanje podataka. Obrezivanje podataka nije ništa drugo nego algoritam za razvrstavanje podataka iz podskupine, što otežava učenje iz određenog modela.

Istraživač stroja J. Ross Quinlan, algoritam stabla odlučivanja objavio je kao ID3 (Iterative Dichotomiser). Kasnije je C4.5 pušten kao nasljednik ID3. I ID3 i C4.5 su pohlepni pristup. Pogledajmo sada tok dijagrama algoritma stabla odlučivanja.

Da bismo razumjeli pseudo kod, uzeli bismo „n“ podatkovne točke od kojih svaka ima atribute „k“. Ispod je dijagram toka imajući na umu "Dobitak informacija" kao uvjet za podjelu.

IG (on individual split) = Entropy before the split – Entropy after a split (On individual split)

Umjesto dobivanja informacija (IG), možemo koristiti i Gini indeks kao kriterije podjele. Da bismo razumjeli razliku između ova dva kriterija u laičkom smislu, o ovom dobitku informacija možemo razmišljati kao o razlici entropije prije cijepanja i nakon rascjepa (dijeljenje na temelju svih dostupnih značajki).

Entropija je poput slučajnosti i došli bismo do točke nakon rascjepa da imamo najmanje stanje slučajnosti. Dakle, informacijski dobitak treba biti najbolji u značajki koju želimo podijeliti. Inače ako želimo odabrati podjelu na temelju Gini indeksa, pronašli bismo Gini indeks za različite atribute i koristeći isti saznali bismo ponderirani Gini indeks za različito dijeljenje i upotrijebili onaj s višim Gini indeksom za dijeljenje skupa podataka.

Važni uvjeti stabla odlučivanja u manjem podacima

Evo nekoliko važnih uvjeta stabla odluka u vađenju podataka danih u nastavku:

  • Root čvor: ovo je prvi čvor na kojem se odvija cijepanje.
  • Listni čvor: Ovo je čvor nakon kojeg nema više grananja.
  • Čvor odluke: Čvor formiran nakon dijeljenja podataka s prethodnog čvora poznat je kao čvor odlučivanja.
  • Podružnica: pododjeljak stabla koji sadrži informacije o naknadnom rascjepu na čvoru za odluku.
  • Obrezivanje: Kada postoji uklanjanje pod-čvorova čvora za odlučivanje za snabdjevanje vanjskim ili bučnim podacima naziva se obrezivanje. Također se smatra da je suprotno od cijepanja.

Primjena stabla odluka u iskopi podataka

Stablo odluke ima vrstu arhitekture koja je izgrađena s vrstom algoritma. U osnovi ima obrazac "If X, pa Y else Z", dok je podijeljen. Ova vrsta uzorka koristi se za razumijevanje ljudske intuicije u programskom polju. Stoga se ovo može široko koristiti u raznim problemima kategorizacije.

  • Ovaj se algoritam može široko koristiti u području u kojem je povezana funkcija s obzirom na analizu.
  • Kada su na raspolaganju brojni oblici djelovanja.
  • Vanjska analiza.
  • Razumijevanje značajnog niza značajki za cijeli skup podataka i "moje" nekoliko značajki s popisa stotina značajki u velikim podacima.
  • Odabir najboljeg leta za putovanje na odredište.
  • Postupak donošenja odluka temeljen na različitim okolnostima.
  • Analiza buđenja.
  • Analiza osjećaja.

Prednosti stabla odluke

Evo nekoliko prednosti stabla odluka objašnjenog u nastavku:

  • Jednostavnost razumijevanja: Način na koji je stablo odluke prikazano u njegovim grafičkim oblicima olakšava razumijevanje za osobu koja nema analitičku pozadinu. Posebno za ljude iz vodstva koji žele pogledati koja su obilježja važna samo pogledom samo na stablo odluka mogu iznijeti svoju hipotezu.
  • Istraživanje podataka: Kao što je rečeno, dobivanje značajnih varijabli osnovna je funkcionalnost stabla odlučivanja i korištenjem istog, tijekom istraživanja podataka može se utvrditi odlučivanje koja će varijabla trebati posebnu pažnju tijekom faze vađenja podataka i modeliranja.
  • Tijekom faze pripreme podataka vrlo je malo ljudske intervencije i kao rezultat tog vremena potrošenog tijekom podataka, čišćenje se smanjuje.
  • Stablo odluka može se nositi s kategorijskim kao i numeričkim varijablama, a može se baviti i razvrstavanjem više klasa.
  • Kao dio pretpostavke, stabla odluka nemaju pretpostavku prostorne distribucije i strukture klasifikatora.

Zaključak

Konačno, da zaključim Stabla odluka unose sasvim drugu klasu nelinearnosti i pružaju mogućnost rješavanja problema nelinearnosti. Ovaj je algoritam najbolji izbor za oponašanje razmišljanja ljudi na razini odluke i prikaz u matematičko-grafičkom obliku. Za utvrđivanje rezultata iz novih nevidljivih podataka koristi se pristup odozgo prema dolje i slijedi princip dijeljenja i osvajanja.

Preporučeni članci

Ovo je vodič za stablo odlučivanja u Rudarstvu podataka. Ovdje smo raspravljali o algoritmu, važnosti i primjeni stabla odluka u iskopavanju podataka, kao i njegovim prednostima. Možete pogledati i sljedeće članke da biste saznali više -

  1. Strojno učenje podataka o znanosti
  2. Vrste tehnika analize podataka
  3. Stablo odluke u R
  4. Što je istraživanje podataka?
  5. Vodič za različite metodologije analize podataka

Kategorija: