Uvod u metode rudarjenja podataka

Podaci se svakodnevno povećavaju u ogromnim razmjerima. Ali svi podaci prikupljeni ili prikupljeni nisu korisni. Značajni podaci moraju biti odvojeni od bučnih podataka (besmisleni podaci). Taj postupak razdvajanja vrši se kopanjem podataka.

Što je istraživanje podataka?

Iskopavanje podataka proces je izdvajanja korisnih informacija ili znanja iz ogromne količine podataka (ili velikih podataka). Jaz između podataka i informacija smanjen je korištenjem različitih alata za vađenje podataka. Iskopavanje podataka može se također nazvati otkrićem znanja iz podataka ili KDD .

Izvori: - www.ques10.com

Iskopavanje podataka može se izvoditi na različitim vrstama baza podataka i spremišta informacija poput relacijskih baza podataka, skladišta podataka, transakcijskih baza podataka, protoka podataka i mnogih drugih.

Različite metode vađenja podataka:

Postoje mnoge metode koje se koriste za Data Mining, ali ključni je korak odabrati odgovarajuću metodu u skladu s tvrtkom ili izjavom problema. Ove metode vađenja podataka pomažu u predviđanju budućnosti, a zatim u odlučivanju u skladu s tim. Oni također pomažu u analiziranju tržišnog trenda i povećanju prihoda tvrtke.

Neke su metode vađenja podataka:

  • asocijacija
  • Klasifikacija
  • Analiza klastera
  • proricanje
  • Sekvencijalni uzorci ili praćenje uzoraka
  • Stabla odluka
  • Vanjska analiza ili analiza anomalije
  • Živčana mreža

Neka nam razumiju svaku metodu vađenja podataka jednu po jednu.

1. Udruženje:

To je metoda koja se koristi za pronalaženje povezanosti između dvije ili više stavki identificiranjem skrivenog uzorka u skupu podataka, a stoga se naziva i analizom odnosa . Ova metoda se koristi u analizi tržišnih košarica za predviđanje ponašanja kupca.

Pretpostavimo da marketing menadžer u supermarketu želi utvrditi koji se proizvodi često kupuju zajedno.

Kao primjer,

Kupuje (x, „pivo“) -> kupuje (x, „čips“) (podrška = 1%, povjerenje = 50%)

  • Ovdje x predstavlja kupca koji zajedno kupuje pivo i čips.
  • Povjerenje pokazuje sigurnost da ako kupac kupi pivo, postoji 50% šanse da kupi i čips.
  • Podrška znači da je 1% svih analiziranih transakcija pokazalo da su pivo i čips kupljeni zajedno.

Mnogi slični primjeri poput kruha i maslaca ili računala i softvera mogu se uzeti u obzir.

Postoje dvije vrste pravila o pridruživanju:

  • Pravilo jednodimenzionalnog pridruživanja: Ova pravila sadrže jedan atribut koji se ponavlja.
  • Pravilo višedimenzionalnog pridruživanja: Ova pravila sadrže više atributa koji se ponavljaju.

https://bit.ly/2N61gzR

2. Razvrstavanje:

Ova metoda vađenja podataka koristi se za razlikovanje stavki u skupinama podataka u klase ili grupe. To pomaže da se precizno predvidi ponašanje predmeta u grupi. To je proces u dva koraka:

  • Korak učenja (faza treninga): U ovom algoritmu za razvrstavanje gradi se klasifikator analizom skupa treninga.
  • Korak klasifikacije: Podaci ispitivanja koriste se za procjenu točnosti ili preciznosti pravila razvrstavanja.

Na primjer, bankarska tvrtka koristi za identificiranje podnositelja zahtjeva za kredit s niskim, srednjim ili visokim kreditnim rizikom. Slično tome, medicinski istraživač analizira podatke o karcinomu kako bi predvidio koji lijek treba propisati pacijentu.

Izvori: - www.tutorialspoint.com

3. Analiza klastera:

Klasteriranje je gotovo slično klasifikaciji, ali u ovim se klasterima izrađuje ovisno o sličnosti podataka. Različiti klasteri imaju različite ili nepovezane objekte. Naziva se i segmentacijom podataka jer dijeli ogromne skupove podataka u klastere prema sličnostima.

Postoje različite metode grupiranja koje se koriste:

  • Hijerarhijske aglomerativne metode
  • Metode zasnovane na mreži
  • Načini particioniranja
  • Metode temeljene na modelima
  • Metode temeljene na gustoći

Sličan primjer podnositelja zahtjeva može se uzeti u obzir i ovdje. Neke su razlike prikazane na slici ispod.

https://bit.ly/2N6aZpP

4. Predviđanje:

Ova se metoda koristi za predviđanje budućnosti na temelju prošlih i sadašnjih trendova ili skupa podataka. Predviđanje se uglavnom koristi kombinacijom drugih metoda vađenja podataka kao što su klasifikacija, podudaranje uzoraka, analiza trenda i odnos.

Na primjer, ako voditelj prodaje supermarketa želi predvidjeti iznos prihoda koji bi svaki artikal stvorio na temelju podataka o prošloj prodaji. Modelira funkciju kontinuiranog vrednovanja koja predviđa nedostajuće numeričke vrijednosti podataka.

Izvori: - data-mining.philippe-fournier

Regresijska analiza je najbolji izbor za predviđanje. Može se koristiti za postavljanje odnosa između neovisnih i ovisnih varijabli.

5. Slijedni obrasci ili praćenje uzorka:

Ova metoda vađenja podataka koristi se za prepoznavanje obrazaca koji se često pojavljuju tijekom određenog vremenskog razdoblja.

Na primjer, voditelj prodaje odjevne tvrtke vidi da se čini da se prodaja jakni povećava neposredno prije zimske sezone ili da se prodaja u pekari povećava tijekom božićnih ili novogodišnjih blagdana.

Pogledajmo primjer s grafikom

Izvori: - data-mining.philippe-fournier-viger

6.Prerezno drveće:

Stablo odluke je struktura stabla (kao što mu ime govori), gdje

  • Svaki unutarnji čvor predstavlja test na atributu.
  • Grana označava rezultat testa.
  • Terminalni čvorovi drže oznaku klase.
  • Najviši čvor je korijenski čvor koji ima jednostavno pitanje koje ima dva ili više odgovora. U skladu s tim, stablo raste i stvara se dijagram toka poput strukture.

Izvori: - www.tutorialride.com

U ovoj odluci vlada drveća klasificira građane mlađe od 18 godina ili stariji od 18 godina. To bi im pomoglo da odluče da li treba dati dozvolu određenom građaninu ili ne.

7.Ostala analiza ili analiza anomalije:

Ova metoda vađenja podataka koristi se za identificiranje podataka koji nisu u skladu s očekivanim uzorkom ili očekivanim ponašanjem. Ove neočekivane podatkovne stavke smatraju se odbojnima ili bukom. Oni su korisni u mnogim područjima kao što su otkrivanje prijevara na kreditnoj kartici, otkrivanje provale, otkrivanje kvarova itd. To se još naziva i Outlier Mining .

Na primjer, pretpostavimo da je grafikon dolje prikazan pomoću nekih skupova podataka u našoj bazi podataka.

Dakle, crta se najbolje stajanje. Točke koje leže u blizini crte pokazuju očekivano ponašanje, dok je točka daleko od crte Outlier.

To će pomoći u otkrivanju anomalija i poduzimanju mogućih radnji u skladu s tim.

https://bit.ly/2GrgjDP

8. Neuronska mreža:

Ova metoda ili model za vađenje podataka temelji se na biološkim neuronskim mrežama. To je zbirka neurona poput procesnih jedinica s ponderiranim vezama među njima. Koriste se za modeliranje odnosa između ulaza i izlaza. Koristi se za klasifikaciju, regresijsku analizu, obradu podataka itd. Ova tehnika djeluje na tri stupa -

  • Model
  • Algoritam učenja (nadziran ili bez nadzora)
  • Funkcija aktiviranja

Izvori: - www.saedsayad.com

Preporučeni članci

Ovo je vodič za metode rudarjenja podataka. Ovdje smo na primjeru razmotrili što je istraživanje podataka i različite vrste metoda rudanja podataka. Možete pogledati i sljedeće članke da biste saznali više -

  1. Softver za velike podatke analitike
  2. Intervjui o strukturi podataka
  3. Važne tehnike vađenja podataka
  4. Arhitektura podataka

Kategorija: