Uvod u istraživanje podataka

Ovdje u ovom članku, mi ćemo naučiti o uvodu u Data mining, jer su ljudi rudili sa zemlje stoljećima, kako bi dobili sve vrste vrijednih materijala. Dok se tijekom miniranja stvari otkrivaju iz zemlje, za koju nitko nije očekivao da će je naći. Na primjer, 1898. godine, prilikom iskopavanja grobnice za pronalazak mumija u Saqqari, u Egiptu, pronađen je drveni artefakt koji točno podsjeća na avion. Datirano je iz 200. godine prije Krista, prije otprilike 2200 godina! Ali kakve bismo moguće informacije mogli dobiti iz velikog niza podataka? Pa čak i ako počnemo s miniranjem, postoje li šanse za dobivanje neočekivanih rezultata iz skupa podataka? Prije toga idemo u ono što je točno Data Mining.

Što je istraživanje podataka?

  • U osnovi je vađenje vitalnih informacija / znanja iz velikog niza podataka.
  • Mislite na podatke kao na veliku tlo / kamenitu površinu. Ne znamo što je unutra, ne znamo je li ispod stijena nešto korisno.
  • U ovom uvodu u Data mining tražimo skrivene informacije, ali bez ikakve ideje o tome koju vrstu informacija želimo pronaći i koju namjeravamo jednom upotrijebiti, nalazimo je.
  • Baš kao iu konceptu tradicionalnog rudarstva, i u Data miningu postoje razne tehnike i alati, što se razlikuje ovisno o vrsti podataka koje rudamo, tako smo i mi razjasnili što je to data mining kroz ovu temu uvoda u Data mining.

Primjer istraživanja podataka

Saznali smo o uvodu u iskopavanje podataka u gornjem odjeljku, a sada nastavljamo s primjerima vađenja podataka, koji su navedeni u nastavku:

  • Dakle, postoji operator mobilne mreže. Oni savjetuju Data rudara za iskopavanje u evidenciju poziva operatera. Nisu dodijeljeni određeni ciljevi Data Mineru.
  • Daje se kvantitativni cilj pronalaska najmanje 2 nova obrasca u mjesecu.
  • Kad rudar podataka počne kopati podatke, pronalazi obrazac da postoji manje međunarodnih poziva u srijedu u odnosu na druge dane.
  • Te informacije dijele s upravom i oni planiraju smanjiti međunarodne cijene poziva srijedom i započeti kampanju.
  • Stope poziva brzo se povećavaju, kupci su zadovoljni niskom cijenom poziva, više se kupaca prijavljuje i tvrtka zarađuje više! Win-Win situacija!

Imajući na umu gornji primjer, pogledajmo sada razne korake koji se tiču ​​vađenja podataka.

Koraci uključeni u Rudarstvo podataka

Saznali smo o uvodu u iskopavanje podataka u gornjem odjeljku i sada krećemo naprijed sa koracima koji su uključeni u vađenje podataka, a koji su navedeni u nastavku:

  • Poslovno razumijevanje

U ovom Uvodu u iskopavanje podataka, razumjet ćemo svaki aspekt poslovnih ciljeva i potreba. Trenutna se situacija ocjenjuje pronalaženjem resursa, pretpostavki i drugih važnih čimbenika. U skladu s tim, uspostavljanje dobrog uvoda u plan iskopavanja podataka kako bi se postigli i poslovni i ciljevi iskopavanja podataka.

  • Razumijevanje podataka

U početku se podaci prikupljaju iz svih dostupnih izvora. Tada biramo najbolji skup podataka iz kojeg možemo izdvojiti podatke koji bi mogli biti korisniji.

  • Priprema podataka

Nakon što se skup podataka identificira, on se bira, čisti, izrađuje i formatira u željenom obliku.

  • Modeliranje podataka

To je postupak prepravljanja danih podataka prema potrebama korisnika. na pripremljenom skupu podataka mogu se stvoriti jedan ili više modela, a na kraju treba pažljivo procijeniti modele koji uključuju sve dionike kako bi bili sigurni da stvoreni modeli ispunjavaju poslovne inicijative.

  • procjena

Ovo je jedan od najpotrebnijih procesa pri izvlačenju podataka. To uključuje prolazak kroz svaki aspekt postupka kako bi se provjerila moguća greška ili curenje podataka u procesu. Također, zbog otkrivenih novih obrazaca mogli bi se podići novi zahtjevi poslovanja.

  • razvoj

Znači jednostavno predstaviti znanje na takav način da ga dionici mogu koristiti kad žele. U našem gornjem primjeru ustanovljeno je da je međunarodnih poziva srijedom manje, pa su te informacije prezentirane dionicima koji su zauzvrat koristili te podatke u svoju korist i povećali svoju zaradu.

Tehnike korištene za vađenje podataka

U gornjem dijelu smo saznali o uvodu u iskopavanje podataka, a sada napredujemo s tehnikama koje se koriste u iskopavanju podataka koje su navedene u nastavku:

  • Analiza klastera

Cluster analiza omogućuje prepoznavanje određene skupine korisnika prema zajedničkim značajkama u bazi podataka. Ove značajke mogu uključivati ​​dob, zemljopisni položaj, razinu obrazovanja i tako dalje.

  • Otkrivanje anomalije

Koristi se za određivanje kada se nešto primjetno razlikuje od uobičajenog uzorka. Koristi se za uklanjanje bilo kakve nedosljednosti ili anomalije baze podataka na izvoru.

  • Regresijska analiza

Ova se tehnika koristi za izradu predviđanja na temelju odnosa unutar skupa podataka. Na primjer, može se predvidjeti stopa zaliha određenog proizvoda analizirajući prošlu stopu i uzimajući u obzir različite čimbenike koji određuju stopu zaliha. Ili kao što je prikazano u nastavku, ako imamo podatke o visini i težini različitih osoba, tada bismo s obzirom na bilo koju visinu ili težinu mogli odrediti drugu vrijednost.

  • Klasifikacija

Ovo se bavi stvarima na kojima su oznake. Napomena u detekciji klastera, stvari nisu imale oznaku u njemu i pomoću iskopavanja podataka morali smo ih označiti i oblikovati u klastere, ali u klasifikaciji postoje postojeće informacije koje se lako mogu klasificirati korištenjem algoritma. Primjer su filtri za neželjenu poštu putem e-pošte. Filtar neželjene pošte sadrži i relevantne i neželjene poruke (Podatci o treningu). Utvrđene su razlike međusobno i na taj način omogućavajući mu da pravilno razvrstava buduće e-poruke.

  • Asocijativno učenje

Koristi se za analizu stvari koje se obično događaju bilo u parovima ili u većim skupinama. Na primjer, ljudi koji imaju tendenciju da kupuju limun, kupuju i naranče, ljudi koji imaju tendenciju da kupuju kruh, također kupuju mlijeko i tako dalje. Tako se analiziraju kupnje svih kupaca, a stvari koje se događaju zajedno postavljaju blizu da se poveća prodaja. Dakle, mlijeko se stavlja blizu kruha, limuni se stavljaju pored naranči i tako dalje.

Je li vađenje podataka etično?

Dakle, s prijateljem planiram vikend izlet u Gou, pretražujem internet dobra mjesta za posjetiti u Goi. Sljedeći put kad otvorim internet, pronalazim oglase o raznim hotelima u Goi za boravak.

  • Dobra stvar?

Da, Internet mi je pomogao da pojednostavim putovanje. Uostalom, ako se ipak odlučim posjetiti Gou, morao bih negdje spavati, a oglas koji mi prikazuje hotel je mnogo korisniji od oglasa koji mi prikazuje slučajnu odjeću za kupnju.

  • Loša stvar?

Da! Zašto bi tvrtka za vađenje podataka, za koju nikada ranije nisam čula, znala kamo idem na godišnji odmor. Što ako nikome nisam rekla o ovom putovanju, ali evo Internet odjednom zna da idem tamo. Istina je da o tome ovisi poslovni model tvrtke za rudarstvo podataka. Te podatke prikupljaju putem kolačića i skripti, a zatim ih prodaju oglašivačima koji mi zauzvrat pokušavaju prodati nešto drugo (u ovom slučaju hotelsku sobu).

Tako da može biti dobro ili loše ovisno o načinu na koji gledamo. Također, u gornjem slučaju uvijek možemo isključiti kolačiće ili onemogućiti anonimnost. Iako je svejedno, jedno je sigurno. Iskopavanje podataka je tu da ostane.

Preporučeni članci

Ovo je vodič za Uvod u iskopavanje podataka. Ovdje raspravljamo o njegovom značenju, tehnikama i koracima koji su uključeni u uvod u vađenje podataka s primjerom da bismo ga bolje razumjeli. Možete pogledati i sljedeće članke da biste saznali više -

  1. Pitanja o intervjuu za rudarjenje podataka
  2. Prediktivna analitika u odnosu na istraživanje podataka
  3. Uvod u nauku o podacima
  4. Što je regresijska analiza?

Kategorija: