Što je analiza podataka?
Analiza podataka proces je otkrivanja ključnih uvida i vrijednih zaključaka ogromne količine podataka prikupljenih ili prikupljenih iz različitih izvora kako bi se podržala odluka. Povećana računska snaga, velika brzina obrade. Pojava interaktivnih sučelja za krajnjeg korisnika i dokazana učinkovitost distribuirane računalne paradigme za obradu velikih komada podataka napravljena je analitikom podataka da bi se unaprijedilo u svim domenama, istaknuto u trgovini na malo, bankarstvu, zdravstvu, logistici, obrani, javnoj upravi itd.
Vrste analitike podataka
Proces analitike podataka subjektivno je kategoriziran u tri vrste na temelju svrhe analize podataka kao
- Deskriptivna analitika
- Prediktivna analitika
- Preskriptivna analitika
Značajke gore navedenih vrsta Analitike opisane su u nastavku:
1. Deskriptivna analitika
Deskriptivna analitika usredotočena je na objedinjavanje prošlih podataka kako bi se izvukli zaključci. Najčešće korištene mjere za karakterizaciju raspodjele povijesnih podataka uključuju kvantitativno
- Mjere središnje tendencije - srednja, srednja, četvrtina, način.
- Mjere varijabilnosti ili širenja - raspon, međukvartilni raspon, postotci.
U posljednje vrijeme poteškoće i ograničenja koja se odnose na prikupljanje, pohranjivanje i razumijevanje velikih količina podataka prevladavaju se statističkim zaključivanjem. Generalizirani zaključci o statistici podataka o stanovništvu izračunavaju se korištenjem metoda uzorkovanja uz primjenu središnje teorije ograničavanja.
Vodeća televizijska kuća okuplja biračke detalje nasumično izabranih birača na izlazu u anketnu stanicu na dan izbora kako bi izvukla statističke zaključke o sklonostima čitavog stanovništva.
Ponovljeno uzorkovanje podataka o populaciji rezultira komadima uzoraka dovoljno velike veličine uzorka. Klasterirano uzorkovanje općenito se preferira da bi se stvorili dobro slojeviti, nepristrani predstavnici podataka iz populacije. Statistička mjera interesa izračunava se na dijelovima uzorkovanih podataka kako bi se dobila raspodjela statističkih vrijednosti uzorka koja se naziva raspodjela uzorkovanja. Karakteristike raspodjele uzorka povezane su s podacima skupa podataka koristeći središnju teoriju ograničavanja.
2. Prediktivna analitika
Prediktivna analitika koristi obrasce iz povijesnih ili prošlih podataka za procjenu budućih rezultata, prepoznavanje trendova, otkrivanje potencijalnih rizika i prilika ili predviđanje ponašanja procesa. Kako su slučajevi upotrebe predviđanja vjerojatni po prirodi, ovi pristupi koriste vjerojatne modele za mjerenje vjerojatnosti svih mogućih ishoda.
ChatBot na Portalu za financijske usluge financijskih tvrtki proaktivno uči klijentovu namjeru ili potrebu da se temelji na njegovim dosadašnjim aktivnostima u svojoj web domeni. Uz predviđeni kontekst, chatBot interaktivno konvertira s kupcem kako bi brzo pružio apt usluge i postigao bolje zadovoljstvo korisnika.
Uz scenarije ekstrapolacije koji će predvidjeti što će se dogoditi u budućnosti na temelju dostupnih prošlih podataka, malo je aplikacija koje pretpostavljaju propuštene unose podataka uz pomoć dostupnih uzoraka podataka. Ova aproksimacija propuštenih vrijednosti unutar raspona danih uzoraka podataka tehnički se naziva Interpolacija.
Snažan program za uređivanje slika podržava rekonstrukciju propuštenih dijelova teksture zbog super nametnutog teksta interpoliranjem funkcije značajke na propušteni blok. Funkcija značajki može se protumačiti kao matematički zapis uzoraka u teksturi izobličene slike.
Značajni čimbenici koji utječu na izbor prediktivnih modela / strategija su:
- Točnost predviđanja: To prenosi stupanj bliskosti između predviđene vrijednosti i stvarne vrijednosti. Niža varijanca razlike između predviđene vrijednosti i stvarne vrijednosti podrazumijeva veću točnost prediktivnog modela.
- Brzina predviđanja: prioritet je u aplikacijama za praćenje u stvarnom vremenu
- Stopa učenja modela: ovisi o složenosti modela i proračunima koji su uključeni u proračun parametara modela.
3. Preskriptivna analitika
Propisivačka analitika koristi saznanja koja su otkrivena kao dio opisne i prediktivne analize kako bi preporučila tijek akcija koji su svjesni konteksta. Napredne statističke tehnike i računalno intenzivne metode optimizacije implementirane su kako bi se razumjela distribucija procijenjenih predviđanja.
Precizno se procjenjuje utjecaj i korist svakog ishoda, koji se procjenjuju tijekom prediktivne analitike, kako bi se donijele heurističke i vremenski osjetljive odluke za određeni skup uvjeta.
Konzultantska tvrtka za tržište dionica provodi SWOT (snagu, slabost, mogućnosti i prijetnje) analizu predviđenih cijena dionica u portfelju ulagača i svojim klijentima preporučuje najbolje opcije kupovine-prodaje.
Proces procesa u analitici podataka
Postupak analitike podataka ima različite faze obrade podataka kao što je objašnjeno u nastavku:
1. Vađenje podataka
Unos podataka iz više različitih izvora podataka, uključujući web stranice, baze podataka, stare verzije, rezultira unošenjem skupova podataka različitih formata. Formati podataka koji se unose u tok analitike podataka mogu se široko klasificirati kao
- Strukturirani podaci imaju jasnu definiciju tipova podataka zajedno s pripadajućom duljinom polja ili razgraničivačima polja. Ova vrsta podataka može se lako upitati poput sadržaja pohranjenog u relacijskoj bazi podataka (RDBMS)
- Polstrukturiranim podacima nedostaje precizna definicija izgleda, ali podatkovni se elementi mogu prepoznati, odvojiti i grupirati na temelju standardne sheme ili drugih pravila metapodataka. XML datoteka koristi označavanje za držanje podataka dok Javascript objektna notacijska datoteka (JSON) sadrži podatke u parovima ime-vrijednost. NoSQL (ne samo SQL) baze podataka poput MongoDB, ali i baza kauča također se koriste za pohranu polustrukturiranih podataka.
- Nestrukturirani podaci uključuju razgovore na društvenim mrežama, slike, audio zapise i sl. Tradicionalne metode za analizu podataka ne razumiju ove podatke. Nestrukturirani podaci pohranjuju se u podatkovna jezera.
Implementacija raščlambe podataka za strukturirane i polustrukturirane podatke uključena je u različite ETL alate kao što su Ab Initio, Informatica, Datastage i alternativni izvori poput Talenda.
2. Čišćenje i transformacija podataka
Čišćenje raščlanjenih podataka vrši se kako bi se osigurala dosljednost podataka i dostupnost relevantnih podataka za kasnije faze u tijeku procesa. Glavne operacije čišćenja u analizi podataka su:
- Otkrivanje i uklanjanje izdataka u količinama podataka
- Uklanjanje duplikata u skupu podataka
- Rukovanje nedostajućim unosima u zapisima podataka uz razumijevanje funkcionalnosti ili slučajeva upotrebe
- Provjere dopuštenih vrijednosti polja u zapisima podataka poput "31. veljače" ne mogu biti valjana vrijednost u bilo kojem datumskom polju.
Očišćeni podaci pretvaraju se u prikladan format za analizu podataka. Transformacije podataka uključuju
- Filter neželjenih podataka.
- Pridruživanje podataka dohvaćenih iz različitih izvora.
- Agregiranje ili grupiranje podataka
- Sastavljanje podataka
3. KPI / Uvid uvoda
Data Mining, metode dubokog učenja koriste se za procjenu ključnih pokazatelja uspješnosti (KPI) ili dobivanje vrijednih uvida iz očišćenih i transformiranih podataka. Na temelju analitičkih ciljeva, analiza podataka provodi se pomoću različitih tehnika prepoznavanja uzoraka poput k-sredstava klastera, SVM klasifikacije, Bayesovih klasifikatora itd. I modela strojnog učenja poput Markovih modela, Gaussovih modela mješavina (GMM) itd.
Probabilistički modeli u fazi treninga uče optimalne parametre modela, a u fazi validacije model se testira pomoću klipnog unakrsnog provjere validacije kako bi se izbjegle pogreške u preklapanju i nedovoljnoj uklapanju.
Programski jezik koji se najčešće koristi za analizu podataka su R i Python. Obje imaju bogat skup knjižnica (SciPy, NumPy, Pandas) s otvorenim izvorom za obavljanje složenih analiza podataka.
4. Vizualizacija podataka
Vizualizacija podataka proces je jasne i učinkovite prezentacije otkrivenih obrazaca, izvedenih zaključaka iz podataka pomoću grafikona, crteža, nadzorne ploče i grafike.
- Alati za izvješćivanje podataka, kao što su QlikView, Tableau itd., Prikazuju KPI i ostale izvedene mjerne podatke na različitim razinama preciznosti.
- Alati za izvješćivanje omogućuju krajnjim korisnicima da izrade prilagođena izvješća pomoću okretnih, detaljnih opcija koristeći korisnička sučelja za povlačenje i ispuštanje
- Interaktivne biblioteke za vizualizaciju podataka kao što su D3.js (dokumenti vođeni podacima), HTML5-Anycharts itd. Koriste se za povećanje sposobnosti istraživanja analiziranih podataka
Preporučeni članci
Ovo je vodič za Što je analiza podataka. Ovdje smo razgovarali o različitoj vrsti analitičkih podataka s tijekom procesa. Možete i proći kroz druge predložene članke da biste saznali više -
- Pitanja i odgovori za intervju s analitičarom podataka
- Što je vizualizacija podataka?
- Što je analitika velikih podataka?
- Što je Minitab?