Algoritmi znanosti podataka - Pregled i vrste algoritama znanosti o podacima

Uvod u algoritme znanosti o podacima

Opis na visokoj razini osnovnih algoritama koji se koriste u Data Science-u. Kao što već znate, podatkovna znanost je polje proučavanja u kojem se odluke donose na temelju uvida koji dobivamo iz podataka umjesto klasičnih determiniranih pristupa utemeljenih na pravilima. Zadatak strojarskog učenja obično možemo podijeliti u tri dijela

Pribavljanje podataka i mapiranje poslovnog problema,
Primjena tehnika strojnog učenja i promatranje metrike performansi
Ispitivanje i implementacija modela

U cijelom ovom životnom ciklusu koristimo različite algoritme nauke podataka za rješavanje zadanog zadatka. U ovom ćemo članku podijeliti najčešće korištene algoritme na temelju njihovih vrsta učenja i raspravljat ćemo o njima na visokoj razini.

Vrste algoritama znanosti o podacima

Na temelju metodologija učenja možemo jednostavno podijeliti algoritme strojnog učenja ili nauke o podacima u sljedeće vrste

Nadzirani algoritmi
Nenadgledani algoritmi

1. Nadzirani algoritmi

Kao što ime sugerira, nadzirani algoritmi su klasa algoritama strojnog učenja u kojoj se model obučava s označenim podacima. Na primjer, na temelju povijesnih podataka želite predvidjeti da li će korisnik ispuniti zajam ili ne. Nakon prethodne obrade i inženjeringa obilježenih podataka, nadzirani algoritmi se obučavaju nad strukturiranim podacima i testiraju na novoj točki podataka ili u ovom slučaju predvidjeti neplaćanje kredita. Zaronimo u najpopularnije algoritme nadziranog strojnog učenja.

K najbliži susjedi

K najbliži susjedi (KNN) jedan je od najjednostavnijih, ali moćnih algoritama strojnog učenja. To je nadzirani algoritam gdje se klasifikacija vrši na temelju k najbližih podataka. Ideja iza KNN je da se slične točke grupiraju zajedno, mjerenjem svojstava najbližih podatkovnih točaka možemo klasificirati testnu točku podataka. Na primjer, rješavamo standardni problem s klasifikacijom u kojem želimo predvidjeti da podatkovna točka pripada klasi A ili klasi B.Naredimo k = 3, sada ćemo testirati 3 najbliže podatkovne točke ispitne podatkovne točke, ako dvije pripadaju klasi A točku podataka ispitivanja proglasit ćemo klasu A, u suprotnom razredom B. Prava vrijednost K pronađena je unakrsnom validacijom. Ima linearnu vremensku složenost, pa se ne može koristiti za aplikacije s malim kašnjenjem.

Linearna regresija

Linearna regresija je algoritam nadzirane znanosti podataka.

Izlaz:

Varijabla je kontinuirana. Ideja je pronaći hiperplanu u kojoj je maksimalni broj bodova u hiperplani. Na primjer, predviđanje količine kiše standardni je regresijski problem u kojem se može koristiti linearna regresija. Linearna regresija pretpostavlja da je odnos između neovisnih i ovisnih varijabli linearni i da postoji vrlo malo ili uopće nema multikolinearnosti.

Logistička regresija

Iako naziv kaže regresija, logistička regresija je nadzirani algoritam klasifikacije.

Izlaz:

Geometrijska intuicija je da možemo odvojiti različite naljepnice Klase pomoću linearne granice odluke. Izlazna varijabla logističke regresije kategorična je. Imajte na umu da ne možemo upotrijebiti pogrešku srednje vrijednosti kao troškovnu funkciju za logističku regresiju, jer je nekonveksna za logističku regresiju.

Podrška vektorski stroj

U logističkoj regresiji, naš glavni moto bio je pronaći liniju koja razdvaja linearnu površinu.

Izlaz:

Možemo smatrati vektorski sustav podrške kao produžetak ove ideje gdje moramo pronaći hiperplanu koja maksimizira maržu. Ali što je marža ?. Za vektor W (površinu odluke koju trebamo smisliti) nacrtamo dvije paralelne crte na obje strane. Udaljenost između ta dva pravca naziva se marginom. SVM pretpostavlja da su podaci linearno razdvojivi. Iako SVM možemo koristiti za nelinearne podatke i pomoću trika Kernel.

Stablo odluke

Stablo odluke je ugniježđeni klasifikator utemeljen na If-Else-u koji za izradu koristi građu u obliku stabla. Drveća odlučivanja vrlo su popularna i jedan od najčešće korištenih algoritama za strojno učenje pod nadzorom na čitavom području znanosti o podacima. Omogućuje bolju stabilnost i točnost u većini slučajeva usporedno od ostalih nadziranih algoritama i robustan je za odlaske. Izlazna varijabla stabla odluke obično je kategorična, ali se također može koristiti za rješavanje regresijskih problema.

ansambli

Ansambli su popularna kategorija algoritama za znanost podataka u kojima se više modela koristi zajedno za postizanje boljih performansi. Ako ste upoznati sa Kaggleom (google platforma za vježbanje i natjecanje u izazovima znanosti podataka), naći ćete da većina pobjedničkih rješenja koristi neku vrstu sastava.

Grubo možemo podijeliti u sljedeće kategorije

Pakiranje
Jačanje
slaganje
kaskadno

Nasumična stabla odlučivanja šuma i gradijenata primjeri su nekih popularnih algoritama ansambla.

2. Nenadgledani algoritmi

Nenadzirani algoritmi koriste se za zadatke u kojima su podaci neoznačeni. Najčešći slučaj upotrebe nenadziranih algoritama je grupiranje. Klasteriranje je zadatak grupiranja sličnih točaka podataka bez ručne intervencije. Ovdje ćemo raspraviti neke od popularnih algoritama strojnog učenja bez nadzora

K znači

K Means je randomizirani neodržavani algoritam koji se koristi za klasteriranje. K Means slijedi u nastavku

1.Initializirajte K točke nasumično (c1, c2..ck)

2. Za svaku točku (Xi) u skupu podataka

Odaberite najbliži Ci (i = 1, 2, 3..k)

Dodajte Xi u Ci

3. Preračunajte centroid koristeći ispravne metrike (tj. Intraklaster udaljenost)

4 Ponovite korak (2) (3) dok se ne zbliže

K znači ++

Korak inicijalizacije u K znači potpuno je nasumičan i na temelju inicijalizacije, grupiranje se drastično mijenja. K znači ++ rješava ovaj problem inicijalizacijom k na vjerojatni način umjesto čiste slučajnosti. K znači ++ stabilniji je od klasičnog K.

K Medoidi:

K medoidi su također algoritam za grupiranje temeljen na K sredstvima. Glavna razlika između njih je centroida K znači da ne postoji nužno u skupu podataka što nije slučaj za K medoide. K medoidi nude bolju interpretaciju klastera. K znači minimizira ukupnu kvadratnu pogrešku, dok K medoidi minimaliziraju različitost između točaka.

Zaključak

U ovom smo članku raspravljali o najpopularnijim algoritmima strojnog učenja koji se koriste u području znanosti podataka. Nakon svega navedenog na pamet vam može pasti pitanje: ' Koji je algoritam najbolji? ' Jasno da ovdje nema pobjednika. To isključivo ovisi o zadatku koji se nalazi i poslovnim zahtjevima. Kao najbolja praksa uvijek započinje najjednostavnijim algoritmom i složenost povećava postupno.

Preporučeni članci

Ovo je vodič za algoritme nauke o podacima. Ovdje smo razmotrili pregled algoritama znanosti o podacima i dvije vrste algoritama znanosti o podacima. Možete i proći kroz naše članke da biste saznali više -