Razlika između znanosti o podacima i strojnog učenja
Znanost podataka je evolucijsko proširenje statistike koja je sposobna nositi se s ogromnim količinama uz pomoć tehnologije informatike. Strojno učenje je polje učenja koje računalima daje mogućnost učenja bez eksplicitnog programiranja. Znanost o podacima pokriva širok raspon podatkovnih tehnologija, uključujući SQL, Python, R i Hadoop, Spark, itd. Strojno učenje doživljava kao proces, može se definirati kao proces kojim računalo može raditi preciznije, jer prikuplja i uči iz podataka koji su mu dani.
Usporedba podataka o znanosti o strojevima i strojnom učenju (infografika)
Ispod je top 5 usporedbe podataka Data Science i strojnog učenja
Ključna razlika između podatkovnih znanosti i strojnog učenja
Ispod je razlika između Data Science i Strojnog učenja kako slijedi
- Komponente - Kao što je spomenuto ranije, sustavi Data Science pokrivaju cijeli životni ciklus podataka i obično imaju komponente koje pokrivaju sljedeće:
- Prikupljanje i profiliranje podataka - ETL (Extract Transform Load) cjevovoda i posao profiliranja
- Distribuirano računanje - Horizontalno skalabilna raspodjela i obrada podataka
- Automatiziranje inteligencije - Automatizirani ML modeli za internetske odgovore (predviđanja, preporuke) i otkrivanje prijevara.
- Vizualizacija podataka - Vizualno istražite podatke da biste postigli bolju intuiciju podataka. Sastavni dio ML modeliranja.
- Nadzorne ploče i BI - Unaprijed definirane nadzorne ploče s mogućnostima rezanja i kockica za dionike više razine.
- Inženjering podataka - Osiguravanje da su vrući i hladni podaci uvijek dostupni. Pokriva sigurnosnu kopiju podataka, sigurnost, oporavak od katastrofe
- Uvođenje u način proizvodnje - Sustav migracije u proizvodnju sa standardima industrijske prakse.
- Automatizirane odluke - To uključuje vođenje poslovne logike na vrhu podataka ili složen matematički model obučen pomoću bilo kojeg ML algoritma.
Modeliranje strojnog učenja započinje postojećim podacima, a tipične komponente su sljedeće:
- Shvatite problem - Svakako provjerite učinkovit način rješavanja problema. Imajte na umu da nisu svi problemi rješivi pomoću ML-a.
- Istražite podatke - da biste stekli intuiciju o značajkama koje će se koristiti u ML modelu.To će možda trebati više ponavljanja. Vizualizacija podataka ovdje igra kritičnu ulogu.
- Priprema podataka - Ovo je važna faza koja ima visoki utjecaj na točnost ML modela. Bavi se pitanjem podataka poput što učiniti s podacima koji nedostaju za značajku? Zamijenite s lutkom vrijednosti poput nule ili srednje vrijednosti ili izbacite značajku iz modela ?. Značajke skaliranja, zbog kojih su vrijednosti svih značajki u istom rasponu, presudne su za mnoge modele ML-a. Mnogo drugih tehnika poput generiranja polinomskih značajki također se ovdje koristi za dobivanje novih značajki.
- Odaberite model i vlak - Model se odabire na temelju vrste problema (predviđanja ili klasifikacije itd.) I vrste skupa značajki (neki algoritmi djeluju s malim brojem instanci s velikim brojem značajki, a neki u drugim slučajevima),
- Mjera performansi - U Data Science mjere performanse nisu standardizirane, mijenjat će se od slučaja do slučaja. Tipično, to će biti pokazatelj pravovremenosti podataka, kvalitete podataka, mogućnosti upita, ograničenja konkurentnosti u pristupu podacima, mogućnosti interaktivne vizualizacije itd.
U ML modelima, mjere uspješnosti su kristalno jasne. Svaki algoritam ima mjeru koja pokazuje koliko dobro ili loše model opisuje dane podatke o treningu. Na primjer, RME (Root Srednja greška) se koristi u Linearnoj regresiji kao pokazatelj greška u modelu.
- Metodologija razvoja - Data Science projekti usklađeni su više kao inženjerski projekt s jasno definiranim prekretnicama. Ali ML projekti su više istraživanja koja započinju hipotezom i pokušavaju se dokazati dostupnim podacima.
- Vizualizacija - Vizualizacija općenito Data Science predstavlja podatke izravno koristeći bilo koje popularne grafikone poput šipke, pite itd. Ali u ML-u, također korištene vizualizacije predstavljaju matematički model podataka o treningu. Na primjer, vizualizacija matrice konfuzije klasifikacije više klasa pomaže brzo prepoznati lažne pozitivi i negativi.
- Jezici - SQL i SQL jezici sintakse (HiveQL, Spark SQL itd.) Su najkorišteniji jezik u svijetu podataka o znanosti. Popularni se skriptni jezici za obradu podataka poput Perl, awk, sed također koriste. široko korištena kategorija (Java za Hadoop, Scala for Spark itd.)
Python i R su jezik koji se najčešće koristi u svijetu strojnog učenja. S druge strane, Python dobija sve više napora jer se novi istraživači dubokog učenja uglavnom pretvaraju u python.SQL također igra važnu ulogu u fazi istraživanja podataka ML-a.
Tablica usporedbe podataka o znanosti prema strojnom učenju
Osnove usporedbe | Znanost podataka | Strojno učenje |
djelokrug | Stvorite uvid iz podataka koji se bave svim složenostima u stvarnom svijetu. To uključuje zadatke poput razumijevanja zahtjeva, vađenja podataka itd. | Točno Klasificirajte ili predvidite ishod za novu točku podataka učeći obrasce iz povijesnih podataka, koristeći matematičke modele. |
Ulazni podaci | Većina ulaznih podataka stvara se kao potrošni materijal koji ljudi trebaju čitati ili analizirati poput tabelarnih podataka ili slika. | Ulazni podaci za ML transformirat će se posebno za korištene algoritme. Neki su primjeri skaliranje značajki, umetanje riječi ili dodavanje polinomskih značajki |
Složenost sustava | ● Komponente za rukovanje nestrukturiranim neobrađenim podacima koji dolaze.
● Mnogo komponenti u pokretu, koje obično zakazuje orkestracijski sloj za sinkronizaciju neovisnih poslova | ● Glavna složenost je iza algoritama i matematičkih koncepata
● Modeli ansambla imati će više od jednog modela ML-a i svaki će imati ponderirani doprinos konačnom rezultatu |
Preferirani skup vještina | ● Stručnost u domenu
● ETL i profiliranje podataka ● Snažan SQL ● NoSQL sustavi ● Standardno izvještavanje / vizualizacija | ● Razumijevanje snažne matematike
● Python / R programiranje ● Razmjena podataka sa SQL-om ● Vizualizacija specifična za model |
Specifikacija hardvera | ● vodoravno skalabilni sustavi koji se više vole baviti ogromnim podacima
● Visoki RAm i SSD diskovi koji se koriste za prevladavanje uskog grla i ulaza | ● GPU-ovi se preferiraju za intenzivne vektorske operacije
● U tijeku su snažnije verzije poput TPU-a (link) |
Zaključak - Data Science vs Strojno učenje
I u znanosti o podacima i strojnom učenju pokušavamo izvući podatke i uvide iz podataka. Strojno učenje koje pokušava napraviti algoritme da uči samostalno. Trenutno se napredni modeli ML-a primjenjuju na Data Science radi automatskog otkrivanja i profiliranja podataka.Googleov Cloud Dataprep najbolji je primjer za to.
Preporučeni članak:
Ovo je bio vodič za Data Science vs Strojno učenje, njihovo značenje, Usporedba između glave, Ključne razlike, Tabela usporedbe i Zaključak. Možete pogledati i sljedeće članke da biste saznali više -
- Hadoop razvojni razgovori pitanja
- Veliki podaci u odnosu na znanost podataka - u čemu se razlikuju?
- Znanost o podacima i njezin rastući značaj
- Statistika vs Strojno učenje - razlike između
- Kako razbiti Hadoopin razvojni razgovor?