Uvod u Data Lake vs Data Warehouse
Data Lake vs Data Warehouse izrazi su koji se upotrebljavaju naizmjenično, ali postoje razlike između oba ova termina. U nastavku smo predstavili dijagram kako bismo razumjeli razliku na visokoj razini između ta dva, i vrlo brzo ćemo detaljno proći za svaku od njih.
Što je Data Lake?
Data Lake je vrsta spremišta podataka koja se sastoji samo od neobrađenih podataka koji su u obliku strukturiranog, polustrukturiranog i nestrukturiranog formata. Podatkovno jezero uglavnom koriste znanstvenici podataka i inženjeri strojnog učenja jer im pomažu da odgovore na pitanja koja još nisu odgovorena ili možda stvaraju pitanje koje još nije poznato. Sadrži ogroman skup podataka s različitim vrstama i kada se integriraju, dokazuju se kao vrlo korisni u prediktivnom modeliranju koji se uglavnom koristi za izgradnju modela strojnog učenja.
Što je skladište podataka?
Skladište podataka je centralizirano mjesto za pohranjivanje transformiranih podataka koji su napravljeni u strukturirani format prije nego što se pohrane u skladište podataka. Skladište podataka može imati podatke iz više izvora koji se pomoću ETL postupka učitavaju u skladište i zatim koriste u svrhu poslovne inteligencije.
Usporedba podataka Data Lake i Data Warehouse (Infographics)
Ispod je 14 najboljih razlika između Data Lake-a i Data Warehouse-a
Ključne razlike
Postoje glavne ključne razlike između podataka jezera i skladišta podataka dane su u nastavku:
- Sastoji se od nestrukturiranih i strukturiranih podataka s različitih platformi poput senzora, aplikacija i web stranica itd. Uglavnom se sastoji od relacijskih podataka iz RDBMS-a, DBMS sustava i drugih operativnih baza podataka i aplikacija.
- Data Lake je obrada koja se čita na shemi. Skladište podataka je obrada shema-na-pisanje.
- Vrlo je okretna. Manje je okretna.
- Konfiguracija je jednostavna i može se prilagoditi promjenama. Ima fiksnu konfiguraciju i vrlo ju je teško promijeniti.
- Najviše ga koriste AI znanstvenici i profesionalci strojnog učenja. Koriste ga poslovni profesionalci.
Tabela usporedbe podataka Data Lake i skladišta podataka:
Razmotrimo glavnu razliku između Data Lake-a i Data Warehouse-a
Karakteristike | Jezero podataka | Skladište podataka |
skladištenje | Podaci se čuvaju u svom neobrađenom obliku u Data Lakeu i ovdje se svi podaci čuvaju neovisno o izvoru podataka. Oni se transformiraju samo u druge oblike kad god je to potrebno. | Skladište podataka sastoji se od podataka koji su izvađeni iz transakcijskih i drugih mjernih sustava. Ovdje podaci nisu u sirovom obliku i uvijek se transformiraju i čiste. |
Uporaba i svrha | Glavni cilj Data Lakea su znanstvenici podataka, veliki programeri podataka i inženjeri strojnog učenja koji trebaju učiniti dubinsku analizu kako bi stvorili modele za posao, kao što je prediktivno modeliranje. | Glavni je cilj Data Warehouse operativni korisnici jer su ti podaci strukturirani i mogu pružiti spremnost za izradu izvještaja. Dakle, oni se uglavnom koriste za poslovnu inteligenciju. |
Unosi podataka | Glavni unosi u podatke Lake su sve vrste podataka kao što su strukturirani, polustrukturirani i nestrukturirani podaci. Ti se podaci nalaze u izvornom obliku Lake. | Glavni ulazi u skladište podataka su strukturirani podaci koji dolaze iz transakcijskih i metričkih sustava koji su zatim organizirani u obliku shema. |
Kvaliteta podataka | Sadrži neobrađene podatke koji mogu biti ili ne moraju biti kurirani. | Sastoji se od prikupljenih podataka koji su centralizirani i spremni su pokrenuti za potrebe poslovne inteligencije i analitike. |
Normalizacija | Ovdje podaci nisu u normaliziranom obliku. | Denormalizirane sheme |
Povijest | Tehnologije koje se koriste u podatkovnim jezerima kao što su Hadoop, Strojno učenje relativno su nove u odnosu na skladište podataka. | Ovdje je tehnologija koja se koristi za skladište podataka starija. |
Vremenska traka podataka | Jezero podataka može imati sve vrste podataka i može se upotrijebiti imajući u vidu prošlost, sadašnjost i izglede. | Što se tiče skladišta podataka, ovdje se najviše vremena provodi na analizi različitih izvora podataka. |
vrijeme procesiranja | Ovdje je vrijeme obrade dok analiziramo i dobivamo rezultate iz podataka Lake mnogo manje od vremena skladišta podataka, jer se ovdje podaci pohranjuju u obliku neobrađenih podataka, a oni nisu u transformiranom obliku i kao rezultat toga mi smo oduzeli vrijeme koja se može potrošiti na transformaciju podataka. Možemo samo prikupiti podatke kakvi jesu i napraviti neko osnovno čišćenje i započeti izgradnju naših modela. | U slučaju skladišta podataka, vrijeme koje se troši za obradu je više u odnosu na jezero podataka. Razlog za to je što podatke u bilo kojem skladištu podataka prvo treba transformirati, a potom ih analizirati. |
Trošak skladištenja | Troškovi pohrane ovdje u tehnologijama podataka jezera relativno su niži nego u skladištu podataka i također zahtijevaju mnogo vremena. | Troškovi skladištenja u tehnologijama skladišta podataka više su u usporedbi s jezerom podataka. To je zato što za transformirane podatke treba više prostora za pohranu, jer prvo trebaju pohraniti neobrađene podatke, a zatim ih transformirati kako bi im dodijelili različita polja prema strukturi skladišta podataka. |
Kompatibilnost | Ovdje se podaci uvijek čuvaju u svom neobrađenom obliku i transformiraju se samo kada je potrebno ili kada su spremni za upotrebu. | Ovdje se podaci pohranjuju u transformiranom formatu i možda ćemo imati problema prilikom pokušaja bilo kakvih promjena. |
Pristupačnost | Podaci unutar podatkovnog jezera vrlo su dostupni i mogu se brzo ažurirati. | Podaci unutar skladišta podataka složeniji su i zahtijevaju veće troškove da bi se te promjene mogle uvesti, a pristup je ograničen samo na ovlaštene korisnike. |
Pozicija sheme | Shema se uglavnom stvara nakon pohrane podataka. To donosi visoku okretnost. | Ovdje se shema uglavnom stvara prije pohrane podataka. |
Proces obrade | Podatkovno jezero koristi postupak ELT, tj. Ekstrahiranje, učitavanje i pretvaranje. | Skladište podataka koristi tradicionalni pristup ETL-u, tj. Vađenje, pretvaranje i učitavanje. |
Prednosti | Jezero podataka vodi do novih izuma jer integracija okuplja različite vrste podataka i također daje odgovore na mnoga neodgovorena pitanja. | Većina korisnika organizacije uključena je u operativne aktivnosti, a skladište podataka pruža jednu tako sjajnu platformu za izradu izvještaja i mjernih podataka na vrhu transformiranih podataka. |
Zaključak
U ovom postu saznali smo o Data Lakes vs Data Warehouse. Također smo išli naprijed i uspoređivali oba na temelju različitih parametara. Ovo bi trebalo pomoći svakom polazniku da stekne osnovnu ideju iza tehnologija koje podržavaju Data Lake i Data Warehouse.
Preporučeni članci
Ovo je vodič za najveću razliku između Data Lake-a i Data Warehouse-a. Ovdje smo raspravljali o ključnim razlikama Data Lake vs skladištu podataka s infografikom i tablicom usporedbe. Možete također pogledati sljedeće članke da biste saznali više -
- Scrum vs Vodopad - najbolje razlike
- MySQL vs MySQLi - Koji je bolji?
- Mikroprocesor vs mikrokontroler
- Pitanja o intervjuu za modeliranje podataka