Razlike između skladišta podataka i Hadoopa
U svakom desetljeću IT industrija doživljava veliku inovaciju koja potresa cjelokupnu IT industriju. U posljednjih nekoliko godina, Apache Hadoop je učinio isto što je infuzirao podatkovne centre s novom infrastrukturom
Davanjem snage paralelne obrade programeru Hadoop je na takvom eksponencijalnom porastu usvajanja, a njegov se ekosustav proširuje u dubini i širini, prirodno je upitati se hoće li Hadoop zamijeniti tradicionalnu Data Warehouse.
Da vidimo što je Alasdair Anderson (izvršni potpredsjednik Nordee) rekao na samitu u Hadoopu o ovoj vrućoj temi u gradu.
"Trenutno nema odnosa između EDW-a i Hadoopa - oni će se nadopunjavati. NIJE riječ o rippu i zamjenama: nećemo se riješiti RDBMS-a ili MPP-a, već ćemo umjesto toga upotrijebiti pravi alat za pravi posao - i to će jako utjecati na cijenu. ”
Kad god započne ova zanimljiva rasprava, pada nam na pamet puno pitanja poput:
1) Ako imate velike podatke, trebate li skladište podataka?
2) Hoće li Hadoop zamijeniti skladište podataka?
3) Je li ovo smrt tradicionalne ere skladišta podataka?
Da bismo znali odgovore na sva ova pitanja trebamo pogledati širi kontekst ove slike.
1. Što je Hadoop?
Tko u posljednje vrijeme nije čuo za Big Data? Sa stotinama terabajta podataka koji se svakodnevno generiraju iz različitih izvora, jasno je da je današnji moderni svijet svijet velikih podataka
Kad počnete govoriti o Big Data-u prije ili kasnije započinjete raspravljati o najtoplijoj temi svijeta velikih podataka: Hadoop - ali o čemu se točno radi?
Hadoop je open-source, programski okvir temeljen na Javi koji podržava obradu i pohranu izuzetno velikih skupova podataka u distribuiranom računalnom okruženju.
Četiri modula tvrtke Hadoop -
Hadoop se sastoji od 4 modula -
- Distribuirani datotečni sustav
Distribuirani datotečni sustav omogućuje pohranjivanje podataka u lako dostupnom formatu na velikom broju povezanih uređaja za pohranu.
- Smanjivanje karte
Map Reduction je kombinacija dviju operacija - čitanje podataka iz baze podataka i njihovo stavljanje u format pogodan za analizu (preslikavanje) i izvođenje matematičkih operacija (smanjenje).
- Hadoop Common
Hadoop Common nudi alate potrebne za podatke pohranjene u HDFS (Hadoop Distributed File System)
- PREĐA
YARN upravlja resursima sustava koji pohranjuju podatke i pokreće analizu.
2. Što je skladište podataka?
Skladište podataka je relacijska baza podataka koja je dizajnirana za upite i analize podataka. Obično sadrži povijesne podatke dobivene iz različitih izvora.
Okruženje skladišta podataka uključuje ETL rješenja, internetski mehanizam za analitičku obradu (OLAP), alate za analizu klijenata i druge aplikacije koje upravljaju postupkom analize podataka i dostavljanjem ih poslovnim korisnicima.
Sažmi što je skladište podataka -
-
Predmet orijentirana
Skladište podataka može se koristiti za analizu određenog područja poput prodaje, financija i zaliha. Svako predmetno područje sadrži detaljne podatke.
-
Integriran
Skladište podataka integrira podatke iz više izvora podataka. Na primjer, datumi su u istom formatu, muški / ženski kodovi su konzistentni. U skladištu podataka postojat će samo jedan način prepoznavanja proizvoda i oni će koristiti isti zapis o kupcu, a ne kopije
-
Neizbrisivu
Podaci se u skladištu podataka pohranjuju nepromijenjeni i neće se mijenjati. Dakle, povijesne podatke u skladištu podataka nikada ne treba mijenjati.
-
Vremenski promjenljivi
podatke možete preuzeti iz 3 mjeseca, 6 mjeseci, 12 mjeseci ili čak i starijih podataka iz skladišta podataka.
-
Nije virtualno
Skladište podataka fizičko je i trajno spremište.
Skladište podataka vs Hadoop (Infographics)
Ispod je top 6 usporedbi podataka u skladištu podataka i Hadoop
Skladište podataka vs Hadoop - koga koristiti?
- Ako imate čiste, dosljedne i visokokvalitetne podatke, tada biste trebali potražiti skladište podataka jer Hadoop u nekim svojim rješenjima nema kvalitetu podataka.
- Ako imate neobrađene podatke, tada biste trebali ići za Hadoop jer Hadoop dobro funkcionira s nestrukturiranim / sirovim podacima, ali Data Warehouse radi samo sa strukturiranim podacima.
- Za slaba i interaktivna izvješća trebali biste potražiti skladište podataka
- Za OLTP / Real-time / Point upite trebali biste potražiti skladište podataka jer Hadoop dobro funkcionira s paketnim podacima.
- Za velike skupove podataka s velikim količinama, trebali biste potražiti Hadoop jer je Hadoop dizajniran za rješavanje velikih podataka.
Tabela usporedbe tablice između skladišta podataka i Hadoopa
Ispod je popis točaka koji opisuju usporedbe između skladišta podataka i Hadoopa
Osnove za usporedbu | Skladište podataka | Hadoop |
Podaci | U skladištu podataka analiziramo strukturirane i obrađene podatke | U Hadoopu možemo obraditi bilo koju vrstu podataka, uključujući strukturirane / nestrukturirane / polustrukturirane i sirove |
Obrada | Njegova obrada temelji se na konceptima pisanja po shemi | Njegova obrada temelji se na konceptima na čitanju shema |
skladištenje | Prikladno za podatke s malom količinom i preskupo za velike količine podataka | Odlično djeluje s velikim skupovima podataka koji imaju ogroman volumen, brzinu i raznolikost |
Agilnost | Manje je okretna i fiksne konfiguracije | Izuzetno je spretan, konfigurira i konfigurira po potrebi |
sigurnosti | Tehnologije skladišta podataka postoje već desetljećima. Stoga se u pogledu sigurnosti možemo osloniti na Data Warehouse | Iako su Hadoop tehnologije relativno nove u usporedbi s Data Warehouseom, sigurnost ovdje je velika briga |
Korisnici | Poslovni profesionalci obično koriste skladište podataka | Hadoop je prilično poznat na području znanosti podataka i inženjerstva podataka |
Zaključak - skladište podataka vs Hadoop
Sada znamo o obadva Data Warehouse i Hadoop, vratimo se natrag i ispitamo pitanje koje smo postavili na početku ovog članka Data Warehouse i Hadoop -
1) ako imate velike podatke, trebate li skladište podataka?
Odgovor - sve dok vaša organizacija treba pouzdane, vjerodostojne i dostupne podatke, tada vam treba skladište podataka.
2) Hoće li Hadoop zamijeniti skladište podataka?
Odgovor - Upoređivanje skladišta podataka i Hadoopa je uspoređivanje jabuka i naranči. Oba skladišta podataka i Hadoop imaju svoje prednosti u različitim scenarijima upotrebe. U nekim slučajevima i dalje ovisimo o tradicionalnim tehnikama skladišta podataka, ali kako se vrijeme mijenja, više se fokusiramo na Hadoop Framework za rješavanje problema s velikim podacima.
3) Je li to smrt tradicionalne ere skladišta podataka?
Odgovor - Kao što vidite, ovo zapravo nije jednostavno pitanje i stoga se ne uklapa u jednostavan odgovor. Istina je da će veliki podaci u narednih nekoliko godina promijeniti tradicionalni pristup skladištenja podataka, ali to neće zastarjeti koncepti i praksi skladištenja podataka.
Preporučeni članak
Ovo je koristan vodič za Data Warehouse vs Hadoop, ovdje smo razgovarali o njihovom značenju, usporedbi "Head to Head", ključnoj razlici i zaključku. Možete pogledati i sljedeći članak da biste saznali više -
- Hadoop vs Splunk - pronađite najbolje 7 razlike
- Hadoop vs Elasticsearch - koji je korisniji
- Veliki podaci u odnosu na skladište podataka - saznajte najbolje razlike
- Business Intelligence vs skladište podataka
- Splunk vs Nagios