Razlika između Hadoopa i MapReducea
Korijeni Hadoopa potiču iz 2002. godine kada je Dough Cutting radio na projektu otvorenog koda nazvanom Nutch (koji se koristio za indeksiranje web stranica i korištenje indeksiranih web stranica za pretraživanje, isto što Google radi). Suočio se s problemima skalabilnosti i u pogledu skladištenja i računanja. Godine 2003. google je objavio GFS (google datotečni sustav), a 2004. Nutch je stvorio NDFS (Nutch distribuirani datotečni sustav). Nakon što je Google najavio MapReduce kao računski mozak koji stoji iza algoritama sortiranja, Dough je uspio pokrenuti Nutch na NDFS-u i upotrijebio je MapReduce 2005. i 2006. godine, a Hadoop se rodio.
Hadoop i MapReduce! Hadoop je eko-sustav projekata otvorenog koda, poput Hadoop Common, Hadoop distribuiranog datotečnog sustava (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop je takav okvir otvorenog koda za spremanje i obradu ogromnih skupova podataka. Spremanje nosi HDFS, a za obradu brine MapReduce. MapReduce, s druge strane, programski je model koji vam omogućuje obradu ogromnih podataka pohranjenih na Hadoop.let, pa razumemo Hadoop i MapReduce u detalje u ovom postu.
Usporedba između Hadoop Vs MapReduce (Infographics)
Ispod je top 5 usporedbe između Hadoopa i MapReducea
Ključne razlike između Hadoop i MapReduce
Slijedi razlika između Hadoopa i MapReducea
- Ako želimo razlikovati Hadoop i MapReduce u laičkim terminima, možemo reći da je Hadoop poput automobila u kojem imate sve što je potrebno za prijelazne udaljenosti, ali MapReduce je poput automobila automobila, pa bez automobila motor ne može ' ne postoji, ali se vanjština automobila može promijeniti (ostali DFS (distribuirani datotečni sustavi)).
- Osnovna ideja koja stoji iza Hadoopa jest da podaci moraju biti pouzdani i skalabilni, pouzdani jer u slučaju katastrofe ili kvara na mreži podaci moraju biti dostupni cijelo vrijeme, a to je postigao Hadoop-ov okvir koristeći Nazivne čvorove i podatkovne čvorove.
- Neka osnovna ideja Data čvorovi i čvorovi imena
- Osnovna ideja iza arhitekture Data čvora i Node čvora je master / slave arhitektura gdje jedna pohranjuje lokaciju podataka (Name Node), a druga pohranjuje same podatke (Data Node). Podaci su podijeljeni u komade od 64Mb i spremaju se u blokove podataka, a njihov registar se održava u imenu čvora. Podaci se tri puta zadano ponavljaju zbog pouzdanosti. Kada je riječ o skalabilnosti, hardver se može povećati u pokretu, a to pomaže povećati pohranu i učiniti sustav skalabilnim.
- Sad dolaze u MapReduce tri faze
- Faza karte
- Faza miješanja
- Smanjite fazu
Uzmimo primjer da bismo ga bolje razumjeli. MapReduce kao programski okvir također ima hello svjetski program, ali poznat je i kao program za brojanje riječi u MapReduce.
Program Brojanje riječi daje nam parove ključ i vrijednost riječi i njihovu učestalost u odlomku / članku ili bilo kojem izvoru podataka. Da biste ga lako razumjeli uzmimo dolje kao primjer podatke.
Kao što vidimo, imamo tri riječi autobus, automobil i vlak. Stupac s imenom Input ima podatke kao što imamo u skupu podataka, a stupac Izlaz ima podatke u međuprostornoj fazi u kojoj će se odvijati miješanje.
Ovdje uzimamo razdjelnik kao zarez (, ) da bismo podijelili riječi. Razdjelnik može biti zarez ili razmak ili novi redak itd.
Ulazni | Skup podataka | caR, CAR, automobil, autobus, vlak, autobus, vlak, autobus, vlak, autobus, buS, automobil, autobus, automobil, vlak, auto, autobus, automobil |
Izlaz | Pretvori u drugi skup podataka
(Ključ, vrijednost) | (Autobus, 1), (Automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1),
(automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1), (autobus, 1), (VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1), (automobil, 1), (BUS, 1), (VLAK, 1) |
A izlaz gornje srednje faze daje se reduktoru, a ispod je krajnji ishod programa.
Ulazni
(izlaz funkcije Map) | Set Tuples | (Autobus, 1), (Automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1),
(automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1), (autobus, 1), (VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1), (automobil, 1), (BUS, 1), (VLAK, 1) |
Izlaz | Pretvara se u manji skup tupola | (BUS, 7),
(CAR, 7), (Vlak, 4) |
- Jedna od ključnih razlika Hadoopa u odnosu na druge velike okvire za obradu podataka je ta što Hadoop šalje kôd (MapReduce kod) klasterima gdje se podaci pohranjuju, a ne šalju podatke u kod, jer će skupovi podataka biti u TB-u ili ponekad u PB-ima to će biti mučan zadatak.
Hadoop vs MapReduce tablica usporedbe
Osnove za usporedbu | Hadoop | MapReduce |
Značenje | Ime "Hadoop" bilo je ime igračkog slona sina Douga Cuttinga. Ovaj je projekt nazvao "Hadoop", jer ga je bilo lako izgovoriti. | Ime "MapReduce" nastalo je prema samoj funkcionalnosti mapiranja i smanjenja parova ključ-vrijednost. |
Koncept | Apache Hadoop je eko-sustav koji pruža okruženje pouzdano, skalabilno i spremno za raspodijeljeno računanje. | MapReduce je podmodul ovog projekta koji je programski model i koristi se za obradu ogromnih skupova podataka koji sjede na HDFS (Hadoop distribuirani datotečni sustav). |
Preduvjeti | Hadoop radi na implementiranim HDFS (distribuiranim datotečnim sustavima Hadoop) | MapReduce može raditi na HDFS / GFS / NDFS ili bilo kojem drugom distribuiranom datotečnom sustavu, na primjer MapR-FS |
Jezik | Hadoop je zbirka svih modula, pa stoga može uključivati i ostale programske / skriptne jezike | MapReduce je u osnovi napisan na programskom jeziku Java |
Okvir | Hadoop ne samo da ima okvir za pohranu koji pohranjuje podatke, već stvara čvor imena i podatkovnih čvorova, a ima i druge okvire koji uključuju i sam MapReduce. | MapReduce je programski okvir koji koristi ključ, mapiranje vrijednosti za razvrstavanje / obradu podataka |
Donja slika pomoći će vam u razlikovanju MapReduce od Hadoopa.
MapReduce Framework
- Kao što vidimo na gornjoj slici, MapReduce je raspodijeljeni okvir za obradu dok je Hadoop zbirka svih okvira.
Zaključak - Hadoop vs MapReduce
Hadoop je open source stekao popularnost budući da je bio besplatan za upotrebu i programeri mogu mijenjati kod prema svojim potrebama. Eado sustav Hadoop proteklih godina kontinuirano se razvijao kako bi Eko-sustav postao što je moguće više bez grešaka.
Sa stalnim promjenama svijeta, tehnologija se brzo mijenja i postaje teško pratiti promjene. Podaci koji se generiraju u mjesecu postaju udvostručeni / utrostručeni dok čitate ovaj članak, a potreba za bržom obradom skupova podataka dovela je do mnogih drugih programskih okvira poput MapReduce 2, Spark itd.
Preporučeni članci
Ovo je vodič za Hadoop u odnosu na MapReduce, njihovo značenje, usporedbu između glave, ključne razlike, tablicu usporedbe i zaključak. Možete pogledati i sljedeće članke da biste saznali više -
- Razlika između Hadoopa i Redshifta
- Otkrijte 6 najboljih razlika između Apache Hadoop i Apache Storm
- Usporedbe između Hadoop Vs SQL
- Znajte o MapReduce vs Spark
- Hadoop vs iskre: funkcije
- Laravel vs Codeigniter: Funkcije