Otkrijte najboljih 5 razlike između Hadoopa i MapReducea

Razlika između Hadoopa i MapReducea

Korijeni Hadoopa potiču iz 2002. godine kada je Dough Cutting radio na projektu otvorenog koda nazvanom Nutch (koji se koristio za indeksiranje web stranica i korištenje indeksiranih web stranica za pretraživanje, isto što Google radi). Suočio se s problemima skalabilnosti i u pogledu skladištenja i računanja. Godine 2003. google je objavio GFS (google datotečni sustav), a 2004. Nutch je stvorio NDFS (Nutch distribuirani datotečni sustav). Nakon što je Google najavio MapReduce kao računski mozak koji stoji iza algoritama sortiranja, Dough je uspio pokrenuti Nutch na NDFS-u i upotrijebio je MapReduce 2005. i 2006. godine, a Hadoop se rodio.

Hadoop i MapReduce! Hadoop je eko-sustav projekata otvorenog koda, poput Hadoop Common, Hadoop distribuiranog datotečnog sustava (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop je takav okvir otvorenog koda za spremanje i obradu ogromnih skupova podataka. Spremanje nosi HDFS, a za obradu brine MapReduce. MapReduce, s druge strane, programski je model koji vam omogućuje obradu ogromnih podataka pohranjenih na Hadoop.let, pa razumemo Hadoop i MapReduce u detalje u ovom postu.

Usporedba između Hadoop Vs MapReduce (Infographics)

Ispod je top 5 usporedbe između Hadoopa i MapReducea

Ključne razlike između Hadoop i MapReduce

Slijedi razlika između Hadoopa i MapReducea

Ako želimo razlikovati Hadoop i MapReduce u laičkim terminima, možemo reći da je Hadoop poput automobila u kojem imate sve što je potrebno za prijelazne udaljenosti, ali MapReduce je poput automobila automobila, pa bez automobila motor ne može ' ne postoji, ali se vanjština automobila može promijeniti (ostali DFS (distribuirani datotečni sustavi)).
Osnovna ideja koja stoji iza Hadoopa jest da podaci moraju biti pouzdani i skalabilni, pouzdani jer u slučaju katastrofe ili kvara na mreži podaci moraju biti dostupni cijelo vrijeme, a to je postigao Hadoop-ov okvir koristeći Nazivne čvorove i podatkovne čvorove.
Neka osnovna ideja Data čvorovi i čvorovi imena

Osnovna ideja iza arhitekture Data čvora i Node čvora je master / slave arhitektura gdje jedna pohranjuje lokaciju podataka (Name Node), a druga pohranjuje same podatke (Data Node). Podaci su podijeljeni u komade od 64Mb i spremaju se u blokove podataka, a njihov registar se održava u imenu čvora. Podaci se tri puta zadano ponavljaju zbog pouzdanosti. Kada je riječ o skalabilnosti, hardver se može povećati u pokretu, a to pomaže povećati pohranu i učiniti sustav skalabilnim.
Sad dolaze u MapReduce tri faze
1. Faza karte
2. Faza miješanja
3. Smanjite fazu

Uzmimo primjer da bismo ga bolje razumjeli. MapReduce kao programski okvir također ima hello svjetski program, ali poznat je i kao program za brojanje riječi u MapReduce.

Program Brojanje riječi daje nam parove ključ i vrijednost riječi i njihovu učestalost u odlomku / članku ili bilo kojem izvoru podataka. Da biste ga lako razumjeli uzmimo dolje kao primjer podatke.

Kao što vidimo, imamo tri riječi autobus, automobil i vlak. Stupac s imenom Input ima podatke kao što imamo u skupu podataka, a stupac Izlaz ima podatke u međuprostornoj fazi u kojoj će se odvijati miješanje.

Ovdje uzimamo razdjelnik kao zarez (, ) da bismo podijelili riječi. Razdjelnik može biti zarez ili razmak ili novi redak itd.

Ulazni

Skup podataka

caR, CAR, automobil, autobus, vlak, autobus, vlak, autobus, vlak, autobus, buS, automobil, autobus, automobil, vlak, auto, autobus, automobil

Izlaz

Pretvori u drugi skup podataka

(Ključ, vrijednost)

(Autobus, 1), (Automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1),

(automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1), (autobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(automobil, 1), (BUS, 1), (VLAK, 1)

A izlaz gornje srednje faze daje se reduktoru, a ispod je krajnji ishod programa.

Ulazni

(izlaz funkcije Map)

Set Tuples

(Autobus, 1), (Automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1),

(automobil, 1), (autobus, 1), (automobil, 1), (vlak, 1), (autobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(automobil, 1), (BUS, 1), (VLAK, 1)

Izlaz

Pretvara se u manji skup tupola

(BUS, 7),

(CAR, 7),

(Vlak, 4)

Jedna od ključnih razlika Hadoopa u odnosu na druge velike okvire za obradu podataka je ta što Hadoop šalje kôd (MapReduce kod) klasterima gdje se podaci pohranjuju, a ne šalju podatke u kod, jer će skupovi podataka biti u TB-u ili ponekad u PB-ima to će biti mučan zadatak.

Hadoop vs MapReduce tablica usporedbe

Osnove za usporedbu	Hadoop	MapReduce
Značenje	Ime "Hadoop" bilo je ime igračkog slona sina Douga Cuttinga. Ovaj je projekt nazvao "Hadoop", jer ga je bilo lako izgovoriti.	Ime "MapReduce" nastalo je prema samoj funkcionalnosti mapiranja i smanjenja parova ključ-vrijednost.
Koncept	Apache Hadoop je eko-sustav koji pruža okruženje pouzdano, skalabilno i spremno za raspodijeljeno računanje.	MapReduce je podmodul ovog projekta koji je programski model i koristi se za obradu ogromnih skupova podataka koji sjede na HDFS (Hadoop distribuirani datotečni sustav).
Preduvjeti	Hadoop radi na implementiranim HDFS (distribuiranim datotečnim sustavima Hadoop)	MapReduce može raditi na HDFS / GFS / NDFS ili bilo kojem drugom distribuiranom datotečnom sustavu, na primjer MapR-FS
Jezik	Hadoop je zbirka svih modula, pa stoga može uključivati i ostale programske / skriptne jezike	MapReduce je u osnovi napisan na programskom jeziku Java
Okvir	Hadoop ne samo da ima okvir za pohranu koji pohranjuje podatke, već stvara čvor imena i podatkovnih čvorova, a ima i druge okvire koji uključuju i sam MapReduce.	MapReduce je programski okvir koji koristi ključ, mapiranje vrijednosti za razvrstavanje / obradu podataka

Donja slika pomoći će vam u razlikovanju MapReduce od Hadoopa.

MapReduce Framework

Kao što vidimo na gornjoj slici, MapReduce je raspodijeljeni okvir za obradu dok je Hadoop zbirka svih okvira.

Zaključak - Hadoop vs MapReduce

Hadoop je open source stekao popularnost budući da je bio besplatan za upotrebu i programeri mogu mijenjati kod prema svojim potrebama. Eado sustav Hadoop proteklih godina kontinuirano se razvijao kako bi Eko-sustav postao što je moguće više bez grešaka.

Sa stalnim promjenama svijeta, tehnologija se brzo mijenja i postaje teško pratiti promjene. Podaci koji se generiraju u mjesecu postaju udvostručeni / utrostručeni dok čitate ovaj članak, a potreba za bržom obradom skupova podataka dovela je do mnogih drugih programskih okvira poput MapReduce 2, Spark itd.

Preporučeni članci

Ovo je vodič za Hadoop u odnosu na MapReduce, njihovo značenje, usporedbu između glave, ključne razlike, tablicu usporedbe i zaključak. Možete pogledati i sljedeće članke da biste saznali više -