Što je MapReduce? - Naučite primjer i prednosti MapReducea

Sadržaj:

Anonim

Što je MapReduce?

MapReduce programski okvir koristi se za izvođenje raspodijeljene i paralelne obrade s velikim skupima podataka u distribuiranom okruženju. Map and Reduce su dva različita zadatka programa smanjenja karata. U početku se u fazi karte podaci očitavaju i iz njega se generiraju parovi ključ i vrijednost. Tada se ti parovi ključ-vrijednost prebacuju u smanjenje posla koji objedinjuje podatke para ključ-vrijednost u manji skup vrijednosti stvarajući konačni izlaz. Stoga se zadatak smanjenja uvijek provodi nakon što je zadatak karte napravljen. Obrada podataka je vrlo jednostavna za skaliranje na više računskih čvorova.

U programu su naime tri faze:

  1. Stadij na karti
  2. Postupak miješanja
  3. Smanjite fazu

Primjer :

Problem s brojem riječi -

Pretpostavimo u nastavku podatke o ulazu:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

1. Gornji podaci podijeljeni su u tri ulaza, kao što slijedi:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

2. Zatim se ovi podaci prenose u sljedeću fazu koja se naziva faza mapiranja.

Dakle, za prvi redak (Mike Jon Jake) imamo 3 para ključ-vrijednost - Mike, 1; Jon, 1; Jake, 1.

Ispod je rezultat u fazi mapiranja:

  • Mike, 1
    Jon, 1
    Jake, 1
  • Pavao, jedan
    Pavao, jedan
    Jake, 1
  • Mike, 1
    Pavao, jedan
    Jon, 1

3. Gornji podaci se zatim prenose u sljedeću fazu koja se naziva faza razvrstavanja i miješanja.

U ovoj se fazi podaci grupiraju u jedinstvene ključeve i razvrstavaju. Ispod je rezultat u fazi sortiranja i miješanja:

  • Jake, (1, 1)
  • Jon, (1, 1)
  • Mike, (1, 1)
  • Paul, (1, 1, 1)

4. Gornji podaci se zatim prenose u sljedeću fazu koja se naziva faza redukcije.

Ovdje se sabiraju sve ključne vrijednosti i broji broj 1. Ispod je rezultat u fazi smanjenja:

  • Jake, 2
  • Jon, 2
  • Mike, 2
  • Pavao, 3

Prednosti MapReduce:

Ovdje smo naučili neke važne prednosti MapReduce Programiranja programa,

1. Skalabilnost

Hadoop kao platforma koja je visoko skalabilna i velikim dijelom zbog svoje sposobnosti da pohranjuje i distribuira velike skupove podataka na puno poslužitelja. Poslužitelji koji se ovdje koriste prilično su jeftini i mogu raditi paralelno. Procesorska snaga sustava može se poboljšati dodatkom više poslužitelja. Tradicionalni sustavi za upravljanje relacijskim bazama podataka ili RDBMS nisu bili u mogućnosti razmjestiti obradu ogromnih podataka.

2. Fleksibilnost

Programski model Hadoop MapReduce nudi fleksibilnost za obradu strukturnih ili nestrukturiranih podataka od strane različitih poslovnih organizacija koje mogu koristiti te podatke i mogu raditi na različitim vrstama podataka. Stoga mogu stvoriti poslovnu vrijednost iz onih podataka koji su korisni i korisni za analizu poslovnih organizacija. Bez obzira na izvor podataka bilo da se radi o društvenim medijima, clickstreamu, e-pošti itd., Hadoop nudi podršku za puno jezika koji se koriste za obradu podataka. Uz sve to, Hadoop MapReduce programiranje omogućava brojne aplikacije poput marketinške analize, sustava preporuka, skladišta podataka i otkrivanja prijevara.

3. Sigurnost i provjera autentičnosti

Ako neka strana osoba dobije pristup svim podacima organizacije i može manipulirati s više petabajta podataka, to može nanijeti puno štete u smislu poslovanja u poslovanju s poslovnom organizacijom. Ovaj rizik rješava programski model MapReduce radeći s hdfs i HBase koji omogućava visoku sigurnost omogućavajući samo odobrenom korisniku da radi sa spremljenim podacima u sustavu.

4. Isplativo rješenje

Takav je sustav visoko skalabilan i vrlo je isplativo rješenje za poslovni model koji treba pohraniti podatke koji rastu eksponencijalno u skladu s potrebama tekućeg dana. U slučaju starih tradicionalnih sustava upravljanja relacijskim bazama, nije bilo tako jednostavno obraditi podatke kao s Hadoop sustavom u smislu skalabilnosti. U takvim slučajevima, poduzeće je bilo prisiljeno smanjivati ​​podatke i daljnju provedbu klasifikacije na temelju pretpostavki kako određeni podaci mogu biti vrijedni za organizaciju, a samim tim i uklanjanja neobrađenih podataka. Ovdje dolazi do pomoći arhitektura Hadoop ljestvice s programiranjem MapReducea.

5. Brzo

Hadoop distribuirani datotečni sustav HDFS je glavna značajka koja se koristi u Hadoopu, a koja u osnovi provodi sustav mapiranja kako bi pronašla podatke u klasteru. Programiranje MapReduce alat je koji se koristi za obradu podataka i nalazi se također na istom poslužitelju koji omogućava bržu obradu podataka. Hadoop MapReduce obrađuje velike količine podataka koje su nestrukturirane ili polustrukturirane u manje vremena.

6. Jednostavan model programiranja

Programiranje MapReduce temelji se na vrlo jednostavnom modelu programiranja koji programerima u osnovi dopušta da razviju MapReduce program koji može podnijeti mnogo više zadataka s više lakoće i učinkovitosti. MapReduce programski model napisan je Java jezikom, vrlo je popularan i vrlo je jednostavan za naučiti. Ljudi mogu lako naučiti Java programiranje i dizajnirati model za obradu podataka koji zadovoljava njihove poslovne potrebe.

7. Paralelna obrada

Programski model dijeli zadatke na način koji omogućuje izvršavanje neovisnog zadatka paralelno. Stoga ova paralelna obrada olakšava procesima da preuzmu svaki od zadataka što pomaže pokretanju programa u mnogo manje vremena.

8. Raspoloživost i otpornost

Hadoop MapReduce programski model obrađuje podatke slanjem podataka na pojedinačni čvor kao i prosljeđivanje istog skupa podataka na ostale čvorove koji žive u mreži. Kao rezultat, u slučaju kvara na određenom čvoru, ista je kopija podataka i dalje dostupna na ostalim čvorovima i može se koristiti kad god je potrebno osiguravajući dostupnost podataka.
Na ovaj način, Hadoop je tolerantan na greške. Ovo je jedinstvena funkcionalnost koja se nudi u Hadoop MapReduceu da je u stanju brzo prepoznati grešku i primijeniti brzo rješenje za automatsko rješenje za oporavak.

Mnogo je tvrtki širom svijeta koje koriste smanjenje karte poput facebook, yahoo itd.

Zaključak - Što je MapReduce

Map smanjenje ima veliku mogućnost kada je u pitanju velika obrada podataka u usporedbi s tradicionalnim RDBMS sustavima. Mnoge su organizacije već shvatile njegov potencijal i prelaze na ovu novu tehnologiju. Jasno je da smanjenje karte preslikava vrlo dugo u velikoj platformi za obradu podataka.

Preporučeni članci

Ovo je vodič za Što je MapReduce. Ovdje smo raspravljali o osnovnom konceptu, primjerima i prednostima MapReducea. Možete i proći naše druge predložene članke da biste saznali više -

  1. Što je JavaScript?
  2. Pitanja o intervjuu MapReduce
  3. Što je Python
  4. Kako radi MapReduce
  5. Što su Veliki podaci i Hadoop