Što je MapReduce u Hadoopu

MapReduce je Hadoop-ov okvir koji se koristi za pouzdanu obradu ogromnih količina podataka o velikim klasterima robnog hardvera. Hadoop je projekt otvorenog koda koji nudi softverska fondacija Apache. Hadoop se koristi za brzu i pouzdanu analizu i strukturiranih i nestrukturiranih podataka. Hadoop može obraditi vrlo velike skupove podataka koji mogu biti i strukturirani i nestrukturirani podaci, što je zapravo povezano s velikim podacima. Hadoop okvir koji omogućava aplikaciji da pohranjuje podatke u distribuiranom obliku i obrađuje velike skupove podataka na klasterima računala pomoću jednostavnog modela programiranja, to je ono što Map Reduce, tj. Drugim riječima možemo nazvati Map Reduce kao programski model koji se koristi za obradu ogromna količina podataka raspoređenih po broju klastera. Hadoop se može povećati s pojedinih poslužitelja na tisuće računalnih čvorova ili strojeva koji se koriste za računanje i pohranu.

Projekt Apache Hadoop sadrži brojne podprojekte kao:

  • Hadoop Common: Hadoop Common ima alate koji podržavaju ostale Hadoop podprojekte.
  • Hadoop distribuirani datotečni sustav (HDFS): Distribuirani datotečni sustav Hadoop omogućuje pristup distribuiranoj datoteci podacima podataka aplikacije.
  • Hadoop MapReduce: Hadoop MapReduce softverski je okvir za obradu velikih distribuiranih skupova podataka na računskim klasterima.
  • Hadoop PRIJA: Hadoop PRIVA je okvir za upravljanje resursima i zakazivanje poslova.

Kako MapReduce u Hadoopu čini rad tako lakim?

MapReduce olakšava skaliranje obrade podataka na stotinama ili tisućama klasterskih strojeva. MapReduce model zapravo radi u dva koraka koji se nazivaju preslikavanje i smanjivanje, a obrada se zove kao mapper ili reduktor. Jednom kada za aplikaciju napišemo MapReduce, aplikacija za skaliranje do višestrukih ili čak više tisuća klastera samo je promjena u konfiguraciji. Ova značajka MapReduce modela privukla je mnoge programere da ga koriste.

Kako MapReduce u Hadoopu radi?

Program MapReduce uglavnom se provodi u četiri koraka:

  1. Ulazni dijelovi
  2. Karta
  3. miješanje
  4. Smanjiti

Sada ćemo vidjeti svaki korak kako oni djeluju.

1. Korak karte

Ovaj korak je kombinacija koraka ulaznih dijeljenja i koraka Map. U koraku s mapom izvorna datoteka se prosljeđuje kao red po redak. Prije nego što ulaz uđe u posao s funkcijom Map, ulaz se podijeli na malu fiksnu veličinu zvanu Input splitts. Ulazni split je komad ulaza koji bi mogao potrošiti jedna karta. U koraku s mapom svi podijeljeni podaci prenose se u funkciju mapiranja, a funkcija mapiranja obrađuje podatke, a zatim i izlazne vrijednosti. Općenito, ulazni podaci posla ili karte karte su u obliku datoteke ili direktorija koji su pohranjeni u datotečnom sustavu Hadoop (HDFS).

2. Smanjite korak

Ovaj korak je kombinacija koraka nasumične reprodukcije i redukcije. Funkcija redukcije ili posao reduktora preuzima podatke koji su rezultat funkcije karata. Nakon obrade redukcijom funkcije nastaje novi set rezultata koji se ponovno pohranjuje u HDFS.

U Hadoopovom okviru, nije sigurno da svaki klaster obavlja koji posao bilo Kartiranje ili Smanjivanje ili oba Karta i Smanji. Dakle, zahtjev zadataka Map and Reduce treba poslati odgovarajućim poslužiteljima u klasteru. Sam Hadoop okvir upravlja svim zadacima izdavanja, provjere završetka posla, dohvaćanja podataka s HDFS-a, kopiranja podataka u skup čvorova i tako dalje. U Hadoopu se uglavnom računanje odvija na čvorovima zajedno s podacima u samim čvorovima što smanjuje mrežni promet.

Dakle, MapReduce okvir je vrlo koristan u Hadoop okviru.

Prednosti MapReducea

  1. Skalabilnost - MapReduce čineći Hadoop vrlo skalabilnim jer omogućuje pohranjivanje velikih skupova podataka u obliku distribucije na više poslužitelja. Kako je raspoređen na više njih može funkcionirati paralelno.
  2. Isplativo rješenje - MapReduce pruža vrlo isplativo rješenje za tvrtke koje trebaju pohraniti rastuće podatke i obrađivati ​​ih na vrlo isplativ način, što je današnja potreba poslovanja.
  3. Fleksibilnost - MapReduce čini Hadoop vrlo fleksibilnim za različite izvore podataka, pa čak i za različite vrste podataka, kao što su strukturirani ili nestrukturirani podaci. Stoga čini vrlo fleksibilan pristup strukturiranim ili nestrukturiranim podacima i njihovo obrađivanje.
  4. Brzo - kao Hadoop podaci za pohranu u distribuciranom datotečnom sustavu, po kojima se pohranjivanje podataka na lokalni disk klastera i MapReduce programi obično nalaze i na istim poslužiteljima, što omogućava bržu obradu podataka bez potrebe za pristupom podaci s drugih poslužitelja.
  5. Paralelna obrada - Kako su podaci za pohranu podataka Hadoop u distribuciranom datotečnom sustavu i radu programa MapReduce takvi da dijele mapu zadataka i reduciraju i mogu se izvršavati paralelno. I opet zbog paralelnog izvođenja smanjuje se cijelo vrijeme izvođenja.

vještine

Potrebne vještine za MapReduce u Hadoopu imaju dobro poznavanje programa Java (obavezno), operativni sustav Linux i SQL upite.

Opseg MapReducea u Hadoopu

MapReduce u Hadoopu brzo je rastuće polje jer polje velikih podataka raste pa je opseg MapReducea u Hadoopu u budućnosti vrlo obećavajući jer se količina strukturiranih i nestrukturiranih podataka eksponencijalno povećava iz dana u dan. Platforme društvenih medija generiraju puno nestrukturiranih podataka koje je moguće minirati radi dobivanja stvarnog uvida u različite domene.

Zaključak

  • MapReduce je Hadoop-ov okvir koji se pouzdano obrađuje ogromne količine podataka o velikim klasterima robnog hardvera.
  • Projekt Apache Hadoop sadrži brojne podprojekte kao što su Hadoop Common, Dadološki datotečni sustav Hadoop (HDFS), Hadoop MapReduce, Hadoop YARN.
  • U koraku s mapom svaki podijeljeni podatak prosljeđuje se mapirajućoj funkciji, a onda funkcija mapiranja obrađuje podatke, a zatim i izlazne vrijednosti.
  • Funkcija redukcije ili posao reduktora preuzima podatke koji su rezultat funkcije karata.
  • Prednosti MapReduce navedene su kao skalabilnost, ekonomično rješenje, fleksibilnost, brza, paralelna obrada.

Preporučeni članci

Ovo je vodič za kartu Što je MapReduce u Hadoopu. Ovdje smo razgovarali o komponentama, radu, vještinama, rastu karijere i prednostima MapReducea u Hadoopu. Također možete proći kroz naše druge predložene članke da biste saznali više

  1. Što je algoritam?
  2. Razlike između Hadoopa i MapReducea
  3. Što je Azure?
  4. Što je tehnologija velikih podataka?
  5. Kako radi MapReduce

Kategorija: