Što je Hadoop Streaming?

Hadoop streaming je uslužni program koji dolazi s Hadoop distribucijom koji se može koristiti za izvršavanje programa za analizu velikih podataka. Postoji nekoliko jezika koji se mogu koristiti za to kao što su Java, Scala, Unix, Perl, Python i mnogi drugi. Pomoćni program nam pomaže u stvaranju i pokretanju mape smanjiti zadatke s bilo kojim izvršnim tekstom ili skriptom koji je preslikač i / ili reduktor.

definicija

To je Hadoop distribucija s korisnim programima. Alat nam pomaže da stvorimo i pokrenemo određene zadatke MapReduce s izvršnom datotekom ili skriptu kao mapper i / ili reduktor.

Razumijevanje

Postoje java uslužni programi koje pruža Hadoop distribucija i nazivaju se Hadoop streaming. Program se pakira u datoteku JAR. Pomoću uslužnog programa možemo stvoriti i pokrenuti zadatke MapReduce s izvršnom skriptu. Štoviše, možemo stvoriti izvršne skripte za pokretanje funkcija preslikavanja i reduktora. Izvršne skripte prosljeđuju se u Hadoop streaming pomoću naredbe. Nakon što su skripte proslijeđene u strujanje Hadoop, uslužni program Hadoop strujanje kreira kartu i smanjuje zadatke te ih šalje u klaster. Ti se poslovi mogu nadgledati i pomoću ovog uslužnog programa.

Kako radi?

Skripta navedena za mapiranje i reduktor radi kao što slijedi -

Nakon potpune inicijalizacije skripte za mapiranje, pokrenut će primjerak skripte s različitim idovima procesa. Zadatak mapiranja tijekom izvođenja uzima ulazne crte i prosljeđuje ih standardnom ulazu. Istovremeno, preslikač skuplja izlaze iz standardnog izlaza procesa. Svaki red pretvara u par ključ-vrijednost. Skup parova ključ-vrijednost zatim se prikuplja kao izlaz iz mapiranja. Par ključeva vrijednosti odabran je na temelju znaka prve kartice. Dio linije do početne kartice odabran je kao ključan, dok je ostatak retka odabran kao vrijedan dio. U slučaju da kartica nije prisutna u retku, tada je ukupni redak odabran kao ključan i nema vrijednosnog dijela za liniju. Ovo se može prilagoditi poslovnim potrebama.

Svrha korištenja Hadoop Streaminga

Koristi se za gutanje podataka u stvarnom vremenu koji se mogu koristiti u različitim aplikacijama u stvarnom vremenu. Postoje različite aplikacije u stvarnom vremenu kao što su gledanje portfelja dionica, analiza tržišta dionica, objavljivanje vremenskih izvještaja, prometna upozorenja koja se rade pomoću Hadoop streaminga.

Rad Hadoop strujanja

Ispod je jednostavan primjer kako funkcionira streaming Hadoop:

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc

Naredba za unos koristi se za unos direktorija, dok naredba izlaza koristi izlaznu mapu. Naredba mapper koristi se za određivanje klase izvršnog preslikača, dok naredba reduktor koristi za određivanje klase izvršne redukcije.

Prednosti Hadoop Streaminga

Ispod su prednosti Hadoop streaminga:

1. Dostupnost

To ne zahtijeva instaliranje i upravljanje dodatnim zasebnim softverom. Postoje i drugi alati poput svinje, košnica koja se može instalirati. Moram se posebno upravljati.

2. Učenje

Ne zahtijeva učenje novih tehnologija. Hadoop streaming može se iskoristiti s minimalnim Unix vještinama za analizu podataka.

3. Smanjite vrijeme razvoja

Potrebno je napisati preslikač i reduktor kod dok razvijate streaming aplikacije u Unixu, dok je obavljanje istog posla pomoću Java MapReduce aplikacije složenije i potrebno ga je prvo sastaviti, zatim testirati, pakirati, potom izvesti datoteku JAR, a zatim pokrenuti.

4. Brže pretvaranje

Potrebno je vrlo malo vremena za pretvorbu podataka iz jednog formata u drugi koristeći Hadoop streaming. Možemo ga koristiti za pretvaranje podataka iz tekstualne datoteke u datoteku s redoslijedom, a zatim iz datoteke s redoslijedom u tekstualnu datoteku i mnoge druge. To se može postići pomoću ulaznog formata i opcija izlaznog formata u strujanju Hadoop.

5. Ispitivanje

Ulazni i izlazni podaci mogu se brzo testirati korištenjem Hadoop strujanja s Unixom ili Shell Scriptom.

6. Uvjet za poslovanje

Za jednostavne poslovne zahtjeve poput jednostavnih operacija filtriranja i jednostavnih operacija združivanja, to možemo koristiti s Unixom.

7. Performanse

Korištenjem Hadoop streaminga možemo postići bolje performanse tijekom rada s streaming podacima. Postoji i nekoliko nedostataka Hadoop streaminga koji se rješavaju korištenjem drugih alata u paketu Hadoop poput Kafke, flume, iskre.

Zašto nam treba Hadoop Streaming?

To pomaže u analizi podataka u stvarnom vremenu, što je mnogo brže korištenje programa MapReduce koji se izvodi na više čvorovskoj klasteri. Postoje različite tehnologije kao što su iskre Kafka i druge koje pomažu u stvarnom vremenu Hadoop streaminga.

Kako će vam ova tehnologija pomoći u razvoju karijere?

Danas se sva velika poduzeća sele u Hadoop radi njihove analize podataka i mnoga od njih možda zahtijevaju analizu podataka u stvarnom vremenu. Potražnja za korištenjem podataka u stvarnom vremenu i obrada istih iz dana u dan i ova tehnologija stvaraju puno prostora za individualni rast u karijeri.

Zaključak

Nudi ogroman niz prednosti za različite obrade podataka u stvarnom vremenu pomoću streaminga podataka.

Preporučeni članci

Ovo je vodič za Hadoop Streaming. Ovdje smo raspravljali o definiciji, konceptu, prednostima i nedostacima Hadoop Streaminga. Možete i proći kroz naše druge predložene članke da biste saznali više -

  1. Što je Hadoop klaster?
  2. Što je istraživanje podataka?
  3. Što je vizualizacija podataka
  4. Što je modeliranje podataka?
  5. Kompletan vodič za Kafka alate

Kategorija: