Pregled Instaliraj Hadoop

Sljedeći članak Install Hadoop nudi pregled najčešćih Hadoop-ovih osnovnih ključnih modula i postupnu instalaciju za Hadoop. Apache Hadoop je zbirka softvera koji omogućuje obradu velikih skupova podataka i distribuiranu pohranu preko klastera različitih vrsta računalnog sustava. Trenutno je Hadoop i dalje najčešće korištena analitička platforma za velike podatke („Sanchita Lobo, autor na blogu Google Training Training“, drugo).

Hadoop okvir

Okvir Apache Hadoop sastoji se od sljedećih ključnih modula.

  • Apache Hadoop Common.
  • Datotečni sustav distribuiranog Apache Hadoop (HDFS).
  • Apache Hadoop MapReduce
  • Apache Hadoop YARN (još jedan upravitelj resursa).

Apache Hadoop Common

Apache Hadoop Common modul se sastoji od zajedničkih knjižnica koje se troše u svim ostalim modulima, uključujući upravljanje ključevima, generičke I / O pakete, knjižnice za prikupljanje metrika i uslužne programe za registar, sigurnost i strujanje.

HDF-ovi

HDFS se temelji na Googleovom datotečnom sustavu i strukturiran je da radi na niskobudžetnom hardveru. HDFS je tolerantan na greške i dizajniran je za aplikacije s velikim skupovima podataka.

MapReduce

MapReduce je inherentni model paralelnog programiranja za obradu podataka i Hadoop može pokrenuti MapReduce programe napisane na različitim jezicima kao što je Java. MapReduce djeluje dijeljenjem obrade u fazu karte i smanjuje fazu.

Apache Hadoop PRIJE

Apache Hadoop YARN osnovna je komponenta, a upravljanje resursima i tehnologija zakazivanja poslova u Hadoop distribuiranom okviru obrade.

U ovom ćemo članku raspravljati o instalaciji i konfiguraciji Hadoopa 2.7.4 na jednom čvorničkom klasteru i testirati konfiguraciju pokretanjem programa MapReduce pod nazivom wordcount za brojanje broja riječi u datoteci. Dalje ćemo pogledati nekoliko važnih naredbi sustava Hadoop File System.

Koraci za instaliranje Hadoopa

Slijedi sažetak zadataka uključenih u konfiguraciju Apache Hadoopa.

Zadatak 1: Prvi zadatak instalacije Hadoop obuhvatio je postavljanje predloška virtualnog stroja koji je konfiguriran s Cent OS7. Paketi poput Java SDK 1.8 i Runtime Systems potrebnih za pokretanje Hadoopa preuzeti su, a Java okruženje varijabla za Hadoop konfigurirano je uređivanjem bash_rc.

Zadatak 2: Paket Hadoop Release 2.7.4 preuzet je s web stranice apache i ekstrahiran u opt-folder. Koji je zatim preimenovan u Hadoop zbog lakog pristupa.

Zadatak 3: Nakon izdvajanja paketa Hadoop sljedeći korak uključuje konfiguriranje varijable okruženja za Hadoop korisnika nakon čega slijedi konfiguriranje XML datoteka čvora Hadoop. U ovom koraku NameNode je konfiguriran unutar core-site.xml, a DataNode konfiguriran unutar hdfs-site.xml. Upravitelj resursa i upravitelj čvorova konfigurirani su unutar pređe-site.xml.

Zadatak 4: Vatrozid je onemogućen kako bi se pokrenuli YARN i DFS. Naredba JPS korištena je za provjeru jesu li relevantni demoni u pozadini. Broj porta za pristup Hadoopu konfiguriran je za http: // localhost: 50070 /

Zadatak 5: Sljedećih nekoliko koraka korišteno je za provjeru i testiranje Hadoopa. Za to smo napravili privremenu probnu datoteku u ulaznom direktoriju programa WordCount. Program za smanjenje karte Hadoop-MapReduce-primjeri2.7.4.jar korišten je za brojanje broja riječi u datoteci. Rezultati su ocijenjeni na lokalitetu i analizirani su evidencija podnesene prijave. Sve predane aplikacije MapReduce mogu se pregledati na mrežnom sučelju, a zadani je broj 8088.

Zadatak 6. U zadnjem zadatku uvest ćemo neke osnovne naredbe sustava Hadoop File System i provjeriti njihovu upotrebu. Vidjet ćemo kako se može stvoriti direktorij u datotečnom sustavu Hadoop, prikazati sadržaj direktorija, njegovu veličinu u bajtovima. Dalje ćemo vidjeti kako izbrisati određeni direktorij i datoteku.

Rezultati u Hadoop instalaciji

U nastavku su prikazani rezultati svakog od gore navedenih zadataka:

Rezultat zadatka 1

Novi virtualni stroj s cenOS7 slikom konfiguriran je za pokretanje Apache Hadoop. Na slici 1 prikazano je kako je slika CenOS 7 konfigurirana u virtualnom stroju. Na slici 1.2 prikazana je konfiguracija varijable okruženja JAVA unutar .bash_rc.

Slika 1: Konfiguracija virtualnog stroja

Slika 1.2: Konfiguracija varijable Java okruženja

Rezultat zadatka 2

Na slici 2 prikazan je zadatak koji se obavlja kako bi se izdvojio paket Hadoop 2.7.4 za odabir mape.

Slika 2: Ekstrakcija paketa Hadoop 2.7.4

Rezultat zadatka 3

Na slici 3 prikazana je konfiguracija varijable okoline za Hadoop korisnika, a slike 3.1 do 3.4 prikazuje konfiguraciju za XML datoteke potrebne za Hadoop konfiguraciju.

Slika 3: Konfiguriranje varijable okoline za korisnika Hadoopa

Slika 3.1: Konfiguracija core-site.xml

Slika 3.2: Konfiguracija hdfs-site.xml

Slika 3.3: Konfiguracija datoteke mapred-site.xml

Slika 3.4: Konfiguracija datoteke pređe-site.xml

Rezultat zadatka 4

Na slici 4. prikazana je upotreba jps naredbe za provjeru da li se demoni izvode u pozadini, a sljedeća slika prikazuje Hadoop-ovo internetsko korisničko sučelje.

Slika 4: naredba jps za provjeru pokretačkih demona.

Slika 4.1: Pristup internetskom sučelju Hadoopa u luci http://hadoop1.example.comwhat0070/

Rezultat zadatka 5

Slika 5 prikazuje rezultat za MapReduce program zvan wordcount koji broji broj riječi u datoteci. Sljedećih nekoliko slika prikazuje internetsko korisničko sučelje upravitelja resursa YARN za poslani zadatak.

Slika 5: Rezultati programa MapReduce

Slika 5.1: Podnesena aplikacija za smanjenje karte.

Slika 5.2: Dnevnici za poslanu aplikaciju MapReduce.

Rezultat zadatka 6

Na slici 6 prikazano je kako stvoriti direktorij unutar datotečnog sustava Hadoop i izvršiti popis hdfs direktorija.

Slika 6: Izrada direktorija unutar datotečnog sustava Hadoop

Na slici 6.1 prikazano je kako staviti datoteku u sustav distribucije Hadoop, a na slici 6.2 prikazana je stvorena datoteka u dirB direktoriju.

Slika 6.1: Izrada datoteke u HDFS-u.

Slika 6.2: Stvorena je nova datoteka.

Sljedećih nekoliko slika pokazuje kako popisati sadržaj pojedinih imenika:

Slika 6.3: Sadržaj dirA

Slika 6.4: Sadržaj dirB-a

Sljedeća slika prikazuje kako se mogu prikazati veličina datoteke i direktorija:

Slika 6.5: Prikazivanje veličine datoteke i mape.

Brisanje imenika ili datoteke može se lako izvršiti naredbom -rm.

Slika 6.6: Za brisanje datoteke.

Zaključak

Big Data je odigrao vrlo važnu ulogu u oblikovanju današnjeg svjetskog tržišta. Okvir Hadoop olakšava život analitičaru podataka dok radi na velikim skupovima podataka. Konfiguracija Apache Hadoop bila je vrlo jednostavna, a internetsko korisničko sučelje pružalo je korisniku više opcija za podešavanje i upravljanje aplikacijom. Hadoop se masovno koristi u organizacijama za pohranu podataka, analizu strojnog učenja i izradu sigurnosnih kopija. Upravljanje velikom količinom podataka bilo je prikladno zbog Hadoop distribuiranog okruženja i MapReduce. Razvoj Hadoopa bio je prilično nevjerojatan u usporedbi s relacijskim bazama podataka jer nedostaju mogućnosti podešavanja i performansi. Apache Hadoop je jednostavno i jeftino rješenje za učinkovito upravljanje i pohranjivanje velikih podataka. HDFS također pomaže u pohrani podataka.

Preporučeni članci

Ovo je vodič za instalaciju Hadoopa. Ovdje smo raspravljali o uvodu u instalaciju Hadoop, korak po korak, instalaciji Hadoopa zajedno s rezultatima Hadoop instalacije. Možete i proći naše druge predložene članke da biste saznali više -

  1. Uvod u Hadoop Streaming
  2. Što je Hadoop klaster i kako djeluje?
  3. Ekosistem Apache Hadoop i njegove komponente
  4. Koje su Hadoop alternative?

Kategorija: