Instalirajte Hadoop - Kako instalirati Hadoop s konfiguracijom korak po korak

Pregled Instaliraj Hadoop

Sljedeći članak Install Hadoop nudi pregled najčešćih Hadoop-ovih osnovnih ključnih modula i postupnu instalaciju za Hadoop. Apache Hadoop je zbirka softvera koji omogućuje obradu velikih skupova podataka i distribuiranu pohranu preko klastera različitih vrsta računalnog sustava. Trenutno je Hadoop i dalje najčešće korištena analitička platforma za velike podatke („Sanchita Lobo, autor na blogu Google Training Training“, drugo).

Hadoop okvir

Okvir Apache Hadoop sastoji se od sljedećih ključnih modula.

Apache Hadoop Common.
Datotečni sustav distribuiranog Apache Hadoop (HDFS).
Apache Hadoop MapReduce
Apache Hadoop YARN (još jedan upravitelj resursa).

Apache Hadoop Common

Apache Hadoop Common modul se sastoji od zajedničkih knjižnica koje se troše u svim ostalim modulima, uključujući upravljanje ključevima, generičke I / O pakete, knjižnice za prikupljanje metrika i uslužne programe za registar, sigurnost i strujanje.

HDF-ovi

HDFS se temelji na Googleovom datotečnom sustavu i strukturiran je da radi na niskobudžetnom hardveru. HDFS je tolerantan na greške i dizajniran je za aplikacije s velikim skupovima podataka.

MapReduce

MapReduce je inherentni model paralelnog programiranja za obradu podataka i Hadoop može pokrenuti MapReduce programe napisane na različitim jezicima kao što je Java. MapReduce djeluje dijeljenjem obrade u fazu karte i smanjuje fazu.

Apache Hadoop PRIJE

Apache Hadoop YARN osnovna je komponenta, a upravljanje resursima i tehnologija zakazivanja poslova u Hadoop distribuiranom okviru obrade.

U ovom ćemo članku raspravljati o instalaciji i konfiguraciji Hadoopa 2.7.4 na jednom čvorničkom klasteru i testirati konfiguraciju pokretanjem programa MapReduce pod nazivom wordcount za brojanje broja riječi u datoteci. Dalje ćemo pogledati nekoliko važnih naredbi sustava Hadoop File System.

Koraci za instaliranje Hadoopa

Slijedi sažetak zadataka uključenih u konfiguraciju Apache Hadoopa.

Zadatak 1: Prvi zadatak instalacije Hadoop obuhvatio je postavljanje predloška virtualnog stroja koji je konfiguriran s Cent OS7. Paketi poput Java SDK 1.8 i Runtime Systems potrebnih za pokretanje Hadoopa preuzeti su, a Java okruženje varijabla za Hadoop konfigurirano je uređivanjem bash_rc.

Zadatak 2: Paket Hadoop Release 2.7.4 preuzet je s web stranice apache i ekstrahiran u opt-folder. Koji je zatim preimenovan u Hadoop zbog lakog pristupa.

Zadatak 3: Nakon izdvajanja paketa Hadoop sljedeći korak uključuje konfiguriranje varijable okruženja za Hadoop korisnika nakon čega slijedi konfiguriranje XML datoteka čvora Hadoop. U ovom koraku NameNode je konfiguriran unutar core-site.xml, a DataNode konfiguriran unutar hdfs-site.xml. Upravitelj resursa i upravitelj čvorova konfigurirani su unutar pređe-site.xml.

Zadatak 4: Vatrozid je onemogućen kako bi se pokrenuli YARN i DFS. Naredba JPS korištena je za provjeru jesu li relevantni demoni u pozadini. Broj porta za pristup Hadoopu konfiguriran je za http: // localhost: 50070 /

Zadatak 5: Sljedećih nekoliko koraka korišteno je za provjeru i testiranje Hadoopa. Za to smo napravili privremenu probnu datoteku u ulaznom direktoriju programa WordCount. Program za smanjenje karte Hadoop-MapReduce-primjeri2.7.4.jar korišten je za brojanje broja riječi u datoteci. Rezultati su ocijenjeni na lokalitetu i analizirani su evidencija podnesene prijave. Sve predane aplikacije MapReduce mogu se pregledati na mrežnom sučelju, a zadani je broj 8088.

Zadatak 6. U zadnjem zadatku uvest ćemo neke osnovne naredbe sustava Hadoop File System i provjeriti njihovu upotrebu. Vidjet ćemo kako se može stvoriti direktorij u datotečnom sustavu Hadoop, prikazati sadržaj direktorija, njegovu veličinu u bajtovima. Dalje ćemo vidjeti kako izbrisati određeni direktorij i datoteku.

Rezultati u Hadoop instalaciji

U nastavku su prikazani rezultati svakog od gore navedenih zadataka:

Rezultat zadatka 1

Novi virtualni stroj s cenOS7 slikom konfiguriran je za pokretanje Apache Hadoop. Na slici 1 prikazano je kako je slika CenOS 7 konfigurirana u virtualnom stroju. Na slici 1.2 prikazana je konfiguracija varijable okruženja JAVA unutar .bash_rc.

Slika 1: Konfiguracija virtualnog stroja

Slika 1.2: Konfiguracija varijable Java okruženja

Rezultat zadatka 2

Na slici 2 prikazan je zadatak koji se obavlja kako bi se izdvojio paket Hadoop 2.7.4 za odabir mape.

Slika 2: Ekstrakcija paketa Hadoop 2.7.4

Rezultat zadatka 3

Na slici 3 prikazana je konfiguracija varijable okoline za Hadoop korisnika, a slike 3.1 do 3.4 prikazuje konfiguraciju za XML datoteke potrebne za Hadoop konfiguraciju.

Slika 3: Konfiguriranje varijable okoline za korisnika Hadoopa

Slika 3.1: Konfiguracija core-site.xml

Slika 3.2: Konfiguracija hdfs-site.xml

Slika 3.3: Konfiguracija datoteke mapred-site.xml

Slika 3.4: Konfiguracija datoteke pređe-site.xml

Rezultat zadatka 4

Na slici 4. prikazana je upotreba jps naredbe za provjeru da li se demoni izvode u pozadini, a sljedeća slika prikazuje Hadoop-ovo internetsko korisničko sučelje.

Slika 4: naredba jps za provjeru pokretačkih demona.

Slika 4.1: Pristup internetskom sučelju Hadoopa u luci http://hadoop1.example.comwhat0070/

Rezultat zadatka 5

Slika 5 prikazuje rezultat za MapReduce program zvan wordcount koji broji broj riječi u datoteci. Sljedećih nekoliko slika prikazuje internetsko korisničko sučelje upravitelja resursa YARN za poslani zadatak.

Slika 5: Rezultati programa MapReduce

Slika 5.1: Podnesena aplikacija za smanjenje karte.

Slika 5.2: Dnevnici za poslanu aplikaciju MapReduce.

Rezultat zadatka 6

Na slici 6 prikazano je kako stvoriti direktorij unutar datotečnog sustava Hadoop i izvršiti popis hdfs direktorija.

Slika 6: Izrada direktorija unutar datotečnog sustava Hadoop

Na slici 6.1 prikazano je kako staviti datoteku u sustav distribucije Hadoop, a na slici 6.2 prikazana je stvorena datoteka u dirB direktoriju.

Slika 6.1: Izrada datoteke u HDFS-u.

Slika 6.2: Stvorena je nova datoteka.

Sljedećih nekoliko slika pokazuje kako popisati sadržaj pojedinih imenika:

Slika 6.3: Sadržaj dirA

Slika 6.4: Sadržaj dirB-a

Sljedeća slika prikazuje kako se mogu prikazati veličina datoteke i direktorija:

Slika 6.5: Prikazivanje veličine datoteke i mape.

Brisanje imenika ili datoteke može se lako izvršiti naredbom -rm.

Slika 6.6: Za brisanje datoteke.

Zaključak

Big Data je odigrao vrlo važnu ulogu u oblikovanju današnjeg svjetskog tržišta. Okvir Hadoop olakšava život analitičaru podataka dok radi na velikim skupovima podataka. Konfiguracija Apache Hadoop bila je vrlo jednostavna, a internetsko korisničko sučelje pružalo je korisniku više opcija za podešavanje i upravljanje aplikacijom. Hadoop se masovno koristi u organizacijama za pohranu podataka, analizu strojnog učenja i izradu sigurnosnih kopija. Upravljanje velikom količinom podataka bilo je prikladno zbog Hadoop distribuiranog okruženja i MapReduce. Razvoj Hadoopa bio je prilično nevjerojatan u usporedbi s relacijskim bazama podataka jer nedostaju mogućnosti podešavanja i performansi. Apache Hadoop je jednostavno i jeftino rješenje za učinkovito upravljanje i pohranjivanje velikih podataka. HDFS također pomaže u pohrani podataka.

Preporučeni članci

Ovo je vodič za instalaciju Hadoopa. Ovdje smo raspravljali o uvodu u instalaciju Hadoop, korak po korak, instalaciji Hadoopa zajedno s rezultatima Hadoop instalacije. Možete i proći naše druge predložene članke da biste saznali više -

Uvod u Hadoop Streaming
Što je Hadoop klaster i kako djeluje?
Ekosistem Apache Hadoop i njegove komponente
Koje su Hadoop alternative?

Instalirajte Hadoop - Kako instalirati Hadoop s konfiguracijom korak po korak

Sadržaj:

Pregled Instaliraj Hadoop

Hadoop okvir

Apache Hadoop Common

HDF-ovi

MapReduce

Apache Hadoop PRIJE

Koraci za instaliranje Hadoopa

Rezultati u Hadoop instalaciji

Rezultat zadatka 1

Rezultat zadatka 2

Rezultat zadatka 3

Rezultat zadatka 4

Rezultat zadatka 5

Rezultat zadatka 6

Zaključak

Preporučeni članci

AWS usluge - Top 9 usluga koje pruža AWS (Amazon Web Services)

AWT vs Swing - Upoznajte 11 najvrijednijih razlika

Axure vs skica - Koji je bolji (sa infografikom)

Azure Paas vs Iaas - 5 korisnih razlika koje treba znati

Usluge Azure - Vrhunske usluge Azure za poboljšanje vaše poslovne strategije

Karijere u vizualizaciji podataka - Karijera i plaća - Poslovi - pogled

Karijere u umjetnoj inteligenciji - Karijera i putokazi - Poslovi - Plaća

Karijera u cyber sigurnosti - Obrazovanje i različiti put karijere

Karijere u administraciji baza podataka - Izgledi i put karijere - Plaća

Karijere u Informatici - Karijera i plaća - Poslovi - Obrazovanje

Formula za brzi omjer - Kalkulator (sa Excelovim predloškom)

Brzo poredanje u Javi - Rad i implementacija koda s uzorkom koda

Brzi omjer ili kiseo testni omjer - Najbolji primjeri sa Excelovim predloškom

Brzo sortiranje algoritama na Javi - Program za implementaciju Quick Sort

Brzo razvrstavanje u JavaScript - Kompletni vodič za brzo sortiranje na jeziku JavaScript