Pregled Instaliraj Hadoop
Sljedeći članak Install Hadoop nudi pregled najčešćih Hadoop-ovih osnovnih ključnih modula i postupnu instalaciju za Hadoop. Apache Hadoop je zbirka softvera koji omogućuje obradu velikih skupova podataka i distribuiranu pohranu preko klastera različitih vrsta računalnog sustava. Trenutno je Hadoop i dalje najčešće korištena analitička platforma za velike podatke („Sanchita Lobo, autor na blogu Google Training Training“, drugo).
Hadoop okvir
Okvir Apache Hadoop sastoji se od sljedećih ključnih modula.
- Apache Hadoop Common.
- Datotečni sustav distribuiranog Apache Hadoop (HDFS).
- Apache Hadoop MapReduce
- Apache Hadoop YARN (još jedan upravitelj resursa).
Apache Hadoop Common
Apache Hadoop Common modul se sastoji od zajedničkih knjižnica koje se troše u svim ostalim modulima, uključujući upravljanje ključevima, generičke I / O pakete, knjižnice za prikupljanje metrika i uslužne programe za registar, sigurnost i strujanje.
HDF-ovi
HDFS se temelji na Googleovom datotečnom sustavu i strukturiran je da radi na niskobudžetnom hardveru. HDFS je tolerantan na greške i dizajniran je za aplikacije s velikim skupovima podataka.
MapReduce
MapReduce je inherentni model paralelnog programiranja za obradu podataka i Hadoop može pokrenuti MapReduce programe napisane na različitim jezicima kao što je Java. MapReduce djeluje dijeljenjem obrade u fazu karte i smanjuje fazu.
Apache Hadoop PRIJE
Apache Hadoop YARN osnovna je komponenta, a upravljanje resursima i tehnologija zakazivanja poslova u Hadoop distribuiranom okviru obrade.
U ovom ćemo članku raspravljati o instalaciji i konfiguraciji Hadoopa 2.7.4 na jednom čvorničkom klasteru i testirati konfiguraciju pokretanjem programa MapReduce pod nazivom wordcount za brojanje broja riječi u datoteci. Dalje ćemo pogledati nekoliko važnih naredbi sustava Hadoop File System.
Koraci za instaliranje Hadoopa
Slijedi sažetak zadataka uključenih u konfiguraciju Apache Hadoopa.
Zadatak 1: Prvi zadatak instalacije Hadoop obuhvatio je postavljanje predloška virtualnog stroja koji je konfiguriran s Cent OS7. Paketi poput Java SDK 1.8 i Runtime Systems potrebnih za pokretanje Hadoopa preuzeti su, a Java okruženje varijabla za Hadoop konfigurirano je uređivanjem bash_rc.
Zadatak 2: Paket Hadoop Release 2.7.4 preuzet je s web stranice apache i ekstrahiran u opt-folder. Koji je zatim preimenovan u Hadoop zbog lakog pristupa.
Zadatak 3: Nakon izdvajanja paketa Hadoop sljedeći korak uključuje konfiguriranje varijable okruženja za Hadoop korisnika nakon čega slijedi konfiguriranje XML datoteka čvora Hadoop. U ovom koraku NameNode je konfiguriran unutar core-site.xml, a DataNode konfiguriran unutar hdfs-site.xml. Upravitelj resursa i upravitelj čvorova konfigurirani su unutar pređe-site.xml.
Zadatak 4: Vatrozid je onemogućen kako bi se pokrenuli YARN i DFS. Naredba JPS korištena je za provjeru jesu li relevantni demoni u pozadini. Broj porta za pristup Hadoopu konfiguriran je za http: // localhost: 50070 /
Zadatak 5: Sljedećih nekoliko koraka korišteno je za provjeru i testiranje Hadoopa. Za to smo napravili privremenu probnu datoteku u ulaznom direktoriju programa WordCount. Program za smanjenje karte Hadoop-MapReduce-primjeri2.7.4.jar korišten je za brojanje broja riječi u datoteci. Rezultati su ocijenjeni na lokalitetu i analizirani su evidencija podnesene prijave. Sve predane aplikacije MapReduce mogu se pregledati na mrežnom sučelju, a zadani je broj 8088.
Zadatak 6. U zadnjem zadatku uvest ćemo neke osnovne naredbe sustava Hadoop File System i provjeriti njihovu upotrebu. Vidjet ćemo kako se može stvoriti direktorij u datotečnom sustavu Hadoop, prikazati sadržaj direktorija, njegovu veličinu u bajtovima. Dalje ćemo vidjeti kako izbrisati određeni direktorij i datoteku.
Rezultati u Hadoop instalaciji
U nastavku su prikazani rezultati svakog od gore navedenih zadataka:
Rezultat zadatka 1
Novi virtualni stroj s cenOS7 slikom konfiguriran je za pokretanje Apache Hadoop. Na slici 1 prikazano je kako je slika CenOS 7 konfigurirana u virtualnom stroju. Na slici 1.2 prikazana je konfiguracija varijable okruženja JAVA unutar .bash_rc.
Slika 1: Konfiguracija virtualnog stroja
Slika 1.2: Konfiguracija varijable Java okruženja
Rezultat zadatka 2
Na slici 2 prikazan je zadatak koji se obavlja kako bi se izdvojio paket Hadoop 2.7.4 za odabir mape.
Slika 2: Ekstrakcija paketa Hadoop 2.7.4
Rezultat zadatka 3
Na slici 3 prikazana je konfiguracija varijable okoline za Hadoop korisnika, a slike 3.1 do 3.4 prikazuje konfiguraciju za XML datoteke potrebne za Hadoop konfiguraciju.
Slika 3: Konfiguriranje varijable okoline za korisnika Hadoopa
Slika 3.1: Konfiguracija core-site.xml
Slika 3.2: Konfiguracija hdfs-site.xml
Slika 3.3: Konfiguracija datoteke mapred-site.xml
Slika 3.4: Konfiguracija datoteke pređe-site.xml
Rezultat zadatka 4
Na slici 4. prikazana je upotreba jps naredbe za provjeru da li se demoni izvode u pozadini, a sljedeća slika prikazuje Hadoop-ovo internetsko korisničko sučelje.
Slika 4: naredba jps za provjeru pokretačkih demona.
Slika 4.1: Pristup internetskom sučelju Hadoopa u luci http://hadoop1.example.comwhat0070/
Rezultat zadatka 5
Slika 5 prikazuje rezultat za MapReduce program zvan wordcount koji broji broj riječi u datoteci. Sljedećih nekoliko slika prikazuje internetsko korisničko sučelje upravitelja resursa YARN za poslani zadatak.
Slika 5: Rezultati programa MapReduce
Slika 5.1: Podnesena aplikacija za smanjenje karte.
Slika 5.2: Dnevnici za poslanu aplikaciju MapReduce.
Rezultat zadatka 6
Na slici 6 prikazano je kako stvoriti direktorij unutar datotečnog sustava Hadoop i izvršiti popis hdfs direktorija.
Slika 6: Izrada direktorija unutar datotečnog sustava Hadoop
Na slici 6.1 prikazano je kako staviti datoteku u sustav distribucije Hadoop, a na slici 6.2 prikazana je stvorena datoteka u dirB direktoriju.
Slika 6.1: Izrada datoteke u HDFS-u.
Slika 6.2: Stvorena je nova datoteka.
Sljedećih nekoliko slika pokazuje kako popisati sadržaj pojedinih imenika:
Slika 6.3: Sadržaj dirA
Slika 6.4: Sadržaj dirB-a
Sljedeća slika prikazuje kako se mogu prikazati veličina datoteke i direktorija:
Slika 6.5: Prikazivanje veličine datoteke i mape.
Brisanje imenika ili datoteke može se lako izvršiti naredbom -rm.
Slika 6.6: Za brisanje datoteke.
Zaključak
Big Data je odigrao vrlo važnu ulogu u oblikovanju današnjeg svjetskog tržišta. Okvir Hadoop olakšava život analitičaru podataka dok radi na velikim skupovima podataka. Konfiguracija Apache Hadoop bila je vrlo jednostavna, a internetsko korisničko sučelje pružalo je korisniku više opcija za podešavanje i upravljanje aplikacijom. Hadoop se masovno koristi u organizacijama za pohranu podataka, analizu strojnog učenja i izradu sigurnosnih kopija. Upravljanje velikom količinom podataka bilo je prikladno zbog Hadoop distribuiranog okruženja i MapReduce. Razvoj Hadoopa bio je prilično nevjerojatan u usporedbi s relacijskim bazama podataka jer nedostaju mogućnosti podešavanja i performansi. Apache Hadoop je jednostavno i jeftino rješenje za učinkovito upravljanje i pohranjivanje velikih podataka. HDFS također pomaže u pohrani podataka.
Preporučeni članci
Ovo je vodič za instalaciju Hadoopa. Ovdje smo raspravljali o uvodu u instalaciju Hadoop, korak po korak, instalaciji Hadoopa zajedno s rezultatima Hadoop instalacije. Možete i proći naše druge predložene članke da biste saznali više -
- Uvod u Hadoop Streaming
- Što je Hadoop klaster i kako djeluje?
- Ekosistem Apache Hadoop i njegove komponente
- Koje su Hadoop alternative?