Uvod u Hadoop alate

Hadoop Alati su okvir koji se koristi za obradu velike količine podataka. Ti se podaci distribuiraju na klaster i raspodjeljuju se računi. Podaci se pohranjuju u blokove veličine 128Mb i za obradu i postizanje rezultata koristi se smanjenje karte. Tradicionalno Map i Reduce pisani su na Javi, ali bilo je teško prekrižiti vještine koje su radile u skladištu podataka, jer s njima nisu imale iskustva. SQL je dobro poznat i jednostavan za upotrebu, tako da je pronalaženjem načina za pisanje SQL-a poput upita koji se pretvara u Map and Reduce ovo osnovao Facebook, a kasnije ga je poklonio Apacheu, a ovaj alat je poznat i kao košnica. Yahoo je također pronašao alat nazvan Svinja koji se pri izvršenju pretvara u Smanjenje karata. Slično tome, imamo i Sqoop i flume za pomicanje podataka i alate za ubrizgavanje. HBase je alat za upravljanje bazama podataka.

Značajke alata Hadoop

  1. Košnica
  2. Svinja
  3. Sqoop
  4. HBase
  5. Čuvar zoo vrta
  6. Žlijeb

Sada ćemo vidjeti značajke s kratkim objašnjenjem.

1. košnica

Apache košnicu je osnovao Facebook, a kasnije je donirao zakladu Apache koja je infrastruktura skladišta podataka, što olakšava pisanje SQL-a kao što je Query ili HiveQL. Ovi se upisi interno pretvaraju u zadatke Map Reduct (Smanjivanje karte), a obrada se vrši korištenjem distribuiranog računanja Hadoopa. Može obraditi podatke koji se nalaze u HDFS, S3 i svim pohranama kompatibilnim s Hadoop-om. Možemo iskoristiti pogodnosti koje pruža Map Reduce kad god pronađemo nešto teško implementirano u košnici primjenom u Korisnički definiranim funkcijama. Korisniku omogućuje registraciju UDF-a i njegovu upotrebu u poslovima.

Značajke košnice

  • Košnica može obraditi mnoge vrste formata datoteka poput datoteke slijeda, ORC datoteke, TextFile itd.
  • Particioniranje, grupiranje i indeksiranje dostupni su za brže izvršavanje.
  • Komprimirani podaci mogu se učitati u košnicu košnice.
  • Upravljačke ili unutarnje tablice i vanjske tablice istaknuta su obilježja košnice.

2. svinja

Yahoo je razvio Apache Pig kako bi imao dodatni alat za jačanje Hadoopa ad hoc načinom implementacije smanjenja karata. Svinja ima motor zvan Pig Engine koji skripte pretvara u Smanjivanje karata. Svinja je skriptni jezik, skripte napisane za Svinja su u PigLatinu, baš kao i Hive ovdje, mi također možemo imati UDF-ove za poboljšanje funkcionalnosti. Zadaci u Svinji optimiziraju se automatski tako da se programeri ne trebaju brinuti. Svinja obrađuje i strukturirane i nestrukturirane podatke.

Značajke svinje

  • Korisnici mogu imati vlastite funkcije za obavljanje posebne vrste obrade podataka.
  • Jednostavno je pisati kodove u Svinja usporedno i duljina koda je manja.
  • Sustav može automatski optimizirati izvršenje.

3. Sqoop

Sqoop se koristi za prijenos podataka s HDFS-a u RDBMS i obrnuto. Podatke možemo izvući na HDFS iz RDBMS-a, košnice itd., A možemo ih obrađivati ​​i izvoziti natrag u RDBMS. Podaci možemo dodati više puta u tablicu, a također možemo stvoriti Sqoop posao i izvršiti ga 'n' broj puta.

Značajke Sqoopa

  • Sqoop može uvesti sve tablice odjednom u HDFS.
  • Možemo ugraditi SQL upite kao i uvjete uvoza podataka.
  • Možemo uvesti podatke u košnicu ako postoji tablica s HDFS-a.
  • Broj mapirača može se kontrolirati, tj. Paralelno izvršavanje može se kontrolirati određivanjem broja mappersa.

4. HBase

Sustav za upravljanje bazama podataka na vrhu HDFS naziva se HBase. HBase je NoSQL baza podataka koja je razvijena na vrhu HDFS-a. HBase nije relacijska baza podataka, ne podržava strukturirane jezike upita. HBase koristi raspodijeljenu obradu HDFS-a. Može imati velike tablice s milijunima i milijunima zapisa.

Značajke HBase

  • HBase pruža skalabilnost i u linearnom i u modularnom obliku.
  • API-ji u JAVA-i mogu se koristiti za pristup klijentu.
  • HBase pruža omot za izvršavanje upita.

5. Zookeeper

Apache Zookeeper je usluga centralizirane konfiguracije, održava evidenciju informacija, imenovanja, također nudi distribuiranu sinkronizaciju i grupne usluge. Zookeeper je centralizirano skladište koje se pomoću distribuiranih aplikacija koristi za prikupljanje i dobivanje podataka o njemu. Također pomaže u upravljanju čvorovima, tj. Pridružiti se ili ostaviti čvor u klasteru. Omogućuje visoko pouzdan registar podataka kada je malo čvorova dolje.

Značajke Zookeeper-a

  • Učinkovitost se može povećati raspodjelom zadataka koji se postižu dodavanjem više strojeva.
  • Sakriva složenost distribucije i predstavlja se kao jedinstveni stroj.
  • Neuspjeh nekoliko sustava ne utječe na cijeli sustav, ali nedostatak je što može dovesti do djelomičnog gubitka podataka.
  • Pruža Atomicity tj. Transakcija je ili uspješna ili nije uspjela, ali nije u nesavršenom stanju.

6. Pahulja

Apache Flume je alat koji omogućuje gutanje podataka, koji može prikupiti, objediniti i prenijeti ogromne količine podataka iz različitih izvora u HDFS, HBase, itd. Flume je vrlo pouzdan i može se konfigurirati. Dizajniran je za gutanje streaminga podataka s web poslužitelja ili podataka o događajima na HDFS, npr. Može gutati twitter podatke na HDFS. Flume može pohraniti podatke u bilo koji od centraliziranih spremišta podataka, poput HBase / HDFS. Ako postoji situacija u kojoj se podaci stvaraju većom brzinom u odnosu na brzinu podataka može se zapisati, tada lebdjelica djeluje kao posrednik i osigurava stalni protok podataka.

Značajke Flume

  • On može gutati podatke web poslužitelja zajedno s podacima o događajima kao što su podaci s društvenih medija.
  • Transakcije letenja temelje se na kanalu, tj. Održavaju se dvije poruke jedna je za slanje, a jedna za primanje.
  • Vodoravno je skaliranje moguće u mlazu.
  • Toleran je prema vrlo krivome jer je kontekstualno usmjeravanje prisutno na listiću.

Zaključak - Hadoop Alati

Ovdje u ovom članku naučili smo o nekoliko alata Hadoop i kako su oni korisni u svijetu podataka. Vidjeli smo košnice i svinje koji se koriste za ispitivanje i analizu podataka, povezivanje za premještanje podataka i iscjedak kako bi se gutali podaci u HDFS.

Preporučeni članci

Ovo je vodič za Hadoop alate. Ovdje razgovaramo o različitim alatima Hadoopa sa njihovim značajkama. Možete i proći naše druge predložene članke da biste saznali više -

  1. Hadoop alternative
  2. Baza podataka Hadoop
  3. Funkcije stringova SQL
  4. Što su veliki podaci

Kategorija: