Uvod u Hadoop ekosustav

Apache Hadoop je sustav otvorenog koda za pouzdano pohranjivanje i obradu puno informacija na mnogim robnim računalima. Hadoop je prvi put napisan u radu i objavljen u listopadu 2013. pod nazivom "Google datotečni sustav". Doug Cutting, koji je u to vrijeme radio u Yahoo-u, predstavio je ime kao Hadoop ekosustav na osnovu imena slonova igračkog sina. Ako smatramo glavnom jezgrom Apache Hadoop-a, tada prvo može uzeti u obzir prostor za pohranu, koji je poznat kao Hadoop distribuirani datotečni sustav (HDFS), i drugo, dio koji se obrađuje, koji je poznat kao modul Programiranja smanjenja karata. Hadoop zapravo dijeli jednu ogromnu datoteku i sprema ih u više čvorova preko klastera.

Koncept ekosustava Hadoop

Apache Hadoop okvir uglavnom drži ispod modula:

  1. Hadoop Common: sadrži sve knjižnice i uslužne programe potrebne za korištenje Hadoop modula.
  2. Hadoop distribuirani datotečni sustav (HDFS): To je jedan od distribuiranih datotečnih sustava koji pomaže za pohranu ogromnih podataka u više strojeva ili robnih strojeva. Također, pružite veliku uslužnost u slučaju propusnosti, obično pruža vrlo visoku propusnost u vrsti agregata na klasteru.
  3. Hadoop pređa: Uvedena je 2012. Uvodi se uglavnom za upravljanje resursima na cijelom sistemu robe, čak i u klasteru. Na temelju mogućnosti resursa distribuirao je ili zakazivao korisničku aplikaciju prema zahtjevu.
  4. Hadoop MapReduce: ona uglavnom pomaže u obradi podataka velikih razmjera kroz metodologiju smanjenja mapa.

Apache Hadoop uvijek pomaže u smanjenju IT troškova u smislu obrade i pametnog pohranjivanja ogromnih podataka. Kako je Apache Hadoop otvoreni izvor i hardver je često dostupan, uvijek nam pomaže u pravilnom smanjenju IT troškova.

Softver otvorenog koda + robni hardver = smanjenje troškova za IT

Na primjer, ako ćemo razmišljati o svakodnevnom prijemu 942787 datoteka i mapa, za koje je potrebno 4077936 blokova, ukupno 5020723 blokova. Ako smo konfigurirali kapacitet od najmanje 1, 46 PB, tada će za rukovanje iznad opterećenja distribuirani datotečni sustav koristiti 1, 09 PB, to znači gotovo 74, 85% ukupnog konfiguriranog kapaciteta, dok uzmemo u obzir 178 živih čvorova i 24 mrtva čvora.

Hadoop ekosustav uglavnom je dizajniran za pohranu i obradu velikih podataka koji obično imaju neke ključne karakteristike kao što su dolje:

  • Svezak

Svezak označava veličinu podataka koji su zapravo pohranjeni i generirani. Ovisi o veličini podataka za koju je utvrđeno da je skup podataka velik ili ne.

  • Raznolikost

Raznolikost znači prirodu, strukturu i vrstu podataka koji se koriste.

  • Brzina

Velocity je brzina podataka koji su pohranjeni i generirani u određenom tijeku razvojnog procesa.

  • Istinitost

Vjerodostojnost označava kvalitetu podataka koja je zabilježena, a također pomaže analizi podataka kako bi došli do željenog cilja.

HDFS je uglavnom dizajniran za pohranu vrlo velike količine informacija (terabajta ili petabajta) na velik broj strojeva u klasteru. Uvijek zadržavanje nekih uobičajenih karakteristika, poput pouzdanosti podataka, radi na robnom hardveru, koristeći blokove za pohranu datoteke ili dijela te datoteke, koristi model "pisanje jednom pročitani za mnoge".

HDFS slijedi ispod arhitekture s konceptom Name Node i Data Node.

Odgovornost Ime čvora (Master):

- upravlja prostorom imena datoteka

- održava konfiguraciju klastera

- Odgovorno za upravljanje replikacijom

Odgovornost Data čvora (Slave):

- Spremite podatke u lokalni datotečni sustav

- Periodično se vraćajte na čvor imena pomoću otkucaja srca

Operacija pisanja u HDFS:

Hadoop slijedi u nastavku korake za pisanje bilo koje velike datoteke:

  1. Napravite datoteku i ažurirajte FS sliku nakon što ste dobili jedan zahtjev za pisanje datoteke od bilo kojeg HDFS klijenta.
  2. Dobijte informacije o lokaciji bloka ili podacima čvora podataka iz čvora imena.
  3. Paket napišite na pojedinačne čvorove podataka paralelno.
  4. Potvrdite dovršavanje ili prihvaćanje pisanja paketa i pošaljite podatke o klijentu Hadoop.

HDFS cjevovod za replikaciju bloka:

  1. Klijent dohvaća popis Datanoda iz Namenode koji će ugostiti repliku tog bloka
  2. Klijent zatim usmjeri blok podataka na prvu Datanode
  3. Prvi Datanode prima blok, piše ga i prenosi u sljedeći čvor podataka u cjevovodu
  4. Kad su zapisane sve replike, klijent kreće prema sljedećem bloku u datoteci

Tolerancija grešaka HDFS:

Jedan je podatkovni čvor iznenada dole, u tom slučaju HDFS može automatski upravljati tim scenarijem. Prvo, svi čvorovi imena uvijek primaju otkucaje srca iz svakog čvora podataka, ako je nekako izgubio jedan otkucaj srca iz jednog čvora podataka, smatrajući isti čvor podataka kao dolje, odmah poduzmite akciju da automatski replicirate sve blokove na preostalim čvorovima da biste zadovoljili replikaciju faktor.

Ako čvor imena otkrije jedan novi podatkovni čvor dostupan u klasteru, odmah rebalansira sve blokove uključujući i dodani čvor podataka.

Sada je nekako ime gubitka čvora ili nije uspjelo, u tom slučaju i sigurnosni čvor koji drži jednu FS sliku čvora imena odmah izvodi sve FS operacije i up Node čvor prema zahtjevu. Ali u tom slučaju potrebna je ručna intervencija, a cijeli će sustav Hadoop ekosustava nekoliko puta biti oboren kako bi ponovo uspostavio novi čvor imena. Dakle, u ovom slučaju, čvor imena može biti neuspjeh u jednoj točki, kako bi se izbjegao ovaj scenarij HDFS federacija uvodi više klastera postavljenih imenskih čvorova, a ZooKeeper može upravljati odmah jednim alternativnim čvorom imena prema zahtjevu.

Primjeri Hadoop ekosustava

Potpuni primjer ekosustava Hadoop može se pravilno objasniti na slici ispod:

Podaci mogu potjecati iz bilo koje vrste izvora poput skladišta podataka, upravljanog spremišta dokumenata, dijeljenja datoteka, uobičajene baze podataka RDMS-a ili oblaka ili vanjskih izvora. Svi ti podaci došli su na HDFS u strukturi, nestrukturirano ili polustrukturirano. HDFS pohranjuje sve te podatke na distribuirani način, što znači pohranu u distribuciranom robnom sustavu vrlo pametno.

Zaključak

Hadoop ekosustav uglavnom je dizajniran za pohranu i obradu ogromnih podataka koji su trebali predstaviti bilo koji od dva faktora između volumena, brzine i raznolikosti. Pohranjivanje podataka u distribuirani sustav obrade koji radi na robnom hardveru. S obzirom na cjeloviti Hadoop proces ekosustava, HDFS distribuira blokove podataka, a Map Reduce pruža programski okvir za čitanje podataka iz datoteke pohranjene u HDFS.

Preporučeni članci:

Ovo je vodič za Hadoop ekosustav. Ovdje smo raspravljali o osnovnom konceptu Hadoop ekosustava, njegovoj arhitekturi, HDFS operacijama, primjerima, toleranciji HDFS-a itd. Također možete pogledati sljedeće članke da biste saznali više -

  1. Upotrebe Hadoopa u stvarnom svijetu
  2. Hadoop vs Splunk
  3. Karijera u Hadoopu
  4. Hadoop vs SQL izvedba

Kategorija: