Uvod u Hadoop alternative

Apache Hadoop je monstruozan okvir koji koristi nekoliko drugih komponenti kao što su HDFS, Hive, Spark, YARN i Zookeeper. Koristi se za obradu i analizu podataka preuzetih iz unutarnjih ili vanjskih izvora. Može se skalirati od nekoliko strojeva ili servera do tisuće njih. Postoji mnogo ugrađenih funkcija knjižnice koje mogu otkriti i riješiti kvarove.

Dijelovi Hadoopa

1) Hadoop distribuirani datotečni sustav (HDFS):

Ovo je spremnik podataka u Hadoopu. Djeluje na principu raspodijeljenih podataka, gdje se ogromni skupovi podataka razbijaju u male dijelove i pohranjuju na više strojeva u klasteru.

2) MapReduce:

To je programski model za paralelno izvršavanje analiza na podacima koji se nalaze u različitim čvorovima klastera.

3) košnica:

Okvir otvorenog koda koji se koristi za ispitivanje strukturiranih podataka koristeći jezik košnice. Značajka indeksiranja koristi se za ubrzavanje postupka upita.

4) Ambari:

Platforma za nadzor zdravlja klastera i automatizaciju rada. Ima jednostavno web sučelje i može se lako instalirati i konfigurirati.

Popis Hadoop alternative

Ispod su različite Hadoop alternative koje su kako slijedi:

Paketna obrada

Ovdje se obrada vrši samo na arhivskim podacima. Na primjer, financijska revizija i popis stanovništva su analize napravljene na starim podacima kako bi se omogućila bolja predviđanje budućih rezultata. Ti podaci mogu sadržavati milijarde redaka i stupaca. Paketna obrada je najprikladnija za veliku obradu podataka bez potrebe za analizom u stvarnom vremenu.

Obrada u stvarnom vremenu

Poznata je i kao Stream-Processing. Ovdje se podaci obrađuju povremeno kako se generiraju kako bi se omogućio brzi uvid u vjerojatne ishode. Otkrivanje zemljotresa i burze najbolji su primjeri gdje je analiza u stvarnom vremenu nužna.

Apache Spark

Spark je okvir koji se koristi zajedno s Hadoop-om za obradu podataka serije ili u stvarnom vremenu na strojevima s klasterima. Može se koristiti i kao samostalno dohvaćanje i pohranjivanje podataka na trećim poslužiteljima bez korištenja HDFS-a. To je proizvod otvorenog koda. Pruža API-je koji se pišu korištenjem SCALA, R ili Python koji podržava opću obradu. Za obradu strukturiranih podataka može se koristiti Spark-SQL. Spark Streaming izvodi prijeko potrebnu analitiku u stvarnom vremenu. Spark pruža podršku strojnom učenju pomoću MLIB-a. Na kraju se obrađeni podaci mogu pregledati pomoću Graphixa.

Najistaknutija značajka Sparka je obrada u memoriji. Cjelokupna obrada podataka odvija se u memoriji, a ne na disku. Ova metoda štedi vrijeme čitanja i pisanja ulaza na disk i izlaza s njega. Iskra je munjevita i gotovo je 100 puta brža od obrade Hadoopa. Čitava funkcija je definirana i podnesena u kontekst iskre. Tek tada obrada počinje ispočetka. Ova metoda je poznata kao Lazy-Execution. Kafka, Flume koriste se kao ulazi za strujanje podataka. Strukturirani ili nestrukturirani podaci Spark mogu koristiti za analizu. Struje podataka su gomila podataka za određeni vremenski interval u Spark Streamingu. Pretvaraju se u serije i šalju se Spark Engineu na obradu. Strukturirani podaci pretvaraju se u okvire podataka prije upotrebe Spark-SQL-a za daljnju analizu.

Apache Oluja

Apache Storm jedna je od alternativa Hadoopa koja je najprikladnija za distribuiranu analizu u stvarnom vremenu. Jednostavno je postavljanje, prilagođen korisnicima i ne pruža gubitak podataka. Oluja ima vrlo veliku moć obrade i pruža nisko kašnjenje (obično u sekundi) u usporedbi s Hadoop-om.

Detaljnije ćemo pogledati tijek oluje:

  • Olujna topologija (slična DAG-u, ali fizički plan izvršenja) predaje se Nimbusu (glavnom čvoru).
  • Zadaci i redoslijed izvršavanja podnose se Nimbusu.
  • Nimbus ravnomjerno raspoređuje raspoložive zadatke nadzornicima (izljevima), a postupak obavljaju radnički čvorovi (vijci).
  • Zdravlje izljeva i vijaka neprekidno se prati putem otkucaja srca. Jednom kada umre nadzornik, Nimbus zadatak raspoređuje na drugi čvor.
  • Ako Nimbus umre, alati za praćenje automatski ga pokreću. U međuvremenu, nadzornici nastavljaju obavljati svoje zadatke koji su im bili dodijeljeni ranije.
  • Jednom kada se Nimbus ponovno pokreće, nastavlja raditi tamo gdje je stao. Dakle, nema gubitka podataka i svaki podatak prolazi kroz topologiju barem jednom.
  • Topologija nastavlja raditi osim ako se Nimbus ne ukine ili prisilno ne isključi.
  • Oluja koristi Zookeeper za nadgledanje Nimbusa i ostalih nadzornih čvorova.

Veliki upit

Baze podataka koriste se za transakcijsku obradu. Menadžeri stvaraju izvješća i analiziraju podatke iz različitih baza podataka. Skladišta podataka uvedena su za prikupljanje podataka iz više baza podataka u cijeloj organizaciji. Google je razvio Veliki upit koji je skladište podataka kojim upravlja sama. Za obradu vrlo složenih upita možda će trebati serveri s visokim performansama i Node strojevi koji mogu skupo koštati. Postavljanje infrastrukture može potrajati i do nekoliko tjedana. Kad se dosegne maksimalni prag, tada se on mora povećati. Da bi se riješili ovi problemi, Veliki upit nudi pohranu u obliku Googleovog oblaka. Radnički čvorovi skaliraju se do veličine podatkovnog centra ako je potrebno da bi u nekoliko sekundi izveli složeni upit. Plaćate za ono što koristite tj. Upit. Google se brine za resurse, njihovo održavanje i sigurnost. Pokretanje upita u uobičajenim bazama podataka može trajati od nekoliko sati do sati. Veliki upit obrađuje podatke mnogo brže i uglavnom je prikladan za strujanje podataka kao što su internetske igre i Internet stvari (IoT). Brzina obrade je visoka poput milijardi redaka u sekundi.

odmah

Presto upit može se koristiti za kombiniranje podataka iz različitih izvora u cijeloj organizaciji i njihovo analiziranje. Podaci mogu biti u košnici, RDBMS-u ili Cassandri. Presto je najprikladniji za analitičare koji očekuju cjelokupni upit za nekoliko minuta. Arhitektura je analogna klasičnom sustavu za upravljanje bazama podataka uz uporabu više čvorova preko klastera. Razvio ga je Facebook za provođenje analize i pronalaženje uvida iz njihovih internih podataka, uključujući njihovo skladište podataka od 300 PB. Na njihove podatke pokreće se više od 30.000 upita za skeniranje preko petabajta dnevno. I druge vodeće tvrtke poput Airbnb i Dropbox koriste Presto.

Preporučeni članak

Ovo je vodič za Hadoop alternative. Ovdje smo raspravljali o komponentama Hadoopa, serijske obrade i obrade alternativa Hadoop u stvarnom vremenu. Možete pogledati i sljedeće članke da biste saznali više:

  1. Poslovi administratora Hadoopa
  2. Hadoop vs SQL izvedba
  3. Karijera u Hadoopu
  4. Hadoop vs Spark
  5. Hadoop administrator | Put vještina i karijere

Kategorija: