Uvod u AWS EMR

AWS EMR pruža brojne funkcionalnosti koje nam olakšavaju, neke od tehnologija su:

  1. Amazon EC2
  2. Amazon RDS
  3. Amazon S3
  4. Amazon CloudFront
  5. Amazonsko automatsko skaliranje
  6. Amazonska Lambda
  7. Amazon Redshift
  8. Amazonska elastična mapaReduce (EMR)

Jedna od glavnih usluga koje pruža AWS EMR i kojom ćemo se baviti je Amazon EMR.

EMR obično nazvan Elastic Map Reduce dolazi na jednostavan i pristupačan način za obradu većih komada podataka. Zamislite veliki scenarij podataka gdje imamo ogromnu količinu podataka i vršimo skup operacija nad njima, recimo da se pokreće Map-Reduce posao, jedno od glavnih problema s kojima se suočava aplikacija Bigdata je ugađanje programa, često nam je teško precizno prilagoditi naš program na takav način da se svi dodijeljeni resursi pravilno potroše. Zbog ovog gore navedenog faktora podešavanja, vrijeme potrebno za obradu postepeno raste. Elastična karta Smanjite uslugu Amazon, web je usluga koja pruža okvir koji upravlja svim ovim potrebnim značajkama potrebnim za veliku obradu podataka na ekonomičan, brz i siguran način. Od stvaranja klastera do distribucije podataka na raznim instancama, sve ove stvari lako se upravljaju u Amazonovu EMR. Ovdje su usluge na zahtjev znači da možemo kontrolirati brojeve na temelju podataka koje imamo, što je ako je isplativo i skalabilno.

Razlozi korištenja AWS EMR

Pa zašto koristiti AMR što ga čini boljim od drugih. Često nailazimo na osnovni problem gdje nismo u mogućnosti dodijeliti sve resurse dostupne preko klastera nijednoj aplikaciji, AMAZON EMR vodi računa o tim problemima te na temelju veličine podataka i potražnje aplikacije dodjeljuje potreban resurs. Također, budući da smo elastični u prirodi, možemo to u skladu s tim promijeniti. EMR ima ogromnu podršku za aplikacije bilo da je to Hadoop, Spark, HBase koji olakšava obradu podataka. Podržava razne ETL operacije brzo i ekonomično. Može se koristiti i za MLIB u Iskri. U njemu se mogu izvoditi različiti algoritmi strojnog učenja. Bilo da se radi o skupnim podacima ili struji podataka u stvarnom vremenu EMR je u stanju organizirati i obraditi obje vrste podataka.

Rad AWS EMR

Pogledajmo sada ovaj dijagram klastera Amazon EMR i pokušat ćemo shvatiti kako zapravo radi:

Sljedeći dijagram prikazuje distribuciju klastera unutar EMR-a. Provjerimo taj detalj:

1. Klasteri su središnja komponenta Amazonove EMR arhitekture. Oni su zbirka EC2 instanci nazvanih Čvorovi. Svaki čvor ima svoje posebne uloge u klasteru nazvane kao tip čvora i na osnovi njihovih uloga možemo ih klasificirati u 3 vrste:

  • Glavni čvor
  • Osnovni čvor
  • Zadatak čvora

2. Glavni čvor kao što ime sugerira je master koji je odgovoran za upravljanje klasterom, pokretanje komponenti i distribuciju podataka preko čvorova za obradu. Samo prati evidenciju je li sve pravilno upravljano i radi dobro i radi li u slučaju neuspjeha.

3. Core Node je odgovoran za izvršavanje zadatka i spremanje podataka u HDFS u klaster. Sve dijelove za obradu rukuje jezgrom jezgre, a podaci nakon te obrade postavljaju se na željeno HDFS mjesto.

4. Zadaća čvor neobavezan je samo zadatak izvršavanja zadatka koji ne spremaju podatke u HDFS.

5. Kad god nakon prijave na posao imamo nekoliko metoda za odabir načina na koji se radovi moraju dovršiti. Budući da je to od prestanka klastera nakon dovršetka posla do dugotrajnog klastera koji koristi EMR konzolu i CLI za podnošenje koraka, imamo svu privilegiju za to.

6. Mi možemo izravno pokrenuti posao na EMR-u tako što ćemo ga povezati s glavnim čvorom putem raspoloživih sučelja i alata koji obavljaju zadatke izravno na klasteru.

7. Također možemo izvoditi naše podatke u različitim koracima uz pomoć EMR-a, sve što moramo učiniti je poslati jedan ili više naručenih koraka u EMR clusteru. Podaci se pohranjuju kao datoteka i obrađuju se na način koji slijedi. Polazeći od "Stanje na čekanju do dovršenog stanja", možemo pratiti korake obrade i pronaći greške, podupirući ih i od "Neuspjelo otkazivanje", svi ovi koraci lako se mogu vratiti u to.

8. Jednom kada se sva instancija ukine, postiže se ispunjeno stanje za klaster.

Arhitektura za AWS EMR

EMR arhitektura se uvodi počevši od dijela za pohranu do dijela aplikacije.

  • Prvi sloj dolazi s slojem za pohranu koji uključuje različite datotečne sustave koji se koriste s našim klasterom. Bilo da je od HDFS do EMRFS do lokalnog datotečnog sustava, oni se koriste za pohranu podataka u cijeloj aplikaciji. Spremanje intermedijarnih rezultata tijekom obrade MapReduce može se postići pomoću ovih tehnologija koje dolaze s EMR-om.
  • Drugi sloj dolazi s Upravljanjem resursima za klaster, ovaj sloj je odgovoran za upravljanje resursima za klastere i čvorove preko aplikacije. Ovo u osnovi pomaže kao alati za upravljanje koji pomažu ravnomjernoj raspodjeli podataka po klasteru i pravilnom upravljanju. Zadani alat za upravljanje resursima koji EMR koristi je YARN koji je uveden u Apache Hadoop 2.0. Središnje upravlja resursima za višestruke okvire za obradu podataka. Ona se brine o svim informacijama koje su potrebne da klaster dobro radi, od zdravlja čvorova do distribucije resursa uz upravljanje memorijom.
  • Treći sloj dolazi s Okvirom za obradu podataka, ovaj sloj je odgovoran za analizu i obradu podataka. postoje mnogi okviri podržani EMR-om koji igra važnu ulogu u paralelnoj i učinkovitoj obradi podataka. Neki od okvira koji podržava i kojih smo svjesni je APACHE HADOOP, SPARK, SPARK STREAMING itd.
  • Četvrti sloj sadrži aplikaciju i programe poput HIVE, PIG, biblioteke za streaming, ML algoritme koji su korisni za obradu i upravljanje velikim skupima podataka.

Prednosti AWS EMR

Provjerimo neke prednosti korištenja EMR-a:

  1. Velika brzina: Budući da se svi resursi pravilno koriste, vrijeme obrade za upit razmjerno je brže od ostalih alata za obradu podataka imaju vrlo jasnu sliku.
  2. Skupna obrada podataka: Veća veličina podataka EMR ima mogućnost obrade ogromne količine podataka u dovoljno dugog vremena.
  3. Minimalni gubitak podataka: Budući da se podaci distribuiraju preko klastera i paralelno obrađuju putem mreže, minimalne su šanse za gubitak podataka i dobro, brzina točnosti obrađenih podataka je bolja.
  4. Isplativo: što je isplativije, jeftinije je od bilo koje druge dostupne alternative, što ga čini jakim u odnosu na industrijsku upotrebu. Budući da je cijena manja, možemo prihvatiti preko velike količine podataka i možemo ih obraditi u okviru proračuna.
  5. AWS Integrated: Integriran je sa svim uslugama AWS-a što olakšava dostupnost pod krovom, tako da je sigurnost, pohrana, umrežavanje svega integrirano na jednom mjestu.
  6. Sigurnost: Dolazi s nevjerojatnom sigurnosnom skupinom za kontrolu ulaznog i odlaznog prometa, a upotreba IAM uloga čini ga sigurnijim, jer dolazi do raznih dozvola koja čine podatke zaštićenima.
  7. Nadgledanje i raspoređivanje: imamo odgovarajuće alate za nadgledanje za sve aplikacije koje rade preko EMR klastera, što ga čini transparentnim i lakim za analizu dijela, a dolazi i sa značajkom automatske implementacije gdje se aplikacija automatski konfigurira i implementira.

Mnogo je više prednosti EMR-a kao boljeg izbora druge metode računanja klastera.

AWS EMR cijene

EMR dolazi s nevjerojatnim popisom cijena koji privlači programere ili tržište prema njemu. Budući da dolazi s značajkom određivanja cijena na zahtjev, možemo je koristiti nešto više od sat vremena i broj čvorova u našem klasteru. Možemo platiti stopu u sekundi za svaku sekundu koju koristimo s minimalnom minutom. Također možemo odabrati da se naši primjerci upotrebljavaju kao Rezervirane instance ili Spot-instance, pri čemu je mjesto značajno uštedelo.

Ukupni račun možemo izračunati pomoću jednostavnog mjesečnog kalkulatora iz donje poveznice: -

https://calculator.s3.amazonaws.com/index.html#s=EMR

Za više detalja o točnim detaljima cijena možete pogledati dokument dolje od strane Amazona: -

https://aws.amazon.com/emr/pricing/

Zaključak

Iz gornjeg članka smo vidjeli kako se EMR može koristiti za poštenu obradu velikih podataka, a svi se resursi koriste konvencionalno.

EMR rješava naš osnovni problem obrade podataka i smanjuje mnogo vremena za obradu za dobar broj, što je ekonomično i jednostavno za upotrebu.

Preporučeni članak

Ovo je vodič za AWS EMR. Ovdje smo raspravljali o upoznavanju AWS EMR-a s njegovim radom i arhitekturom kao i prednostima. Možete i proći naše druge predložene članke da biste saznali više -

  1. AWS alternative
  2. AWS naredbe
  3. AWS usluge
  4. AWS pitanja za intervju
  5. AWS usluge skladištenja
  6. Najboljih 7 natjecatelja AWS-a
  7. Popis značajki web usluga Amazon

Kategorija: