Uvod u arhitekturu iskre Apache

Ovaj članak definira koncepte Apache Spark Architecture i njezinih komponenti. Smatra se da je vršna obrada podataka na Apache Software Foundation. Spark se u konačnici smatra još jednom mogućnošću Hadoopa i smanjenja karata.

Spark je open-source arhitektura s dobro definiranim komponentama koje pomažu u analizi ogromne količine podataka i djeluju za distribuirano računanje. Spark je napisan u Scali s omogućenim značajkama poput API-ja, R i obogaćen je skup knjižnica što olakšava obradu podataka. Apache Spark ima svoje pojedinačno računanje klastera radi brže dostupnosti i izvršavanja na različitim platformama.

Apache Spark ima širok spektar funkcija poput ubrzavanja bržeg procesa memorije, prilagođava se više programskih jezika, ima poboljšane tehnike keširanja i podržava SQL upite, Strojno učenje. Radi na platformama poput operacijskog sustava Microsoft Windows i Linux. Njihova primjena kaže da bi se mogla izvoditi i na jednom stroju i u klaster modu.

Apache iskre arhitektura

Iskra arhitekture Apache ima slabo spojene komponente. Spark razmotri glavni / radni proces u arhitekturi i svi zadaci rade na vrhu datotečnog sustava Hadoop. Apache iskra koristi Hadoop za obradu podataka i postupak pohrane podataka. Smatra se da je pokretač za obradu podataka u memoriji i omogućuje da se njihove aplikacije pokreću na Hadoop klasterima brže od memorije. Procesom obrade u memoriji sprečava se neuspjeh diskovnog I / O. Spark omogućuje heterogenom poslu da radi s istim podacima. Spark svoje podatke dijeli na particije, veličina podijeljenih particija ovisi o datoj izvori podataka.

Ispod su dvije glavne implementacije Apache Spark arhitekture:

1. Elastični distribuirani skupovi podataka (RDD)

Odgovorna je za pružanje API-ja za kontrolu predmemoriranja i particija. To je važan skup alata za računanje podataka. Pomaže u preračunavanju elemenata u slučaju kvarova i smatra se nepromjenjivim podacima i djeluje kao sučelje. Transformacije i akcije dvije su operacije koje je provelo RDD.

2. Usmjereni aciklički grafikon (DAG)

On tvori sekvencijalnu vezu s jednog čvora na drugi. Upravljački program pretvara program u DAG za svaki posao. Eko-sustav Apache Spark ima različite komponente kao što su jezgra API-ja, Spark SQL, Streaming i obrada u stvarnom vremenu, MLIB i Graph X. Neke terminologije koje ovdje treba naučiti su Spark shell koji pomaže u čitanju velikih količina podataka, Spark kontekst - otkazati, pokrenuti posao, zadatak (posao), posao (računanje)

Dijelovi arhitekture iskre Apache

Četiri glavne komponente iskre su date u nastavku i potrebno ih je razumjeti za kompletan okvir.

  1. Vozač iskre
  2. izvršitelji
  3. Menadžer klastera
  4. Čvorovi radnika

Sljedeći dijagram prikazuje arhitekturu i komponente iskre:

Sl.: Samostalan mod arhitekture Apache Spark

Tok izvršenja započinje na sljedeći način:

1. Vozač iskre

Odgovornost vozača je da koordinira zadatke, a radnici za upravljanje. To je Application JVM postupak i smatra se glavnim čvorom. Vozač dijeli iskru na zadatke i rasporede izvršavati na izvršiteljima u klasterima. U dijagramu, programi pokretača pozivaju glavnu aplikaciju i stvaraju iskru kontekst (djeluje kao gateway) zajedno nadgledaju posao koji rade unutar datog klastera i povezuju se s Spark grupom Sve funkcionalnosti i naredbe obavljaju se u kontekstu iskre.

Kontekst iskre unos je za svaku sesiju. Upravljač iskre ima više komponenti za izvršavanje zadataka u klasterima. Spark clusters se povezuju s različitim vrstama upravitelja klastera i istovremeno kontekst stječe radničke čvorove za izvršavanje i pohranu podataka. U klasteru, kada izvršimo postupak, njihov je posao podijeljen u faze s fazama pojačanja u zakazane zadatke.

2. Izvršitelj

Odgovorna je za izvršavanje zadatka i pohranjuje podatke u predmemoriju. U samoj početnoj fazi izvršitelji se registriraju kod vozača. Ovaj izvršitelj ima nekoliko vremenskih mjesta da istodobno pokreće aplikaciju. Izvršitelji izvršavaju postupak čitanja / pisanja na vanjskim izvorima. Izvršitelj vodi posao kada je učitao podatke i oni su uklonjeni u stanju mirovanja. Izvršitelju omogućena dinamička raspodjela i oni se stalno uključuju i isključuju ovisno o trajanju. Za vrijeme izvršavanja zadataka izvršitelji se prate programom vozača. Izvršitelji izvršavaju zadatak korisnika u procesu Java.

3. Upravitelj klastera

Pomaže u upravljanju klasterima koji imaju jednog gospodara i broja robova. Postoje dvije vrste upravitelja klastera poput YARN i samostalnih i njima upravljaju Resource Manager i Node. rad na klasteru samostalno zahtijeva Spark Master i čvor radnika kao svoje uloge. Odgovornost upravitelja klastera je da raspoređuje resurse i izvršava zadatak,

4. radnički čvorovi

Oni su robovlasnički čvorovi; glavna je odgovornost izvršiti zadatke, a rezultat istih vratiti se natrag u kontekst iskre. Oni komuniciraju s glavnim čvorom o dostupnosti resursa. Spark kontekst izvršava ga i izdaje radničkim čvorovima. Svakom radničkom čvorištu dodijeljen je po jedan radnik s varnicom za nadzor. Oni izračunavaju vrlo jednostavno tako što povećavaju čvorove radnika (od 1 do n radnika) tako da se svi zadaci izvršavaju paralelno dijeljenjem posla na particije na više sustava. Zadatak drugog elementa smatra se jedinicom rada i dodjeljuje se jednom izvršitelju, za svaku iskriju particije radi jedan zadatak.

Zaključak

Stoga, razumijevanjem Apache Spark Architecture, označava kako na jednostavan način implementirati velike podatke. Konačno, naučili smo njihovu dostupnost i uloge njihovih komponenti što je vrlo korisno za klaster računarstvo i veliku podatkovnu tehnologiju. Iskrivanje izračunajte željene rezultate na lakši način i poželjno je kod serijske obrade.

Sparkine karakteristike poput skupova podataka i okvira podataka pomažu u optimizaciji korisnikovog koda. Važna značajka poput SQL motora potiče brzinu izvršenja i ovaj softver čini svestranim. Stoga smo vidjeli da se aplikacije za iskre pokreću lokalno ili se distribuiraju u klasteru. Apache Spark smatra se sjajnim dopunom u širokom rasponu industrija poput velikih podataka. Ukratko, iskra pomaže u rješavanju visokih računskih zadataka.

Preporučeni članci

Ovo je vodič Apache Spark arhitekture. Ovdje razgovaramo o Uvodu u Apache Spark arhitekturu zajedno s komponentama i blok dijagramom Apache Spark. Možete i proći kroz naše druge predložene članke da biste saznali više -

  1. Naredbe iskre ljuske
  2. Ekosistem Apache Hadoop
  3. Arhitektura velikih podataka
  4. Što je Apache

Kategorija: