Uvod u iskrenje naredbe

Apache Spark je okvir izgrađen na vrhu Hadoopa za brza računanja. To proširuje koncept MapReduce u scenariju temeljenom na klasterima kako bi učinkovito izvršavao zadatak. Spark Command je napisan u Scali.

Hadoop Spark može koristiti na sljedeće načine (vidi dolje):

Sl. 1

https://www.tutorialspoint.com/

  1. Samostalan: Iskra se izravno postavlja na vrhu Hadoopa. Poslovi iskre se pokreću paralelno na Hadoop i Spark.
  2. Hadoop PRIJEV: Iskrica se pokreće na pređi bez ikakve predinstalacije.
  3. Iskra u MapReduce (SIMR): Iskra u MapReduceu koristi se za pokretanje iskričavanja, osim samostalne implementacije. Pomoću SIMR-a, Spark može pokrenuti Spark i može koristiti njegovu ljusku bez administrativnog pristupa.

Dijelovi iskre:

  1. Apache Spark Core
  2. Spark SQL
  3. Streaming iskre
  4. MLib
  5. GraphX

Elastični distribuirani skupovi podataka (RDD) smatraju se temeljnom strukturom podataka Spark naredbi. RDD je nepromjenljiv u prirodi i samo za čitanje. Sve vrste izračuna u naredbama iskra provode se kroz transformacije i akcije na RDD-ovima.

Slika 2

Google slika

Iskrica ljuske pruža medij za interakciju korisnika s njenim funkcionalnostima. Naredbe iskre imaju puno različitih naredbi koje se mogu koristiti za obradu podataka na interaktivnoj ljusci.

Osnovne iskra naredbe

Pogledajmo neke od osnovnih Spark naredbi koje su date u nastavku: -

  1. Da biste pokrenuli ljusku iskre:

Slika 3

  1. Čitanje datoteke iz lokalnog sustava:

Ovdje je "sc" kontekst iskre. S obzirom da se "data.txt" nalazi u kućnom imeniku, čita se ovako, a drugi trebate odrediti cijeli put.

  1. Stvorite RDD paralelizacijom

NewData je sada RDD.

  1. Prebrojite stavke u RDD-u

  1. Prikupiti

Ova funkcija vraća sav RDD sadržaj upravljačkom programu. To je korisno kod uklanjanja pogrešaka u raznim koracima programa pisanja.

  1. Pročitajte prve 3 stavke iz RDD-a

  1. Spremite izlazne / obrađene podatke u tekstualnu datoteku

Ovdje je trenutna putanja "output" mape.

Posredničke iskra naredbe

1. Filtrirajte na RDD

Napravimo novi RDD za stavke koje sadrže "da".

Transformacijski filtar treba pozvati na postojeći RDD da bi se filtrirao riječju "da", što će stvoriti novi RDD s novim popisom stavki.

2. lanac rad

Ovdje su transformacija filtra i brojanje djelovanja djelovali zajedno. To se naziva lančana operacija.

3. Pročitajte prvu stavku iz RDD-a

4. Prebrojite RDD particije

Kao što znamo, RDD je izrađen od više particija, javlja se potreba za brojenjem ne. od pregrada. Kao što pomaže u podešavanju i rješavanju problema tijekom rada sa Spark naredbama.

Prema zadanim postavkama minimalni br. pf particija je 2.

5. pridružiti se

Ova funkcija povezuje dvije tablice (element tablice je u parovima) na temelju zajedničkog ključa. U parnom RDD-u, prvi je element ključni, a drugi element vrijednost.

6. Predmemorirajte datoteku

Predavanje je tehnika optimizacije. Keširanje RDD znači da će RDD ostati u memoriji, a sva buduća izračunavanja bit će izvršena na tim RDD-ima u memoriji. To štedi vrijeme za čitanje diska i poboljšava performanse. Ukratko, smanjuje se vrijeme pristupa podacima.

Međutim, podaci se neće predmemorirati ako pokrenete iznad funkcije. To se može dokazati posjetom web stranici:

http: // localhost: 4040 / skladišta

RDD će se spremiti u predmemoriju, nakon što je akcija izvršena. Na primjer:

Još jedna funkcija koja djeluje slično kao cache () je uporno (). Persist pruža korisnicima fleksibilnost u argumentaciji, što može pomoći podacima u predmemoriranju u memoriji, disku ili nepropusnoj memoriji. Ustraje bez ikakvih argumenata djeluje isto kao i cache ().

Napredne naredbe iskre

Pogledajmo neke napredne Spark naredbe koje su dane u nastavku: -

  1. Prijenos varijable

Promjena emitiranja pomaže programeru da čita jedinu varijablu spremljenu u predmemorijsku mrežu na svakom stroju u klasteru, a ne otprema kopiju te varijable sa zadacima. To pomaže u smanjenju troškova komunikacije.

Slika 4

Google slika

Ukratko, postoje tri glavne karakteristike emitirane varijable:

  1. nepromjenljiv
  2. Uklapa se u memoriju
  3. Distribuira se po klasteru

  1. akumulatori

Akumulatori su varijable koje se dodaju povezanim operacijama. Mnogo je koristi za akumulatore poput brojača, zbroja itd.

Ime akumulatora u kodu moglo se vidjeti i u Spark UI.

  1. Karta

Funkcija karte pomaže u iteriranju preko svakog retka u RDD-u. Funkcija koja se koristi u mapi primjenjuje se na svaki element u RDD-u.

Na primjer, u RDD (1, 2, 3, 4, 6) ako primijenimo "rdd.map (x => x + 2)", dobit ćemo rezultat kao (3, 4, 5, 6, 8).

  1. Flatmap

Flatmap djeluje slično kao na mapi, ali karta vraća samo jedan element dok ravna karta može vratiti popis elemenata. Stoga će za podjelu rečenica u riječi trebati jasan prikaz.

  1. srasti

Ova funkcija pomaže u izbjegavanju miješanja podataka. To se primjenjuje u postojećoj particiji tako da se manje podataka izmjenjuje. Na taj način možemo ograničiti upotrebu čvorova u klasteru.

Savjeti i trikovi za korištenje iskrećih naredbi

Ispod su sljedeći savjeti i trikovi Spark naredbi: -

  1. Početnici iskre mogu koristiti Spark-shell. Kako su Spark naredbe izgrađene na Scali, tako je i definitivno korištenje ljuske iskre shell sjajno. Međutim, dostupna je i svjećica python, tako da čak i to što netko može upotrijebiti, koji su dobro poznati s pitonom.
  2. Spark shell ima puno opcija za upravljanje resursima klastera. Ispod vam naredba može pomoći:

  1. U Sparku je rad s dugim skupovima podataka uobičajena stvar. No, stvari idu po zlu kada se uzimaju loši ulozi. Uvijek je dobra ideja ispustiti loše redove pomoću filtrirajuće funkcije Spark. Dobar unos će biti sjajan potez.
  2. Spark za svoje podatke odabire dobru particiju. No, uvijek je dobra praksa da pazite na particije prije nego što započnete svoj posao. Isprobavanje različitih particija pomoći će vam u paralelizmu vašeg posla.

Zaključak - Iskrene naredbe:

Spark naredba je revolucionarni i svestrani mehanizam za velike podatke, koji može raditi za grupnu obradu, real-time obradu, predmemoriranje podataka itd. Spark ima bogat skup strojnih učenja knjižnica koje mogu omogućiti znanstvenicima podataka i analitičkim organizacijama da izrade snažne, interaktivne i brze aplikacije.

Preporučeni članci

Ovo je vodič za Spark naredbe. Ovdje smo razgovarali o osnovnim, kao i naprednim Spark naredbama i nekim neposrednim Spark naredbama. Možete pogledati i sljedeći članak da biste saznali više -

  1. Naredbe Adobe Photoshop
  2. Važne VBA naredbe
  3. Tableau naredbe
  4. SQL šifre (naredbe, besplatni savjeti i trikovi)
  5. Vrste pridruživanja u Spark SQL-u (primjeri)
  6. Komponente iskre | Pregled i prvih 6 komponenti

Kategorija: