Instalirajte Spark - Kompletan vodič za ugradnju iskre

Sadržaj:

Anonim

Kako instalirati Spark?

Spark je okvir otvorenog koda za pokretanje analitičkih aplikacija. To je motor za obradu podataka koji se nalazi kod neovisne dobavljačke softverske fondacije Apache koja radi na velikim skupima podataka ili velikim podacima. To je klasterski računalni sustav opće namjene koji pruža API-je visoke razine u Scala, Python, Java i R. Razvijen je za prevladavanje ograničenja u Hadaopovoj paradigmi MapReduce. Znanstvenici s podacima vjeruju da se Spark izvršava 100 puta brže od MapReducea jer može spremiti podatke u memoriju dok MapReduce više radi čitanjem i pisanjem na diskove. Obavlja obradu u memoriji što ga čini snažnijim i bržim.

Spark nema vlastiti datotečni sustav. Obrađuje podatke iz različitih izvora podataka kao što su Hadoop distribuirani datotečni sustav (HDFS), Amazonov S3 sustav, Apache Cassandra, MongoDB, Alluxio, Apache košnica. Može se pokretati na Hadoop YARN (još jedan pregovarač o resursima), na Mesosu, na EC2, Kubernetesu ili koristeći samostalni način klastera. Koristi RDD (Resilient Distributed Dataset) za delegiranje radnih opterećenja na pojedinačne čvorove koji podržavaju u iterativnim aplikacijama. Zbog RDD-a, programiranje je lako u usporedbi s Hadoop-om.

Iskra se sastoji od različitih komponenti koje se nazivaju Komponente iskre ekosustava.

  • Spark Core: temelj je aplikacije Spark o kojoj izravno ovise ostale komponente. Pruža platformu za širok raspon aplikacija kao što su zakazivanje, distribucija dispečinga zadataka, u obradi memorije i referenci podataka.
  • Streaming Streaming: To je komponenta koja djeluje na live streaming podacima i pruža analitiku u stvarnom vremenu. Podaci uživo se uzimaju u diskretne jedinice koje se nazivaju serije koje se izvode na Spark Core.
  • Spark SQL: To je komponenta koja djeluje na vrhu jezgre Spark za pokretanje SQL upita na strukturiranim ili polustrukturiranim podacima. Data Frame je način za interakciju sa Spark SQL.
  • GraphX: Mehanizam za računanje ili okvir za grafikon omogućava obradu podataka grafikona. Pruža različite algoritme grafikona za pokretanje na Spark.
  • MLlib: Sadrži algoritme strojnog učenja koji pružaju okvir strojnog učenja u distribuciranom okruženju utemeljenom na memoriji. Učinkovito provodi iterativne algoritme zbog mogućnosti obrade podataka u memoriji.
  • SparkR: Spark nudi R paket za pokretanje ili analizu skupova podataka koristeći R shell.

Postoje tri načina za instaliranje ili upotrebu iskra u vaše sustave:

  1. Samostalan način rada u Apache Spark
  2. Hadoop PRIJET / Mesos
  3. SIMR (iskrivanje u MapReduce)

Pogledajmo implementaciju u samostalnom načinu rada.

Iskreni samostalni način raspoređivanja:

Korak 1: Ažurirajte indeks paketa

Ovo je potrebno za ažuriranje svih prisutnih paketa u vašem stroju.

Upotrijebite naredbu : $ sudo apt-get update

2. korak: instalirajte Java Development Kit (JDK)

Ovo će instalirati JDK na vaš stroj i pomoći će vam u pokretanju Java aplikacija.

Korak 3: Provjerite je li se Java pravilno instalirala

Java je preduvjet za korištenje ili pokretanje Apache Spark aplikacija.

Upotrijebi naredbu : $ java –verzija

Ovaj ekran prikazuje verziju jave i osigurava prisutnost jave na stroju.

Korak 4: Instalirajte Scala na svoj stroj

Kako je varnica napisana skalom, tako se skala mora instalirati na stroj.

Upotrijebite naredbu: $ sudo apt-get install scala

Korak 5: Provjerite je li Scala pravilno instalirana

To će osigurati uspješnu instalaciju ljestvice na vaš sustav.

Koristite naredbu : $ scala -verzija

Korak 6: Preuzmite Apache iskru

Preuzmite Apache Spark prema vašoj verziji Hadoop sa https://spark.apache.org/downloads.html

Kada pređete na gornju vezu, pojavit će se prozor.

Korak 7: Odaberite odgovarajuću verziju prema Hadoop verziji i kliknite na označenu vezu.

Pojavio bi se još jedan prozor.

8. korak: Kliknite na označenu vezu i u vaš sustav će se preuzeti Apache iskra.

Provjerite je li .tar.gz datoteka dostupna u mapi za preuzimanje.

9. korak: instalirajte Apache Spark

Za instalaciju iskre potrebno je izdvojiti katransku datoteku.

Upotrijebite naredbu: $ tar xvf iskre- 2.4.0-bin-hadoop2.7.tgz

Morate promijeniti verziju navedenu u naredbi u skladu s preuzetom verzijom. U ovome smo preuzeli verziju spark-2.4.0-bin-hadoop2.7.

Korak 10: Postavka varijable okoline za Apache Spark

Upotrijebite naredbu: $ source ~ / .bashrc

Dodajte liniju : export PATH = $ PATH: / usr / local / spark / bin

11. korak: Provjerite instalaciju Apache Spark

Upotrijebite naredbu : $ spark-shell

Ako je instalacija bila uspješna, proizvest će se sljedeći izlaz.

Ovo znači uspješnu instalaciju Apache Spark-a na vaš stroj i Apache Spark će se pokrenuti u Scali.

Ugradnja iskre u Hadoop PRIJAVA:

Postoje dva načina za implementaciju Apache Spark na Hadoop PRED.

  1. Način klastera: U ovom načinu rada YARN na klasteru upravlja upravljačkim programom Spark koji se pokreće unutar glavnog procesa aplikacije. Nakon pokretanja aplikacije klijent može ići.
  2. Klijentov način: U ovom načinu master se od resursa traži od YARN, a upravljački program iskre se pokreće u klijentu.

Da biste primijenili aplikaciju Spark u načinu klastera, koristite naredbu:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Gornja naredba će pokrenuti program YARN klijenta koji će pokrenuti zadani Master programa.

Da biste instalirali aplikaciju Spark u klijentski način rada, koristite naredbu:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Pomoću naredbe možete pokrenuti ljusku iskre u klijentskom režimu:

$ spark-shell –master yarn –deploy-mode client

Savjeti za uporabu iskre za instaliranje:

  1. Prije instaliranja iskre provjerite je li na uređaj instaliran Java.
  2. Ako koristite jezik skale, prije upotrebe Apache Spark provjerite je li skala već instalirana.
  3. Python možete koristiti i umjesto Scale za programiranje u Spark-u, ali on mora biti unaprijed instaliran poput Scala.
  4. Apache Spark možete pokrenuti i u sustavu Windows, ali preporučuje se kreiranje virtualnog stroja i instaliranje Ubuntua pomoću Oracle Virtual Box ili VMWare Player .
  5. Spark se može pokrenuti bez Hadoopa (tj. Samostalnog načina rada), ali ako je potrebno postavljanje više čvorova, tada su potrebni upravitelji resursa poput YARN ili Mesos.
  6. Za vrijeme korištenja YARN nije potrebno instalirati Spark na sva tri čvora. Apache Spark morate instalirati samo na jedan čvor.
  7. Dok koristite YARN ako ste u istoj lokalnoj mreži s klasterom, tada možete koristiti klijentski način rada, dok ako ste daleko, tada možete koristiti način klastera.

Preporučeni članci - Instalacija iskre

Ovo je vodič za upute o tome kako instalirati Spark. Ovdje smo vidjeli kako implementirati Apache Spark u samostalnom načinu rada i na vrhu upravitelja resursa YARN, a također se spominju neki savjeti i trikovi za glatku instalaciju Sparka. Možete pogledati i sljedeći članak da biste saznali više -

  1. Kako se koriste Spark naredbe
  2. Karijera u Sparku - morate pokušati
  3. Razlike Splunk-a i Spark-a
  4. Spark Intervju Pitanja i odgovori
  5. Prednosti iskrećeg strujanja
  6. Vrste pridruživanja u Spark SQL-u (primjeri)