Spark Intervju Pitanja - Top 12 pitanja ažurirano za 2018. godinu

Sadržaj:

Anonim

Uvod u iskrena pitanja i odgovore za intervju

Apache Spark je okvir otvorenog koda. Spark, budući da je platforma otvorenog koda, možemo koristiti više programskih jezika kao što su java, python, Scala, R. U usporedbi s performansama procesa Map-Reduce, iskra pomaže u poboljšanju performansi izvršenja. Također omogućuje 100 puta brže izvršavanje u memoriji od Map-Reduce. Zbog snage prerade iskre danas industrija najviše voli iskra.

Dakle, konačno ste pronašli posao iz snova u Sparku, ali se pitate kako razbiti Spark Intervju i koji bi mogli biti vjerojatni Spark Intervju Pitanja za 2018. Svaki je intervju različit, a i opseg posla je različit. Imajući to u vidu, osmislili smo najčešća pitanja i odgovore sa iskrenim intervjuima za 2018. godinu koji će vam pomoći da postignete uspjeh u svom intervjuu.

Ova su pitanja podijeljena u dva dijela

Dio 1 - Spark Intervju Pitanja (osnovna)

Ovaj prvi dio pokriva osnovna pitanja i odgovore u Spark-u

1. Što je iskre?

Odgovor:
Apache Spark je okvir otvorenog koda. Poboljšava izvedbu od procesa smanjivanja karata. Otvorena je platforma na kojoj možemo koristiti više programskih jezika kao što su Java, Python, Scala, R. Spark omogućuje izvršavanje u memoriji koja je 100 puta brža od smanjivanja karata. Koristi se koncept RDD. RDD je elastični raspoređeni skup podataka koji mu omogućuje transparentno pohranjivanje podataka u memoriju i zadržavanje na disku samo ako je to potrebno. Ovo će smanjiti vrijeme pristupa podacima iz memorije umjesto diska. Danas industrija preferira Spark zbog njegove moć prerade.

2. Razlika između Hadoopa i Iskra?

Odgovor:

Kriteriji značajkiApache SparkHadoop
Ubrzati10 do 100 puta brži od HadoopaNormalna brzina
ObradaReal-time & Batch obrada, memorija, predmemoriranjePaketna obrada samo, ovisi o disku
teškoćaJednostavno zbog modula visoke razineTeško učiti
OporavakOmogućuje oporavak particija pomoću RDD-aFault-tolerant
interaktivnostIma interaktivne, interaktivne načineNema interaktivnog načina osim Pig & košnica, Nema iterativnog načina

Normalna Hadoop arhitektura slijedi osnovnu redukciju mapa, za isti proces iskra omogućuje izvođenje u memoriji. Umjesto čitanja i pisanja s tvrdog diska za Map-Reduce, iskra osigurajte čitanje i pisanje iz virtualne memorije.

Prijeđite na sljedeća Spark Intervju Pitanja

3. Koje su značajke iskre?

Odgovor:

  1. Omogućite integraciju s Hadoop-om i datotekama na HDFS-u. Iskrivanje se može pokrenuti na vrhu Hadoopa koristeći YARN grupiranje resursa. Spark ima kapacitet zamjene Hadoopovog motora za smanjenje karte.
  2. Poliglot: Iskri Osigurajte API visoke razine za Java, Python, Scala i R. Spark Code može se pisati na bilo kojem od ova četiri jezika. IT pruža neovisnu školjku za skaliranje (jezik na kojem je ispisano Spark) i tumač za piton. Koji će vam pomoći u interakciji sa svjećicama? Lupini Scala može se pristupiti kroz ./bin/spark-shell i Python školjku kroz ./bin/pyspark iz instaliranog direktorija.
  3. Brzina: Sparkin motor 100 puta je brži od Hadoop Map-Reduce za veliku obradu podataka. Brzina će se postići particioniranjem za paralelizaciju distribuirane obrade podataka s minimalnim mrežnim prometom. Spark pružiti RDD (Resilient Distributed skupove podataka), koji se mogu spremiti u računalne čvorove u klasteru
  4. Višestruki formati: Spark ima API izvora podataka. Pružit će mehanizam za pristup strukturiranim podacima putem iskre SQL-a. Izvori podataka mogu biti bilo što, Spark će samo stvoriti mehanizam za pretvaranje podataka i povlačenje iskra. Spark podržava više izvora podataka poput košnice, HBase, Cassandra, JSON, Parquet, ORC.
  5. Spark nudi nekoliko ugrađenih biblioteka za izvođenje više zadataka iz iste jezgre, kao što su skupna obrada, pare, strojno učenje, interaktivni SQL upiti. Međutim, Hadoop podržava samo serijsku obradu. Spark pružiti MLIb (knjižnice strojnog učenja) što će biti korisno za programere Big-Data za obradu podataka. Ovo pomaže ukloniti ovisnosti o više alata u različite svrhe. Spark pruža zajedničku snažnu platformu inženjerima podataka i podatkovnim znanstvenicima uz brze performanse i jednostavno korištenje.
  6. Apache Spark odgađa izvršenje postupka dok akcija nije potrebna. Ovo je jedna od ključnih karakteristika iskre. Spark će dodati svaku transformaciju u DAG (Direct Acyclic Graph) za izvršenje, a kad se akcija želi izvršiti, zapravo će pokrenuti DAG za obradu.
  7. Streaming u stvarnom vremenu: Apache Spark Omogućuje računanje u stvarnom vremenu i malu latenciju, zbog izvođenja u memoriji. Spark je dizajniran za velike skalabilnosti poput tisuću čvorova klastera i nekoliko modela za računanje.

4. Što je PRIJAVA?

Odgovor:
Ovo je osnovno Spark Interview Pitanja postavljeno u jednom intervjuu. PRIJETLO (još jedan pregovarač o resursima) upravitelj je resursa. Spark je platforma koja omogućuje brzo izvršenje. Spark će YARN koristiti za izvršavanje zadatka klasteru, a ne svom ugrađenom upravitelju. Postoje neke konfiguracije za pokretanje pređe. Uključuju glavni, način rada, memoriju vozača, memoriju izvršitelja, jezgre izvršitelja i red čekanja. Ovo su najčešća pitanja za intervju sa iskrom koja su postavljena u intervjuu ispod: prednosti iskre:

Prednosti iskre za smanjivanje karata

Spark ima prednosti u odnosu na Smanjivanje karata kako slijedi: -
Zbog sposobnosti procesa memorije, Spark je mogao izvršiti 10 do 100 puta brže od smanjivanja karata. Gdje se smanjivanje karte može koristiti za postojanost podataka u fazi Karte i smanji.

Apache Spark pruža visoku razinu ugrađenih knjižnica za obradu više zadataka istovremeno s grupnom obradom, streamingom u stvarnom vremenu, Spark-SQL, Structured Streaming, MLib itd. Isto vrijeme Hadoop pruža samo batch obradu.
Proces Hadoop Map-Reduce ovisit će o disku, gdje Spark osigurava Caching i In-Memory.

Spark ima i iterativno, izvodi računanje višestruko na istom skupu podataka i interaktivno, izvršava računanje između različitih skupova podataka u kojima Hadoop ne podržava iterativno računanje.

5. Koji jezik podržava Spark?

Odgovor:
Iskri podrška skala, Python, R i Java. Na tržištu, programeri velikih podataka uglavnom preferiraju skala i python. Da bi mjerilo za sastavljanje koda trebalo, postavi Path of scale / bin direktorij ili napravimo jar datoteku.

6. Što je RDD?

Odgovor:
RDD je apstrakcija otpornog distribuiranog skupa podataka koji pruža skup elemenata razdijeljenih na sve čvorove klastera koji će pomoći u izvršavanju više procesa paralelno. Korištenje razvojnog programera može pohraniti podatke u memoriju ili predmemoriranje kako bi se učinkovito ponovno koristilo za paralelno izvršavanje operacija. RDD se lako može oporaviti od kvara čvora.

Dio 2 - Spark Intervju Pitanja (napredno)

Pogledajmo sada napredna Spark Intervju Pitanja.

7. Koji su faktori odgovorni za izvršenje iskre?

Odgovor:
1. Spark nudi izvršenje u memoriji umjesto diska koji ovisi o Hadoop Map-Reduce.
2.RDD Resilient Distributed skup podataka, koji je odgovorno paralelno izvršavanje više operacija na svim čvorovima klastera.
3. Spark nudi zajedničku varijablu značajku za paralelno izvršavanje. Te varijable pomažu u smanjenju prijenosa podataka između čvorova i dijele kopiju svih čvorova. Postoje dvije varijable.
4.Broadcast varijabla: Ova se varijabla može koristiti za spremanje vrijednosti u memoriji na svim čvorovima
5. Varijabla akumulatora: Ova se varijabla samo "dodaje", kao što su brojači i zbrojevi.

8. Što je memorija izvršitelja?

Odgovor:
Ovo su često postavljana iskreća pitanja u intervjuu. Veličine gomile dodijeljene su izvršitelju iskri. Ovim entitetom može se upravljati pomoću iskre.executor.memory svojstva -executor-memory memory. Svaka Spark aplikacija ima po jednog izvršitelja za svaki radnički čvor. Ovo svojstvo odnosi se na to koliko će memorije radnih čvorova biti dodijeljeno aplikaciji.

9. Kako se koristi Spark Stream? Objasnite jedan slučaj upotrebe?

Odgovor:
Spark Stream jedna je od značajki koja je korisna za slučaj stvarne uporabe. U tu svrhu možemo koristiti flume, Kafka s iskrom. Flume će aktivirati podatke iz izvora. Kafka će zadržati podatke u Topic. Iz Kafka Spark će podatke izvući pomoću struje i ona će D-stream podatke i izvršiti transformaciju.

Taj postupak možemo koristiti za sumnjivu transakciju u stvarnom vremenu, ponude u stvarnom vremenu itd.

Prijeđite na sljedeća Spark Intervju Pitanja

10. Možemo li koristiti Iskri za ETL postupak?

Odgovor:
Da, možemo koristiti platformu iskre za ETL postupak.

11. Što je Spark SQL?

Odgovor:
To je jedna posebna komponenta iskre koja će podržati SQL upite.

12. Što lijena procjena?

Odgovor:
Kad radimo sa iskrom, Transformacije se ne vrednuju dok ne izvršite neku radnju. To pomaže u optimizaciji cjelokupnog tijeka obrade podataka. Kada definira transformaciju, ona će se dodati u DAG (Direct Acyclic Graph). A u vrijeme akcije počet će provoditi postupne transformacije. Ovo je korisno Spark Intervju Pitanje postavljeno u intervjuu.

Preporučeni članak

Ovo je vodič za Popis pitanja i odgovora za iskreni intervju kako bi kandidat mogao lako razbiti ova iskrena pitanja za intervju. Možete pogledati i sljedeće članke da biste saznali više -

  1. Java vs Node JS pojednostavljuje razlike
  2. Mongo pitanja za intervju s bazom podataka Mongo | Korisno i najtraženije
  3. 15 najuspješnijih R Intervju pitanja i odgovori
  4. Perl pitanja i odgovori za intervju
  5. Pitanja o intervjuu za sustav SAS - Top 10 korisnih pitanja