Uvod u Sqoop Intervju pitanja i odgovore

Sqoop je alat za prijenos podataka s otvorenim kodom, Sqoop alat prenosi podatke između Hadoop ekosustava i poslužitelja relacijskih baza podataka (RDBMS). Uvozi podatke u datotečni sustav Hadoop (HDFS), iz relacijskih baza podataka, kao što su Oracle, MySQL itd., Također izvozi podatke iz Hadoop datotečnog sustava u RDMS.

Slijedi 15 važnih pitanja i odgovora za Sqoop za 2019. godinu:

Dakle, konačno ste našli posao iz snova u Sqoopu, ali pitate se kako provaliti intervju sa Sqoopom i što bi moglo biti vjerojatno Sqoop pitanja za intervju 2019. godine. Svaki je intervju različit, a i opseg posla je različit. Imajući to u vidu, osmislili smo najčešća pitanja i odgovore u Sqoopu kako bismo vam pomogli da postignete uspjeh u svom intervjuu.

Ova su pitanja podijeljena u dva dijela:

Dio 1 - Sqoop pitanja za razgovor (osnovna)

Ovaj prvi dio pokriva osnovna pitanja i odgovore u Sqoopu.

1. Definirajte Sqoop i zašto koristimo Sqoop?

Odgovor:
Sqoop je alat za prijenos podataka s otvorenim kodom koji je dizajniran za prijenos podataka između Hadoop ekosustava i poslužitelja relacijskih baza podataka (RDBMS). Sqoop se koristi za uvoz podataka iz relacijskih baza podataka poput Oracle, MySQL itd. U datotečni sustav Hadoop (HDFS), a također za izvoz podataka iz datotečnog sustava Hadoop u relacijske baze podataka.

2. Koje su različite značajke Sqoopa?

Odgovor:
Ispod su različite značajke koje podržava Sqoop -

  1. Kapacitet opterećenja
  2. Potpuno učitavanje i postupno učitavanje
  3. Tehnike kompresije podataka
  4. Uvoz rezultata SQL upita
  5. Podatkovni konektori za sve glavne baze podataka
  6. Podrška za izravno izlaganje podataka u datotečne sustave Hadoop
  7. Sigurnosne konfiguracije poput Kerberosa
  8. Funkcije istodobnog uvoza ili izvoza

Krenimo na sljedeće Sqoop pitanja za intervju.

3. Navedite relacijske baze podataka i izvore Hadoop eko-sustava koji se podržavaju u Sqoopu?

Odgovor:
Sqoop trenutno podržava MySQL, PostgreSQL, Oracle, MSSQL, Teradata i IBM-ov Netezza kao dio relacijskih baza podataka.

Trenutačno podržane destinacije Hadoop Eco-sustava su HDFC, Hive, HBase, H Katalog i Accumulo.

Sqoop koristi MySQL kao zadanu bazu podataka.

4. Kako djeluje Sqoop?

Odgovor:
Ovo su uobičajena pitanja Sqoop Intervju koja su postavljena u intervjuu. Za izvršavanje prijenosa podataka, Sqoop koristi naredbe za izvoz i uvoz. Program Reduciranje karte upotrijebit će se interno u Sqoopu za spremanje skupa podataka u HDFS. Naredbe će biti povezane s zadacima karte za preuzimanje podataka iz relacijskih baza podataka; Zadatak smanjenja preuzet će odgovornost za stavljanje dohvaćenih podataka u odredišta (HDFS / HBase / košnica)

Sqoop također koristi razne API konektore za povezivanje s nekoliko baza podataka. Sqoop također pruža mogućnost izrade prilagođenih konektora za ispunjavanje specifičnih zahtjeva.

Pogledajmo primjere naredbi za uvoz i izvoz u nastavku

Naredba za povezivanje s MySQL bazom podataka za uvoz podataka iz tablice 'Dnevnik'

sqoop uvoz –povezuj jdbc: mysql: // localhost / –korisničko ime –polovna riječ –milja –m 1
sqoop uvoz –povezivanje jdbc: mysql: // localhost / mytestdb –korijenje imena_korisnik-lozinka admin123 –dnevni zapis –m 1

Naredba za izvoz podataka s HDFS-a u relacijsku bazu podataka

sqoop izvoz –povezite jdbc: mysql: // localhost / sqoop_export –table export-dir / sqoop / emp_last / part-m-00000 –update id ključa
sqoop izvoz –povezite jdbc: mysql: // localhost / sqoop_export –table log_table – export-dir / sqoop / data / foler1 / part-m-00000

5. Što je Sqoop Metastore? Objasni to?

Odgovor:
Sqoop Metastore je alat dostupan u Sqoop-u koji će se koristiti za konfiguriranje Sqoop aplikacije kako bi se omogućilo hosting zajedničkog spremišta u obliku metapodataka. Ova Metastore može se koristiti za izvršavanje poslova i upravljanje brojem korisnika na temelju uloga i aktivnosti korisnika. Svi višestruki korisnici mogu istovremeno obavljati više zadataka ili operacija kako bi učinkovito izvršili zadatke. Sqoop Metastore će se zadano provesti kao unutarnja memorija. Kada se posao stvori unutar Sqoopa, definicija zadatka pohranjuje se u Metastore i popisuje se koristeći Sqoop zadatke ako je potrebno.

6. Koje formate datoteka podržava Sqoop tijekom uvoza podataka?

Odgovor:
Sqoop koristi dva formata datoteka za uvoz podataka. Oni su: - Razgraničeni format testne datoteke i slijedni format datoteke.

Razgraničeni tekst tekstualnog formata : Razgraničeni tekst teksta je zadani format datoteke za uvoz. Još uvijek možemo eksplicitno odrediti koristeći argument –astekstil. Isto tako prolaskom argumenta postavit ćete znakove razgraničenja između redaka i stupaca.

Format datoteke slijeda : Ovaj format datoteke možemo reći da je format binarne datoteke. Ova vrsta zapisa datoteka formata pohranjuje se u specifične vrste podataka prilagođenih zapisa koje su izložene kao Java klase.

Krenimo na sljedeće Sqoop pitanja za intervju.

7. Možemo li kontrolirati određeni broj mapira u sqoopu? Ako da, kako?

Odgovor:
Da, možemo kontrolirati broj mapiranja u Sqoopu tako što ćemo odrediti parametar "-num-mappers" u naredbi sqoop. Ovaj parametar može kontrolirati broj zadataka na karti, to je samo stupanj paralelizma, koji će koristiti sqoop. Broj će se odlučivati ​​na temelju zahtjeva.

Sintaksa: Upotrijebite ove zastave za kontrolu broja mappersa: m, -num- mappers

Dio 2 - Sqoop pitanja za intervjue (napredno)

Pogledajmo sada napredna Sqoop pitanja za intervju.

8. Što je Sqoop-spajanje i objasnite njegovu uporabu?

Odgovor:
Sqoop spajanje je alat koji kombinira dvije različite skupove podataka koji održavaju jedinu verziju prepisujući unose u starijoj verziji skupa podataka s novim datotekama kako bi bio najnoviji skup podataka verzija. Događa se postupak spljoštenja tijekom spajanja dviju različitih skupova podataka što podatke čuva bez ikakvih gubitaka i uz učinkovitost i sigurnost. Za izvršavanje ove operacije naredba ključa spajanja upotrijebit će se naredba "-Majd tipka"

9. Koje su razlike između Sqoopa, flumea i distcp-a?

Odgovor:
Za prijenos podataka koriste se Distcp i Sqoop. Sqoop se koristi za prijenos bilo koje vrste podataka s jednog Hadoop clustera na drugi cluster, dok Sqoop prenosi podatke između relacijskih baza podataka i Hadoop ekosustava poput Hive, HDFS i HBase, itd. Ali obje metode koriste isti pristup za kopiranje podataka, što je povlačenje / prijenos.

Flume je distribuirao alat, koji slijedi arhitekturu koja se temelji na agentima, za strujanje trupca u Hadoop ekosustav. Dok je Sqoop arhitektura koja se temelji na konektorima.

Flume prikuplja i objedinjuje ogromne količine podataka dnevnika. Flume može prikupljati podatke iz različitih vrsta resursa; ne razmatra shemu ili strukturirane / nestrukturirane podatke. Flume može povući bilo koju vrstu podataka. Dok Sqoop može uvesti samo podatke relacijske baze podataka, pa je za sqoop obrada shema obavezna. Općenito, za kretanje velikih opterećenja, valjak je najbolja opcija.

Krenimo na sljedeće Sqoop pitanja za intervju.

10. Koje izvore podataka podržava Apache Sqoop?

Odgovor:
Različiti izvori podataka iz različitih aplikacija koje podržava Apache Sqoop su dolje navedeni:

  1. Košnica
  2. HBase
  3. Hadoop distribuirani datotečni sustav (HDFS)
  4. HCatalog
  5. Accumulo

11. Koje su najčešće korištene naredbe / funkcije u Sqoopu?

Odgovor:

Ovo su napredna Sqoop Intervjuska pitanja postavljena u intervjuu. Popis osnovnih naredbi koje se koriste u Sqoopu su sljedeće:

Codegen -Codegen koristi se za generiranje koda za komunikaciju s zapisima baze podataka.

Eval -Sqoop Eval pomaže u pokretanju oglednih SQL upita prema bazama podataka i pruža rezultate na konzoli.

Pomoć - Popis popisa dostupnih naredbi

Uvoz -Uvoz će tablicu uvesti u Hadoop ekosustav

Izvoz -Eksport koristi se za izvoz HDFS podataka u relacijske baze podataka.

Create-hive-table -Ova naredba je korisna za uvoz definicije tablice u košnicu

Uvezi sve tablice - Uvezi sve tablice će uvesti tablice u obliku relacijskih baza podataka u HDFS.

List-baze podataka - Popisat će sve baze podataka prisutne na poslužitelju.

List-tablice - Popisat će sve tablice u bazi podataka.

Verzije -To prikazat će informacije o verziji.

Funkcije- paralelni uvoz / izvoz, potpuno opterećenje, inkrementirano opterećenje, potpuno opterećenje, usporedba, konektori za RDBMS baze podataka, Kerberos sigurnosna integracija, učitavanje podataka izravno u HDFS (košnica / HBase)

12. Objasnite najbolje prakse tijekom uvoza tablica iz MySQL-a ili bilo koje druge baze podataka koristeći Sqoop?

Odgovor:
Pri uvozu tablica s MySQL-a trebali bismo se pobrinuti za nekoliko stvari poput provjere autentičnosti i autorizacije na ciljni poslužitelj i baze podataka. Moramo se pobrinuti da smo dodijelili potrebne privilegije u bazama podataka, kojima treba pristupiti, a također provjerite i razlučivost imena hosta kad se povežemo s izvornim i odredišnim imenima hosta. Ako nemamo potrebno dopuštenje, dobit ćemo iznimku neuspjeha veze prilikom povezivanja s bazom podataka.

13. Kako ažurirate već izvezene podatke ili retke?

Odgovor:
Za ažuriranje redaka, koji su već izvezeni na odredište, možemo koristiti parametar „ažuriraj-ključ“. U ovom je popisu stupaca odvojenih zarezom koji jedinstveno identificira red i svi su ti stupci korišteni u rečenici WHERE generiranog UPDATE upita. SET dio upita brinuti će se za sve ostale stupce tablice.

Krenimo na sljedeće Sqoop pitanja za intervju.

14. Kako konfigurirati i instalirati upravljački program JDBC u Apache Sqoop?

Odgovor:
JDB upravljački programi u Apache Sqoopu mogu se konfigurirati na temelju Hadoop-ovog davatelja usluga kao što su Cloudera ili Hortonworks, pri čemu njegova konfiguracija malo varira na temelju Hadoop-ovog davatelja usluga. JDBC u Clouderi može se konfigurirati kao stvaranje mape knjižnice poput / var / lib /. To se može učiniti za bilo koju biblioteku treće strane koja mora biti konfigurirana prema zahtjevu. Na taj se način svaka vrsta baze podataka može konfigurirati pomoću njenog upravljačkog programa JDBC. Osim upravljačkog programa JDBC, Apache Sqoop zahtijeva priključak za uspostavljanje veze između različitih relacijskih baza podataka. Glavne komponente potrebne za uspostavljanje veze s bazama podataka su putem upravljačkog programa i konektora određenog davatelja baze podataka.

15. Što je klauzula split-by i kada je koristimo?

Odgovor:
Parametar razdvajanja je za rezanje podataka za uvoz u više paralelnih zadataka. Pomoću ovog parametra možemo odrediti imena stupca, to su nazivi stupaca na osnovu kojih će sqoop dijeliti podatke koje treba uvesti u više komada i oni će se pokrenuti paralelno. To je jedna od tehnika za podešavanje performansi u Sqoopu.

Preporučeni članci

Ovo je vodič za Popis pitanja i odgovora za Sqoop intervjue kako bi kandidat mogao lako razbiti ova Sqoop pitanja za intervju. Možete pogledati i sljedeće članke da biste saznali više -

  1. Hadoop vs Teradata - Što je korisno
  2. 13 zadivljujuća pitanja za ispitivanje baze podataka s intervjuima
  3. 10 najboljih pitanja o intervjuu s HBase-om
  4. 10 najčudnijih PHP intervjua za iskusne osobe
  5. Upoznajte prvih 5 korisnih pitanja o DBA intervjuu

Kategorija: