Uvod u pitanja i odgovore na inženjere za obradu podataka

Inženjering podataka je pojam kojeg su svi svjesni i prilično je popularan na području Big Data. Inženjering podataka odnosi se na infrastrukturu podataka ili arhitekturu podataka. Sirovi podaci generirani iz različitih izvora kao što su društveni mediji, mobilni telefoni, www (internet) moraju se transformirati, očistiti, profilirati i objediniti za poslovne potrebe. Ovi neobrađeni podaci nazivaju se i Dark Data. Praksa dizajniranja, arhitekture i primjene sustava za obradu podataka pomaže u pretvaranju podataka u odgovarajući podatak ili skup podataka, a takvi podaci ili skupovi podataka nazivaju se Data Engineering.

Slijedi popis najpopularnijih pitanja i odgovora na Intervju za inženjere za 2019. godinu:

Ako tražite posao koji je povezan s Data Engineer-om, trebate se pripremiti za pitanja o razgovoru za inženjere podataka za 2019. godinu. Iako su sva pitanja o intervjuu s podacima o inženjeru različita, a također je i opseg posla različit, možemo vam pomoći s vrhunskim pitanjima za razgovor s inženjerom podataka s odgovorima, koji će vam pomoći da skočite i postignete uspjeh u svom Intervjuu s inženjerom podataka.

1. Što je inženjering podataka?

Odgovor:
Inženjering podataka je pojam koji je prilično popularan u području velikih podataka i uglavnom se odnosi na infrastrukturu podataka ili arhitekturu podataka.
Podaci koje generiraju mnogi izvori poput društvenih medija, mobilnih telefona, www (interneta) neobrađeni su podaci. Treba ga transformirati, očistiti, profilirati i objediniti za poslovne potrebe. Te sirove podatke možemo nazvati Dark Data, na kojima ćemo upaliti svjetlo da bi bili korisni ovi Dark Data. Praksa dizajniranja, arhitekture i primjene sustava za obradu podataka koji će pomoći pretvaranju podataka u korisne informacije naziva se Data Engineering.

2. Objasnite svakodnevni rad inženjera podataka?

Odgovor:
Dnevni posao inženjera podataka sastoji se od:
a. upravljanje podacima u organizaciji
b. rukovanje i održavanje izvornih sustava podataka i područja postupanja
c. radi ETL ili ELT i transformacija podataka
d. pojednostavljuju čišćenje i poboljšanje dupliciranja i izgradnje podataka
e. izrada ad-hoc podataka i prikupljanje upita
Pogledajte donju vizualizaciju koja informira o stvarima na kojima radi inženjer podataka: -

3. Imate li iskustva s modeliranjem podataka?

Odgovor:
Može se reći da je radio na projektu za klijenta iz financija / zdravstvenog osiguranja gdje su koristili ETL alate kao što su Informatica / Talend / Pentaho itd. Za transformiranje i obradu podataka preuzetih iz MySQL / RDS / SQL baze podataka i poslali ih proslijedite ove podatke dobavljačima koji mogu pomoći u povećanju njihovih prihoda. Može se prikazati ispod arhitekture podatkovnog modela visoke razine. Sastoji se od primarnog ključa, cjeline, atributa, odnosa, ograničenja itd.

4. Koje su različite vrste dizajnerskih shema u modeliranju podataka? Objasnite primjerom?

Odgovor:
Postoje dvije vrste shema u modeliranju podataka:
a. Zvjezdana shema
Ova shema je podijeljena na dva: jedna je tablica činjenica, a druga je tablica dimenzija gdje su sve tablice dimenzija povezane u tablicu činjenica. Strani ključ u stvari odnosi se na primarne ključeve koji se nalaze u dimenzijskim tablicama. Pogledajte dolje arhitekturu zvjezdanog shema:

b. Shema snježnih pahuljica
U ovoj se shemi povećava razina normalizacije, ovdje će tablica činjenica ostati ista kao u shemi zvijezda, ovdje su tablice dimenzija normalizirane. Zbog mnogih slojeva tablica dimenzija, izgleda kao pahuljica, što je naziv sheme snježne pahulje. Pogledajte dolje arhitekturu: -

5. Koji ETL alat koristite i kako se to najbolje uspoređuje s drugima?

Odgovor:
Može se reći da je on / ona koristio Informaticu kao ETL alat zbog mnogih točaka, prvo i najvažnije je to što se po Gartner Magic Quadrant-u za alate za integraciju podataka Informatica pozicionira kao lider već desetu godinu zaredom. Jednostavan je za korištenje i učenje te ima mogućnosti povezivanja s različitim nizom izvornih podataka i vrsta podataka, komponentama za ponovno korištenje i značajkama koje ga čine najdražim za ETL programere. Također ima svoj vlastiti planer koji je još jedna prednost, gdje ostali ETL alati moraju koristiti vanjski planer kako bi zakazali zadatke.

6. Koje bi tehnologije / programski jezik trebao imati / Naučite biti podatkovni inženjer?

Odgovor:
Matematika (linearna algebra i vjerojatnost)
Statistika (zbirna statistika)
Tehnike strojnog učenja
R i SAS jezici
SQL baze podataka, Hive QL
Python (uglavnom se koristi)
Pored njih, treba imati i znanje o rješavanju problema, analitičko i arhitektonsko znanje baze podataka.

7. Koji su uobičajeni problemi s kojima se suočavaju inženjeri podataka?

Odgovor:
1. Integracija u stvarnom vremenu / Kontinuirana integracija
2. Pohranjivanje ogromne količine podataka je jedno pitanje, a podaci iz tih podataka su drugi.
3. Koji se alati mogu koristiti koji će dati najbolje performanse, pohranu, učinkovitost i rezultate.
4. Ima li ljestvica za pohranu? Pretpostavimo kako znati da će obrada cijelog skupa podataka potrajati?
5. S obzirom na konfiguraciju procesora i RAM-a
6. Kako se nositi s kvarovima, postoji li tolerancija grešaka ili ne?

8. Po čemu se Data Architect razlikuje od Inženjera podataka?

Odgovor:
Arhitekt podataka je osoba koja upravlja podacima, osobito kad se bavimo različitim brojem različitih izvora podataka. Trebalo bi imati detaljno znanje o načinu na koji baza podataka radi, kako se podaci odnose na poslovne probleme i kako će promjene ometati upotrebu podataka organizacije, a zatim će arhitekt podataka manipulirati / transformirati arhitekturu podataka u skladu s njima.
Glavna odgovornost Data Architect-a je rad na skladištenju podataka, razvoju arhitekture podataka ili poduzeća / skladišta podataka poduzeća.
Dok Data Dataer pomaže u instaliranju rješenja za skladištenje podataka, modeliranju podataka, razvoju i testiranju arhitekture baza podataka.

9. Opišite vrijeme u kojem ste pronašli novi slučaj upotrebe postojeće baze podataka koji je pozitivno utjecao na posao?

Odgovor:
Dok u eri velikih podataka SQL neće imati sljedeće značajke:
a. RDBMS su DB orijentirani na shemu pa je bolje za strukturirane podatke, a ne za polustrukturirane ili nestrukturirane podatke.
b. Nije u mogućnosti obraditi nepredvidive i nestrukturirane podatke.
c. To nije horizontalno skalabilno, tj. Paralelno izvršavanje i pohranjivanje nije moguće u SQL.
d. Trpi problem s performansama nakon što se povećava broj korisnika.
e. Uglavnom se koristi za internetsku obradu transakcija.

Da bismo prevladali ove nedostatke, možemo koristiti NoSQL DB tj. Ne samo SQL.
Dakle, u projektu se mogu koristiti različite vrste NoSQL DB-a kao što su Cassandra, Mongo DB, Graph DB, HBase itd.

10. Imate li iskustva u radu u okruženju računalstva u oblaku? Koje prednosti vidite u radu na jednom?

Odgovor:
Može se reći da je okruženje Cloud Computing spremno premjestiti okruženje za proizvodnju, razvoj i testiranje bez razmišljanja o integriranju mnogih instrumenata / Linux / Windows poslužitelja zajedno. Na tržištu postoje različite usluge računalstva u oblaku poput AWS (Amazon web usluge), Azure (Microsoft), GCP (Google Cloud Platform). Usluga računalstva u oblaku nudi dolje značajke poput fleksibilnosti, tj. Okruženje će se povećavati prema zahtjevima, oporavak od katastrofe uzimanjem sigurnosnih kopija i snimaka, radom s bilo kojeg mjesta s VPN-om, sigurnim okruženjem i okolišem pogodnim za rad na robnom hardveru, tj. Računalima opće namjene koji su niske cijene.

Zaključak

U gornjem smo blogu zadržali najčešća pitanja o intervjuima na Data Engineer-u i kako na to možete odgovoriti davanjem bodova.

Preporučeni članak:

Ovo je sveobuhvatan vodič za pitanja i odgovore o inženjeru podataka, kako bi kandidat mogao lako razbiti ova pitanja u vezi s inženjerom podataka. Ovaj se članak sastoji od svih glavnih pitanja i odgovora za intervju s inženjerom podataka. Možete pogledati i sljedeće članke da biste saznali više -

  1. Najvažniji Azure Paas vs Iaas
  2. Big Data pitanja za intervju
  3. 5 najvažnijih pitanja o intervjuu s elastičnom pretragom
  4. PIG Intervju Pitanja i odgovori
  5. Top 5 najvrednijih pitanja o intervjuu za znanost o podacima

Kategorija: