10 osnovnih pitanja o intervjuu sa osnovnim podacima (Ažurirano za 2019.)

Sadržaj:

Anonim

Uvod u pitanja i odgovor o intervjuu za analizu podataka

Dakle, konačno ste pronašli svoj posao iz snova u usluzi Data Analytics, ali se pitate kako razbiti 2019. intervju s podacima o analitici i što bi mogla biti vjerojatna pitanja o intervjuu za analizu podataka. Svaki intervju s Analytics Analytics je različit, a i opseg posla je različit. Imajući to u vidu, osmislili smo najčešća pitanja i odgovore u vezi s analitičkim podacima kako bismo vam pomogli da postignete uspjeh u svom intervjuu s podacima o Analytics.

Ispod je najpopularnija pitanja o intervjuu za podatke iz 2019. koja se uglavnom postavljaju u intervjuu

1. Koja je razlika između vađenja podataka i analize podataka?

Odgovor:

Istraživanje podatakaAnaliza podataka
Za istraživanje podataka nije potrebna hipotezaAnaliza podataka započinje hipotezom.
Data Mining zahtijeva čiste i dobro dokumentirane podatke.Analiza podataka uključuje čišćenje podataka.
Rezultate pretraživanja podataka nije uvijek lako protumačiti.Analitičari podataka interpretiraju rezultate i prezentiraju ih dionicima.
Algoritmi za rušenje podataka automatski razvijaju jednadžbe.Analitičari podataka moraju razviti svoje jednadžbe.

2. Spomenite koji su različiti koraci u analitičkom projektu?

Odgovor:
Analiza podataka bavi se prikupljanjem, čišćenjem, transformiranjem i modeliranjem podataka kako bi se dobili vrijedni uvidi i podržavalo bolje donošenje odluka u organizaciji. Koraci koji su uključeni u postupak analize podataka su sljedeći -

Istraživanje podataka - Istražujući poslovni problem, analitičar podataka mora analizirati osnovni uzrok problema.
Priprema podataka - U ovom koraku procesa analize podataka pronalazimo anomalije podataka poput nedostajućih vrijednosti unutar podataka.
Modeliranje podataka - Korak modeliranja započinje nakon što su podaci pripremljeni. Modeliranje je iterativni proces u kojem se model opetovano izvodi radi poboljšanja. Modeliranje podataka osigurava najbolji mogući rezultat za poslovni problem.
Provjera valjanosti - u ovom koraku model koji pruža klijent i model koji je razvio analitičar podataka validiraju se jedan protiv drugog kako bi se otkrilo da li razvijeni model ispunjava poslovne zahtjeve.
Implementacija modela i praćenje - u ovom posljednjem koraku implementacije modela analize podataka se provodi i nakon toga se vrši praćenje kako bi se osiguralo da se model pravilno provodi ili ne?

3. Koja je odgovornost analitičara podataka?

Odgovor:
• Rješavanje problema vezanih uz poslovanje za klijente i obavljanje poslova revizije podataka.
• Interpretirati podatke koristeći statističke tehnike.
• Identificirati područja za mogućnosti poboljšanja.
• Analizirati, identificirati i interpretirati trendove ili obrasce u složenim skupima podataka.
• Prikupiti podatke iz primarnih ili sekundarnih izvora podataka.
• Održavajte baze podataka / sustave podataka.
• Pronađite i ispravite probleme s kodom pomoću pokazatelja performansi.
• Osiguravanje baze podataka razvijanjem pristupnog sustava.

4.Koji su sudari tablice sjedala? Kako se to izbjegava?

Odgovor:
Sudar tablice hash-a događa se kada dva različita ključa imaju jednaku vrijednost. Postoje mnoge tehnike za izbjegavanje sudara stolova hash, ovdje izdvajamo dvije:
Odvojeno lančanje: Koristi strukturu podataka koja se uklapa u isti utor za pohranu više stavki.
Otvoreno adresiranje: traži druge utora pomoću druge funkcije i sprema stavku u prvi prazni utor.

5. Popis nekih najboljih alata koji mogu biti korisni za analizu podataka?

Odgovor:
• Tableau
• RapidMiner
• OpenRefine
• KNIME
• Google pretraživači
•Rješavač
• NodeXL
• iO
• Wolfram Alpha
• Google Fusion Tablice

6. Koja je razlika između vađenja podataka i profiliranja podataka?

Odgovor:
Razlika između vađenja podataka i profiliranja podataka je sljedeća -
• Profiliranje podataka: usmjereno je na trenutnu analizu pojedinih atributa poput variranja cijena, različite cijene i njihove učestalosti, učestalosti nultih vrijednosti, vrste podataka, duljine itd.
• Rudarstvo podataka: Usredotočeno je na ovisnosti, otkrivanje slijeda, držanje odnosa između nekoliko atributa, analizu klastera, otkrivanje neobičnih zapisa itd.

7. Objasnite K-srednji algoritam i hijerarhijski algoritam klasteriranja?

Odgovor:
K-srednji algoritam - K srednja vrijednost je poznata metoda particioniranja. U algoritmu srednje vrijednosti Klasteri su sferični, tj. Podatkovne točke u klasteru centrirane su na tom klasteru. Također je varijancija klastera slična, tj. Svaka podatkovna točka pripada najbližem klasteru
Hijerarhijski algoritam klasteriranja - Hijerarhijski algoritam klasteriranja kombinira i dijeli postojeće skupine i stvara hijerarhijsku strukturu za prikaz redoslijeda u kojem su skupine podijeljene.

8.Što je čišćenje podataka? Spomenite nekoliko najboljih praksi koje trebate slijediti tijekom čišćenja podataka?

Odgovor:
Iz određenog skupa podataka izuzetno je važno razvrstati informacije potrebne za analizu podataka. Čišćenje podataka je presudni korak u kojem se podaci pregledavaju kako bi se otkrile nepravilnosti, uklonile ponavljajuće se i netočne informacije itd. Čišćenje podataka ne uključuje uklanjanje postojećih podataka iz baze podataka, već samo poboljšava kvalitetu podataka kako bi se mogli koristiti za analizu,
Neki od najboljih praksi čišćenja podataka uključuju -
• Razvijanje plana kvalitete podataka za prepoznavanje gdje se pojavljuju maksimalne pogreške u kvaliteti podataka kako biste mogli procijeniti osnovni uzrok i planirati u skladu s tim.
• Slijedite uobičajenu metodu dokazivanja potrebnih podataka prije nego što ih unesete u podatke.
• Identificirajte duplicirane podatke i potvrdite točnost podataka jer će to uštedjeti puno vremena tijekom analize.
• Praćenje svih postupaka poboljšanja izvedenih na informacijama je nevjerojatno potrebno kako biste po potrebi ponavljali ili oduzeli sve operacije.

9. Koje su neke od statističkih metoda korisne za analizu podataka?

Odgovor:
Statističke metode koje su korisne za znanstvenika podataka jesu
• Bayesova metoda
• Markov postupak
• Prostorni i klasterski procesi
• Statistika rangiranja, postotak, vanjsko otkrivanje
• tehnike imputacije itd.
• Simplex algoritam
• Matematička optimizacija

10. Objasnite što je imputacija? Nabrojite različite vrste tehnika imputacije? Koja je metoda imputacije povoljnija?

Odgovor:
Tijekom imputacije imamo tendenciju da zamijenimo nedostajuće podatke zamijenjenim vrijednostima. Vrste tehnika imputacije uključuju -
• Pojedinačna imputacija: Pojedinačna imputacija označava da se vrijednost koja nedostaje zamjenjuje vrijednošću. U ovoj se metodi dohvaća veličina uzorka.
• Imputacija vruće palube: Nedostaje vrijednost pripisuje se slučajno odabranom sličnom zapisu pomoću kartice udaraca
• Iputacija hladne palube: Djeluje isto kao i imputacija vruće palube, ali malo je naprednija i bira donatore iz drugih skupova podataka
• Srednja imputacija: uključuje zamjenu nedostajuće vrijednosti predviđenim vrijednostima drugih varijabli.
• Regresijska imputacija: uključuje zamjenu nedostajuće vrijednosti predviđenim vrijednostima određene vrijednosti, ovisno o drugim varijablama.
• Stohastička regresija: To je isto kao i imputacija regresije, ali dodaje uobičajenu regresijsku varijancu u imputaciji regresije
• Višestruka imputacija: za razliku od pojedinačne imputacije, više imputacija procjenjuje vrijednosti više puta

Iako se pojedinačna imputacija uvelike koristi, ona ne odražava neizvjesnost stvorena nasumičnim nedostatkom podataka. Dakle, višestruka imputacija je povoljnija od pojedinačne imputacije u slučaju da podaci nasumice nestanu.

Preporučeni članci

Ovo je opsežan vodič za pitanja i odgovore u vezi s analitičkim podacima kako bi kandidat mogao lako razbiti ova pitanja u vezi s analitičkim podacima. Možete pogledati i sljedeće članke da biste saznali više -

  1. 10 korisnih agilnih pitanja o intervjuu i odgovora
  2. 8 Pitanja za intervju o strašnom algoritmu
  3. 25 najvažnijih pitanja o intervjuu s informatikom
  4. 10 iznenađujućih pitanja i odgovora za intervju s inženjerom podataka