Što je košnica?

Apache Hive je sustav skladišta podataka dizajniran na vrhu otvorene platforme Hadoop platforme i koristi se za objedinjavanje podataka, postavljanje upita velikih podataka, analizu podataka itd.

Košnicu je razvio Facebook, a kasnije ju je preuzela Apache Software Foundation koja ju je dalje razvila kao otvoreni izvor pod imenom Apache košnica.

definicija:

To nije relacijska baza podataka i zato nije pogodna za internetsku obradu transakcija i upite u stvarnom vremenu s ažuriranjima na razini retka. Panj je dizajniran za analitičku obradu na mreži ili OLAP. Također pruža jezik upita pod nazivom HiveQL. Skalabilan je, brz i proširiv. Pretvara upite koji izgledaju gotovo poput SQL-a u MapReduce poslove za lako izvršavanje i obradu velike količine podataka. Apache košnica jedna je od komponenti Hadoop-a koju inače koriste analitičari podataka dok se za istu zadaću koristi i svinja Apache, ali to više koriste istraživači i programeri. Košnica Apache kao sustav skladištenja otvorenih koda koristi se za ispitivanje i analizu ogromnih skupova podataka koji su pohranjeni u Hadoop pohrani. Košarica je najprikladnija za serijske poslove, a ne za internetske vrste transakcijskih obrada. Također ne podržava upite u stvarnom vremenu. Osip koristi SQL kao jezik upita i uglavnom se koristi za kreiranje izvještaja. Osip se obično nalazi na strani poslužitelja i podržava strukturirane podatke. Hive također podržava integraciju s JDBC i BI alatima.

Razumijevanje košnice:

Ispod su glavne komponente košnice:

Meta trgovina:

Spremište u kojem se pohranjuju metapodaci naziva se meta pohrana košnica. Metapodaci se sastoje od različitih podataka o tablicama kao što su njihovo mjesto, shema, informacije o particijama koje pomažu u praćenju različito distribuiranog napretka podataka u klasteru. Također prati podatke i replicira podatke koji pružaju sigurnosnu kopiju u hitnim slučajevima poput gubitka podataka. Podaci metapodataka prisutni su u relacijskim bazama podataka, a ne u datotečnom sustavu Hadoop.

Vozač:

Prilikom izvršavanja izjave jezika jezika košnice, vozač prima izjavu i kontrolira je tijekom cijelog ciklusa izvršenja. Uz izvršenje izjave, vozač pohranjuje i metapodatke generirane iz izvršenja. Također stvara sesije za praćenje napretka i životnog ciklusa različitih pogubljenja. Nakon završetka operacije smanjenja pomoću programa MapReduce, vozač prikuplja sve podatke i rezultate upita

prevodilac:

Koristi se za prevođenje upita upita u košnicu na ulaz MapReduce. Poziva metodu koja izvršava korake i zadatke potrebne za čitanje HiveQL izlaza prema potrebi MapReduce.

optimizaciju:

Glavna zadaća alata za optimizaciju je poboljšanje učinkovitosti i skalabilnosti, stvarajući zadatak dok transformira podatke prije operacije smanjenja. Također provodi transformacije poput združivanja, pretvorbe cjevovoda jednim spajanjem za više spojeva.

Izvršitelj:

Nakon sastavljanja i koraka optimizacije glavni zadatak izvršitelja je izvršiti zadatke. Glavni zadatak izvršitelja je interakcija s Hadoop tragačem poslova radi raspoređivanja zakazanih zadataka.

Korisničko sučelje, Thrift poslužitelj i CLI:

Thrift server drugi klijenti koriste za interakciju s Hive motorom. Korisničko sučelje i sučelje naredbenog retka pomažu u podnošenju upita, kao i u nadzoru procesa i uputama kako bi vanjski korisnici mogli komunicirati s košnicom.

Ispod su koraci koji prikazuju interakciju košnica s Hadoop okvirom:

Izvršavanje upita:

Upit se vozaču šalje s sučeljima košnica, poput naredbenog retka ili web sučelja. Vozač može biti bilo koji upravljački program baze podataka poput JDB ili ODBC itd.

Dobivanje plana:

Sintaksa zahtjeva zahtjeva ili plana upita može se provjeriti pomoću sastavljača upita koji prolazi kroz upit i poziva ga vozač.

Dobivanje metapodataka:

Meta pohrana može biti smještena u bilo kojoj bazi podataka, a prevoditelj podnosi zahtjev za pristup metapodacima.

Slanje metapodataka:

Na zahtjev prevoditelja, meta trgovina šalje metapodate.

Slanje plana:

Pregovarač šalje plan vozaču na provjeru zahtjeva koje je poslao prevoditelj. Ovaj korak završava analizu i sastavljanje upita.

Izvođenje plana:

Plan izvršenja vozač šalje izvršnom stroju.

Izvođenje posla:

Izvršenje zadatka je posao MapReduce koji se izvodi u nadoknadi. Zatim slijedi uobičajena konvencija Hadoop okvira - izvršni mehanizam će poslati posao tragaču posla koji se nalazi na imenu čvora, a naziv čvor će zauzvrat dodijeliti zadatak tragaču zadataka koji se nalazi u bilješci s podacima. Ovdje se izvršava posao MapReduce.

Opcije metapodataka:

Tijekom izvršavanja zadatka izvršni mehanizam može izvršiti operacije metapodataka s meta pohranom.

Dohvaćanje rezultata:

Čvorovi podataka nakon završetka obrade prosljeđuju rezultat izvršnom stroju.

Slanje rezultata

Vozač dobiva rezultat od izvršnog motora.

Slanje rezultata:

Konačno, sučelja košnice dobivaju rezultat od vozača.

Dakle, izvršavanjem gornjih koraka dolazi do potpunog izvršenja upita u košnici.

Kako košnica čini rad tako lakim?

Hive je Okvir za skladištenje podataka izgrađen na vrhu Hadoopa, koji korisniku pomaže u analizi podataka, upitima i objedinjavanju podataka na velikim količinama podataka. HiveQL je jedinstvena značajka koja izgleda kao SQL podaci pohranjeni u bazi podataka i provodi opsežnu analizu. Bio sam sposoban čitati podatke vrlo velikom brzinom i upisivati ​​podatke u skladišta podataka, kao i to da mogu upravljati velikim skupima podataka distribuiranim na više lokacija. Zajedno s ovom košnicom pruža i strukturu podacima koji su pohranjeni u bazi podataka, a korisnici se mogu povezati s košnicom pomoću alata naredbenog retka ili upravljačkog programa JDBC.

Top tvrtke:

Glavne organizacije koje rade s velikim podacima koristile su košnice - poput facebook-a, Amazona, Walmart-a i mnogih drugih.

Što možete učiniti s Hivem?

Postoji mnoštvo funkcionalnosti košnice poput upita podataka, rezimiranja i analize podataka. Hive podržava jezik upita pod nazivom HiveQL ili Hive Query Language. Upiti jezika upita Hive prevode se u posao MapReduce koji se obrađuje na Hadoop grupi. Uz to, Hiveql smanjuje i skriptu koja se može dodati u upite. Na ovaj način, HiveQL povećava fleksibilnost dizajna sheme koja također podržava deserijalizaciju i serializaciju podataka.

Rad sa košnicom:

Ispod su neki operativni detalji u košnici. Podaci vrste košnica u širokom su razvrstani u četiri vrste kako su dolje navedeni:

  • Vrste stupaca
  • literali
  • Nulte vrijednosti
  • Složene vrste

1. Vrste stupaca:

Ovo su tipovi kolona podataka podataka. Oni su klasificirani kao u nastavku:

  • Integralni tipovi: integrirani podaci prikazani su korištenjem integralnog tipa podataka. Simbol je INT. Bilo kojim podacima koji prelaze gornju granicu INT-a mora se dodijeliti vrsta BIGINT-a. Na isti način, svim podacima ispod donje granice INT-a treba dodijeliti SMALLINT. Postoji još jedna vrsta podataka zvana TINYINT koja je čak i manja od SMALLINT.
  • Vrste nizova: Vrsta stringova podataka u košnici je predstavljena jednim citatom (') ili dvostrukim navodnicima ("). Može biti dvije vrste - VARCHAR ili CHAR.
  • Vremenska oznaka : Vremenska oznaka košnice podržava format java.sql.Timestamp "gggg-mm-dd hh: mm: ss.ffffffffff" i format "GGGG-MM-DD HH: MM: SS.fffffffff".
  • Datum: Datum je u košnici predstavljen u obliku GGGG-MM-DD koji predstavlja dan-mjesec-dan.
  • Decimali : Decimci u košnici predstavljeni su u java velikom decimalnom formatu i koriste se za prikaz nepromjenjive proizvoljne preciznosti. Predstavljen je u formatu Decimal (preciznost, ljestvica).
  • Tipovi unije: Union se u košnici koristi za stvaranje zbirke heterogenih podataka. Može se stvoriti pomoću stvoriti sindikat.

Ispod je primjer:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Literali:

U košnici se koristi malo doslovca. Oni su kako slijedi:

  • Vrsta plutajuće točke : Oni su predstavljeni kao brojevi s decimalnom točkom. Oni su prilično slični dvostrukom tipu podataka.
  • Decimalni tip : Ova vrsta podataka sadrži samo podatke decimalnog tipa, ali s većim rasponom vrijednosti plutajuće točke od dvostrukog tipa podataka. Raspon decimalnog tipa je približno -10 -308 do 10 308.

3. Nulta vrijednost:

Posebna vrijednost NULL predstavlja nedostajuće vrijednosti u košnici.

4. Složene vrste:

Ispod su različite složene vrste koje se nalaze u košnici:

  • Nizovi : Nizovi su predstavljeni u košnici u istom obliku kao i java. Sintaksa je poput ARRAY.
  • Karte : Karte su predstavljene u košnici u istom obliku kao i java. Sintaksa je poput MAP-a
  • ,
  • Strukture : Strukture u košnici predstavljene su poput složenih podataka s komentarima. Sintaksa je poput STRUCT.

Pored svega navedenog, možemo stvoriti baze podataka, tablice, podijeliti ih i mnoštvo drugih funkcija.

  • Baze podataka: Oni su prostori s imenima koji sadrže zbirku tablica. Ispod je sintaksa za stvaranje baze podataka u košnici.

CREATE DATABASE (IF NOT EXISTS) sampled;

Baze podataka mogu se ispustiti ako više nisu potrebne. Ispod je sintaksa za ispadanje baze podataka.

DROP DATABASE (IF EXISTS) sampled;

  • Tabele: Mogu se stvoriti i u košnici za pohranu podataka. Ispod je sintaksa za izradu tablice.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Stol se također može odbaciti ako više nije potreban. Ispod je sintaksa za pad stola.

DROP TABLE (IF EXISTS) table_name;

prednosti

Glavna prednost Apache košnice je u ispitivanju podataka, sažetku i analizi podataka. Kuk je dizajniran za bolju produktivnost programera, a također dolazi s troškovima povećanja kašnjenja i smanjenja učinkovitosti. Apache Hive pruža širok spektar korisnički definiranih funkcija koje se mogu povezati s drugim Hadoop paketima poput RHipe, Apache Mahout, itd. U velikoj mjeri pomaže programerima kada rade sa složenom analitičkom obradom i višestrukim formatima podataka. Uglavnom se koristi za skladištenje podataka što znači sustav koji se koristi za izvještavanje i analizu podataka.

Uključuje čišćenje, transformiranje i modeliranje podataka kako bi se pružile korisne informacije o različitim poslovnim aspektima koji će pomoći u stvaranju koristi organizaciji. Analiza podataka ima puno različitih aspekata i pristupa koji obuhvaćaju različite tehnike s raznim imenima u različitim poslovnim modelima, društvenim znanostima, itd. Sto je košnica vrlo korisna i omogućava korisnicima da istovremeno pristupe podacima povećavajući vrijeme odgovora. U usporedbi s drugom vrstom upita na ogromnim podacima, vrijeme reakcije košnice mnogo je brže od ostalih. Također je mnogo fleksibilan u pogledu performansi pri dodavanju više podataka i povećanju broja čvorova u klasteru.

Zašto bismo trebali koristiti košnicu?

Zajedno s košnicom za analizu podataka pruža širok spektar mogućnosti za pohranu podataka u HDFS. Hive podržava različite datotečne sustave kao što su ravna datoteka ili tekstualna datoteka, slijedna datoteka koja se sastoji od binarnih parova ključ-vrijednost, RC datoteka koje pohranjuju stupac tablice u stupcu baze podataka. Danas je datoteka koja najbolje odgovara Hiveu poznata kao ORC datoteke ili Optimized Row Columnar datoteke.

Zašto nam treba košnica?

U današnjem svijetu Hadoop je povezan s najrasprostranjenijim tehnologijama koje se koriste za veliku obradu podataka. Vrlo bogata zbirka alata i tehnologija koje se koriste za analizu podataka i druge velike obrade podataka.

Tko je prava publika za učenje tehnologija košnice?

Uglavnom ljudi koji imaju pozadinu kao programeri, Hadoop analitika, administratori sustava, skladištenje podataka, SQL professional i Hadoop administracija mogu savladati košnicu.

Kako će vam ova tehnologija pomoći u razvoju karijere?

Košnica je jedna od najjačih vještina na tržištu u današnje vrijeme i jedan je od najboljih alata za analizu podataka u svijetu s velikim podacima Hadoop. Velika poduzeća koja rade analize na velikim skupovima podataka uvijek traže ljude s pravima vještina kako bi mogli upravljati i pretraživati ​​ogromne količine podataka. Hive je jedan od najboljih alata dostupnih na tržištu velikih tehnologija podataka posljednjih dana koji mogu pomoći organizaciji širom svijeta za njihovu analizu podataka.

Zaključak:

Osim gore navedenih funkcija košnica ima i mnogo naprednije mogućnosti. Moć košnice da s velikom preciznošću obrađuje velik broj skupova podataka čini košnicu jednim od najboljih alata koji se koriste za analitiku na velikoj platformi podataka. Osim toga, u narednim danima također ima veliki potencijal postati jedan od vodećih alata za analizu velikih podataka zbog periodičnog poboljšanja i jednostavne uporabe za krajnjeg korisnika.

Preporučeni članci

Ovo je bio vodič Što je košnica. Ovdje smo razgovarali o radu, vještinama, karijernom rastu, prednostima kompanije Hive i vrhunskim tvrtkama koje implementiraju ovu tehnologiju. Možete i proći naše druge predložene članke da biste saznali više -

  1. Naredbe košnica
  2. Pitanja za intervju košnice
  3. Što je Azure?
  4. Što je tehnologija velikih podataka?
  5. Arhitektura košnica | definicija
  6. Korištenje ORDER BY funkcije u košnici

Kategorija: