Što je košnica?
Apache Hive je sustav skladišta podataka dizajniran na vrhu otvorene platforme Hadoop platforme i koristi se za objedinjavanje podataka, postavljanje upita velikih podataka, analizu podataka itd.
Košnicu je razvio Facebook, a kasnije ju je preuzela Apache Software Foundation koja ju je dalje razvila kao otvoreni izvor pod imenom Apache košnica.
definicija:
To nije relacijska baza podataka i zato nije pogodna za internetsku obradu transakcija i upite u stvarnom vremenu s ažuriranjima na razini retka. Panj je dizajniran za analitičku obradu na mreži ili OLAP. Također pruža jezik upita pod nazivom HiveQL. Skalabilan je, brz i proširiv. Pretvara upite koji izgledaju gotovo poput SQL-a u MapReduce poslove za lako izvršavanje i obradu velike količine podataka. Apache košnica jedna je od komponenti Hadoop-a koju inače koriste analitičari podataka dok se za istu zadaću koristi i svinja Apache, ali to više koriste istraživači i programeri. Košnica Apache kao sustav skladištenja otvorenih koda koristi se za ispitivanje i analizu ogromnih skupova podataka koji su pohranjeni u Hadoop pohrani. Košarica je najprikladnija za serijske poslove, a ne za internetske vrste transakcijskih obrada. Također ne podržava upite u stvarnom vremenu. Osip koristi SQL kao jezik upita i uglavnom se koristi za kreiranje izvještaja. Osip se obično nalazi na strani poslužitelja i podržava strukturirane podatke. Hive također podržava integraciju s JDBC i BI alatima.
Razumijevanje košnice:
Ispod su glavne komponente košnice:
Meta trgovina:
Spremište u kojem se pohranjuju metapodaci naziva se meta pohrana košnica. Metapodaci se sastoje od različitih podataka o tablicama kao što su njihovo mjesto, shema, informacije o particijama koje pomažu u praćenju različito distribuiranog napretka podataka u klasteru. Također prati podatke i replicira podatke koji pružaju sigurnosnu kopiju u hitnim slučajevima poput gubitka podataka. Podaci metapodataka prisutni su u relacijskim bazama podataka, a ne u datotečnom sustavu Hadoop.
Vozač:
Prilikom izvršavanja izjave jezika jezika košnice, vozač prima izjavu i kontrolira je tijekom cijelog ciklusa izvršenja. Uz izvršenje izjave, vozač pohranjuje i metapodatke generirane iz izvršenja. Također stvara sesije za praćenje napretka i životnog ciklusa različitih pogubljenja. Nakon završetka operacije smanjenja pomoću programa MapReduce, vozač prikuplja sve podatke i rezultate upita
prevodilac:
Koristi se za prevođenje upita upita u košnicu na ulaz MapReduce. Poziva metodu koja izvršava korake i zadatke potrebne za čitanje HiveQL izlaza prema potrebi MapReduce.
optimizaciju:
Glavna zadaća alata za optimizaciju je poboljšanje učinkovitosti i skalabilnosti, stvarajući zadatak dok transformira podatke prije operacije smanjenja. Također provodi transformacije poput združivanja, pretvorbe cjevovoda jednim spajanjem za više spojeva.
Izvršitelj:
Nakon sastavljanja i koraka optimizacije glavni zadatak izvršitelja je izvršiti zadatke. Glavni zadatak izvršitelja je interakcija s Hadoop tragačem poslova radi raspoređivanja zakazanih zadataka.
Korisničko sučelje, Thrift poslužitelj i CLI:
Thrift server drugi klijenti koriste za interakciju s Hive motorom. Korisničko sučelje i sučelje naredbenog retka pomažu u podnošenju upita, kao i u nadzoru procesa i uputama kako bi vanjski korisnici mogli komunicirati s košnicom.
Ispod su koraci koji prikazuju interakciju košnica s Hadoop okvirom:
Izvršavanje upita:
Upit se vozaču šalje s sučeljima košnica, poput naredbenog retka ili web sučelja. Vozač može biti bilo koji upravljački program baze podataka poput JDB ili ODBC itd.
Dobivanje plana:
Sintaksa zahtjeva zahtjeva ili plana upita može se provjeriti pomoću sastavljača upita koji prolazi kroz upit i poziva ga vozač.
Dobivanje metapodataka:
Meta pohrana može biti smještena u bilo kojoj bazi podataka, a prevoditelj podnosi zahtjev za pristup metapodacima.
Slanje metapodataka:
Na zahtjev prevoditelja, meta trgovina šalje metapodate.
Slanje plana:
Pregovarač šalje plan vozaču na provjeru zahtjeva koje je poslao prevoditelj. Ovaj korak završava analizu i sastavljanje upita.
Izvođenje plana:
Plan izvršenja vozač šalje izvršnom stroju.
Izvođenje posla:
Izvršenje zadatka je posao MapReduce koji se izvodi u nadoknadi. Zatim slijedi uobičajena konvencija Hadoop okvira - izvršni mehanizam će poslati posao tragaču posla koji se nalazi na imenu čvora, a naziv čvor će zauzvrat dodijeliti zadatak tragaču zadataka koji se nalazi u bilješci s podacima. Ovdje se izvršava posao MapReduce.
Opcije metapodataka:
Tijekom izvršavanja zadatka izvršni mehanizam može izvršiti operacije metapodataka s meta pohranom.
Dohvaćanje rezultata:
Čvorovi podataka nakon završetka obrade prosljeđuju rezultat izvršnom stroju.
Slanje rezultata
Vozač dobiva rezultat od izvršnog motora.
Slanje rezultata:
Konačno, sučelja košnice dobivaju rezultat od vozača.
Dakle, izvršavanjem gornjih koraka dolazi do potpunog izvršenja upita u košnici.
Kako košnica čini rad tako lakim?
Hive je Okvir za skladištenje podataka izgrađen na vrhu Hadoopa, koji korisniku pomaže u analizi podataka, upitima i objedinjavanju podataka na velikim količinama podataka. HiveQL je jedinstvena značajka koja izgleda kao SQL podaci pohranjeni u bazi podataka i provodi opsežnu analizu. Bio sam sposoban čitati podatke vrlo velikom brzinom i upisivati podatke u skladišta podataka, kao i to da mogu upravljati velikim skupima podataka distribuiranim na više lokacija. Zajedno s ovom košnicom pruža i strukturu podacima koji su pohranjeni u bazi podataka, a korisnici se mogu povezati s košnicom pomoću alata naredbenog retka ili upravljačkog programa JDBC.
Top tvrtke:
Glavne organizacije koje rade s velikim podacima koristile su košnice - poput facebook-a, Amazona, Walmart-a i mnogih drugih.
Što možete učiniti s Hivem?
Postoji mnoštvo funkcionalnosti košnice poput upita podataka, rezimiranja i analize podataka. Hive podržava jezik upita pod nazivom HiveQL ili Hive Query Language. Upiti jezika upita Hive prevode se u posao MapReduce koji se obrađuje na Hadoop grupi. Uz to, Hiveql smanjuje i skriptu koja se može dodati u upite. Na ovaj način, HiveQL povećava fleksibilnost dizajna sheme koja također podržava deserijalizaciju i serializaciju podataka.
Rad sa košnicom:
Ispod su neki operativni detalji u košnici. Podaci vrste košnica u širokom su razvrstani u četiri vrste kako su dolje navedeni:
- Vrste stupaca
- literali
- Nulte vrijednosti
- Složene vrste
1. Vrste stupaca:
Ovo su tipovi kolona podataka podataka. Oni su klasificirani kao u nastavku:
- Integralni tipovi: integrirani podaci prikazani su korištenjem integralnog tipa podataka. Simbol je INT. Bilo kojim podacima koji prelaze gornju granicu INT-a mora se dodijeliti vrsta BIGINT-a. Na isti način, svim podacima ispod donje granice INT-a treba dodijeliti SMALLINT. Postoji još jedna vrsta podataka zvana TINYINT koja je čak i manja od SMALLINT.
- Vrste nizova: Vrsta stringova podataka u košnici je predstavljena jednim citatom (') ili dvostrukim navodnicima ("). Može biti dvije vrste - VARCHAR ili CHAR.
- Vremenska oznaka : Vremenska oznaka košnice podržava format java.sql.Timestamp "gggg-mm-dd hh: mm: ss.ffffffffff" i format "GGGG-MM-DD HH: MM: SS.fffffffff".
- Datum: Datum je u košnici predstavljen u obliku GGGG-MM-DD koji predstavlja dan-mjesec-dan.
- Decimali : Decimci u košnici predstavljeni su u java velikom decimalnom formatu i koriste se za prikaz nepromjenjive proizvoljne preciznosti. Predstavljen je u formatu Decimal (preciznost, ljestvica).
- Tipovi unije: Union se u košnici koristi za stvaranje zbirke heterogenih podataka. Može se stvoriti pomoću stvoriti sindikat.
Ispod je primjer:
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
2. Literali:
U košnici se koristi malo doslovca. Oni su kako slijedi:
- Vrsta plutajuće točke : Oni su predstavljeni kao brojevi s decimalnom točkom. Oni su prilično slični dvostrukom tipu podataka.
- Decimalni tip : Ova vrsta podataka sadrži samo podatke decimalnog tipa, ali s većim rasponom vrijednosti plutajuće točke od dvostrukog tipa podataka. Raspon decimalnog tipa je približno -10 -308 do 10 308.
3. Nulta vrijednost:
Posebna vrijednost NULL predstavlja nedostajuće vrijednosti u košnici.
4. Složene vrste:
Ispod su različite složene vrste koje se nalaze u košnici:
- Nizovi : Nizovi su predstavljeni u košnici u istom obliku kao i java. Sintaksa je poput ARRAY.
- Karte : Karte su predstavljene u košnici u istom obliku kao i java. Sintaksa je poput MAP-a
- ,
- Strukture : Strukture u košnici predstavljene su poput složenih podataka s komentarima. Sintaksa je poput
STRUCT.
Pored svega navedenog, možemo stvoriti baze podataka, tablice, podijeliti ih i mnoštvo drugih funkcija.
- Baze podataka: Oni su prostori s imenima koji sadrže zbirku tablica. Ispod je sintaksa za stvaranje baze podataka u košnici.
CREATE DATABASE (IF NOT EXISTS) sampled;
Baze podataka mogu se ispustiti ako više nisu potrebne. Ispod je sintaksa za ispadanje baze podataka.
DROP DATABASE (IF EXISTS) sampled;
- Tabele: Mogu se stvoriti i u košnici za pohranu podataka. Ispod je sintaksa za izradu tablice.
CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)
Stol se također može odbaciti ako više nije potreban. Ispod je sintaksa za pad stola.
DROP TABLE (IF EXISTS) table_name;
prednosti
Glavna prednost Apache košnice je u ispitivanju podataka, sažetku i analizi podataka. Kuk je dizajniran za bolju produktivnost programera, a također dolazi s troškovima povećanja kašnjenja i smanjenja učinkovitosti. Apache Hive pruža širok spektar korisnički definiranih funkcija koje se mogu povezati s drugim Hadoop paketima poput RHipe, Apache Mahout, itd. U velikoj mjeri pomaže programerima kada rade sa složenom analitičkom obradom i višestrukim formatima podataka. Uglavnom se koristi za skladištenje podataka što znači sustav koji se koristi za izvještavanje i analizu podataka.
Uključuje čišćenje, transformiranje i modeliranje podataka kako bi se pružile korisne informacije o različitim poslovnim aspektima koji će pomoći u stvaranju koristi organizaciji. Analiza podataka ima puno različitih aspekata i pristupa koji obuhvaćaju različite tehnike s raznim imenima u različitim poslovnim modelima, društvenim znanostima, itd. Sto je košnica vrlo korisna i omogućava korisnicima da istovremeno pristupe podacima povećavajući vrijeme odgovora. U usporedbi s drugom vrstom upita na ogromnim podacima, vrijeme reakcije košnice mnogo je brže od ostalih. Također je mnogo fleksibilan u pogledu performansi pri dodavanju više podataka i povećanju broja čvorova u klasteru.
Zašto bismo trebali koristiti košnicu?
Zajedno s košnicom za analizu podataka pruža širok spektar mogućnosti za pohranu podataka u HDFS. Hive podržava različite datotečne sustave kao što su ravna datoteka ili tekstualna datoteka, slijedna datoteka koja se sastoji od binarnih parova ključ-vrijednost, RC datoteka koje pohranjuju stupac tablice u stupcu baze podataka. Danas je datoteka koja najbolje odgovara Hiveu poznata kao ORC datoteke ili Optimized Row Columnar datoteke.
Zašto nam treba košnica?
U današnjem svijetu Hadoop je povezan s najrasprostranjenijim tehnologijama koje se koriste za veliku obradu podataka. Vrlo bogata zbirka alata i tehnologija koje se koriste za analizu podataka i druge velike obrade podataka.
Tko je prava publika za učenje tehnologija košnice?
Uglavnom ljudi koji imaju pozadinu kao programeri, Hadoop analitika, administratori sustava, skladištenje podataka, SQL professional i Hadoop administracija mogu savladati košnicu.
Kako će vam ova tehnologija pomoći u razvoju karijere?
Košnica je jedna od najjačih vještina na tržištu u današnje vrijeme i jedan je od najboljih alata za analizu podataka u svijetu s velikim podacima Hadoop. Velika poduzeća koja rade analize na velikim skupovima podataka uvijek traže ljude s pravima vještina kako bi mogli upravljati i pretraživati ogromne količine podataka. Hive je jedan od najboljih alata dostupnih na tržištu velikih tehnologija podataka posljednjih dana koji mogu pomoći organizaciji širom svijeta za njihovu analizu podataka.
Zaključak:
Osim gore navedenih funkcija košnica ima i mnogo naprednije mogućnosti. Moć košnice da s velikom preciznošću obrađuje velik broj skupova podataka čini košnicu jednim od najboljih alata koji se koriste za analitiku na velikoj platformi podataka. Osim toga, u narednim danima također ima veliki potencijal postati jedan od vodećih alata za analizu velikih podataka zbog periodičnog poboljšanja i jednostavne uporabe za krajnjeg korisnika.
Preporučeni članci
Ovo je bio vodič Što je košnica. Ovdje smo razgovarali o radu, vještinama, karijernom rastu, prednostima kompanije Hive i vrhunskim tvrtkama koje implementiraju ovu tehnologiju. Možete i proći naše druge predložene članke da biste saznali više -
- Naredbe košnica
- Pitanja za intervju košnice
- Što je Azure?
- Što je tehnologija velikih podataka?
- Arhitektura košnica | definicija
- Korištenje ORDER BY funkcije u košnici