Spark SQL vs Presto - Pronađite 7 korisnih usporedba

Sadržaj:

Anonim

Razlike između Spark SQL vs Presto

Presto jednostavno rečeno, 'SQL Query Engine', u početku razvijen za Apache Hadoop. To je open source distribuirani SQL mehanizam upita dizajniran za izvođenje interaktivnih analitičkih upita na temelju podataka svih veličina.

Spark SQL je raspodijeljeni računalni mehanizam u memoriji sa SQL slojem na vrhu strukturiranih i polustrukturiranih skupova podataka. Od svoje obrade u memoriji, obrada će biti brza u Spark SQL-u.

Usporedba između Spark SQL-a i Presto-a (Infographics)

Ispod je 7 najboljih usporedbi između Spark SQL-a i Presto-a

Ključne razlike između iskre SQL i Presto

Ispod je popis, o ključnoj razlici između Presto i Spark SQL-a

  • Apache Spark predstavlja programski modul za obradu strukturiranih podataka koji se naziva Spark SQL. Spark SQL uključuje apstrakciju kodiranja pod nazivom Data Frame koja može djelovati kao distribuirani SQL motor za upite.
  • Motiv početka Prestoa bio je omogućiti interaktivnu analitiku i pristupe brzini komercijalnih skladišta podataka snagom da se skalira veličina organizacija koje odgovaraju Facebooku.
  • Dok je Spark SQL komponenta na vrhu Spark Core-a koja uvodi novu apstrakciju podataka nazvanu SchemaRDD (Resilient Distributed skupovi podataka), ona pruža podršku za strukturirane / polu-strukturirane podatke.
  • Presto je osmišljen kao alternativa alatima koji traže HDFS podatke koristeći MapReduce poslove poput košnice ili svinje, ali Presto nije ograničen na HDFS.
  • Spark SQL prati obradu u memoriji koja povećava brzinu obrade. Spark je dizajniran za obradu širokog raspona radnih opterećenja kao što su skupni upiti, iterativni algoritmi, interaktivni upiti, strujanje itd.
  • Presto je sposoban izvršiti federalne upite. Ispod je primjer Presto Federated Queries

Pretpostavimo bilo koji RDBMS s uzorkom tablice1

I POSTOJI s uzorkom tablice2,

'Testdb' je baza podataka u košnici i u MYSQL-u. Pomoću Presto-a možemo procijeniti podatke pomoću jednog upita nakon što su njihovi konektori ispravno konfigurirani kao što je prikazano dolje -

presto> hive.Testdb.sample2

Funkcija (odaberite / Grupiraj po ..etc)> mysql.Testdb.sample1

  • Spark SQL arhitektura se sastoji od Spark SQL, sheme RDD i okvira podataka
    • Okvir podataka je zbirka podataka; podaci su organizirani u imenovane stupce. Tehnički je to isto kao i tablice s relacijskim bazama podataka.
    • Shema RDD: Spark Core sadrži posebnu strukturu podataka koja se naziva RDD. Spark SQL radi na shemama, tablicama i zapisima. Prema tome, korisnik može koristiti shemu RDD kao privremenu tablicu. Tako korisnik može nazvati ovaj RDD sheme kao okvir podataka
  • Mogućnosti podatkovnog okvira: okvir podataka obrađuje podatke u veličini od Kilobajta do Petabajta na jednom čvorničkom klasteru u više klasterskih čvorova,
  • Data Frame podržava različite formate podataka (CSV, elasticsearch, Cassandra itd.) I sustave pohrane (HDFS, HIVE tablice, MySQL itd.), Može se integrirati u sve Big Data alate / okvire putem Spark-Core-a i pruža API za jezike poput Programiranje Python, Java, Scala i R.
  • Dok je Presto distribuirani motor, radi na postavljanju klastera. Presto arhitektura je jednostavna za razumijevanje i proširiva. Presto klijent (CLI) šalje SQL izjave glavnom daemon koordinatoru koji upravlja obradom.
  • Tvrtke koje koriste Presto: Facebook, Netflix, Airbnd, Dropbox itd.
  • Slučajevi korištenja varnica Apache mogu se naći u industrijama poput financija, trgovine, zdravstva i putovanja itd. Mnoge web stranice e-trgovine poput eBay, Alibaba, Pinterest koriste Spark SQL za analizu stotina petabajta podataka na njegovoj platformi za e-trgovinu.

Usporedba Tablica iskre SQL vs Presto

Ispod je gornja usporedba između SQL-a i Presto-a

Osnove usporedbe između SQL-a i Presto-a odmah Spark SQL
Eko-sustavi / platformeHadoop, velika obrada podataka itdSpark Framework, velika obrada podataka itd
SvrhaPresto je dizajniran za pokretanje SQL upita preko velikih podataka (ogromno opterećenje).
Nju je osmislio Facebook za obradu njihovih ogromnih opterećenja.
Spark SQL jedna je od komponenti Apache Spark Core.
Spark Core je temeljni motor izvedbe za platformu iskre
Postaviti
  • Presto je distribuirani SQL upit za obradu podataka za kućne ljubimce i radi na klasteru kao što je postavljen sa skupom strojeva.
  • Potpuno postavljanje klastera Presto uključuje koordinatora (upraviteljski čvor) i više radnika. Korisnik predaje upite od klijenta koji je Presto CLI koordinatoru. Koordinator analizira, analizira i planira izvršenje upita, a zatim će distribuirati obradu upita radnicima.
  • Postavljanje iskre SQL nestat će ako instalirate i konfigurirate Apache Spark Cluster
  • Apache Spark je Hadoopov podprojekt.
  • Apaches Spark je tehnologija za veliku obradu podataka na klasteru, dizajnirana za brzo računanje.
Sposobnosti / značajkePresto dopušta pretraživanje podataka o mnogim izvorima podataka; Na primjer, podaci mogu biti u spremištima podataka: košnica, Cassandra, RDBMS i nekim drugim vlasničkim spremištima podataka.Spark SQL pruža fleksibilnost u integraciji s drugim izvorima podataka koristeći podatkovne okvire i JDBC konektore.
Podrška za priključkePresto podržava utikače. Ovi konektori pružaju skupove podataka za upite.

Ispod je nekoliko postojećih konektora dostupnih u sustavu Presto, dok Presto pruža mogućnost povezivanja i s prilagođenim konektorima.
Ispod su neki od priključaka koje on podržava

  • Hadoop / košnica
  • Cassandra
  • Teradata
  • PostgreSQL
  • Oracle itd

Sučelje Data Frame omogućava različitim izvorima podataka da rade na Spark SQL-u.
Spark SQL uključuje poslužiteljski način rada sa standardnim JDBC i ODBC povezivanjem.
Federativni upitiPresto podržava federalne upite. Presto se može konfigurirati za povezivanje s različitim DB-ima i nakon toga ih konfigurirati; njegov CLI može se koristiti za pokretanje "Federated Queries".
U jednom Presto upitu korisnik može kombinirati podatke iz više izvora podataka i pokrenuti upit.
Spark SQL dolazi s ugrađenom značajkom za povezivanje s drugim bazama podataka pomoću JDBC koja je "JDBC u druge baze podataka", a pomaže u funkciji federacije.
Spark stvara okvire podataka koristeći značajku baze podataka JDBC: bazajući pomoću skala / python API-ja, ali također izravno radi sa Spark SQL Thrift poslužiteljem i omogućuje korisnicima da lako ispituju vanjske JDBC tablice bez napora kao i druge tablice košnica / iskre.
Tko koristi?Analizatori podataka, Inženjeri podataka, Znanstvenici podataka itdAnalizatori podataka, Inženjeri podataka, Znanstvenici podataka, Spark Developer itd

Zaključci -Park SQL vs Presto

Spark SQL i Presto, oba su SQL distribuirana motora dostupna na tržištu.

Presto je vrlo koristan kada je riječ o upitima tipa BI, a Spark SQL vodi uspješne rezultate u velikim analitičkim upitima. U usporedbi s konfiguracijom, Presto je postavio jednostavnije od Spark SQL-a. I Spark SQL i Presto stoje podjednako na tržištu i rješavaju različite vrste poslovnih problema.

Preporučeni članak

Ovo je vodič za Spark SQL vs Presto, njihovo značenje, usporedbu "Head to Head", ključne razlike, tablicu usporedbe i zaključak. Možete pogledati i sljedeće članke da biste saznali više -

  1. Apache Spark vs Apache Flink - 8 korisnih stvari koje trebate znati
  2. Apache Hive vs Apache Spark SQL - 13 nevjerojatnih razlika
  3. Najbolje 6 usporedba između Hadoop Vs SQL-a
  4. Hadoop vs Teradata - Vjerojatne razlike