Razlike između Spark SQL vs Presto
Presto jednostavno rečeno, 'SQL Query Engine', u početku razvijen za Apache Hadoop. To je open source distribuirani SQL mehanizam upita dizajniran za izvođenje interaktivnih analitičkih upita na temelju podataka svih veličina.
Spark SQL je raspodijeljeni računalni mehanizam u memoriji sa SQL slojem na vrhu strukturiranih i polustrukturiranih skupova podataka. Od svoje obrade u memoriji, obrada će biti brza u Spark SQL-u.
Usporedba između Spark SQL-a i Presto-a (Infographics)
Ispod je 7 najboljih usporedbi između Spark SQL-a i Presto-a
Ključne razlike između iskre SQL i Presto
Ispod je popis, o ključnoj razlici između Presto i Spark SQL-a
- Apache Spark predstavlja programski modul za obradu strukturiranih podataka koji se naziva Spark SQL. Spark SQL uključuje apstrakciju kodiranja pod nazivom Data Frame koja može djelovati kao distribuirani SQL motor za upite.
- Motiv početka Prestoa bio je omogućiti interaktivnu analitiku i pristupe brzini komercijalnih skladišta podataka snagom da se skalira veličina organizacija koje odgovaraju Facebooku.
- Dok je Spark SQL komponenta na vrhu Spark Core-a koja uvodi novu apstrakciju podataka nazvanu SchemaRDD (Resilient Distributed skupovi podataka), ona pruža podršku za strukturirane / polu-strukturirane podatke.
- Presto je osmišljen kao alternativa alatima koji traže HDFS podatke koristeći MapReduce poslove poput košnice ili svinje, ali Presto nije ograničen na HDFS.
- Spark SQL prati obradu u memoriji koja povećava brzinu obrade. Spark je dizajniran za obradu širokog raspona radnih opterećenja kao što su skupni upiti, iterativni algoritmi, interaktivni upiti, strujanje itd.
- Presto je sposoban izvršiti federalne upite. Ispod je primjer Presto Federated Queries
Pretpostavimo bilo koji RDBMS s uzorkom tablice1
I POSTOJI s uzorkom tablice2,
'Testdb' je baza podataka u košnici i u MYSQL-u. Pomoću Presto-a možemo procijeniti podatke pomoću jednog upita nakon što su njihovi konektori ispravno konfigurirani kao što je prikazano dolje -
presto> hive.Testdb.sample2
Funkcija (odaberite / Grupiraj po ..etc)> mysql.Testdb.sample1
- Spark SQL arhitektura se sastoji od Spark SQL, sheme RDD i okvira podataka
- Okvir podataka je zbirka podataka; podaci su organizirani u imenovane stupce. Tehnički je to isto kao i tablice s relacijskim bazama podataka.
- Shema RDD: Spark Core sadrži posebnu strukturu podataka koja se naziva RDD. Spark SQL radi na shemama, tablicama i zapisima. Prema tome, korisnik može koristiti shemu RDD kao privremenu tablicu. Tako korisnik može nazvati ovaj RDD sheme kao okvir podataka
- Mogućnosti podatkovnog okvira: okvir podataka obrađuje podatke u veličini od Kilobajta do Petabajta na jednom čvorničkom klasteru u više klasterskih čvorova,
- Data Frame podržava različite formate podataka (CSV, elasticsearch, Cassandra itd.) I sustave pohrane (HDFS, HIVE tablice, MySQL itd.), Može se integrirati u sve Big Data alate / okvire putem Spark-Core-a i pruža API za jezike poput Programiranje Python, Java, Scala i R.
- Dok je Presto distribuirani motor, radi na postavljanju klastera. Presto arhitektura je jednostavna za razumijevanje i proširiva. Presto klijent (CLI) šalje SQL izjave glavnom daemon koordinatoru koji upravlja obradom.
- Tvrtke koje koriste Presto: Facebook, Netflix, Airbnd, Dropbox itd.
- Slučajevi korištenja varnica Apache mogu se naći u industrijama poput financija, trgovine, zdravstva i putovanja itd. Mnoge web stranice e-trgovine poput eBay, Alibaba, Pinterest koriste Spark SQL za analizu stotina petabajta podataka na njegovoj platformi za e-trgovinu.
Usporedba Tablica iskre SQL vs Presto
Ispod je gornja usporedba između SQL-a i Presto-a
Osnove usporedbe između SQL-a i Presto-a | odmah | Spark SQL |
Eko-sustavi / platforme | Hadoop, velika obrada podataka itd | Spark Framework, velika obrada podataka itd |
Svrha | Presto je dizajniran za pokretanje SQL upita preko velikih podataka (ogromno opterećenje). Nju je osmislio Facebook za obradu njihovih ogromnih opterećenja. | Spark SQL jedna je od komponenti Apache Spark Core. Spark Core je temeljni motor izvedbe za platformu iskre |
Postaviti |
|
|
Sposobnosti / značajke | Presto dopušta pretraživanje podataka o mnogim izvorima podataka; Na primjer, podaci mogu biti u spremištima podataka: košnica, Cassandra, RDBMS i nekim drugim vlasničkim spremištima podataka. | Spark SQL pruža fleksibilnost u integraciji s drugim izvorima podataka koristeći podatkovne okvire i JDBC konektore. |
Podrška za priključke | Presto podržava utikače. Ovi konektori pružaju skupove podataka za upite.
Ispod je nekoliko postojećih konektora dostupnih u sustavu Presto, dok Presto pruža mogućnost povezivanja i s prilagođenim konektorima.
| Sučelje Data Frame omogućava različitim izvorima podataka da rade na Spark SQL-u. Spark SQL uključuje poslužiteljski način rada sa standardnim JDBC i ODBC povezivanjem. |
Federativni upiti | Presto podržava federalne upite. Presto se može konfigurirati za povezivanje s različitim DB-ima i nakon toga ih konfigurirati; njegov CLI može se koristiti za pokretanje "Federated Queries". U jednom Presto upitu korisnik može kombinirati podatke iz više izvora podataka i pokrenuti upit. | Spark SQL dolazi s ugrađenom značajkom za povezivanje s drugim bazama podataka pomoću JDBC koja je "JDBC u druge baze podataka", a pomaže u funkciji federacije. Spark stvara okvire podataka koristeći značajku baze podataka JDBC: bazajući pomoću skala / python API-ja, ali također izravno radi sa Spark SQL Thrift poslužiteljem i omogućuje korisnicima da lako ispituju vanjske JDBC tablice bez napora kao i druge tablice košnica / iskre. |
Tko koristi? | Analizatori podataka, Inženjeri podataka, Znanstvenici podataka itd | Analizatori podataka, Inženjeri podataka, Znanstvenici podataka, Spark Developer itd |
Zaključci -Park SQL vs Presto
Spark SQL i Presto, oba su SQL distribuirana motora dostupna na tržištu.
Presto je vrlo koristan kada je riječ o upitima tipa BI, a Spark SQL vodi uspješne rezultate u velikim analitičkim upitima. U usporedbi s konfiguracijom, Presto je postavio jednostavnije od Spark SQL-a. I Spark SQL i Presto stoje podjednako na tržištu i rješavaju različite vrste poslovnih problema.
Preporučeni članak
Ovo je vodič za Spark SQL vs Presto, njihovo značenje, usporedbu "Head to Head", ključne razlike, tablicu usporedbe i zaključak. Možete pogledati i sljedeće članke da biste saznali više -
- Apache Spark vs Apache Flink - 8 korisnih stvari koje trebate znati
- Apache Hive vs Apache Spark SQL - 13 nevjerojatnih razlika
- Najbolje 6 usporedba između Hadoop Vs SQL-a
- Hadoop vs Teradata - Vjerojatne razlike