Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? · Oracle Hadoop Connector InﬁniDB Kylin....

Hans-Peter Zorn | Inovex GmbH

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

War nicht BigData das gleiche NoSQL?

Data Lake = Keine Struktur?

flickr/matthewthecoolguy

Oder gar ein Hadump?

flickr/autohistorian

Wie viele SQL Lösungen für Hadoop gibt es mittlerweile?

HivePresto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

IBM BigSQLAster SQL/Mapreduce

Oracle Hadoop ConnectorInfiniDB

Agenda

• Warum SQL, Anwendungfälle

• Überblick Hive

• Wie kann Hive verbessert werden

• SQL-Engines: Welche für was?

• Zusammenfassung

Warum jetzt doch SQL?

• Türöffner zur BigData-Welt

• Kenntnisse weit verbreitet

• Software:Treiber vorhanden

flickr.com/salynaz

Wo wird SQL auf Hadoop eingesetzt?

• ETL

• Adhoc-Analyse

• Reporting

Hive Presto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

Oracle Hadoop Connector InfiniDB

• ursprünglich von Facebook

• Compiliert HiveQL, ein SQL-Dialekt, zu MapReduce-Jobs

• Schema wird separat zu den Daten abgelegt: Metastore

Hive Architektur

Metastore

Hive Server2

Parser, Analyzer, Compiler

Anwender

HadoopHiveQuery

• ETL: gut geeignet

• Ad-hoc: Zu hohe Latenz

• Analytics: Latenz, Sprachumfang ungenügend

Was kann man besser machen? Oder:

Warum ist Hive wie es ist

Hive auf Mapreduce

Rot: Plattenzugriff

Kunden Adressen Käufe Produkte

Map Map

Reduce

Temporärtabelle

Reduce

Reduce-sideJoin

Shuffle

Map-SideJoin

Zieltabelle

Was kann man besser machen?

• Unnötige Maps oder Reduces vermeiden

• Temporärdaten direkt weiterleiten

• Effizientere Datenspeicherung

• Query-Optimierung (cost-based)

• Arbeitsspeicher nutzen

Optimiertes Hive: DAGs

Kunden Adressen Käufe Produkte

Map Map

Reduce

Reduce-sideJoin

Shuffle

Map-SideJoin

Adressen

HivePresto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

IBM BigQueryAster SQL/Mapreduce

MPP (massive parallel processing) Datenbanken

Slave (blackbox)

Master

Slave (blackbox)

HDFS HDFS HDFS

MPP-basiert

HivePresto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

Spalten vs Zeilenorientiert

Stuttgart 597939 D

München 1407836 D

Berlin 3419623 D

London 8308369 GB

Stuttgart München Berlin London

597939 1407836 3419623 8308369

D D D GB

ORC / Parquet• Hortonworks/

Microsoft

• Spaltenindizes, Vektorisierte Queries

• Blöcke von 10.000 Zeilen können über Index übersprungen werden

• Hive Datentypen

• Twitter/Cloudera/Criteo

• Plattform- und Hive unabhängig. (z.b. Pig)

• Verschachtelte Datenstrukturen (Listen, Maps) - Kann ORC auch

No SQL!?

HivePresto

Hive on SparkShark

Hive-on-TezTajo

Lingual

Apache DrillPhoenix

Trafodion Hadapt

BigSQL

CitusDB

Impala

Spark SQL

Splice

Pivotal HAWQ

Stinger initiative

• Hortonworks/Microsoft

• Hive weiterentwickeln

• Geschwindigkeit: Tez, ORC

• SQL-Features, Analytische Queries (OVER)

• Security (GRANT)

Tez und Spark

• YARN: Tez, Spark und Hive nebeneinander

• Tez: Neuer, spezialisierter

• Spark: generischer, viel Monumentum

TEZ HiveSpark

Spark MR

Cloudera Impala• MPP-basiert

• Queries zu nativem Code

• Speicherhungrig, empfohlen 128GB

• keine strukturierten Datentypen

• Zwischenergebnisse müssen in RAM passen (bis Impala 2.0)

Facebooks Presto• MPP-Engine

• Discovery-Server + Worker-Nodes

• Struktur-Datentypen -> JSON

• Hive, Cassandra, MySQL

• Anwendung bei Facebook: Fact-table in Hive, Dimensions in MySQL

• einfaches Deployment

Apache Drill• MapR’s

• Schema-on-Read

• Connectoren für Hive, HBase, JSON, CSV.

• Joins über mehrere Quellen hinweg

• Compliliert Queries zu Java-Byte-Code

• Version 0.5.0

Apache Tajo• MPP-like

• Fokus auf Query-Plan Optimierung, nicht Caching (wie Impala)

• SQL-Abdeckung noch nicht so weit

• In unseren Tests sehr schnell

• Kerberos in Arbeit

stinger.next

• Queries unter einer Sekunde

• MPP-Ähnliche Architektur (LLAP)

• Updates und Transaktionen

• SQL:2011 Analytics

• Sehr neu, entwickelt von eBay

• (M)OLAP Engine

• Aggregate werden in HBase gespeichert

FeaturesImpala Hive 0.14 Presto Drill Tajo

SQL HiveQL HiveQL SQL92 ANSI SQL ?Window-function

nein yes yes no 0.9

Security Sentry Filesystem+ Hive

- - - (Kerbero

File-formats

RC, Parquet, Text, Seq

vielealle von hive +

connectorn

alle von hive +

connectoren

RC, Parquet, Text,Seq

Nested!Data nein ja via JSON ja no

Doch einige Zahlen

50,91&

34,31&

16,69&

30,96&

39,43&

5,25&9,25&

10,00&

20,00&

30,00&

40,00&

50,00&

60,00&

70,00&

Shark&

Shark/Cluster&

Impala&

Presto&

Drill&

Resume I

Schnell

Ausgereift

Connectivity

Sprach- UmfangHive

PrestoImpalaDrill

Tez/Spark

Resumé II• Welche Distribution will ich nutzen?

• Will ich heterogene Datenquellen nutzen (Cassandra, HBase, MySQL)?

• Will ich vorhandene Software anbinden (MicroStrategy, Tableau, SAP)?

• Welche Antwortzeiten brauche ich?

• Welche Datentypen nutze ich?

• Security?

Wer gewinnt also?

• Extrem schnell wachsendes, sich änderndes Umfeld.

• Unübersichtlich

• Keine „One-Size-Fits-All“ Lösung bisher

• Anhand des individuellen Anwendungsfalles zu evaluieren.

Dankeschön! Fragen?

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? · Oracle Hadoop Connector InﬁniDB Kylin....

Documents

Transcript of Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? · Oracle Hadoop Connector InﬁniDB Kylin....

Karlsruhe, 29.09.2015 Sébastien Jelsch - inovex GmbH · Apache Kylin + Mondrian: Die Idee 26 Saiku Apache Kylin HBase, ... OLAP Cubes on Hadoop Sébastien Jelsch Apache Kylin: Roadmap

Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im Internet-Portalbereich tätig Java, Hadoop, verteilte Systeme, Hochverfügbarkeit, SOA, Architektur,

Lucenes Welt - ordnen, finden, klassifizieren - inovex GmbH · PDF fileEbay Kleinanzeigen ... Scala over TCP ... Lucene & Hadoop - Hadoop: parallel processing power - Lucene: dynamic,

Das Apache Hadoop Framework im industriellen Einsatz€¦ · Apache Hadoop (HDP, Spark, Hive, HBase) Maschinelles Lernen (TF, CNTK, Keras) Idee entstand durch Forschungsprojekt und

Hadoop as a Service(HaaaS) auf Basis von Eucalyptus und ...baun-vorlesungen.appspot.com/Abschlussarbeiten/Maximilian_Hoecker... · Hadoop as a Service (HaaaS) auf Basis von Eucalyptus

Oracle hadoop doag-big-data_09_2014_gpi

Hadoop Workflow Automatisierung - ca.com · 4 • WHITE PAPER • HADOOP-WORKFLOW-AUTOMATISIERUNG ca.com SECTION 1 Warum eine Workflow-Engine für Hadoop so wichtig ist In der Welt

Hadoop - Abteilung Datenbanken Leipzigdbs.uni-leipzig.de/file/seminar_1112_frey_ausarbeitung.pdf · 0 Hadoop HDFS und MapReduce Seminararbeit im Modul NoSQL-Datenbanken Bachelorstudiengang

Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

Hadoop DI Benchmark

Big Data mit Hadoop - SAS: Analytics, Artificial ...€¦ · 1 . Big Data mit Hadoop – Einstieg und Überblick Den Wert von Big-Data-Analytics-Projekten stellt heute niemand mehr

Getting business-relevant insights from machine data with Splunk and Hadoop

ORACLE UND HADOOP - doag.org · oracle.hadoop.exttab.ExternalTable \ -D oracle.hadoop.exttab.hive.tableName=ext_ora_audit_gpi \ -D oracle.hadoop.exttab.hive.databaseName=default ...

New Stinger GT - kiapress.ch · Velours Fussmatten, 4-teilig mit «GT»-Logo 110.– Allwetter Gummimatten, 4-teilig mit «Stinger»-Logo 90.– Kofferraummatte 100.– Laderaumwanne,

Big Data und Hadoop Hadoop-turbo dreht im Data Warehouse auf · lichkeiten anzupassen, um so den Anforderungen von morgen ge-wachsen zu sein. Big Data, also die Analyse großer und

Datenanalyse mit Hadoop - Entwicklertag · 2016. 1. 11. · 2 Agenda Hadoop –Intro Map/Reduce –Parallelisierung des Datenflows Exkurs: M/R mit Java, Python, Pig Aufbereitung der

Hadoop ist die Zukunft€¦ · Geschichte •0.x: Implementierung von Google‘s MapReduce, HDFS •1.x: Performance-Änderungen •2.x: Einführung von Yarn, Hadoop entwickelt sich

Hadoop - Abteilung Datenbanken Leipzig · 0 Hadoop HDFS und MapReduce Seminararbeit im Modul NoSQL-Datenbanken Bachelorstudiengang Informatik Universität Leipzig JOHANNES FREY UNTER

MapReduce mit Hadoop - ChristianHerta · 08.11.12 2 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API

Benchmark zur Hadoop-Integration - info.talend.com · Benchmark zur Hadoop-Integration Produktprofil und -auswertung: Talend und Informatica . von William McKnight und Jake Dolezal