Hadoop Eine Erweiterung für die Oracle DB? - doag.org · Oracle Certified Professional Exadata...

33
Hadoop Eine Erweiterung für die Oracle DB? Nürnberg, 18.11.2015, Matthias Fuchs Sensitive

Transcript of Hadoop Eine Erweiterung für die Oracle DB? - doag.org · Oracle Certified Professional Exadata...

Hadoop Eine Erweiterung für die Oracle DB?

Nürnberg, 18.11.2015, Matthias Fuchs

Sensitive

Über mich

10+ Jahre Erfahrung mit Oracle

Oracle Certified Professional

Exadata Certified

Oracle Engineered Systems

• Exadata

• Exalytics

• Big Data

• Exalogic

DWH, Hadoop, Monitoring, Audit

Senior Solution Architect [email protected]

Twitter: @hias222

Copyright © Capgemini 2015. All Rights Reserved

3 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop

Copyright © Capgemini 2015. All Rights Reserved

4 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop

Capgemini – eine starke Gruppe

Umsatz nach Branchen* Umsatz nach Geschäftsbereichen*

Telecom, Media

& Entertainment

Other Managed

Services

Local

Professional

Services

Consulting Services

Application

Services

Energy, Utilities

& Chemicals

Others

Public Sector

Manufacturing,

Automotive &

Life Sciences

14%

4%

7% 19%

16%

23%

4%

58% 23%

15%

“Cap Gemini S.A.” ist im CAC 40 gelistet;

Paris, ISIN code: FR0000125338

Unsere Marke ist Capgemini, an der Pariser Börse sind

wir unter “Cap Gemini S.A.” gelistet.

Financial

Services

Copyright © Capgemini 2015. All Rights Reserved

5 Hadoop_DB_Erweiterung_15_11.pptx

17%

Customer Products,

Retail, Distribution &

Transportation

Operative Marge : 970 Mio. €

Operativer Gewinn : 853 Mio. €

Jahresgewinn : 580 Mio. €

Netto-Barmittel und bargleiche Mittel : 1.22 Mrd. €

Umsatz 2014: 10,57 Mrd. €

* Stand: 1. Halbjahr 2015 * Stand: 1. Halbjahr 2015

In über 40 Ländern engagieren sich 180.000 Mitarbeiter für unsere Kunden (Stand Juli 2015)

Kanada

USA

Mexico

Brasilien

Argentinien

Europa

Marokko

Australien

China

Indien

Chile

Guatemala

Singapur

Philippinen

Taiwan

Vereinigte Arabische

Emirate

Mitarbeiter Offshore 96.000

Malaysia

Neuseeland

Japan

Südafrika

Kolumbien

Vietnam

Copyright © Capgemini 2015. All Rights Reserved

6 Hadoop_DB_Erweiterung_15_11.pptx

Capgemini kombiniert seine hohe fachliche Kompetenz mit fundiertem Branchen-Know-how

Ausgewählte Referenzkunden

Copyright © Capgemini 2015. All Rights Reserved

7 Hadoop_DB_Erweiterung_15_11.pptx

Automotive Public Sector

Telecom, Media & Entertainment

Manufacturing, Retail &

Distribution

Financial Services

Energy, Utilities & Chemicals

Copyright © Capgemini 2015. All Rights Reserved

8 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop

Warm up – Beispiel Uber Architektur

Copyright © Capgemini 2015. All Rights Reserved

9 Hadoop_DB_Erweiterung_15_11.pptx

Quelle: http://de.slideshare.net/databricksspark-meetup-at-uber

Warm up – Oracle and Cloudera

Copyright © Capgemini 2015. All Rights Reserved

10 Hadoop_DB_Erweiterung_15_11.pptx

RDBMS

Warm up

Copyright © Capgemini 2015. All Rights Reserved

11 Hadoop_DB_Erweiterung_15_11.pptx

Quelle: http://de.slideshare.net/databricks/spark-meetup-at-uber

RDBMS

Copyright © Capgemini 2015. All Rights Reserved

12 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop

Hadoop Überblick

Copyright © Capgemini 2015. All Rights Reserved

13 Hadoop_DB_Erweiterung_15_11.pptx

Storage Layer

Filesystem (HDFS)

Resource Management YARN + MapReduce

Processing Layer

Big Data SQL

Hadoop Überblick

Copyright © Capgemini 2015. All Rights Reserved

14 Hadoop_DB_Erweiterung_15_11.pptx

Hive

MapReduce Spark* Tez

Hadoop Storage HDFS HBase, Kudu **

HA

WQ

Imp

ala

Drill

Processing Layer

SQL Queries

SQL Engines Auswahl

Storage Managers

* Spark SQL über Hive, Hive Spark nicht für Produktion ** Kudu beta

Big

Da

ta S

QL

Query HCatalog

SerDes OTA4H

Hadoop

External Tools

Process Engines

Copyright © Capgemini 2015. All Rights Reserved

15 Hadoop_DB_Erweiterung_15_11.pptx

General Purpose Processing Frameworks, Apache Projekte

• MapReduce Erstes Process Framework auf Hadoop, Batchverarbeitung

• Tez schneller als MapReduce, interaktive Datenverarbeitung, in Memory Verarbeitung, Integration in YARN

• Spark Performance ähnlich Tez, auch Standalone möglich

• Weitere wie z.B. Flink – Humboldt Uni Berlin

Auf Basis der Engines laufen viele SQL Frameworks, das wichtigste Hive

Es gibt auch SQL Frameworks mit eigener Process Engine wie z.B. Impala

Copyright © Capgemini 2015. All Rights Reserved

16 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop

Beispiel Hadoop Auslagern von Rechenlast

Copyright © Capgemini 2015. All Rights Reserved

17 Hadoop_DB_Erweiterung_15_11.pptx

Mit Oracle Big Data SQL/Connectoren

Copyright © Capgemini 2015. All Rights Reserved

18 Hadoop_DB_Erweiterung_15_11.pptx

Details

Oracle Big Data SQL

Aggregates

Part Demands

Vorteile Oracle Integration Hadoop - Datenbank

Copyright © Capgemini 2015. All Rights Reserved

19 Hadoop_DB_Erweiterung_15_11.pptx

Big Data SQL

Big Data Appliance

Exadata (!)

Datenfluss mit

Oracle Table Access for Hadoop and Spark (OTA4H)

Big Data SQL

Ein Einstiegspunkt

Sicherheit Analog Datenbank

Höhere Performance durch Verwendung optimierter Zugriffslayer

Keine Änderungen in der Applikation

Copyright © Capgemini 2015. All Rights Reserved

20 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop

Big Data SQL und Hadoop

Copyright © Capgemini 2015. All Rights Reserved

21 Hadoop_DB_Erweiterung_15_11.pptx

Oracle Big Data SQL

Cloudera

Hadoop

NOSQL

R Advanced

Analytics

Exadata

Advanced

Analytics

Advanced

Security

Connectors

ODI

Was ist Big Data SQL?

Copyright © Capgemini 2015. All Rights Reserved

22 Hadoop_DB_Erweiterung_15_11.pptx

CREATE TABLE OEM_DATA (target_name VARCHAR2(4000), target_guid ….. key_value6 VARCHAR2(4000), collection_timestamp VARCHAR2(4000)) ORGANIZATION EXTERNAL

(TYPE ORACLE_HIVE

DEFAULT DIRECTORY DEFAULT_DIR

ACCESS PARAMETERS (

com.oracle.bigdata.cluster=bigdatalite

com.oracle.bigdata.tablename=default.oem_data)

) ;

Externe Tabelle

Hive

HDFS

DBMS_HADOOP Paket für Automatischen Import

Schema-for-read

Parallelität

Big Data SQL - Schritte

Copyright © Capgemini 2015. All Rights Reserved

23 Hadoop_DB_Erweiterung_15_11.pptx

Detail

Use scan and row methods to query “any” data format

• Smart Scn

• Storage Index

Use data definition and column deserializations as exist in Hadoop

RecordReader => Scans data (keys and values)

InputFormat => Defines parallelism

SerDe => Makes columns

Metastore => Maps DDL to Java access classes

Third level

Übersicht

Data Node

Scan

Create Rows and Columns

Big Data SQL

Oracle and Hadoop – Big Data SQL

Copyright © Capgemini 2015. All Rights Reserved

24 Hadoop_DB_Erweiterung_15_11.pptx

Big Data SQL

1.x - 2014

Erste Version mit Smart Scan auf Hadoop und NoSQL

Optimierte Joins - Bloom filter mit Hadoop Daten

Fan-out Parallelität auf Hadoop

2.0 – 09/2015

Storage Indexes für Big Data SQL

Reduzierter IO – auslassen von HDFS Blöcken aufgrund des Storage Index

Minimierung User Administration

Future

Optimizer – Columnar – Parquet – Partition pruning - Exadata?

Copy To BDA

Copyright © Capgemini 2015. All Rights Reserved

25 Hadoop_DB_Erweiterung_15_11.pptx

• Big Data Appliance and Exadata?

• Export data pump file aus der Datenbank

• Kopieren des Files auf die BDA (hdfs put)

• Externe Tabelle in Hive einrichten auf das Data Pump File

• Abfrage als Hive Tabelle

Oracle Table Access for Hadoop and Spark (OTA4H)

Copyright © Capgemini 2015. All Rights Reserved

26 Hadoop_DB_Erweiterung_15_11.pptx

CREATE[TEMPORARY] EXTERNAL TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENTcol_comment],...)] [COMMENT table_comment] STORED BY 'oracle.hcat.osh.OracleStorageHandler' [WITHSERDEPROPERTIES(...)] [TBLPROPERTIES (property_name=property_value,...)]

OTA4H

AD Hoc Abfragen, direkte Abfragen

Security Features der Datenbank bleiben erhalten Management, Column Masking, and Label and Row Security.

Direkter Zugriff von Hadoop and Spark APIs sowie bei Tools wie Pig oder MapReduce

Oracle SQL Connector for HDFS

Copyright © Capgemini 2015. All Rights Reserved

27 Hadoop_DB_Erweiterung_15_11.pptx

Connetoren

Daten Data Pump files in HDFS Delimited text files in HDFS Delimited text files in Apache Hive tables Systeme BDA Hadoop Apache Cluster

Mehr Connectoren

Copyright © Capgemini 2015. All Rights Reserved

28 Hadoop_DB_Erweiterung_15_11.pptx

• Oracle Loader for Hadoop

Daten nach Hadoop Laden (ODI)

• Oracle XQuery for Hadoop:

Auswertung XML Queries in Parallel Hadoop

• Oracle R Advanced Analytics for Hadoop

R analog wie in der DB in Hadoop

• Oracle Data Integrator

Jobs können im Hadoop Cluster laufen

Copyright © Capgemini 2015. All Rights Reserved

29 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop

Demo BDA and Exadata

Copyright © Capgemini 2015. All Rights Reserved

30 Hadoop_DB_Erweiterung_15_11.pptx

DB

HDFS

HIVE

Big Data

SQL

BDA Exadata

Generating CSV Files, DB Monitoring DATA

Load

Copyright © Capgemini 2015. All Rights Reserved

31 Hadoop_DB_Erweiterung_15_11.pptx

DB

HIVE

External

Table Big

Data

SQL

BDA Exadata

Calculation

Copyright © Capgemini 2015. All Rights Reserved

32 Hadoop_DB_Erweiterung_15_11.pptx

DB

HIVE

External

Table

BDA

Exadata

2. Hash creation

inside BDA

1. Hash creation

inside EXA

The information contained in this presentation is proprietary.

Copyright © 2015 Capgemini. All rights reserved.