Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce...

25
1 Die Themen 09:30 - 09:45 Einführung in das Thema (Oracle) 09:45 - 10:15 Hadoop in a Nutshell (metafinanz) 10:15 - 10:45 Hadoop Ecosystem (metafinanz) 10:45 - 11:00 Pause 11:00 - 11:30 BigData Architektur-Szenarien im Kontext des Data Warehouse (Oracle) 11:30 - 12:00 Hadoop & SQL (metafinanz) 12:00 - 12:45 Mittagpause 12:45 - 13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle) 13:15 - 13:45 Vorgehen Projekt (metafinanz) 13:45 - 14:00 Gemeinsamer Abschluss "Fragen und Optionen"

Transcript of Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce...

Page 1: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

1

Die Themen

09:30 - 09:45 Einführung in das Thema (Oracle)

09:45 - 10:15 Hadoop in a Nutshell (metafinanz)

10:15 - 10:45 Hadoop Ecosystem (metafinanz)

10:45 - 11:00 Pause

11:00 - 11:30 BigData Architektur-Szenarien

im Kontext des Data Warehouse (Oracle)

11:30 - 12:00 Hadoop & SQL (metafinanz)

12:00 - 12:45 Mittagpause

12:45 - 13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle)

13:15 - 13:45 Vorgehen Projekt (metafinanz)

13:45 - 14:00 Gemeinsamer Abschluss "Fragen und Optionen"

Page 2: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

2

Step 0: Bestehende Analyse-Plattform

Oracle

Database

Acquire Organize Analyze Decide

• Dashboard

• Ad-Hoc Query Oracle BI

Enterprise

Edition

High Density

Data

Page 3: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

3

Step 1: Tiefergehende Analyse der bestehenden Daten (Advanced Analytics)

Oracle

Database

Acquire Organize Analyze Decide

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

High Density

Data

Spatial and

Graph

Advanced

Analytics

Oracle BI

Enterprise

Edition

Page 4: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

4

Step 2: Neue Techniken für “Volume and Variety”

Oracle

Database

Acquire Organize Analyze Decide

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

• Beziehungen

• Meinungen

• Aktivitäten

High Density Data

Hadoop

Oracle BI

Enterprise

Edition

Aggregate

Pre-Analyze

Low Density

Batch Data Spatial and

Graph

Advanced

Analytics

Page 5: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

5

Step 3: Neue Techniken für “Velocity”

Acquire Organize

High Density

Data

Oracle

Database

Oracle BI

Enterprise

Edition Hadoop

Low Density

Batch Data

Analyze Decide

Aggregate

Pre-Analyze

Streaming Data

Real Time

Decisions Event

Processing

Act

Model

Spatial and

Graph

Advanced

Analytics

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

• Beziehungen

• Meinungen

• Aktivitäten

• Empfehlungen

• Aktionen

Page 6: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

6

Real Time

Decisions

Step 4: Neue Muster finden / Analysieren

Acquire Organize

High Density

Data

Oracle

Database

Oracle BI

Enterprise

Edition Hadoop

Low Density

Batch Data

Analyze Decide

Aggregate

Pre-Analyze

Event

Processing

Act

Model

Spatial and

Graph

Advanced

Analytics

Endeca Information Discovery

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

• Beziehungen

• Meinungen

• Aktivitäten

• Empfehlungen

• Aktionen

• Neue Aspekte

entdecken

Streaming Data

Page 7: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

7

Hadoop oder relationale Datenbank?

Entwicklungsreife der Werkzeuge

Performance der Datenverarbeitung

Security

Die Fähigkeit Daten schnell entgegen zu

nehmen

Wirtschaftlichkeit bei der Speicherung von

Low Value Daten

Die „Leichtigkeit“ ETL-Prozesse zu bauen

Vollständigkeit der Quelldaten

(zu viele Lücken oder nicht)

Unterschiedlichkeit der Datenstrukturen

Komplexität des Datenmanagements

Daten

verstehen

Daten

Business

verstehen

Deploy-

ment

Daten

auf-

bereiten

Modelle

bilden

Modelle

prüfen

Page 8: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

8

Hadoop oder relationale Datenbank?

Extrem schnelle Laden der Daten in einen

Hadoop-Data Store. Daten werden praktisch

ohne näheren Struktur-Syntax-Check einfach

„abgekippt“.

Bei Änderung der Quelldaten-Strukturen, kaum

Einfluss auf ETL-Strecken

(die Änderungen muss nur das Lesen

berücksichtigen).

Das Map Reduce Framework arbeitet massiv

parallel. Die geringe Strukturierung der Daten

kommt dieser hohen Parallelisierung sehr

entgegen.

Überschaubaren Kosten für Storage und

Rechenleistung für die z. T. sehr hohen

Datenmengen.

Vorteile auf beiden Seiten

Sind strukturiert und ermöglichen „Schema on

Write“,

also Prüfung von Daten im Zuge der

Speicherung.

Hohe Zahl gut entwickelter Werkzeugen für

einfache, reibungslose und performante

Verarbeitung bzw. Datenanalyse.

Anwender können ohne besondere Hürden mit

einfachen Zugriffen auf einem standardisierten

Datenmaterial ad hoc und multidimensional

analysieren.

Daten sind i. d. Regel qualitätsgesichert,

überprüft und die Analyseverfahren sind erprobt.

Relationale Systeme Hadoop

Page 9: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

9

Unternehmen adaptieren Technologie in Phasen

Hadoop-Systeme

in separaten Projekten

parallel neben RDBMS

Erfahrungen sammeln

Zugriffsbarriere mit SQL

Überwinden

-> Beschäftigung mit

Hive / HiveQL

-> Performarmance-

Fragen

1) Zentrales DWH und

klassisches ETL

Hadoop wird als Vorsystem

begriffen

2) BI – Tool zieht Daten aus beiden

Welten: Konsolidierte Sicht

3) Führendes Hadoop-System

zieht Daten verschiedenen

Quellen ab

Ein zusammenhängendes

System ohne die jeweiligen

Nachteile

Single Logical

System Master

Access

Parallel

Deployment System

Reife

Geschäft-

licher

Nutzen

3

1

2

Page 10: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

10

Ziel-Szenario / Technische Komponenten

• HADOOP und RDBMS im technischen

Verbund

(auch bezogen auf Hardware)

• SQL als durchgängige Access-Sprache

• Durchgängige Verwaltungsschicht

-> Wo liegen welche Daten

-> Metadaten-Information

Page 11: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

11

Architekturen und Szenarien

User View

Enterprise Information

Harmonisierung

Prüfen

Stammdaten

Referenzdaten

Umsätze / Fakten

Integration

Inte

rne D

ate

n

Ex

tern

e D

ate

n

Reporting & Publishing

Interactive Dashboards

HDFS

Relational Database Oracle 12c (DWH)

noSQL DB

Map Reduce Framework

Klassisches BI

Produkte

Kunden Lieferanten

Mitarbeiter

Lager

Verkäufe

Buchhaltung

Log Files

Web-Clicks

Mails

Call-Center

Verträge

Berichte

Kurse

Webservices

Kaufdaten

SQL

Hodoop Loader

Predictive

Analytics &

Mining

Sandbox

Guide Search &Experiences

H a d o o p

Kennzahlen

Realtime

Decision

Event

Processing

Realtime

Decisions

Page 12: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

12

Architekturen und Szenarien

User View

Enterprise Information

Harmonisierung

Prüfen

Stammdaten

Referenzdaten

Umsätze / Fakten

Integration

Inte

rne D

ate

n

Ex

tern

e D

ate

n

Reporting & Publishing

Interactive Dashboards

HDFS

Relational Database Oracle 12c (DWH)

noSQL DB

Map Reduce Framework

Klassisches BI

Produkte

Kunden Lieferanten

Mitarbeiter

Lager

Verkäufe

Buchhaltung

Log Files

Web-Clicks

Mails

Call-Center

Verträge

Berichte

Kurse

Webservices

Kaufdaten

SQL

Hodoop Loader

Predictive

Analytics &

Mining

Sandbox

Guide Search &Experiences

H a d o o p

Kennzahlen

Realtime

Decision

Event

Processing

Realtime

Decisions

Page 13: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

13

Oracle’s technische Komponenten

Exalytics

Oracle Database

Oracle Advanced Analytics

Oracle BI

Exadata Oracle Big Data Appliance

Oracle Big Data

Connectors

Cloudera Hadoop

MapReduce HDFS

Oracle NoSQL

Database

Streamed into

HDFS using

Flume

Web Logs

Endeca Information Discovery

Load Session&

Activity Data

Load

Recommendations

Customer Profile Real-Time

Decisions

Site Activity

Recommendations

Acquire/Organize Analyze Stream Decide

Page 14: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

14

Oracle SQL Connector for Hadoop

Low-latency SQL Queries aus der Datenbank heraus

und direkt auf Hive Tabellen

Automatische External Table Erstellung für Hive Zugriffe

und für generierte Data Pump Files

Automatisches Mapping von External Table Definitionen aus Data Files

Verschieben von Datenbeständen

HDFS

noSQL DB

Map Reduce Framework

H a d o o p

SQL

Relational Database Oracle 12c

External Table

Hive

B e l i e b i g e

A n a l y s e n

Page 15: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

15

Oracle R Connector for Hadoop

HIVE Tables als Data Source für R-Analysen

Transparent er Support für Sprache R auf HIVE Tabellen

Inkrementelle Abfrage-Erstellung

Modell-Erstellung in Hadoop =>

Anwenden des Modells in der Oracle-Datenbank

R script

{CRAN

packages} R HDFS

R sqoop

R MapReduce

R Client

ORD

Hadoop Cluster (BDA)

HDFS

Nodes

Oracle Database

MapReduce

Nodes

{CRAN

packages} Mapper

Reducer

Hadoop Job

Big Data

Appliance

Page 16: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

16

Oracle R Enterprise – Predictive Analytics

R Engine Other R

packages

Oracle R Enterprise packages

User R Engine

User tables

Oracle Database SQL

Results

Database Server Maschine

R Engine Other R

packages

Oracle R Enterprise packages

R Engine(s) managed by Oracle DB

R

Results

Hadoop Cluster (BDA)

HDFS

Nodes

MapReduce

Nodes

Lineare Modelle

Clusterung

Segmentierung

Neuronale Netze

Page 17: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

17

Sensor_Daten

SATZNR MESSZEITPUNKT STUECKNR DREHZAHL WATT TEMPERATUR

499994 30.04.2008 11:04:55 5000 1031 1094 139

499995 30.04.2008 11:05:16 5000 991 1315 159

499996 30.04.2008 11:05:37 5000 1030 1284 205

499997 30.04.2008 11:05:58 5000 882 1182 186

499998 30.04.2008 11:06:18 5000 818 1406 204

S-NR PAT SATZNR DREHZAHL WATT °C

8 1 720 1040 1547 252

46 1 4531 1021 1530 250

46 2 4534 1048 1548 247

63 1 6220 1033 1524 248

69 1 6882 1031 1514 252

105 1 10426 1040 1527 247

118 1 11728 1035 1528 249

145 1 14414 1047 1543 248

156 1 15504 1037 1535 248

160 1 15910 1032 1527 255

Pattern

MATCH_RECOGNIZE

Drehzahl Strom Temperatur

Muster:

Gemeinsames Überschreiten

von Grenzwerten

ore.connect.....

cor.matrix <- cbind(Drehzahl,

Watt,Temperatur)

rcorr(cor.matrix)

R-Analyse

Mustererkennung komplett in der Datenbank Abhängigkeiten von Event-Folgen

Page 18: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

18

Zusammenhänge in zeitlichen Verläufen erkennen

Satzübergreifende Analysen

Große Datenmengen

Hohe Abfrageperformance

Keine Programmierung

Page 19: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

19 19

Oracle

Exadata

Oracle

Exalytics

Oracle Big Data Platform

Stream Acquire Organize Discover & Analyze

Oracle Big Data

Appliance

Oracle

Big Data

Connectors Optimized for

Analytics & In-Memory Workloads

“System of Record”

Optimized for DW/OLTP

Optimized for Hadoop,

R, and NoSQL Processing

Oracle Enterprise

Performance Management

Oracle Business Intelligence

Applications

Oracle Business Intelligence

Tools

Oracle Endeca Information

Discovery

Embeds Times Ten

Hadoop

Open Source R

Applications

Oracle NoSQL

Database

Oracle Big Data Connectors

Oracle Data Integrator

In-D

ata

bas

e A

naly

tics

Data

Warehouse

Oracle

Advanced

Analytics

Oracle

Database

Oracle Event

Processing

Real Time

Decisions

Page 20: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

20

Big Data Appliance Hardware + Software Full Rack Configuration

Hardware

216 Intel® Xeon® Processors

864 GB total memory

48 GB per node

648TB total raw storage

capacity

216 3TB 7200RPM Drives

40Gb/sec InfiniBand Network

10Gb/sec Data Center

Connectivity

Software

Cloudera CDH

Cloudera Manager

Oracle Enterprise Manager Grid

Control Plug-In for BDA

NoSQL DB Community Edition

Open Source R

Page 21: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

21

Big Data Hardware – Business As Usual

Physische

Installation

(10 Racks)

Elektriker

Netzwerk

Engineers

Storage

Engineers

System

Admins

286 Stunden 236 Stunden,

616 Kabel

264 Stunden,

864 Kabel

320 Stunden,

576 Kabel

232 Stunden

Gesamt: 1338 Personen-Stunden, 677 Zeit-Stunden, 2344 Kabel

Page 22: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

22

Oracle Big Data Appliance Installation

38 vs. 1306 Pers.Std.

19 vs. 677 Zeit-Std.

46 vs. 2344 Kabel

vs.

Physische

Installation

(10 Racks)

Elektriker

Netzwerk

Engineers

Storage

Engineers

System

Admins

286 Stunden 236 Stunden,

616 Kabel

264 Stunden,

864 Kabel

320 Stunden,

576 Kabel

232 Stunden

16 Stunden 16 Stunden,

32 Kabel

6 Stunden,

14 Kabel

Nicht nötig Nicht nötig

Page 23: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

23

Zusammenfassung

User View

Enterprise Information

Harmonisierung

Prüfen

Stammdaten

Referenzdaten

Umsätze / Fakten

Integration

Inte

rne D

ate

n

Ex

tern

e D

ate

n

Reporting & Publishing

Interactive Dashboards

HDFS

Relational Database Oracle 12c (DWH)

noSQL DB

Map Reduce Framework

Klassisches BI

Produkte

Kunden Lieferanten

Mitarbeiter

Lager

Verkäufe

Buchhaltung

Log Files

Web-Clicks

Mails

Call-Center

Verträge

Berichte

Kurse

Webservices

Kaufdaten

SQL

Hodoop Loader

Predictive

Analytics &

Mining

Sandbox

Guide Search &Experiences

H a d o o p

Kennzahlen

Realtime

Decision

Event

Processing

Realtime

Decisions

Page 24: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

24

Die Themen

09:30 - 09:45 Einführung in das Thema (Oracle)

09:45 - 10:15 Hadoop in a Nutshell (metafinanz)

10:15 - 10:45 Hadoop Ecosystem (metafinanz)

10:45 - 11:00 Pause

11:00 - 11:30 BigData Architektur-Szenarien

im Kontext des Data Warehouse (Oracle)

11:30 - 12:00 Hadoop & SQL (metafinanz)

12:00 - 12:45 Mittagpause

12:45 - 13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle)

13:15 - 13:45 Vorgehen Projekt (metafinanz)

13:45 - 14:00 Gemeinsamer Abschluss "Fragen und Optionen"

Page 25: Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce Framework Predictive Klassisches BI Produkte Kunden Lieferanten Mitarbeiter Lager Verkäufe

25