Download - BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

Transcript

Page 1: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

REWE Systems GmbH | Jonas Freiknecht inovex GmbH | Bernhard Schäfer

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATENBUSINESS ANALYTICS DAY | 08.03.2017

Page 2: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

AGENDA

1 / Vorstellung REWE Systems GmbH und inovex GmbH

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 2

KENNZAHLEN DER REWE SYSTEMS

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 3

Page 4: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

VORSTELLUNG INOVEX GMBH

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 4

inovex ist ein IT-Projekthaus für die Digitale Transformation:

‣ Agile Development & Management

‣ Web · UI/UX · Replatforming · Microservices

‣ Mobile · Apps · Smart Devices · Robotics

‣ Big Data & Business Intelligence Platforms

‣ Data Science · Data Products · Search · Deep Learning

‣ Data Center Automation · DevOps · Cloud · Hosting

‣ Trainings & Coachings

Wir nutzen Technologien,

um unsere Kunden glücklich

zu machen. Und uns selbst.

inovex gibt es in

Karlsruhe · Pforzheim ·

München · Köln · Hamburg.

Und natürlich unter

www.inovex.de

Page 5: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

AGENDA

2 / Big Data @ REWE

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 5

Page 6: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

IT-EINSATZ IM MARKT 2010

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 6

Page 7: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

IT-EINSATZ IM MARKT VON HEUTE

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 7

Page 8: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

BIG DATA @ REWE SYSTEMS – DAS „WARUM“

Konsolidierung der Daten und Werkzeuge

� Zusammenführen der Vielzahl an Datenquellen (Data Lake)� Längere Vorhaltezeit der Rohdaten und Aggregate� Abteilungsübergreifende Standard Tools

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 8

Entlastung des Mainframes

� Auslagerung rechenintensiver Jobs nach Hadoop (ETL Offloading)

� Vorverarbeitung der Daten in Hadoop� Vermeidung teurer explorativer Datenanalysen auf dem Mainframe

Erschließung neuer Use Cases

� Analysen über eine Vielzahl von Datenquellen (Apache Drill)� Skalierbares Machine Learning (Apache Spark)� Vorgefertigte Analyse-Templates für Fachanwender (Apache Zeppelin)

Page 9: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

BIG DATA @ REWE SYSTEMS – HISTORIE

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 9

Aufbau der

Staging-Cluster

MapReduce Jobs in Produktion für

(E)TL von Versorgerdaten

Umsetzung erster Spark-

Anwendung (Spark 1.1)

Produktivierung erster Spark-

Anwendung (Spark 1.3)

Einführung interner Hadoop-

Schulungen

12 produktive Anwendungen

Stretch-Cluster über zwei RZs

Schulungen für Fachabteilungen

Okt. 2014

Okt. 2015

Dez. 2015

Juni 2014

Heute 2017Dez. 2014

Page 10: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

AGENDA

3 / Bondatenverarbeitung auf Hadoop

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 10

Page 11: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

BONDATENVERARBEITUNG AUF HADOOP – HINTERGRUND

Anforderung: REWE Group-weite, qualitätsgesicherte Landing-Zone für Bondaten

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 11

Märkte Kassensysteme LandingzoneQualitätssicherung /

DuplikatsprüfungWeiterverarbeitung

Page 12: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

BONDATENVERARBEITUNG AUF HADOOP – ARCHITEKTUR DATA HUB

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 12

ExternalSinks

DataSources

Collection

Spark

Executor

Ingestion Storage

IndexIndex

TransaktionenTransaktionen

AggregateAggregate

StammdatenStammdaten

Batch Processing

Aggregation

Master DataImport

Weiter-verarbeitung

AdhocAnalysen

Analytics Frontend

Application

WarenwirtschaftAnwendungen

Zeppelin

Page 13: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

BONDATENVERARBEITUNG AUF HADOOP – SPARK STREAMING UI

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 13

� Pro Event ~ 200 Transaktionen � ~ 2400 Transaktionen pro Sekunde� ~ 70 Mio. Transaktionen täglich� ~ 180 GB Rohdaten täglich

Page 14: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

AGENDA

4 / Beispiel Anwendung: Analytics Frontend

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 14

Page 15: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 15

[ Folie entfernt ]

Page 16: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 16

[ Folie entfernt ]

Page 17: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 17

[ Folie entfernt ]

Page 18: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 18

[ Folie entfernt ]

Page 19: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

AGENDA

5 / Lessons Learned

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 19

Page 20: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

LESSONS LEARNED – HADOOP TECHNOLOGIEN

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 20

Spark

� Big Data Swiss Army Knife

� Datenquellen:� JDBC: DB2, …� Strukturierte Dateien in HDFS: CSV, JSON, Parquet, …� NoSQL Datenbanken: HBase

Spark Streaming

� Flexible, robuste und skalierbare Streaming Engine

� Für kritische 24/7 Applikationen sehr viel Detailwissen erforderlich1

1 https://www.inovex.de/blog/247-spark-streaming-on-yarn-in-production/

LESSONS LEARNED – HADOOP TECHNOLOGIEN (2)

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21

HBase

� Skaliert für sehr große Datenmengen

� Höherer Entwicklungssaufwand im Vergleich relationalen DBs

� SQL-Zugriff über Apache Drill möglich

Continuous Integration

� Integrationstests mit Spark Local Mode & HBase Mini Cluster

� Einfache Integration in bestehendes Buildsystem (Quickbuild)

Page 22: BIG DATA IM RETAIL-SEKTOR AM BEISPIEL …...8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 21 HBase Skaliert für sehr große Datenmengen Höherer Entwicklungssaufwand

LESSONS LEARNED – BIG DATA SERVICE @ REWE

Start Simple

� Fokus auf wenige Kernkomponenten aus Hadoop Ökosystem: Spark, HBase, Oozie, (Hive)� Agile Entwicklung� Java anstatt Scala/Python � Vereinfacht die Ausbildung von Big Data Entwicklern

Standardisierung

� Bereitstellung von Java Libraries für etablierte Patterns� Namenskonventionen für HDFS und HBase

Training

� Schulungsprogramm Java Entwickler � Big Data Entwickler� Vermittlung Konzepte über verteilte Systeme� Java 8 Lambda Streams ähnlich zu Spark RDD API

8. März 2017 Big Data im Retail-Sektor am Beispiel Kassenbondaten 22

Wir haben einen Hadoop-Cluster?

… Ja, seit 3 Jahren.

„Tue Gutes und sprich darüber.“