Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im...

70
Hadoop im Unternehmenseinsatz Präsentation von Dirk Schmid und Dr. Stefan Igel

Transcript of Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im...

Hadoop im Unternehmenseinsatz

Präsentation von Dirk Schmid und Dr. Stefan Igel

� Internet affin seit 1997 durch ,einem der zwei ersten Internetprovider Deutschlands.

� Softwarearchitekt bei der 1&1 Mediafactory� Seit 2005 in der Software-Entwicklung im Internet-

Portalbereich tätig� Java, Hadoop, verteilte Systeme, Hochverfügbarkeit,

SOA, Architektur, agile Softwareentwicklung, Internet, Online-Werbung

� Synthesizer und Hammond-Orgeln

[email protected]

Dirk

® 1&1 Internet AG 2012 2

� Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex

� Seit 08/2009 als Business Engineer bei 1&1

� Erstkontakt mit Hadoop 09/2009� Mag spannende Projekte� Tischtennis-Spieler und

Häuslebauer� [email protected]

Stefan

® 1&1 Internet AG 2012 3

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz

® 1&1 Internet AG 2012 4

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz

® 1&1 Internet AG 2012 5

Beispiel 1: WEB.DE

� 1995 gestartet als Internet-Katalog� Eines der größten deutschen Internet-

Portale mit 16,44 Mio. Nutzern/Monat*� WEB.DE FreeMail – beliebtester

deutscher Mail-Dienst mit zahlreichen Sicherheitsfeatures

*Unique User / AGOF internet facts 2011-12

® 1&1 Internet AG 2012 6

� FreeMail Pionier mit leistungsstarken Mail- und Messaging-Lösungen

� 12,75 Mio. Nutzer/ Monat*

� Umfangreiche Portalangebote, Dienste und Online-Services in Deutschland, Österreich und der Schweiz

� Internationale Mail-Angebote in sechs Ländern (A, CH, F, E, UK, USA), auch unter mail.com

*Unique User / AGOF internet facts 2011-12

Beispiel 2: GMX

® 1&1 Internet AG 2012 7

5 Hochleistungs-Rechenzentren auf 2 Kontinenten

� 70.000 Server� 10,67 Mio. Kundenverträge � 30,8 Mio. Free-Accounts� Hosting von 18 Millionen Domains

� Rund 9 Milliarden Seitenabrufe im Monat� Mehr als 5 Milliarden E-Mails pro Monat� 9.000 TByte monatliches Transfervolumen

� Doppelt sicher durch redundante Rechenzentren (Dual Hosting)

� Nahezu 100%ige Verfügbarkeit� Mehrfach redundante Glasfaser-Anbindung� Unterbrechungsfreie Stromversorgung (USV)� Vollklimatisierte Sicherheitsräume bieten

Schutz vor Gas, Wasser und Feuer� Betreuung rund um die Uhr durch

hochqualifizierte Spezialisten

� Betrieb mit grünem Strom

8® 1&1 Internet AG 2012

Hadoop bei 1&1

� Development Romania

� Team Big Data Solutions Development Romania:

Email Search mit Solr und Hadoop

Email Organizer

� Development UIM

� Abteilung Target Group Planning:

Mehrere produktive Hadoop-Cluster

Schwerpunkt Data Mining und Machine Learning

� Abteilung Web.Intelligence:

Produktives Hadoop-Cluster SYNAPSE

Web-Analytics, Logfile-Processing und Datawarehousing

® 1&1 Internet AG 2012 9

Hadoop bei Web.Intelligence

2006

Web-Analytics mit

spalten-orientiertem

Vector-RDBMS

Erste Evaluierung

von Hadoop

2009

2011

01: Hadoop Projekt „Web-Analytics“ beginnt

08: Hadoop-Cluster mit 12 Knoten einsatzbereit

10: Hadoop verarbeitet im produktiven Einsatz

ca. 200.000.000 Datensätze/Tag

05: Cluster-Ausbau auf 20 Knoten

06: Hadoop Projekt „Log-Analytics“ geht live:

1.000.000.000 Datensätze/Tag

2012

® 1&1 Internet AG 2012 10

Web Intelligence – Das Prinzip

BI

Plattform

® 1&1 Internet AG 2012 11

Stammdaten

Bewegungsdaten

Reporting

Datenlieferungen

… aber die Menge macht‘s!

BI

Plattform

Web-Analytics: 240 Files/d

200 GB/d * 90d = 18 TB

Log-Analytics: 1.000 Files/d

2000 GB/d * 30d = 60 TB

® 1&1 Internet AG 2012 12

Die Aufgabenstellung

� Massendaten durch Aggregation, Selektion und Verknüpfung in wertvolle

Informationen zu wandeln.

� Horizontale und damit kostengünstige Skalierbarkeit bezüglich Verarbeitungs- und

Speicherkapazität, um auf wachsende Anforderungen reagieren zu können.

� Multi-Projekt-Fähigkeit, d.h. Speichern und Verarbeiten von Datenbeständen

unterschiedlicher Bedeutung und Herkunft.

� Einsatz einer Standard-Technologie mit breiter Know-how-Basis unter den

Mitarbeitern und in der Open Source-Community.

� Sämtliche granulare Daten des operativen Geschäfts eines Monats vorhalten.

® 1&1 Internet AG 2012 13

Die Lösung: SYNAPSE

DWH

SYNAPSE

Fileserver

SYNAPSE (SYNergetic Analytical Processing and Storage Engine) ist die Architekturkomponente innerhalb der BI-Plattform, die Massendaten Kosten-/Nutzen-gerecht speichern und verarbeiten kann.

® 1&1 Internet AG 2012 14

Question:What advice would you give to enterprises considering Hadoop?

Doug Cutting:I think they should identify a problem that, for whatever reason, they are not able to address currently, and do a sort of pilot. Build a cluster, evaluate that particular application and then see how much more affordable, how much better it is [on Hadoop].

Dougs Ratschlag

15

http://www.computerworld.com/s/article/9222758/The_Grill_Doug_Cutting

htt

p:/

/a.i

ma

ge

s.b

lip.t

v/S

tra

taco

nf-

ST

RA

TA

20

12

Do

ug

Cu

ttin

gT

he

Ap

ach

eH

ad

oo

pE

cosy

ste

m4

10

-22

4.j

pg

® 1&1 Internet AG 2012

� Geeignete Hardware finden und betreiben� Geeignete Hadoop-Frameworks identifizieren� MapReduce Algorithmen entwickeln und testen� Verschiedene Daten-Eingangs- und Ausgangskanäle� Unterschiedliche Dateiformate� Mehrere konkurrierende Prozesse� Mehrere Benutzer� Konsistentes Verarbeiten vieler Eingangs-Files� Prozess-Steuerung über einen heterogenen System-Stack

Einige Herausforderungen bleiben…

® 1&1 Internet AG 2012 16

1&1 Best Practice

� Identifiziere dein BIG DATA Problem

® 1&1 Internet AG 2012 17

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz

® 1&1 Internet AG 2012 18

� Empfehlung Cloudera Support*� 2 Quad Core CPUs� Disk Drive Size 1 – 2 TByte

� Auswahl-Kriterien� Kosten-Effizienz� Stromverbrauch� Platz im Rechenzentrum� Standard-HW-Warenkorb

Hardware-Sizing

Hadoop-DataNodes

® 1&1 Internet AG 2012 19

* http://www.cloudera.com/blog/2010/03/

clouderas-support-team-shares-some-basic-hardware-recommendations

� Sizing ist bestimmt durch erforderliche

Speicherkapazität: 480 TB

� 78 TB Nutzdaten (Web- + Log-Analytics)

� Faktor 2 für Zwischenergebnisse

� Replikationsfaktor 3 zur Datensicherung

� 480TB / 2TB / 12 = 20 Rechner!

Sizing der SYNAPSE

Unsere Szenarien sind „Storage Heavy“:

® 1&1 Internet AG 2012 20

http

://en

.wik

ipe

dia

.org

/wiki/G

oo

gle

_p

latfo

rm

Google's first production server rack, circa 1998

Unsere Definition von „Commodity Hardware“

® 1&1 Internet AG 2012 21

12 x 2TB as JBOD

direct attached

8 Cores @2,4GHz

96 GB RAM

4x 1GB Network

20 x Worker-Node(Datanode, Tasktracker)

4 Cores @2,4GHz

12 GB RAM50GB local Storage

2x Namenode Server(Namenode, Sec.-Namenode, Jobtracker)

Best Practice: Laste deine Systeme nur zu 75% aus!

22

� Hauptspeicher� Im Grenzbereich schafft es die Hadoop interne Speicherverwaltung oft nicht

mehr den „spill to disk“ durchzuführen => Out Of Memory Exception

� Plattenplatz� Achtung: auch Zwischenergebnisse mit einrechnen� Die Tasktracker schreiben lokale Temp-Files => auch dafür muss Platz

vorgesehen werden!

® 1&1 Internet AG 2012

Problemstellung� Paralleler Zugriff der Tasktracker über zentralen Fileserver via NFS-Mounts

(Import Rohdaten, Export von Aggregaten)� Konkurrierende Zugriffe reduzieren den Durchsatz überproportional

Lösung� Reduktion der Zugriffslast

� Mit einem Prozess im/exportieren(hadoop –fs copyFrom/ToLocal)

� Z.B. via Fair-Scheduler Pools (fair-scheduler.xml:

maxMaps and maxReduces)

� Externe Systeme verwenden, die auf massiv parallelen Zugriff ausgelegt sind:� z.B. Flume für Import� z.B. HBase für Export

Das „Fileserver Problem“

® 1&1 Internet AG 2012 23

Namenode Server

� Namenode = HDFS-Metadaten-Verwaltung (Dateien, Verzeichnisse,…)� Es gibt nur genau EINE Namenode im Cluster� Fällt diese aus oder wird korrupt gibt es „keine Daten“ mehr im Cluster!

Namenode

® 1&1 Internet AG 2012 24

HadoopNamenode

FS Image

FS Image

Edit Logs

Namenode Server

Namenode Running

® 1&1 Internet AG 2012 25

HadoopNamenode

FS Image

FS Image

Edit Logs

FS Image

Edit Logs

FS Image

Datanodes

Namenode Server

Edit Logs

Secondary Namenode != Redundanz

® 1&1 Internet AG 2012 26

HadoopNamenode

Sec. Namenode Server

HadoopSecondaryNamenode

FS Image

FS Image

Edit Logs

FS Image

Edit LogsEdit Logs

FS Image

New FS Image

New FS Image

New Edit Logs

FS Image

� Die Secondary Namenode dient lediglich dem Verdichten der persistierten ÄnderungslogsDie Namenode ist ein SPOF und muss entsprechend abgesichertwerden!

Namenode HA

® 1&1 Internet AG 2012 27

http://www.drbd.org/

http://www.clusterlabs.org/

� Redundanz für Namenode� transparent für Cluster� Crash Recovery möglich

Namenode HA

® 1&1 Internet AG 2012 28

� Failover im Sekunden-Bereich� Im Worst-Case minimaler Daten-

Verlust während Failover möglich� Im besten Falle keiner!

� Die Knoten eines Hadoop-Clusters sollten möglichst „nahe“ beieinander stehen� und auch bei den Datenquellen� dafür muss Platz im Rechenzentrum verfügbar sein� Je Besser die Netzwerk-Anbindung des Clusters desto besser seine

Performance

Netzwerk

® 1&1 Internet AG 2012 29

2G

Bit e

ach

4GBit

1GBit

1&1 Best Practice

� Identifiziere dein BIG DATA Problem

� Etwas mehr schadet nicht: Alle Systeme müssen

skalieren und benötigen Reserven, Namenode HA!

® 1&1 Internet AG 2012 30

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz

® 1&1 Internet AG 2012 31

Wir machen unsere Werkzeugkiste auf und schauen mal was wir darin finden…

® 1&1 Internet AG 2012 32

Aufgabenverteilung

® 1&1 Internet AG 2012

Transport kontinuierlich

entstehender Massendaten

• Aggregation

• Speicherung

• Suche

• AdHoc Anfragen

•ILM

Vorgänge koordinieren

• Integration mit DWH

• Nachvollziehbarkeit

• Wiederaufsetzbarkeit>1000 Files/Tag

~ 3TB

Aggregationen

alle 3 Stunden

33

Unser Technologie-Stack (Reduced to the Max)

® 1&1 Internet AG 2012

Qu

elle

: h

ttp

://w

ww

.flic

kr.

com

/ph

oto

s/_

mrs

_b

/47

17

42

74

29

/

34

Lessons learned

® 1&1 Internet AG 2012 35

Stabilität

� Entwicklung ist immer noch im Fluss

� Hadoop- Kern ist bereits sehr stabil - aber kein Vergleich bspw. mit einer DB-Lösung

� Flankierende Projekte haben gefühlt oft noch Beta-Status – im Handumdrehen ist man Committer eines OS-Projektes ;-)

Lessons learned

® 1&1 Internet AG 2012 36

Feature-Set

� Ähnliche Toolsets unterscheiden sich meist nur in Details

� Pig, Hive, Cascading

� HBase und Casandra

� Askaban vs. Oozie

� Aber gerade die – können manchmal entscheidend sein!

Schön, dass es Distributionen gibt!

® 1&1 Internet AG 2012

Hadoop-Solution-Partner geben Sicherheit

Beispiel: Cloudera� Eigenes Hadoop-Release basierend auf den Apache Repositories

� bietet konsistente, „in sich schlüssige Release-Stände“ und Bugfixes

� Möglichkeit des kommerziellen Supports

37

1&1 Best Practice

� Identifiziere dein BIG DATA Problem

� Etwas mehr schadet nicht: Alle Systeme müssen

skalieren und benötigen Reserven, Namenode HA!

� Keep Your Ecosystem Simple, wähle sorgfältig aus!

® 1&1 Internet AG 2012 38

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz

® 1&1 Internet AG 2012 39

BI SourceSystems

Source DataFileserver Replicated

Source Data

DWH

Architektur BI-Plattform

Access Reporting

Oracle 11g EE Database

Reporting Layer (Dependent Datamarts)

Integration Layer (Core DWH)

Acquisition Layer (Staging Area)

Adhoc Queries (Mass-)Data Export

4. Verfügbar machen3. Transformieren2. Speichern1. Importieren

® 1&1 Internet AG 2012 40

BI SourceSystems

Source DataFileserver Replicated

Source Data

DWH

Architektur BI-Plattform

Access Reporting

Oracle 11g EE Database

Reporting Layer (Dependent Datamarts)

Integration Layer (Core DWH)

Acquisition Layer (Staging Area)

Adhoc Queries (Mass-)Data Export

SYNAPSE Mass Data

Ha

do

op

Clu

ste

r Mass Data Aggregation Layer

Mass Data Integration Layer

Mass Data Acquisition Layer

4. Verfügbar machen3. Transformieren2. Speichern1. Importieren

® 1&1 Internet AG 2012 41

� Unterstützt die Verarbeitung durch…� Header-Zeile pro File mit

Typ-Information (JSON-Format)� Versionsprüfung möglich� IDL optional

� Effiziente Verarbeitung durch…� Speicher-effizientes Binärformat� (De-)Serialisierung ok

� Zukunftssicher da…� Künftiger Hadoop-Standard� Aktive Weiterentwicklung� Sukzessive Integration in die

Hadoop-Teilprojekte

Importieren und Speichern

Das Serialisierungs-Framework

® 1&1 Internet AG 2012

# avro textual representation {"type": "record", "name": "Point","fields": [{"name": "x", "type": "int"},{"name": "y", "type": "int"}

]}5 8-3 42 -7

42

Importieren und Speichern

FLIS - Flexibilität gefragt

® 1&1 Internet AG 2012

Plain csv

thrift

FlexibleInput

Selector

43

Transformieren – Join in MapReduce

� Map Side Join� Eingangsfiles müssen nach gleichem Schlüssel sortiert und

partitioniert sein� Sorted-Merged-Join noch vor dem Mapper� Sehr effizient, da Shuffle/Sort-Phase nichts mehr zu tun hat

� Reduce Side Join� Klassischer MR-Join� Hauptlast wird in der Shuffle/Sort-Phase getragen

® 1&1 Internet AG 2012 44

MR-Join

Lookup-Data

ResultDataData

MR-Join

ResultDataData

Lookup-DataLookup-

DataLookup-DataLookup-

Data

Transformieren – Join in MapReduce

� Join-Operationen können in MR als Hash Join implementiert werden� Lookup wird als Hashmap über den Distributed Cache an Mapper verteilt� Kleine CPU, keine Netzwerk-Last während der Verarbeitung� Die Grenze bildet das Volumen der Lookup-Daten

® 1&1 Internet AG 2012 45

Transformieren - …oder doch mit HBase?

® 1&1 Internet AG 2012 46

� Distributed Key-Value Stores f(K) = V� Datenzugriff granular� Antwortzeiten im Milli-Sekunden-

Bereich� Auf Lesezugriff optimiert

Transformieren mit PIG

� Ursprünglich von Yahoo entwickelt� File basiertes High Level Daten-Manipulations-Framework� SQL-artige Sprache welche durch das Framework in Map/Reduce Jobs

übersetzt und ausgeführt wird� http://hadoop.apache.org/pig/

® 1&1 Internet AG 2012 47

Transformieren

0

2

4

6

8

10

12

Column-DB Hadoop (1:1Migration)

Hadoop(optimierte

Algorithmen)

Monthly AggregationWeekly AggregationDaily Aggregation

Ergebnisse aus Web-Analytics Projekt:� Optimierung der Verarbeitung-Algorithmen kann erheblichen Performance-

Gewinn bringen!

® 1&1 Internet AG 2012 48

Lessons learned

® 1&1 Internet AG 2012 49

Know- how…� Muss oft erst aufgebaut werden.

Hierfür passende Projekte einplanen.

� Am Anfang fehlt das Know-how an allen Fronten

� DEV: Best Practices sind nicht vorhanden. Oft funktionieren

die Dinge in Dev und brechen dann im Live-Einsatz.

� QS: Herausforderung: verteiltes Testen - möglichst mit Echt-

Daten (bzgl. Qualität und Quantität)

� LIVE: Lastverhalten ist nur bedingt vorhersehbar. Tuning-

Möglichkeiten mannigfaltig und oft nur mit DEV-

Unterstützung durchführbar.

1&1 Best Practice

� Identifiziere dein BIG DATA Problem

� Etwas mehr schadet nicht: Alle Systeme müssen

skalieren und benötigen Reserven, Namenode HA!

� Keep Your Ecosystem Simple, wähle sorgfältig aus!

� Die Algorithmen bestimmen die Effizienz!

® 1&1 Internet AG 2012 50

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz und Ausblick

® 1&1 Internet AG 2012 51

BI SourceSystems

Source DataWI Gateway Fileserver

Replicated

Source Data

DWH

BI-Plattform – Information Lifecycle Management

AccessStandard Reporting

Oracle 11g EE Database

Reporting Layer (Dependent Datamarts)

Integration Layer (Core DWH)

Acquisition Layer (Staging Area)

Adhoc Queries (Mass) Data Export

Ha

do

op

Clu

ste

r Mass Data Aggregation Layer

Mass Data Integration Layer

Mass Data Acquisition Layer

Hadoop alsKurzzeit-ArchivKosten: 0,0005 €/MB

DWH als Langzeit-Archiv Kosten: 0,15 €/MB

® 1&1 Internet AG 2012 52

System Ebene Begründung Aufbewahrung

Fileserver Import Nachladen 5 Tage

Export Fachliche Anforderung 40 Tage

SYNAPSE Acquisition Algorithmus / Nachberechnen 30 Tage

Integration Fachliche Anforderung 15-90 Tage

Aggregation Nachladen 5 Tage

DWH Acquisition Nachberechnen 30 Tage

Integration Fachliche Anforderung 2-10 Jahre

Reporting Fachliche Anforderung 2-10 Jahre

Speichern: Gerne – aber wie lange?

® 1&1 Internet AG 2012

� Auch 500 TByte sind irgendwann einmal voll!� IL separat für jede Verarbeitungsebene� Je wertvoller die Daten, desto länger der IL� Bei vielen 1000 Files hohe Anforderung ans Housekeeping in der SYNAPSE (s. u.)

53

Default Capacity Fair

Mechanismus Vergeben von Prioritäten pro Job

Job-Queues mit festgelegten Prioritäten

Job-Queues und Pools mit Gewichten

Funktionsfähig Ja Ja Ja

Clusterauslastung Ja Nein Ja

Gefahr von Starvation

Ja Nein Nein

Mehrparteien-Betrieb: Wer darf wann?

Hadoop Job Scheduler

® 1&1 Internet AG 2012

� Gleichmäßige Lastverteilung über die Zeit nach Prioritäten� Verschiedene Anwendungen können konkurrierend betrieben werden

54

� Hadoop hat ein Zugriffsberechtigungskonzept angelehnt an POSIX (ohne sticky, setuid or setgid bits) für Files und Directories

� Hadoop hat keine eigene Benutzer-Authentifizierung� Hadoop übernimmt user name (whoami) und group name (bash -c groups)

vom aufrufenden Client-Prozess� Authorisierung ist damit (nur) auf File- und Verzeichnisebene möglich� Das schützt im Mehrparteienbetrieb vor versehentlichem Löschen oder

Überschreiben fremder Dateien. � Authorisierung muss auf Betriebssystem-Ebene konsequent umgesetzt sein� Geeignetes Konzept für „Tool“-User oder Application Manager

® 1&1 Internet AG 2012

Mehrparteien-Betrieb: Wer darf überhaupt?

“… This user identity mechanism combined with the permissions model allows a cooperative community to share file system resources in an organized fashion.”

http://hadoop.apache.org/common/docs/r0.20.2/hdfs_permissions_guide.html

55

1&1 Best Practice

� Identifiziere dein BIG DATA Problem

� Etwas mehr schadet nicht: Alle Systeme müssen

skalieren und benötigen Reserven, Namenode HA!

� Keep Your Ecosystem Simple, wähle sorgfältig aus!

� Die Algorithmen bestimmen die Effizienz!

� Sorge für geordnete Verhältnisse im Cluster!

® 1&1 Internet AG 2012 56

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz und Ausblick

® 1&1 Internet AG 2012 57

PRO� Workflows können graphisch dargestellt und gedrilled werden� Einfache Handhabung (Komplexes wird in Scripts ausgelagert)� Startet Hadoop-Jobs und “Anderes” einfach als Unix-Prozesse� Ressoucen (.jar files, pig scripts) werden durch Azkaban verwaltet und deployed

Contra� Minimaler Funktionsumfang� Keine Rechte und Zugriffs-Verwaltung� Jobausführung nur Zeit-basiert� Keine Redundanz

(Azkaban-Server wird zum SPOF)

Azkaban (LinkedIn)

® 1&1 Internet AG 2012 58

Oozie (Yahoo!)

® 1&1 Internet AG 2012

PRO� Enge Integration mit Hadoop and M/R� Kann mit unterschiedlichen Job-Typen umgehen: Java MR, PIG, Java, etc.� Webservice- und Java-API� Zeit- und Ereignis-basierte Job-Ausführung

Contra� WEB-Konsole ist “Read-Only”, keine graphische

Aufbereitung von Abhängigkeiten� Ressoucen (.jar files, pig scripts) müssen manuell

vor der Jobausführung auf dem HDFS deployed werden� Müsste um File-Registierung erweitert werden

Requesting job status:

sudo -u oozie oozie job -oozie http://localhost:11000/oozie -info 0000018-110712204501024-oozie-oozi-C

59

Architektur BI-Plattform - Steuerung

� Steuerung der Verarbeitung und damit der Datenströme muss über den gesamten BI-Stack sichergestellt sein!

� Das richtige Werkzeug für die jeweilige Aufgabe:� GEPPI = 1&1 EAI-Lösung (Workflow-Steuerung)� FUNDI = eigens entwickelter „verlängerter Arm“ für Hadoop-Spezifika

® 1&1 Internet AG 2012 60

Das richtige Werkzeug für die jeweilige Aufgabe

Functional

Dependency Integrator

GEPPI = Workflow-Engine� Übergreifende-Steuerung

PDI (http://kettle.pentaho.com/)

� ETL-Jobs im DWH� HDFS-Zugriff

� Hadoop Job-Ausführung� Data-Repository

® 1&1 Internet AG 2012 61

FUNDI: Swahili für „Der fleißige Handwerker“

FUNDI File-Registration

Distributed orlocal File System

Functional

Dependency IntegratorDataFiles

File Registration Search for

matching files

Register File &

Metadata

® 1&1 Internet AG 2012 62

FUNDI: Swahili für „Der fleißige Handwerker“

Functional

Dependency Integrator

Run Job(name) Start

Register

Output-Files &

Metadata

get Jar/PIG

Metadata

Input-Filenames

Hadoop-Cluster

Inp. DataFiles

MR Job

Outp DataFiles

Fundi Job-Run

® 1&1 Internet AG 2012 63

FUNDI: Swahili für „Der fleißige Handwerker“

Fundi Job-Ketten (Das EVA-Prinzip)

Fundi-JOB

A

Fundi-JOB

B

Named-Input

Named-Output

Configuration

e.g. Path, Filenames,

Jar/PIG-Script, Settings …

Metadata for

Job-Rung, Inp.-Files,

Outp.-Files E V A

® 1&1 Internet AG 2012 64

1&1 Best Practice

� Identifiziere dein BIG DATA Problem

� Etwas mehr schadet nicht: Alle Systeme müssen

skalieren und benötigen Reserven, Namenode HA!

� Keep Your Ecosystem Simple, wähle sorgfältig aus!

� Die Algorithmen bestimmen die Effizienz!

� Es geht auch ohne Skript-Wüste und cron-Jobs!

® 1&1 Internet AG 2012 65

Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz

® 1&1 Internet AG 2012 66

Langer Rede kurzer Sinn: Die Aufgabe

� Hadoop verlangt ein neues Denken in allen IT-Bereichen: Operations, Entwicklung, QS, …

� Binde alle Stakeholder möglichst früh in deine Planung ein!

� Know-how zum Entwickeln, Testen und Betreiben einer verteilten Umgebung muss erarbeitet werden!

� Identifiziere dein Pilotprojekt!

� Bleibe nicht zu lange im „Spielbetrieb“, evaluiere gegen echte Anforderungen!

® 1&1 Internet AG 2012 67

Langer Rede kurzer Sinn: Die Belohnung

� Hadoop und sein Ecosystem bieten hervorragende Lösungen für viele BIG DATA Probleme!

® 1&1 Internet AG 2012 68

Langer Rede kurzer Sinn: Der Beweis

Massendatenverarbeitung ist bei 1&1 für Web-Analytic s, Logfile-Verarbeitung und Datawarehousing mit Hadoopmessbar

� performanter,

� kostengünstiger,

� skalierbarer,

� flexibler und

� zukunftsfähiger

geworden!

® 1&1 Internet AG 2012 69

Vielen Dank für Ihre Aufmerksamkeit

Zeit für Fragen…