Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB,...

16
Mehr als nur MapReduce: Was ist wichtig im Hadoop-Ökosystem? Hadoop 2 als universelle Data Processing Platform SQL, NoSQL, NewSQL, In-Memory: Zeitgemäße Datenbanktechniken unter der Lupe Enterprise Search mit Apache Solr und Elasticsearch JavaScript, Python, R und Julia: Die wichtigsten Programmiersprachen zur Datenanalyse und Datenvisualisierung Datengetriebene IT-Projekte: Data Science – neue Königsdisziplin der Datenerhebung Big Data und Datenschutz Auf der Heft-DVD Über 8 GByte Software für Entwickler Multimedia: 5 Videos zur Hochleistungsdatenbank EXASolution Hadoop: Cloudera’s Distribution Including Hadoop (CDH) IDEs: Eclipse, IntelliJ IDEA, Juno Tools, Datenbanken, Sprachen: Enterprise-Search-Engines, Big-Data- Frameworks, NoSQL-/NewSQL- Datenbanken, Programmiersprachen Literatur: MongoDB – Der praktische Einstieg (Auszüge), Visual Business Analytics (Auszüge) Mit DVD 2/2015 Big Data Jobs im Wandel: Was Big Data für Informatiker bedeutet

Transcript of Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB,...

Page 1: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

Mehr als nur MapReduce:

Was ist wichtig im Hadoop-Ökosystem?

Hadoop 2 als universelle Data Processing Platform

SQL, NoSQL, NewSQL, In-Memory:

Zeitgemäße Datenbanktechniken unter der Lupe Enterprise Search mit Apache Solr und Elasticsearch

JavaScript, Python, R und Julia:

Die wichtigsten Programmiersprachen zur Datenanalyse und Datenvisualisierung

Datengetriebene IT-Projekte:

Data Science – neue Königsdisziplin der DatenerhebungBig Data und Datenschutz

Auf der Heft-DVD

Über 8 GByte Software für Entwickler

Multimedia: 5 Videos zurHoch leistungsdatenbankEXASolutionHadoop: Cloudera’s Distribution Including

Hadoop (CDH)IDEs: Eclipse,

IntelliJ IDEA, Juno Tools, Datenbanken, Sprachen:

Enterprise-Search- Engines, Big-Data-Frameworks, NoSQL-/NewSQL-Daten banken, ProgrammiersprachenLiteratur: MongoDB – Der praktische Einstieg (Auszüge), Visual Business Analytics (Auszüge)

Mit

DVD

2/2015

Big Data

Jobs im Wandel:

Was Big Data für Informatiker bedeutet

Page 2: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,
Page 3: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

iX Developer 2015 – Big Data 3

EDITORIAL

Der Begriff „Big Data“ ist in den letzten zehn Jahren sicherlich überstrapaziert worden. Begünstigt durch zunehmend billiger werdenden Hauptspeicher und

Mechanismen paralleler Programmierung zur schnellen Daten-verarbeitung haben sich Analysten, Marketingabteilungen un-terschiedlichster Firmen sowie Konferenz- und Schulungsan-bieter schnell auf die mit Big Data verbundenen Techniken undSchlagwörter gestürzt. Die Folge war ein klassischer Hype mitall seinen Sonnen- und Schattenseiten. So ist eine stark vomBig-Data-Framework Apache Hadoop und seinem Ökosystemgetriebene technische Basis entstanden, die es allerdings erstmal zu monetarisieren gilt.

Viele unserer Leser waren zu Recht erst mal skeptisch, selbstnoch 2012, als der Branchenverband BITKOM Big Data zumTrend ausrief, und auch noch 2014, als die CeBIT Big Datazum Leitthema kürte. So attraktiv die immer wieder zitiertenAnwendungsszenarien und so erschreckend bis faszinierenddie Datensammelwut beispielsweise einer NSA sind, fehlte esvielen Unternehmen lange Zeit an der Idee oder Strategie, wiesich aus ihren großen Datenmengen geschäftsrelevante Infor-mationen mit Gewinn ziehen lassen. Das ändert sich nun solangsam, wie ich in Gesprächen auf unser eigenen Big-Data-Konferenz data2day erfahren durfte, die im November letztenJahres ihre Premiere hatte.

Und auch die Artikel in diesem Sonderheft deuten darauf hin,dass Big Data mittlerweile mehr als nur ein skeptisch zu sehen-der Hype zu zugegebenermaßen reifen Techniken ist. Beispiels-weise hat sich mit den Data Scientists eine eigene Berufsgruppeherausgebildet, für nicht wenige die derzeit spannendste in derIT. Für die damit verbundenen Fähigkeiten – Klaas WilhelmBollhöfer skizziert sie im Heft als Mischung aus klassischemIngenieursstudium, programmatischen und mathematischenGrundlagen sowie Business- und Design-Denken aus der Inter-net-Ära – sind Experten natürlich nicht so einfach zu finden.

So wie insgesamt für das Thema Big Data, was eine Studie desJobportals Dice.com insofern bestätigt, dass sich unter den Top 10 der bestbezahlten Skills sieben Schlagwörter aus demBig-Data-Umfeld befinden: Cassandra, MapReduce, Cloudera,HBase, Pig, Flume und Hadoop. (Unter den Top 20 sind es gar 14: Hier kommen Hive, NoSQL, ZooKeeper, Data Archi-tect, Data Scientist, Solr und Big Data hinzu.) Die Nachfragetreibt ganz eindeutig die Honorare in die Höhe.

Mag es auf Wirtschafts-, Job- und Projektseite signifikant vorwärtsgehen, ist selbst bei Hadoop womöglich noch langenicht das Ende der Fahnenstange erreicht. So vermeldete derbei Cloudera angestellte Hadoop-Schöpfer Doug Cutting MitteMärz 2015 immer noch eine jährliche Verdopplung der Ha-doop-Anwender. Das bedeutet zugleich, dass über die Hälfteder Nutzer Einsteiger in das Thema sind. Für sie mag das Son-derheft den größten Wert haben, aber auch für alle anderen an Big-Data- und NoSQL-Themen Interessierten haben wirLesenswertes konfektioniert.

Wir wünschen Ihnen viel Spaß bei der Lektüre.

ALEXANDER NEUMANN

Kein Ende der Fahnenstange

Page 4: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

Big DataBig Data ist mittlerweile mehr als nur ein Hype. Die Techniken und Konzepte dahinter sind branchen-übergreifend angekommen, und Unternehmen habenbegonnen Big Data in ihre Prozesse und Kultur ein -zubinden.

ab Seite 7

HadoopBig Data ohne Apache Hadoop – irgendwie nicht vor -stellbar. Und doch ist Big Data weit mehr als nur Hadoop.Schließlich ist ein ganzer Zoo mit das Framework unter-stützenden oder mit ihm konkurrierenden Projekten entstanden. Selbst mit dem guten alten SQL lässt sich hier schon einige Zeit arbeiten.

ab Seite 29

Big DataTrendsAus Informationshalden wertvolle Erkenntnisse filtern 8

Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch 14

Datengetriebene IT-Projekte im Wandel 16

RechtBig Data und (Datenschutz-)Recht 18

SecurityStrategien zum Schutz der Big-Data-Datenbestände und -Infrastruktur 24

HadoopMapReduce/YARNHadoop 2 als universelle Data Processing Platform 30

ÖkosystemDie wichtigsten Projekte der Hadoop-Community 36

Der Hadoop-Markt unter wirtschaftlichen Aspekten 44

Apache SparkHadoop-Konkurrent mit In-Memory-Technik 46

Hadoop konkretMapper- und Reducer-Scheduling in Hadoop 50

Geodaten mit Hadoop und Hive verarbeiten 54

NoSQLÜberblickTraditionelle und moderne Datenbanktechnik 58

Dokumentenorientierte DatenbankenNoSQL-Datenbank MongoDB 60

Erste Gehversuche mit MongoDB 64

Hochverfügbare, performante und skalierbare Webanwendungen mit Apache Cassandra 70

GraphendatenbankenWas ist an Neo4J und Konsorten besonders? 76

Abfragesprachen für Graphendatenbanken 83

Moderne DatenbanksystemeKonzepte und Anwendungsfälle von In-Memory Computing 89

4 iX Developer 2015 – Big Data

INHALT | IX DEVELOPER

Page 5: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

NoSQLRelationale Datenbanken haben seit geraumer Zeit eine ernstzunehmende Konkurrenz bekommen.Denn die unterschiedlichen NoSQL-Konzepte erfüllenin vielen Fällen die heutigen Anforderungen an Daten-banken viel besser als die arrivierten relationalen Vertreter. Wären da nicht schon wieder andere Trendswie NewSQL & Konsorten …

ab Seite 57

Analyse undProgrammiersprachenData Science ist das Hype-Thema im Big-Data-Umfeldschlechthin. Wie gut, dass die Data Scientists bei ihrerAnalyse schon auf bewährte Patterns, Werkzeuge undProgrammiersprachen zur Visualisierung ihrer Datenzurückgreifen können.

ab Seite 115

SQL-Entwicklung für Process Mining auf SAP HANA 94

NewSQL-Datenbanken: SQL liebt NoSQL 98

NoSQL-VergleichMongoDB, Elasticsearch, Riak – dreimal das Gleiche? 102

Enterprise SearchWie Apache Solr und Big Data unter einen Hut passen 106

Elasticsearch erfolgreich skalieren 110

AnalyseData ScienceNeue Königsdisziplin der Datenerhebung und -analyse 116

EntwurfsmusterAnalytics Design Patterns 122

Data VisualizationEinführung in die Datenvisualisierung 126

Datenvisualisierung mit der JavaScript-Bibliothek D3.js 132

Karl van den Bergh und Michael O’Connell von Tibco im Gespräch 138

ProgrammiersprachenSprachen zur DatenanalysePython für Data Science und Big Data 142

R mit großen Daten: Tipps und Tricks für effiziente R-Programme 146

Julia: Neue dynamische und trotzdem performante Programmiersprache 150

SonstigesEditorial 3

DVD-Inhalt 6

Inserentenverzeichnis 125

Impressum 125

iX Developer 2015 – Big Data 5

Artikel mit Verweisen ins Webenthalten am Ende einen Hinweis

darauf, dass diese Webadressen auf dem Server der iX abrufbar sind.Dazu gibt man den iX-Link in der URL-Zeile des Browsers ein. Dannkann man auch die längsten Links bequem mit einem Klick ansteuern.Alternativ steht oben rechts auf der iX-Homepage ein Eingabefeld zur Verfügung.

Alle Links: www.ix.de/ix1514SSS

Page 6: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

6 iX Developer 2015 – Big Data

SERVICE | DVD-INHALT

Auf der Heft-DVDSponsored ContentEXASolutionDie Hochleistungsdatenbank EXASolution hält ihre Daten spalten-orientiert verteilt über die Knoten eines Clusters im Hauptspeicherund soll sich dadurch vor allem für schnelle Auswertungen in Data Warehouses eignen. Sie entstand aus Forschungsprojektender Universitäten Jena und Erlangen und führt mehrere TPC-H-Benchmarks für Data Warehouses unterschiedlicher Datengrößean. Auf der DVD gibt es das technische Whitepaper „A Peek under the Hood“ zu EXASolution sowie die folgenden Videos:Integration von Geodaten ermöglicht räumliche Analysen:ein Beispiel, wie die Analyse von Geodaten über EXASolution aussehen kann.EXASolution versus Natural Language Processing: ein Praxis -beispiel, wie benutzerdefinierte Funktionen (User-Defined Func -tions; UDFs) in EXASolution zu integrieren sind, um Sprachver -arbeitung direkt in der Datenbank zu ermöglichen.Big-Data-Analysen mit Skyline: Skyline ist ein neues Analyse-Werkzeug in EXASolution, das unter Berücksichtigung unter-schiedlicher Bewertungskriterien eine Vorauswahl aus großen Datenmengen über mehrere Dimensionen hinweg trifft.Skyline – ein praktisches Beispiel: Das multidimensionale Opti -mierungstool „Skyline“ erspart das mühevolle Sortieren, Filtern unddie subjektive Bewertung unüberschaubar großer Datenmengen.Performance und Geschwindigkeit statt Schneckentempo undFrustration: allgemeiner Überblick über die Möglichkeiten des In-Memory Computing mit der Hochleistungsdatenbank EXASolution.

HadoopCloudera’s Distribution Including Hadoop (CDH) 5.3.0Die Open-Source-Sammlung umfasst die Kernkomponenten vonHadoop zur verteilten und ausfallsicheren Speicherung und Ver -arbeitung großer Datenmengen. Darüber hinaus sind Werkzeugefür Sicherheit, Hochverfügbarkeit und Integration in bestehendeDatenlandschaften enthalten. CDH ist unter der Apache-Lizenzverfügbar und eine der verbreitetsten Hadoop-Distributionen undwird für Tests, Entwicklung und den Betrieb großer Cluster ver-wendet. Auf der DVD befindet sich ein VMware-Image, das ins -besondere Einsteigern helfen kann, sich schnell einen Überblick zu verschaffen.

Freie IDEsEclipse 4.4.2: das zweite Service Release der Entwicklungsum -gebung in der Luna-Distributionen für Java-Entwickler.IntelliJ IDEA 14.0.3: die Community Edition der polyglotten Java-Entwicklungsumgebung.Juno: eine freie IDE für die Programmiersprache Julia.

Tools, Datenbanken, SprachenEnterprise Search: Apache Solr, ElasticsearchBig-Data-Frameworks: Apache Drill, Apache Giraph, Apache Hadoop, Apache Hive, Apache Spark, Apache StormNoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, RiakNewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin, PostgresXC, PrestoProgrammiersprachen: Julia, Python, R

LiteraturAuszüge aus den dpunkt-Büchern:

MongoDB – Der praktische Einstieg:Kompakt und anhand zahlreicher Beispieleführt das MongoDB-Buch von Tobias Trelle in die Nutzung von MongoDB ein.Auf der Heft-DVD finden Leser auf 56 Sei-ten Leseauszüge zur Einführung in doku-mentenorientierte NoSQL-Datenbankenund insbesondere MongoDB. Außerdemwerden Hilfen zur Installation gegeben unddie Konzepte hinter MongoDB erklärt.

Visual Business Analytics – Effektiver Zugang zu Daten und Informationen:Das Buch von Jörn Kohlhammer, Dirk U.Proff und Andreas Wiener zeigt Wege auf,wie aus Daten mittels Visualisierung ent-scheidungsrelevante Informationen für den Empfänger werden. Auf rund 70ˇSeitenals Leseauszüge geben die Autoren einengrundsätzlichen Einblicke in die Visuali -sierung von Daten und Informationen

sowie des Weiteren in das Zusammenspiel von Big Data und Visual Analytics.

Listings und LizenzenDie Listings zu den Heftartikeln und die Lizenzen zu den Software-paketen auf der Heft-DVD.

Hinweis für Käufer• PDF- und iPad-Version: In der iX-App finden Sie einen

Button zum Download des DVD-Images.• PDF-E-Book: Folgen Sie im Browser der unter „Alle Links“ angegebenen URL.

Alle Links: www.ix.de/ix1514006 x

Page 7: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

iX Developer 2015 – Big Data 7

GrundlagenBig Data ist mittlerweile mehr als nur ein Hype, den Tool-Hersteller sowie Konferenz- und Schulungsorganisatoren auszuschlachten wünschen. Die hinterBig Data, NoSQL & Co. gesehenen Techniken und Konzepte sind vielmehr branchenübergreifend angekommen – bis hin zu der Tatsache, dass Unter -nehmen Big Data in ihre Prozesse und Kultur einbinden.

Big Data: Aus Informationshalden wertvolle Erkenntnisse finden 8

Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch 14

Datengetriebene IT-Projekte im Wandel 16

Big Data und (Datenschutz-)Recht 18

Strategien zum Schutz der Big-Data-Datenbestände und -Infrastruktur 24

Page 8: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

I st es noch Politik oder schlichtweg geschicktes datenbasiertesKampagnenmanagement? US-Präsident Barack Obama ge-nügten jedenfalls nur zwei Prozent der Wählerstimmen, um

sich gegen seinen republikanischen Herausforderer Mitt Rom-ney durchzusetzen. Sein Wahlkampfteam schöpfte gezielt dieEigenart des US-Wahlrechts aus, nach der in den Bundesstaatender jeweilige Kandidat mit relativer Mehrheit sämtliche Stim-men der Wahlmänner erhält. Entscheidend für die Wiederwahlwar deshalb der Wahlausgang in den neun sogenannten SwingStates. Wer hier die Mehrheit der Wechselwähler auf seine Seiteziehen kann, hat schon so gut wie gewonnen.

Selbstverständlich ist diese Erkenntnis nicht neu. Unge-wöhnlich ist jedoch, mit welcher Konsequenz Obamas Wahl-kampf-Team moderne Analyseverfahren und umfangreiche Da-tensammlungen einsetzte, um seinen Aktivitäten maximaleTreffsicherheit zu verleihen. Beispielsweise führte man Infor-mationen über Konsumenten, Wahlverhalten, Sponsoren, Wahl-helfer et cetera aus allen zugänglichen Datenquellen zusammenund erhielt so statistisch untermauerte Profile der typischenWechselwähler und deren Wahlverhalten. Mit diesen Modellenspielte das Team Aktionsalternativen mit dem Ziel durch, fürunterschiedliche Personen(kreise) stets die richtige Strategie so-wie die sinnvollste Ansprache parat zu haben und die Werbe-mittel passgenau zu verteilen. Kontinuierlich fütterte man dasSystem mit den konkreten Erfahrungen der Wahlhelfer – alsomit der Reaktion der Wähler auf die Aktionen – und konnte esso immer weiter optimieren.

Der Kopf hinter den Projekten mit den wohlklingenden TitelnNarwhal (Echtzeit-Zusammenführung der Daten) und Dream-catcher (Textanalyse) ist der Wissenschaftler Rayid Ghani. Erhatte bereits Analyseprogramme geschrieben, mit deren Hilfe

sich die Effizienz von Werbemaßnahmen für Supermärkte ver-bessern lässt. Seine Kenntnisse ließ Ghani in die Programmie-rung der Wahlkampf-Algorithmen einfließen, mit deren Hilfeunter anderem die Demokraten-affine Softwareschmiede NGPVAN ein entsprechendes Kampagnenmanagement via Facebook& Co. auf die Beine stellte.

US-Wahlkampf zeigt das Potenzial

Wie hoch ihr Anteil an der Wiederwahl tatsächlich war, lässtsich trefflich diskutieren. In jedem Fall bestätigt das Beispieleinmal mehr das (Vor-)Urteil, dass Politik in erster Linie „Ver-kaufen“ heißt. Überspitzt formuliert: Der datengefütterte Poli-tikbetrieb wird in den USA zur neuen Normalität. Mit Stolzwirbt NGP VAN damit, dass ihr auch durch Zukäufe stetigwachsendes Tool-Angebot die Plattform nahezu jeder größerenKampagne der Demokraten bildet. Das Kampagnenmanagementin der US-Politik ist zugleich ein wunderbarer Beleg für denNutzen einschließlich aller kritikwürdigen Begleiterscheinun-gen, der in der intelligenten Kombination und der ausgefeiltenAnalyse umfangreicher Datenmengen vermutet wird.

Wirtschaftsanalysten und Softwarestrategen nutzen in die-sem Kontext gerne und häufig Kunstwörter wie Big Data undSmart Data, ziehen vermehrt aber auch eher technisch anmu-tende Termini wie Predictive Analytics hinzu. Die Begriffe ein-ten die Vorstellung, dass die Auswertung extrem großer Daten-volumina unterschiedlicher Herkunft und Zusammensetzung zuErkenntnissen führen, die bares Geld bedeuten. Allein für dieBehördenlandschaft in der EU ermittelte das McKinsey GlobalInstitute (MGI) in einem vor knapp vier Jahren veröffentlichten

8 iX Developer 2015 – Big Data

GRUNDLAGEN | BIG DATA

Aus Informationshalden wertvolle Erkenntnisse filtern

Raffinierte DatenAchim Born

Die rasant anwachsenden Informations -mengen gelten als Rohöl des digitalen Zeitalters. Wird der Rohstoff zum Treibstoff„Wissen“ veredelt, sprechen Wirtschafts -analysten gerne von „Big Data“ und verneigen sich in Ehrfurcht. Anbieter von Analyse- und Datenmanagement -werkzeugen jedenfalls wittern lukrative Geschäfte.

Page 9: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

Report das Einsparpotenzial auf 250 Mrd. Dollar jährlich. DenFertigungsunternehmen stellten die Berater eine siebenprozen-tige Verbesserung ihrer Liquidität in Aussicht. Fünf Aufgaben-komplexe sollen vom geschickten Umgang mit den Daten pro-fitieren. Dazu zählen das Schaffen von Transparenz etwa in derBetrugserkennung, Simulationen zu den Wirkungen potenziel-ler Maßnahmen, feingliedrige Markt- und Kundengruppenseg-mentierung sowie die datengestützte Entscheidungsfindung imoperativen Betrieb, indem etwa der Materialeinsatz in der Pro-duktion automatisiert mit der Wetterprognose abgestimmt wird.Selbst gänzlich neue Geschäftsprozesse sind nach Ansicht derAutoren denkbar, wenn etwa Standortdaten und Klickstatistikenzu orts- und zeitabhängigen Preisberechnungen und Aktionsan-geboten führen.

Die allgemein gehaltenen Vorschläge bergen wenig Überra-schendes. Das gilt gleichfalls für die mehr als 40 „erprobtenPraxis-Beispiele“ aus Wirtschaft und Verwaltung, die der Bran-chenverband BITKOM für seinen jüngsten Leitfaden zusam-mentrugˇ[1]. Denn die angeführten Zielsetzungen haben – wennauch unter anderem Schlagwort – interessierte Kreise schon seitlängerem diskutiert. Die Logistikbranche bewegt beispielsweiseseit Jahren die Vorstellung, durch eine Verknüpfung der Datenzu Verkehrsfluss und Warentransportkette die Verkehrsströmeentzerren und die Güterströme optimieren zu können. Ebensowird in der Fertigung eine feingliederige, automatisierte Steue-rung des Materialflusses mit (RFID-)Sensorik diskutiert. Dasssich aus den Kauftransaktionen und dem Kaufverhalten Rück-schlüsse für Produktzusammenstellungen oder die Shop-Gestal-tung ergeben, ist nicht erst mit dem Auftauchen von Amazonfür viele Handelskonzerne lange gelebte Praxis.

Die Vermessung der Welt

Doch was steckt hinter dem Wandel, der Big Data bedeutet. Da-ten aus sozialen Medien, Nachrichten- und Video-Feeds, Maschi-nen- und Sensordaten, geographische Bezüge, Click-Streams,Server-Logs – an vielen Stellen fallen heute Datenströme zumTeil in hoher Frequenz an, die alles und jeden vermessen. Alleinfür 2012 veranschlagte IDC das erzeugte Datenvolumen auf2,8ˇZettabyte (ein Zettabyte entspricht 1021ˇByte). 2020 soll es40ˇZettabyte betragen. Kurzum: Daten, einer der wichtigstenRohstoffe der Wirtschaftswelt stehen nicht nur im Übermaß zurVerfügung, das „Rohöl heutiger Tage“ sprudelt aus diversenQuellen kräftig weiter. Aus diesen Rohdaten gilt es nun, guten

Treibstoff für die tägliche Arbeit in Form aussagekräftiger Infor-mationen und Wissensinhalte zu raffinieren.

„Wenn dieser Rohstoff veredelt werden soll, berührt das diegesamte Prozesskette – von der Akquisition und Integration derDaten bis hin zur Auswertung und Präsentation für den Anwen-der“, meint Carsten Bange, Geschäftsführer des Forschungsun-ternehmens Barc. „Bei Big Data dreht es sich folglich nicht nurum große Datenvolumina. Es handelt sich immer auch um Ver-fahren und Methoden für das skalierbare Sammeln und Analy-sieren von Informationen, die in verschiedenen, häufig nichtvorhersagbaren Strukturen vorliegen.“ Aus technischer Wartegilt es, die vielschichtigen Informationen im geeigneten Kontextschnell auszuwerten und nutzbar zu machen. Dazu müssen diezugehörigen Werkzeuge und Techniken die vier wesentlichenFacetten von Big Data bedienen: Volume (Datenmenge), Variety(Quellen- und Formatvielfalt) und Velocity (schnelles Datenge-nerieren sowie Analytics (Erkennen von Zusammenhängen).Letzteres wird auch gerne durch ein viertes V-Wort – Value –ersetzt, um den Wertschöpfungsaspekt der Daten zu betonen.

Die vier Vs von Big Data

Jedes dieser vier Vs (über-)fordert allein schon die Möglichkei-ten der in Unternehmen verfügbaren IT. Vor diesem Hintergrundkann man die Einschätzung von Berater Wolfgang Martin fol-gen, dass die traditionellen Business-Intelligence-Technikenzum Analysieren von Daten nicht mehr ausreichen und in Teilensogar obsolet werden. Es sind vornehmlich die in der betrieb -lichen Transaktionsverarbeitung groß gewordenen SQL-Da -tenbanksysteme, die auf die anstehenden Aufgaben denkbarschlecht vorbereitet sind. Ihr Datenmodell ist konsequent auf se-mantische Integrität und Datenkonsistenz angelegt. Angesichtsder strukturierten und gut dokumentierten Daten, die von dergewöhnlichen Unternehmens-IT in überschaubarer Menge an-geliefert wird, lässt sich die formale Strenge dieser ACID- Eigenschaften (Atomicity, Consistency, Isolation und Dura -bility) weithin durchhalten. Bei extremen Datenmengen mitun terschiedlichsten Formaten und Strukturen funktioniert dasKonzept jedoch nicht mehr. „Im Big Data verliert die rela tio -nale Datenmodellierung ihren Alleinstellungsanspruch: Siewird durch alternative Modellierungsmethoden ergänzt, die aufschnelles und hochperformantes Suchen und Lesen ausgelegtsind“, benennt Martin eine der grundlegenden Veränderungenin diesem Zusammenhang. Das Management der Daten in re-

iX Developer 2015 – Big Data 9

Big Data

Anzahl von Datensätzen und Files Yottabytes ZettabytesExabytesPetabytes Terabytes

Datengenerierung in hoher Geschwindigkeit Übertragung der konstant erzeugten DatenEchtzeitMillisekunden Sekunden | Minuten | Stunden

Fremddaten (Web etc.)Firmendaten

unstrukturierte, semistrukturierte,strukturierte Daten

Präsentationen | Texte | Video | Bilder | Tweets | BlogsKommunikation zwischen Maschinen

Erkennen von Zusammenhängen,Bedeutungen, Mustern

VorhersagemodelleData Mining

Text MiningBildanalytik | Visualisierung | Realtime

Datenmenge (Volume) Datenvielfalt (Variety)

Geschwindigkeit (Velocity) AnalyticsBig Data umfasst

im Wesentlichen vierFacettenˇ(Abb. 1).

Que

lle: [

1]

Page 10: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

lationalen Datenbanksystemen (RDBMS) mit der Sprache SQLwar und ist für die betriebswirtschaftliche Transaktionsver -arbeitung etwa bei der Verwaltung von Aufträgen fraglos einegute Sache. Schon für die analytischen Aufgaben musste manjedoch den Umweg über Aggregation und Vorverdichtung aus-gewählter Datenperspektiven zu mehrdimensionalen Informa-tionswürfeln gehen, um die konzeptionellen Schranken derRDBMS zu überwinden.

Anstoß aus dem Web

Es waren die großen Web-2.0-Plattformen, allen voran Amazon,Facebook, Google und Twitter, die nach Alternativen im Daten-management suchten beziehungsweise – genauer formuliert – suchen mussten. Denn beim Betrieb eines Online-Shops, einessozialen Netzes oder Vergleichbarem sind extrem schnelle Aus-wertungen und Antwortzeiten entscheidend – unabhängig davon,wie viele Nutzer gerade aktiv und wie viele Daten aktuell zu be-arbeiten sind. Eine serverfokussierte Infrastruktur mit einem zen-tralen relationalen Datenbanksystem stellt in diesem Punktzwangsläufig einen Flaschenhals dar. Aus diesem Grund wurdeeine Reihe von Projekten initiiert, neue Datenbank-Technikenzur Überwindung des Engpasses zu entwickeln. Die zum Teilrecht unterschiedlichen Ansätze, die unter dem Begriff NoSQL(Not only SQL) subsumiert sind, eint aus technischer Perspek -tive, dass sie die Design-Prinzipien Skalierbarkeit und Flexibilitätvor einengende formale Strenge à la SQL/RDMS stellen.

Die Idee dahinter heißt in der Regel, dass letztlich der einzigebezahlbare Weg zu mehr Geschwindigkeit und beliebiger Ska-lierbarkeit nur über das geschickte Verteilen von Arbeit und Da-ten auf mehrere Server bedeutet. Techniken zum Fragmentierenund Partitionieren (Sharding) sollen den gewünschten Leis-tungsschub durch parallele Abarbeitung bewirken. Selbst redun-dante Datenhaltung – ein Unding nach dem Normalform-Gebotder relationalen Theorie – unterstützen viele NoSQL-Ansätze.Dafür nimmt man sogar für eine gewisse Zeit Inkonsistenzen inKauf und verzichtet gänzlich auf Sperren. Mit BASE (BasicallyAvail able, Soft State, Eventually Consistent) wurde auch flugsein hübsches, wenn auch nicht ganz korrektes Gegenakronym

zu ACID erfunden. Die Integrität verantwortet bei NoSQL inerster Linie der Programmablauf und nicht wie bei den RDBMSdas Datenmodell. Mitunter greifen Vertreter beziehungsweiseProjekte (CouchDB, HBase etc.) zur Koordination konkurrie-render Zugriffe auch schon einmal auf das Konzept Multi-Ver-sion Concurrency Control (MVCC) zurück, das bei traditionel-len relationalen Systemen wie PostgreSQL oder SQL ServerVerwendung findet.

Meist kommt in den NoSQL-Systemen das vergleichsweiseunkomplizierte Key-Value-Modell zum Einsatz, das den fla-chen Dateisystemen eines Betriebssystems ähnelt. Ein Zeiger(Schlüssel) verweist auf einen Datensatz beliebigen Formats.Komplexe Operationen sind hiermit nicht möglich und werdenim Umgang mit den unstrukturierten Daten etwa für Warenkör-be auch nicht benötigt. Die gleichfalls in die NoSQL-Kategoriefallenden Graphen- oder dokumentenorientierten Datenbanken(InfiniteGraph, Neo4j bzw. CouchDB, MongoDB) bieten ge-eignetere Datenmodelle. Ihr Name lässt den Einsatzschwer-punkt erkennen. Mit Graphen-Techniken bilden beispielsweiseFacebook, Google & Co. Beziehungen ab, statt diese aufwen-dig über komplexe Abfragen mit JOINS oder Ähnlichem zu er-mitteln. Stehen komplexere Analysen und Simulationen im Fo-kus, ziehen NoSQL-Vertreter häufig das Designprinzip einerspaltenorientierten Anordnung (Amazon SimpleDB, Hadoop,SAP HANA) heran.

Abhängig vom Marktauftritt und Einsatzschwerpunkt unter-scheiden sich die Angebote zum Teil deutlich. Erste, brauchbareOrientierungshilfe liefert hier das CAP-Theorem (Consistency,Availability und Partition Tolerance). Es beruht auf dem simplenUmstand, dass sich in verteilten Systemen immer nur zwei Ei-genschaften kombinieren lassen. Entsprechend muss ein Inte-ressent nur prüfen, welche Stärken sein System besitzen muss.Nathan Hurst hat hierzu bereits vor einiger Zeit ein Dreieck mitC, A und P als Eckpunkte vorgeschlagen und eine Zuordnungvorgenommen, die auch heute noch im Groben gelten kann.

Das verbreitetste NoSQL-Projekt stellt fraglos Hadoop dar.Das Open-Source-Framework entwickelt sich zu einer Art Lin-gua franca für das Durchführen von Rechenprozessen mit gro-ßen Datenmengen auf Rechner-Clustern beeindruckender Grö -ßenordnungen. Rund um Hadoop ist in der Zwischenzeit ein

klangvolles Ökosystem aus Distributio-nen, Produkten und Mitspielern (sieheKasten) entstanden, dessen (Markt-)Be-deutung nicht der hohen Präsenz in deröffentlichen Wahrnehmung entspricht.

Hadoop – alle mischen irgendwie mitDie Wertschätzung, die Hadoop erfährt,lässt sich auch an der breiten Unterstüt-zung seitens der Business-Intelligence-Anbieter ablesen. Spezialisten wie Jasper-soft, Tableau, Pentaho, Qlik, aber auchSchwergewichte wie Oracle, Microsoft,SAP und SAS zählen zu den Supportern.Die Aufnahme beziehungsweise Einbin-dung von Hadoop in die traditionelle Weltder Analysewerkzeuge und Data Ware-houses ergibt durchaus Sinn. Denn imAllgemeinen eignen sich Hadoop-An-wendungen mit MapReduce-Analyse auf-grund ihrer Größe und Latenzzeit nur be-

10 iX Developer 2015 – Big Data

GRUNDLAGEN | BIG DATA

Data Discovery

Location Intelligence

Textanalytik

Data/Text Mining

Search

Anreicherung

analytische und NoSQL-Datenhaltungssysteme

Big-Data-AnalytikBig-Data-Management

Lokalisier-rungsdaten

Call DataRecords

operativeDaten

Files, XML,Spreadsheets

DataWarehouse

Maschinen-daten

RFID

Ereignisse,Sensoren

SocialMedia

Big

Dat

a

Quellen-identifikation

Quellen-extraktion

Big Data bedeutet nicht nur Datenflut aus unterschiedlichsten Quellen. Es umfasst auchDaten-Management und Analyse-Konzepteˇ(Abb.ˇ2).

Que

lle: S

.A.R

.L. M

artin

Page 11: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

dingt für interaktive Aufgaben, denn sie arbeiten vornehmlich imBatch-Betrieb. In anderen Worten: Für die dritte V-Dimension(Velocity) findet sich im Kern-Hadoop-Projekt (noch) keine be-friedigende Antwort.

An diversen Stellen hat die Web-2.0- und Hadoop-Gemeindejedoch eine Reihe interessanter Vorhaben gestartet, die mehrTempo und Interaktivität versprechen. Cloudera (Impala) undIBM (BigSQL/InfoSphere BigInsights) veröffentlichten beispiels-weise SQL-Engines, die direkt das Datenformat für Hadoop le-sen konnten und dazu die Batch-orientierte Verarbeitung mitMapReduce umschifften. Die großen Softwarekonzerne Micro-soft (Analytics Platform System, vormals Parallel Data Ware -house) oder Oracle (Big Data SQL) unterstützen die Möglich-keit, mit einer Abfrage Daten aus den relationalen Datenbankenund Hadoop zusammenzuführen. In dem mittlerweile als Top-Level-Projekt geführten Apache Drill werkelt zudem die Open-Source-Gemeinde auf Grundlage von Googles Dremel an einerMöglichkeit, per SQL ad hoc auf das Hadoop-Dateisystem undandere Hadoop-Datenquellen zuzugreifen.

Kurzum: Die (Zugangs-)Welt zu den in Hadoop verwaltetenDaten gewinnt an Facetten. Spätestens mit der initialen Veröf-fentlichung des Release 2.x vor eineinhalb Jahren zeichnet sichab, dass die Tage als vornehmliche MapReduce-Ablaufumge-bung endgültig gezählt sind. Denn die konsequente Trennungder Datenverarbeitung von der Ressourcenverwaltung durch dieYARN-Komponente (Yet Another Resource Negotiator) verein-facht den Weg erheblich, weitere spezialisierte Programmbiblio-theken einzuführen. Insbesondere das gleichfalls von Apachekoordinierte Projekt Spark, ein interaktives In-Memory-Frame-work, entwickelt sich allen Anschein nach als ein eigenes Frame -work-Ökosystem innerhalb des Hadoop-Stacks.

In der Regel übernehmen die NoSQL-Systeme, vor allem Ha-doop, im Rahmen größerer Big-Data-Infrastrukturen grund -legende Auswertearbeiten aus Massendaten im Hintergrund. DieErgebnisse dienen dann als Input für die Analysesysteme der BI-Spezialisten, um tiefergehende Einblicke zu gewinnen. Für dieseAufgaben haben die einschlägigen Anbieter in jüngerer Zeit ver-mehrt In-Memory-Techniken in Stellung gebracht. Der Grundist recht simpel: Wenn Daten von Systemen wie SAP HANA zurBearbeitung vollständig im Hauptspeicher gehalten und nichtmehr auf Festplatten zwischengelagert werden, führt das zumenormen Geschwindigkeitsschub. Das eröffnet die Chance, be-liebige Auswertungen ad hoc und in Echtzeit auszuführen. DieVerbindung zwischen den Analyse- und Big-Data-Systemenfunktioniert im Übrigen immer besser bidirektional. SAS erlaubtnicht nur, Daten aus Hadoop parallelisiert im eigenen In-Memo-ry-Server abzulegen, zu bearbeiten und zurückzuschreiben. DerBI-Spezialist unterstützt im Rahmen des In-Data base-Processing-Konzepts ebenso die direkte Ausführung seiner Analyse-Biblio-theken auf dem Hadoop-Cluster.

Auf welche Weise Big Data à la Hadoop und In-Memory zu-einander finden, lässt sich an der xData-Plattform des Re-Tar-geting-Spezialisten xplosion interactive begutachten. Sie sollWerbetreibenden und E-Commerce-Anbietern helfen, ihre Re-klame kosteneffektiver einzusetzen. Kern der Anwendung istdas Hadoop-Framework, das als eine Art zentrales Datenlager(Single Point of Truth) alle angeschlossenen dispositiven Sys-teme verwaltet und steuert. Zu diesen zählt ein Data Warehouseauf Grundlage der spaltenorientierten Datenbank EXASolutionvon Exasol, das sämtliche Informationen aus Web-Logdatenspeichert und untersucht. Apaches Messaging-System Kafkaspeichert die Daten im HDFS in ihrer ursprünglichen Form. ViaHive werden die ursprünglich unstrukturierten Daten in Zwi-schenschritten letztlich in eine strukturierte Form gebracht, die

Analysen in Echtzeit ermöglicht. Während sich der Besucher ineinem Webshop umsieht, ermittelt die Anwendung aus seinemKauf- und Suchverhalten ein Profil, das sie für personalisierteProduktvorschläge auswertet.

Wert schaffen mit Big Data

Die Anwendung ist ein weiterer Beleg dafür, dass Big Data erstim Zusammenspiel mit Analyse Nutzen stiftet. Das hat die Po-litik erkannt (siehe Kasten „BMWi unterstützt Big-Data-Pro -jekte“). Darauf pochen in der Zwischenzeit auch einschlägigeMarktforschungsfirmen, die zuvor kräftig das Werbefeuer für

iX Developer 2015 – Big Data 11

BMWi unterstützt Big-Data-Projekte

Unter dem Titel „Smart Data – Innovationen aus Daten“ fördert dasBundesministerium für Wirtschaft und Energie (BMWi) insgesamt 13Projekte mit einer Laufzeit von bis zu drei Jahren (2014–2017), umden „Wachstumsmarkt Big Data für die deutsche Wirtschaft besserzu erschließen“. Neben den technischen Arbeiten sollen im Programminsbesondere auch rechtliche und gesellschaftliche Herausforderun-gen wie Fragen des Datenschutzes und der Akzeptanz untersuchtwerden. Rund 30ˇMio. Euro an Fördermitteln wurden hierzu reserviert,wobei das Programm durch Eigenmittel der Projektpartner insgesamtrund 55ˇMio. Euro umfasst. Folgende Projektvorschläge wurden fürdie Förderung ausgewählt (Konsortialführer jeweils in Klammern):

Industrie:PRO-OPT: Big-Data-Produktionsoptimierung in Smart Ecosystems(DSA Daten- und Systemtechnik)SAKE: Semantische Analyse komplexer Ereignisse (USU Software) SIDAP: Skalierbares Integrationskonzept zur Datenaggregation, -ana-lyse, -aufbereitung großer Datenmengen in der Prozessindustrie (Bay-er Technology Services)Smart Data Web: Datenwertschöpfungsketten für industrielle An-wendungen (Deutsches Forschungszentrum für Künstliche Intelli-genz (DFKI))

Mobilität:ExCELL: Echtzeitanalyse und Crowdsourcing für eine selbstorgani-sierte City-Logistik (FELD M)iTESA: Intelligent Traveller Early Situation Awareness (travel-BA.Sys)sd-kama: Smart-Data-Katastrophenmanagement (geomer) SD4M: Smart Data for Mobility (]init[ AG für digitale Kommunikation)

Energie:SmartEnergyHub: Smart-Data-Plattform für das prognose- undmarktbasierte Energiemanagement von Infrastrukturbetreibern undEnergieverbünden auf Basis von Sensordaten (Fichtner IT Consul-ting)SmartRegio: SmartRegionalStrategy – strategische Analyse hetero-gener Massendaten im urbanen Umfeld (YellowMap)

Gesundheit:InnOPlan: Innovative, datengetriebene Effizienz OP-übergreifenderProzesslandschaften (Karl Storz GmbH & Co. KG) KDI: Klinische Datenintelligenz (Siemens) SAHRA: Smart Analysis – Health Research Access (AOK Nordost)

Page 12: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

Big Data entfachten. Vor dem Hintergrund der rasant wachsen-den Datenvolumina aus sozialen Medien, Sensoren und Maschi-nen (Internet der Dinge) sowie großer Datenpools innerhalb undaußerhalb von Firmen forderte Gartner-Mann David Cearleybeispielsweise nachdrücklich, die Analyse in den Mittelpunktzu rücken. Schließlich haben nur die Resultate einer Analyse ei-nen Wert und nicht die Daten. Als marketinggestählter Beraternutzte Cearley hier mit Blick auf den Big-Data-Begriff einWortspiel aus Big Questions und Big Answers.

Big Data Analytics basiert zum Teil auf härtesten mathema-tisch-statistischen Methoden und Verfahren. Da fallen in schnel-ler Folge Begriffe wie Assoziationsanalyse, Clustermethode,Machine Learning, Regressionsanalyse, Data Mining etc. UmMethoden und Verfahren dieser Art in Algorithmen zu gießen,steht den Anwendern ein breites Tool-Angebot zur Wahl, dasmit und ohne große Datenmengen funktioniert. Textanalytik aufunstrukturierten Daten kombiniert beispielsweise linguistischeVerfahren mit Suchmaschinen, Text Mining, Data Mining sowieAlgorithmen des maschinellen Lernens. Es wird unter anderemzur sogenannten Sentiment-Analyse herangezogen, um automa-tisiert Stimmungen und Einstellungen zu ermitteln. Wie maya-to-Geschäftsführer Marcus Dill erklärt, lässt sich das Sentimentgegenüber den eigenen und Konkurrenzprodukten als ein Früh-warnsystem heranziehen, das Umsatzrückgänge oder das Ab-wandern größerer Kundengruppen ankündigt. Insbesondere imKonsumentengeschäft tätige Firmen können so relativ einfachHinweise sammeln, wie ihre Marketingmaßnahmen und Pro-dukte „draußen“ ankommen.

Textanalytik klingt in Ohren allerdings deutlich einfacher, alses sich mitunter in der Realität entpuppt. Reine Wortmuster -prüfungen sind nicht ausreichend, will man den in sozialen Net-zen gepflegten Zynismus und Sarkasmus maschinell korrekt ent-schlüsseln. Ohne zusätzliche Auswertungen des Kontexts sindFehlinterpretationen Tür und Tor geöffnet. Aus dem Tweet „Ichliebe Salt!“ folgerte die Analyse-Umgebung der WalmartLabsangesichts des persönlichen „social gnome“ der Nutzerin mes-serscharf, dass der Actionthriller mit Angelina Jolie und nicht dasSpeisegewürz gemeint war. Da zudem der Geburtstag der Nut-zerin anstand, versorgte das Programm im konkreten Fall dieFreunde mit entsprechenden Hinweisen auf die Filmvorliebe.

Ein Rat, den Berater allerorten wohlfeil Unternehmen an -bieten, lautet, sich zuvor Gedanken über den Wert der Daten undder Realitätsnähe der Analysemodelle machen sollten. Denntrotz der unstrittigen Potenziale von Big Data führen mehr Daten nicht zwangsläufig zu besseren Informationen und Ent-scheidungen. Selbst Tom Davenport, der Dozent an der HarvardBusiness School und im Herzen ein starker Verfechter der Big-Data-Idee, mahnt nachdrücklich, anstelle eine wilden Sammel-wut erst einmal die richtigen Fragen zu stellen, beispielsweisewie eine Anforderung definiert ist, welche Daten benötigt wer-den und woher diese stammen?

Insbesondere die Ergebnisse aus Prognoseverfahren verleitenda schnell zu peinlichen Fehlschlüssen, wie Nate Silver im Zugeder letztjährigen Fußballweltmeisterschaft erleben musste. DerUS-Amerikaner, dem der Ruf eines Statistikpapstes vorauseiltund dessen Prognosemodell bei den Präsidentschaftswahlen 2012den Sieger in allen Bundesstaaten korrekt bestimmte, hatte sichim Vorfeld mit einer Wahrscheinlichkeit von 45,1ˇProzent aufBrasilien als Sieger festgelegt – vor Argentinien (13ˇProzent) undDeutschland (11ˇProzent).

Zur Ehrenrettung von Silver sei der Hinweis erlaubt, dassPrognosen immer auf Wahrscheinlichkeiten beruhen. Seine Be-rechnungen basierten auf dem Soccer Power Index (SPI), einemAlgorithmus, den er gemeinsam mit Sportsender ESPN entwi-

ckelt hatte. In diesen fließen mit unterschiedlichen statistischenGewichten die Ergebnisse aller Länderspiele sowie die Offensiv-und Defensivstärken der Spieler ein. Zudem hatte Brasilien in denvergangenen Jahren kein Heimspiel verloren und eine WM inSüdamerika noch nie eine europäische Mannschaft als Sieger her-vorgebracht. Die Vorhersagen nährten sich folglich aus buchhal-terischen Werten der Vergangenheit. Da sie aber auf Wahrschein-lichkeiten basieren, ist das Eintreten eher unwahrschein licher,zufälliger Ereignisse immer möglich und widerspricht keinesfallsder Modelllogik. Selbst der kleinste Wert steht für ein real mög-liches Ereignis und kann – wie im Fall der WM – das Ende einerals unumstößlich geltenden Fußballweisheit bedeuten.

Wer unter Big Data nur „more Data“ versteht, wird abernoch aus einem anderen Grund scheitern. Die persönliche Aus-leuchtung und Ausmessung der eigenen Person ist nicht freivon „Nebenwirkungen“ – für Anwender und Unternehmen.Diese Erfahrung machten auch die Kreditauskunftsdatei Schufaund das HPI (Hasso-Plattner-Institut) vor drei Jahren, als siedas Forschungsprojekt „Facebook Creditscore“ vorstellten. Zielwar es, die persönlichen Daten in den sozialen Netzen zur di-rekten Bonitätsbewertung bei der Kreditvergabe von Bankenheranzuziehen. Angesichts des aufbrausenden Shit- oder besserKritik-Sturms sah sich selbst der BITKOM bemüßigt, Stellungzu beziehen. „Nicht alles, was technisch möglich ist, sollte indie Praxis umgesetzt werden“, ließ sich Dieter Kempf zitieren.Der Verbandspräsident empfahl, alles zu unterlassen, „was dasVertrauen in das Internet beschädigt“. Kurz: Die Protagonistenmussten ihr Vorhaben nach nur zwei Tagen beerdigen.

Fazit

Internationale Firmen (z.ˇB. Walmart) hegen in diesem Punktjedoch weniger Skrupel. Das geht selbst manchem Star derWerbebranche zu weit. Zu den Kritikern zählt beispielsweiseJohn Hegarty. Der Brite den die Queen wegen seiner Verdienstein den Ritterstand erhob , teilte laut dem Magazin „AdvertisingAge“ kräftig gegen die Datensammelwut der eigenen Zunft aus.Selbst das unfeine F-Wort soll in diesem Zusammenhang ge-fallen sein. Sir Johns Credo: Unternehmen sollten sich lieberum das eigene Geschäft kümmern, als immer mehr Informa -tionen zu horten, um andere zu verstehen. Zurecht wies er da-rauf hin, dass die riesigen Datenmengen, die Supermarktket -ten schon heute in den Händen halten, schließlich nicht den Pferdefleischskandal verhindert hätten. Hegarty mag jedenfallsnicht, dass andere wissen, was er morgens und abends trinke.Er möchte gar nicht von dritten verstanden werden; er verstün-de sich ja manchmal selbst nicht. Dem ist eigentlich nichts mehrhinzuzufügen. (ane)

Literatur[1]ˇBITKOM: Big Data und Geschäftsmodell – Innovationen

in der Praxis: 40+ Beispiele (2015) (www.bitkom.org/files/documents/BITKOM-Leitfaden_Big_Data_und_GM-Innovationen_06Febr2015.pdf)

Achim Bornist freier Journalist und Korrespondent der iX im Kölner Raum.

12 iX Developer 2015 – Big Data

GRUNDLAGEN | BIG DATA

Alle Links: www.ix.de/ix1514008 x

Page 13: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,
Page 14: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

iX Developer: Herr Bollhöfer, Sie sind schon länger im Big-Data-Umfeld unterwegs. Ist Big Data vor allem ein Hype, aufden sich Tool-Hersteller und Marketing-Experten stürzen,oder sehen Sie eine langfristige Chance?Klaas Wilhelm Bollhöfer: Ich bin jetzt wirklich schon einigeZeit dabei. Als vor gut fünf Jahren auch in Deutschland der Be-griff „Big Data“ allmählich auf fruchtbaren Boden fiel, ersteinnovative Unternehmen begannen, hatte ich meine ersten Be-rührungspunkte. Ursprünglich aus dem Bereich der digitalenMedien und der Online-Agenturwelt kommend, geerdet imklassischen Ingenieursstudium, hatte ich begonnen, meine pro-grammatischen und mathematischen Grundlagen mit dem Busi-ness- und vor allem Design-Denken aus der Internet-Ära zukombinieren. Dass sich diese Mischung von Skills irgendwannData Science nennen würde, war – mir zumindest – zu demZeitpunkt nicht klar.

Seitdem ist einiges passiert. Nach dem großen Hype, den wirnach meiner Einschätzung in Deutschland vor 12 bis 18 Mona-ten erlebt haben, und den großen Erwartungen an neue daten-betriebene Geschäftsmodelle, neuartige Datenlösungen und dis-ruptive Marktverschiebungen ist aber erstaunlicherweise keineErnüchterung eingetreten. Im Gegenteil – seit circa einem Jahrkommt nun wirklich Bewegung in den Markt hierzulande. DieBudgets scheinen allokiert, Fördertöpfe von EU und Bund aus-geschüttet, die Use- und/oder Business Cases eruiert, der Blickauf die nächsten ein bis zwei Jahre ist vorausgeworfen, ein guterTeil der doch recht steilen Lernkurve wurde beschritten. Big Dataist da. Und was viel wichtiger ist: Big Data bleibt.

iX Developer: Obgleich Big Data also auch hierzulande an-gekommen ist, erscheint es trotzdem so, dass vor allem US-amerikanische Start-ups das Thema allein für sich besetzthätten … Bollhöfer: Aktuell zeichnet sich in Europa ein weiterer, sehr span-nender Entwicklungsschritt ab – Industrieˇ4.0. Vor kurzem nochmüde belächelt, zumindest in der eingefleischten Big-Data-Community, wird Industrieˇ4.0 als „das europäische Big-Data-Vehikel“ genutzt, um nicht zuletzt auch als trojanisches Pferdder Markt- und Technologiemacht der Amerikaner bei Big Dataeinen Gutteil abzutrotzen.

Was jedoch viel entscheidender ist: Die letzten Jahre wurdenintensiv genutzt, um das eigene Know-how und einen ersten un-ternehmensrelevanten und vor allem -spezifischen Erfahrungs-schatz aufzubauen. Es ist nicht so, dass die Unternehmen jahre-

lang untätig waren, sich auf Konferenzen haben berieseln lassenund mehrheitlich das Thema Big Data als Modeerscheinung ab-getan hätten. Big Data wurde und wird sehr ernst genommen.

iX Developer: Was fehlt der deutschen IT-Szene dann noch? Bollhöfer: Neben all der Planung und „Ernsthaftigkeit“ kommtder Spaß zu kurz. Es ist ungemein notwendig, dass jeder, dersich heute (aber vor allem morgen) mit Daten beschäftigen soll,wird oder muss, mehr über Daten und Big Data in all seinen Fa-cetten lernt. Und das idealerweise selbstmotiviert, spielerischund ergebnisoffen ohne den etablierten „Druck“ üblicher Ab-lauf- und Aufbauorganisationen. Big Data ist eine Art „infinitegame“, das uns jeden zu jedem Zeitpunkt auffordert, zu lernen,zu denken, Entscheidungen zu fällen und (egal wie) voranzu-schreiten. Deshalb ist für mich Big Data auch letztlich ein or-ganisatorisches, wenn nicht gar ein Design-Thema.

iX Developer: Im Zusammenhang mit Big Data fallen häufigdie Stichworte NoSQL und Hadoop. Ist damit schon alles ge-sagt?Bollhöfer: Auf keinen Fall! Big Data ist weit mehr als Techno-logie, und Big Data ist auch mehr als drei, vier oder siebzehn Vs

14 iX Developer 2015 – Big Data

GRUNDLAGEN | INTERVIEW

Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch

„Big Data bleibt.“Wie sieht es mit dem Potenzial von Big Data aus? Was sind hier die jüngsten Trends? Antworten gibt der in der Big-Data-Szene umtriebige Klaas Wilhelm Bollhöfer.

Klaas Wilhelm Bollhöfer …

… ist Chief Data Scientist bei The unbelievable Machine Company(*um), einem Dienstleister für Cloud Computing und Big Data ausBerlin.

Page 15: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

[Gartner hat ursprünglich einmal Big Data mit den 3 Vs definiert:Volume, Velocity, Variety, Red.]. Hadoop oder NoSQL oder wasauch immer für „latest hot shit technologies“: Es geht um Pro-zesse und Verfahren, Techniken, Menschen und nicht zuletzt De-sign – ohne Gewichtung in der Reihenfolge. Es geht um dieganzheitliche und nachhaltige Wertschöpfungskette rund um Da-ten in aller Vielfalt. Aus diesem Grund gehe ich stark davon aus,dass der Begriff Big Data in der Form verschwinden wird undwir in Zukunft nur noch von „Data“ sprechen, bitte nicht vonSmart Data, Intelligent Data, Ambient Data oder Quokka Data.

iX Developer: Was sind für Sie die derzeitigen Trends? Wohingeht also die Reise?Bollhöfer: Neben den neuen großen Themen Industrie 4.0,Smart (Eco-)Systems oder Internet of Things (IoT), die alle ihreDaseinsberechtigung haben und de facto Big Data weiter aus-differenzieren, sehe ich derzeit drei große Entwicklungen amMarkt.

Erstens Algorithmen. Nachdem verstanden ist, dass sich mitBig Data grundsätzlich beliebige Daten speichern, verarbeitenund perspektivisch nutzen lassen, geht es nun immer stärker inRichtung Mathematik. Machine Learning, Natural LanguageProcessing, Predictive Analytics, neuronale Netze, CognitiveComputing oder Deep Learning sind nur einige der Begriffe,die zunehmend in den allgemeinen (Business-)Sprachgebrauchdiffundieren. Sie erlauben es, Muster, Trends, Relationen odersemantische Entitäten in Daten zu identifizieren und den nächs-ten Phasen im Data Lifecycle zuzuführen. Verpackt in neuartigeProdukte ermöglichen es uns diese Verfahren, mehr und mehrAnalysetätigkeiten an „Maschinen“ zu übergeben.

Zweitens Data Interfaces. Die Interfaces in Richtung von BigData werden immer vielfältiger, komfortabler und Business-tauglicher. Als Beispiele seien hier zahlreiche SQL-Interfacesfür Hadoop, Visual-Analytics-Produkte wie Tableau, IPythonNotebooks oder IBM Watson genannt. Ihnen ist gemein, dasssie die Daten visualisieren, in den Zugriff stellen und dem An-wender das Arbeiten und „Spielen“ mit Daten so einfach wiemöglich machen beziehungsweise bekannte und gelernte Inter-faces adoptieren. Das ergibt in mehrfacher Hinsicht Sinn. Zumeinen ist es für Unternehmen sinnvoll, gar zwingend, dem Busi-ness-Anwender in Entscheidungsprozessen direkt den Zugangzu Daten und Analyse- beziehungsweise Visualisierungswerk-zeugen in einer für ihn verdaulichen und sinnhaften Art undWeise zur Verfügung zu stellen. Zum anderen ermöglicht es Un-ternehmen, dem Fachkräftemangel, der massiv im Bereich BigData Engineering und Data Science spürbar wird, ein Stück weitentgegenzuwirken.

Drittens Plattformen. Die oft größte Herausforderung sindderzeit aber häufig weder Algorithmen noch Interfaces zu denDaten. Die erste Hürde liegt auf Seiten des Datenimports, demData Ingestion. Reden wir von der Digitalisierung von Ferti-gungsstraßen, Optimierungsprozessen in der Logistik oder ganz-heitlichen Mobilitätskonzepten, liegt die primäre Aufgabe darin,all die Daten im ersten Schritt eins zu eins abzugreifen und zuspeichern. Das ist alles andere als trivial. Das ist höchste Inge-nieurskunst. Der Trend ist – sofern man von Trend sprechenkann –, dass Konzerne mehr und mehr auf heterogene Daten-landschaften setzen, eine Vielzahl neuer Technologiebausteinemit etablierten, erprobten Lösungen zusammenstecken, um fürdie datenbetriebene Unternehmenszukunft gewappnet zu sein.Initial geht es um Import und Speicherung. In naher Zukunftwerden mehr und mehr Analytics- und Business-Applikationenauf dieser neuen Plattform entwickelt und integriert werden.Technisch reden wir häufig von sogenannten Lambda-Architek-

turen mit je nach Anforderung ausgewählten Komponenten fürdie einzelnen Schichten Ingest Layer, Speed Layer, Batch Layer,Storage Layer und Serving Layer.

iX Developer: Was ergeben sich auf dem Job-Markt durchBig Data für Möglichkeiten? Oder anders gefragt: Sind über-haupt genug Fachkräfte da, das Potenzial datengetriebenerIT-Projekte auszuschöpfen?Bollhöfer: Big Data verlangt nach neuen Skills, Ressourcen,aber vor allem nach Expertise. Wie man sich vorstellen kann,liegt in letzterem der größte Knackpunkt. Derzeit haben wir des-wegen sicherlich einen leichten Ressourcen-Engpass. So riesigwie die Kluft aus Angebot und Nachfrage im Bereich Big Dataund Data Science häufig beschrieben sowie wieder und wiederzitiert wird, ist sie aber meines Erachtens momentan noch nicht.Aber sie wird größer. Nach meiner Schätzung von vor circa ei-nem Jahr waren in Deutschland etwa 500ˇData Scientists tätig,die Nachfrage war weitgehend gedeckt. Heute gehe ich von ge-fühlt gut 1000ˇData Scientists aus bei einer zunehmend wach-senden Nachfrage, die deutlich über dieser Annahme liegenwird. Big Data ist in Deutschland angekommen, und es geht anallen Ecken und Enden los. Diesen Schub kann der Personal-markt zurzeit sicherlich schwer bedienen. Es ist unwahrschein-lich bis unmöglich, heute in Deutschland jemanden zu findenund für sich zu gewinnen, der schon mehr als fünf Jahre Data-Engineering- oder Data-Science-Expertise besitzt, sich in einerVielzahl an Techniken und Methoden bestens auskennt undgleichzeitig noch das viel zitierte und wirklich relevante Domä-nenwissen mitbringt. Davon abgesehen, dass man diesen Je-mand höchstwahrscheinlich weder bezahlen will noch kann.

Aber natürlich passiert gerade so einiges – zahlreiche Wei-terbildungsangebote aus Wissenschaft und Wirtschaft, erste Stu-diengänge, Start-up-Initiativen wie das Data Science Retreat ausBerlin, ein kompaktes 3-Monats-Hands-on mit namhaften inter-nationalen Chief Data Scientists und die hochkarätigen Ange-bote von Plattformen wie Coursera, Udacity und Co. gebenStarthilfe und Zusatzqualifikation. Auf den Punkt gebracht,könnte man sagen: Neben Raum braucht es auch Zeit, um BigData für sich urbar zu machen.

iX Developer: Was kennzeichnet für Sie einen guten DataScientist aus?Bollhöfer: Das ist nicht so einfach zu beantworten und würdehöchstwahrscheinlich jeder Chief Data Scientist oder Teamleadanders beantworten. Ursprünglich, ich meine von Hilary Mason(seinerzeit Chief Data Scientist bei bit.ly) auf den Punkt ge-bracht, wurden Data Scientists als „awesome nerds“ bezeichnet.Damit meinte sie die Skills-Schnittmenge aus Engineering, Ma-thematik, Computer Sciences und Hacking. Das trifft es in mei-nen Augen nicht zu 100ˇProzent. Ich finde die zuletzt von, someine ich, O'Reilly vorgestellten T-shaped Profiles passend, diebeschreiben, dass es „den“ Data Scientist nicht gibt, sondern dasData Science de facto immer Teamsport ist. Ein Team von DataScientists, das sich mit seinen Schwerpunkten in etwa Statistikoder Programmierung oder Business-Kommunikation (die „Ts“in T-shaped) gut ergänzt, ist das Erfolg versprechendste. Mir per-sönlich geht es daher immer mehr um Teamplay und Motivationals um die Zahl der Titel und Papers in Lebensläufen. Sicherlichein Grund, warum ich mir diese vor Einstellungsgesprächen fastnie durchlese.

iX Developer: Vielen Dank für das Gespräch.

Die Fragen stellte iX-Redakteur Alexander Neumann. (ane) �

iX Developer 2015 – Big Data 15

Page 16: Auf der Big Data - download.e-bookshelf.de · NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin,

E rst der berühmte „ganzheitliche Blick“ auf Prozesse, Kun-den, Produkte sowie Services und deren Lebenszyklus, in-klusive der Interaktionen zwischen Nutzer und Dienst -

leister oder Hersteller, erlaubt es den Verantwortlichen, diebestmögliche Entscheidung zu treffen. Fehlt dieser Einblick,müssen sie ihre Entscheidungen auf Intuition oder abgeleiteteInformationen stützen. Wie aber sollen Unternehmen den Über-blick behalten, wenn sie Hunderte – bei größeren Unternehmenoft auch Tausende – Anwendungen nutzen? Wie sollen sie dieInformationen, die in Datenbanken, Logfiles, Tabellenkalkula-tionen, Chats oder Dokumenten gespeichert sind, zusammen-bringen?

Big Data bedeutet eine methodisch und technisch neue Formder Datenverarbeitung, die Antworten auf solche Fragen gibt.Big Data fordert aber auch ein Umdenken ein. Das betrifft dietechnische Seite des Themas, aber auch damit einhergehendemethodische, organisatorische und fachliche Aspekte. Nur wennsämtliche dieser Fragestellungen berücksichtigt und ernst ge-nommen werden, kann die Transition zu durch Daten optimier-ten Geschäfts- und Produktionsprozessen gelingen. Allzu oftaber konzentrieren sich die Experten zu früh auf die Techniken.

„Technology last“ statt „Technology first“

Techniken sind die eine Seite der Medaille. Immer noch stellenverteilte Systeme – also welche, die für die Ausführung auf phy-sisch getrennter Hardware konzipiert sind – oder die Integrationvon Cloud-Produkten in die IT-Infrastruktur die Experten vorHerausforderungen. Dazu gehören auch die Verfahren und Ab-läufe, die bei solchen verteilten Systemen zum Zuge kommen:MapReduce beispielsweise, um Datenverarbeitungsprozesse aufverteilten Systemen auszuführen, oder In-Memory-Netzwerke –verteilte Systeme, die hauptspeicherresidente Techniken nutzen –sind die Konzepte der Stunde. Diese müssen die Fachleute er-lernen und beherrschen.

Darüber hinaus kommen vor dem Hintergrund heutiger In-formationslandschaften etablierte Umgangsformen mit Daten anihre Grenzen. Bisher galt die Regel: „Daten kommen in die Da-tenbank.“ Gemeint sind damit häufig relationale Datenbanken.Die Arbeit mit dieser Art von Datenbank folgt typischerweisefolgendem Muster:1. Daten modellieren (in Form von Relationen, Konsistenz- und

Integritätsbedingungen);2. Daten erfassen, beispielsweise eingeben oder importieren be-

ziehungsweise laden;3. Daten per standardisierter Sprache anfragen, beispielsweise

SQL.Ein Ansatz, der gut funktioniert, solange das „Datenumfeld“, indem das Unternehmen agiert, stabil ist. Ändern sich aber die Ge-schäftsprozesse, sollen Datenströme verarbeitet werden oderlässt sich das Datenvolumen nur schwer oder gar nicht prognos-tizieren, dann wird dieses Muster zu einem Korsett, das die Weiterentwicklung von Datenverarbeitungsprozessen verzögernkann.

Einen anderen Ansatz implementieren viele Big-Data-Tech-niken, die (horizontale) Skalierbarkeit und insbesondere dyna-mische Schemata anbieten. Sie ermöglichen es, Daten „as is“ zusammeln, also ohne vorab ein Schema zu modellieren, aber auchim Fall von Änderungen zu speichernder Daten ohne manuelleSchritte geänderte Daten sofort aufnehmen zu können. DieseFlexibilität ermöglicht zum Beispiel die Umsetzung eines Da-tensees, der als Senke für unterschiedlich strukturierte Informa-tionen fungiert. (Die Idee des Data Lake geht auf James Dixon,Mitgründer und CTO von Pentaho, zurück.) Die Daten im Seedürfen sich dabei verändern und lassen sich zunächst wirtschaft-lich sammeln. Ein Datensee ist gleichzeitig die Basis für viel-fältige Verwertungsansätze. Er setzt, im Vergleich zu beispiels-weise Data-Warehouse-Ansätzen, auf eine andere Art der Arbeitmit den Daten. Darüber hinaus unterscheidet sich die verwen-dete Datenbanktechnik durch ihre größere Flexibilität. Diese be-schleunigt den Prozess der Informationssammlung. Das gilt vor

16 iX Developer 2015 – Big Data

GRUNDLAGEN | PROJEKTMANAGEMENT

Datengetriebene IT-Projekte im Wandel

Seen statt SilosThomas Franz

Der Nutzen von Daten und Informationenhört nicht an Abteilungsgrenzen auf.

Im Gegenteil – beide entfalten erst dann ihr ganzes Potenzial, wenn es Unternehmen

gelingt, genau diese Grenzen zu überwinden.Deswegen muss im Big-Data-Umfeld

ein Umdenken einsetzen.