Der geschäftliche Nutzen von...
Transcript of Der geschäftliche Nutzen von...
Unternehmenstauglich. Community-orientiert. Apache Hadoop™.
Der geschäftliche Nutzen von Hadoop
...veranschaulicht anhand von Daten Juni 2013 © 2013 Hortonworks Inc. http://www.hortonworks.com
Big Data... Hadoop Nutzen
Hortonworks hilft Unternehmen seit vielen Jahren bei der Integration und Implementierung einer
Hadoop-Strategie. Während wir vielen Unternehmen dabei behilflich waren, sich über die
Hadoop-Technologie zu informieren, haben wir gleichzeitig auch viel über Daten gelernt und
darüber, wie Unternehmen Hadoop integrieren und anwenden können, um einen Nutzen aus
Big Data zu erzielen.
Auch wenn sich alle Unternehmen unterscheiden, sind ihre Big Data oftmals sehr ähnlich.
Hadoop ist ein entscheidender Teil einer neu entwickelten, modernen Datenarchitektur und
sammelt riesige Datenmengen aus Social-Media-Aktivitäten, Clickstream-Daten, Weblogs,
finanziellen Transaktionen, Videos und Maschinen-/Sensordaten von eingesetzten Geräten.
Diese „neuen“ Datenquellen weisen alle die Eigenschaften von Big Data auf: Volumen (Größe),
Geschwindigkeit und Vielfalt (Art). Oftmals wurden diese Daten als Daten von geringem oder
mittlerem Wert oder sogar als „erschöpfte Daten“ betrachtet, deren Speicherung und
Auswertung zu teuer ist. Aber es sind genau diese Arten von Daten, die das Gespräch von
„Datenanalyse“ auf „Big-Data-Analyse“ bringen, da aus ihnen so viele Einblicke für einen
geschäftlichen Vorteil gewonnen werden können.
Natürlich sind diese Arten von Daten streng genommen nicht wirklich „neu“ – es gibt sie schon
seit geraumer Zeit. Textdaten gibt es zum Beispiel schon seit dem alten Ägypten, jedoch war
nie sehr viel davon vorhanden (zumindest nicht nach dem heutigen Standard). Mit Hilfe von
Hadoop lernen Unternehmen diese Arten von Daten als wirtschaftliche, zugängliche und
tägliche Quellen für Einsichten und Wettbewerbsvorteile zu betrachten – und all das aus
Daten, die sie früher löschten, vernichteten oder auf Band speicherten.
Obwohl sie sich ähneln, bietet jede dieser wichtigen Arten von Big Data einen sehr
unterschiedlichen Nutzen. Wir wollen einen Blick auf die einzelnen Arten von Big Data werfen.
Hortonworks: Apache Hadoop Basics Seite 2
Clickstream-Daten
Clickstream-Daten bieten Informationen von unschätzbarem Wert für Internet-Vermarkter. Analysten
überprüfen den Clickstream (Datenstrom) auf der Suche danach, welche Webseiten die Besucher
aufrufen und in welcher Reihenfolge. Diese Informationen entstehen aus einer Reihe von Mausklicks
(dem Clickstream), die jeder Besucher ausführt. Die Clickstream-Analyse kann aufzeigen, wie Nutzer
Produkte recherchieren und wie sie ihre Online-Käufe tätigen.
Clickstream-Analyse
Clickstream-Daten werden oftmals eingesetzt, um die Produktrecherche und Kaufüberlegungen der
Besucher einer Website zu verstehen. Mit Hilfe von Clickstream-Analysen können Online-Vermarkter
Produktseiten und verkaufsfördernde Inhalte optimieren, und somit die Wahrscheinlichkeit erhöhen,
dass sich ein Besucher über die Produkte informiert und anschließend auf „Kaufen“ klickt. Dank
umfangreicher Aufzeichnungen von realen Verhaltensmustern können Online-Vermarkter die
Wirksamkeit verschiedener Werbemittel und Calls-to-Action beurteilen – mit der Zuversicht, dass ihre
Ergebnisse statistisch signifikant und reproduzierbar sind. So kann es bei bestimmten Produkten sein,
dass Videos Besucher häufiger zum Kauf anregen als Whitepaper. Bei einem anderen Produkt ist es
dafür möglich, dass ein Whitepaper ein besseres Ergebnis erzielt als ein Datenblatt.
Die Clickstream-Analyse gibt Aufschluss über das Kundenverhalten während des eigentlichen
Kaufvorgangs. Mit Hilfe von Verhaltensmustern aus Millionen von Einkaufswagen können Vermarkter
verstehen lernen, weshalb ganze Kundengruppen einen Einkaufswagen an der gleichen Stelle im
Kaufvorgang abbrechen. Sie können außerdem sehen, welche Produkte Kunden zusammen kaufen
und dann Preis- und Werbestrategien entwickeln, um die Produktpakete zu verkaufen, die ihre Kunden
durch ihr Online-Verhalten definieren.
Clickstream-Daten sind jedoch nicht nur für Online-Händler von Konsumgütern geeignet. Die
Clickstream-Analyse kann von allen Unternehmen genutzt werden, um zu erfahren, wie gut ihre
Website die Bedürfnisse ihrer Kunden, Mitarbeiter oder verbundenen Unternehmen erfüllt.
Hadoop macht Ihren Clickstream noch wertvoller
Mit Hilfe von Tools wie Omniture und Google Analytics sind Web-Teams bereits jetzt in der Lage, ihre
Clickstreams zu analysieren, Hadoop fügt jedoch drei wichtige Vorteile hinzu. Erstens kann Hadoop
Clickstream-Daten mit anderen Datenquellen wie z. B. CRM-Daten zu Kundendemographik,
Umsatzdaten von stationären Geschäften oder Informationen zu Werbekampagnen verbinden. Diese
zusätzlichen Daten bieten häufig wesentlich vollständigere Informationen als eine isolierte Analyse des
Clickstreams alleine. Hortonworks: Apache Hadoop Basics Seite 3
Zweitens bietet Hadoop eine einfache Skalierung, sodass Sie über Jahre gesammelte Daten ohne
Mehrkosten speichern können. Das bietet Ihnen die Möglichkeit, eine temporale Analyse oder einen
Jahresvergleich des Clickstreams zu erstellen. Sie können jahrelang gesammelte Daten auf
Bedarfscomputern speichern und tiefergehende Muster aufdecken, die Ihre Konkurrenz
möglicherweise übersieht. Das Speichern aller Daten im Hadoop-Datenpool vereinfacht den
Zusammenschluss verschiedener Datensätze auf unterschiedliche Art und Weise und für
unterschiedliche Zwecke. Im Laufe der Zeit können Sie diesen Zusammenschluss mit leichten
Abweichungen wiederholen.
Und drittens erleichtert Hadoop die Website-Analyse. Ohne Hadoop ist es in der Regel sehr schwierig,
Clickstream-Daten zu verarbeiten und zu strukturieren. Mit Hadoop kann selbst ein unerfahrener Web-
Business-Analyst Apache Hive oder Apache Pig-Scripts verwenden, um Clickstream-Daten nach
Benutzersitzung zu organisieren und anschließend zu verfeinern, um sie in Analyse- oder
Visualisierungstools einzuspeisen. Auch die Planung von wiederkehrenden, regelmäßigen
Beurteilungen und Vergleichen von Verhaltensweisen ist vereinfacht. Hadoop vereinfacht das
Speichern und die Verfeinerung der Daten, sodass sich der Analyst auf die Ermittlung von
Ergebnissen konzentrieren kann.
Stimmungsdaten
Stimmungsdaten sind unstrukturierte Daten zu Meinungen, Emotionen und Einstellungen, die in
Quellen wie z. B. Social-Media-Einträgen, Blogs, Online-Produktrezensionen und Kundendienst-
Kommunikationen enthalten sind. Unternehmen nutzen die Analyse von Stimmungsdaten, um die
öffentliche Meinung zu einer bestimmten Sache zu verstehen und die langfristigen Änderungen dieser
Meinung zu verfolgen. Ein Unternehmen kann Stimmungen zu Produkten, Dienstleistungen,
Wettbewerbern oder anderen beliebigen Themen, zu dem Millionen von Menschen eine Meinung
haben, analysieren. Hortonworks: Apache Hadoop Basics Seite 4
Stimmungsanalyse für bessere Entscheidungen
Jeder Vermarkter möchte die Meinungen der Kunden kennen. Sie möchten wissen, welche Meinungen
Kunden heute haben und dann verfolgen, wie sich diese Meinungen im Laufe der Zeit ändern.
Traditionelle Marktforschungstools mit intensiver Kundeninteraktion, wie z. B. Kundenbefragungen und
Fokusgruppen, haben drei Nachteile: Sie sind künstlich, träge, sowie kostspielig und werden nur
selten. Stimmungsanalysen können einige dieser Einschränkungen erweitern oder beseitigen.
• Künstlich. Umfragen und Fokusgruppen sind künstlich, da die Teilnehmer aus ihrem natürlichen Umfeld herausgenommen und zur Beantwortung von hypothetischen Fragen
aufgefordert werden. Die Ergebnisse können verzerrt sein (aufgrund von kleiner
Stichprobengröße oder Umfragemethodik) und es kann oftmals Wochen dauern, diese
Ergebnisse zusammenzutragen, zu ordnen und zu interpretieren.
Träge. Wenn es zwei Monate dauert, die Studie abzuschließen und den Bericht anzufertigen und dann einen weiteren Monat, um die Ergebnisse zu prüfen und zu einer Entscheidung zu kommen, beginnen sich die Empfänger der Informationen zu fragen, ob die Ergebnisse noch relevant sind. Und damit haben sie möglicherweise sogar Recht. Auch wenn wir ein genaues Bild der Meinungen der Kunden vom 1. Januar haben, kann es bis zum 1. April schon nicht mehr relevant sein.
• Kostspielig und werden selten durchgeführt. Forscher können größere Studiengruppen
zusammenstellen, um die Studie schneller durchzuführen und Fehler zu reduzieren, die aus
einer kleinen Stichprobengröße entstehen, jedoch können diese Studien aufgrund der
Belohnungen für die Teilnehmer recht teuer werden. Falls eine Studie neue Fragen aufwirft,
erfordert deren Beantwortung eine weitere Studie und somit auch mehr Zeit- und
Kostenaufwand.
Stimmungsdaten vermeiden die Einschränkungen traditioneller
Marktforschungsmethoden und erweitern diese oftmals. Die Analyse von
Stimmungsdaten ist reell, direkt, reproduzierbar und kostengünstig. Twitter-
Nutzer sind Beispielsweise keine Teilnehmer einer Studie aber stellen ihre
Meinungen kostenlos zur Verfügung. Sie kommunizieren einfach mit Freunden
und Kollegen, was bedeutet, dass sie offen und ehrlich kommunizieren.
Der Wert von Online-Stimmungsdaten geht über reines Produktmarketing
hinaus. Sie können eine dynamische Preisliste zur Optimierung von Preisen
und Profiten begünstigen. Stimmungsdaten können eingesetzt werden, um
eine PR-Krise oder einen gesundheitlichen Notstand zu bewältigen. Außerhalb
von Twitter, Facebook oder LinkedIn können Analysen von Stimmungsdaten
auch mit Hilfe von anderen „kostenlosen“ Feedbackquellen, wie anonymen
Umfragen oder Formularen für Kundenkommentare, durchgeführt werden. Hortonworks: Apache Hadoop Basics Seite 5
Mit Hadoop können Sie Stimmungsdaten heute ansehen und für später speichern
Hadoop speichert und verarbeitet riesige Mengen an komplexen, unstrukturierten Inhalten; es ist wie
geschaffen für „unordentliche“ Stimmungsdaten. Mit Hadoop können Social-Media-Einträge mit Hilfe
von Apache Flume in das Hadoop Distributed Files System (HDFS) zum Echtzeit-Streaming geladen
werden. Apache Pig und Apache Mahout ordnen die unstrukturierten Daten und bewerten die
Stimmungsdaten mit Hilfe von fortschrittlichen Methoden für maschinelles Lernen.
Die Stimmungsanalyse quantifiziert die qualitativen Meinungen, die in den Social Media zum Ausdruck
gebracht werden. Marktforscher brauchen große Datenmengen, um diese Analyse zuverlässig
durchzuführen. Zehn Tweets sind einfach nur Meinungen. Eine Million Tweets sagen aus, wie die
meisten Personen zu einem bestimmten Zeitpunkt über ein Thema denken.
Und so funktioniert es: Wörtern und Sätzen wird ein Polarität-Score (positiv, neutral oder negativ)
zugeordnet. Durch die Bewertung und Anhäufung von Millionen von Interaktionen können Analysten
ehrliche Meinungen im Maßstab und in Echtzeit beurteilen.
Nach der Bewertung der Meinungen müssen die Daten aus den Social Media mit anderen
Datenquellen kombiniert werden. Der HDFS-Datenpool macht diese Zusammenschlüsse von Daten
einfach und reproduzierbar. CRM-, ERP- und Clickstream-Daten können verwendet werden, um das,
was früher anonyme oder halb anonyme Meinungen waren, einem bestimmten Kunden oder
Kundensegment zuzuordnen. All dies kann in Hadoop erledigt werden; die Ergebnisse können
anschließend mit Business Intelligence-Tools wie Microsoft Excel, Platfora, Splunk oder Tableau
veranschaulicht werden. Hortonworks: Apache Hadoop Basics Seite 6
Erstellen Sie Social Graphs
Ein weiterer komplexer und recht hochentwickelter Ansatz zur Stimmungsanalyse ist die Erstellung
eines Social Graph. Die lauteste Person in einem gesellschaftlichen Kreis ist meistens nicht die
einflussreichste. Die Trennung der „lauten“ Stimmungsbeeinflusser von den „vertrauenswürdigen“ ist
von großer Bedeutung. Es ist wichtig die richtigen Personen zu beeinflussen oder dazu anzuregen,
sich in einem sozialen Umfeld positiv über eine Marke oder Erfahrung zu äußern.
Auch hier bietet Hadoop eine ausgezeichnete Möglichkeit, um die riesigen Mengen von sich schnell
verändernden Informationen, die zur Erstellung und Aktualisierung eines Social Graph notwendig sind,
nicht nur zu speichern, sondern auch zu verarbeiten.
Server-Logdaten
Große Konzerne errichten, verwalten und schützen ihre eigenen proprietären, verteilten
Informationsnetzwerke. Serverlogs sind die computergenerierten Berichte, die Daten zu den
Aktivitäten dieser Netzwerke aufzeichnen. Sie sind die EKG-Werte des Netzwerkes: Wenn ein
Problem auftaucht, sind sie eine der ersten Stellen, an denen das IT-Team nach einer Diagnose sucht.
Kein IT-Administrator setzt sich jedoch mit seiner morgendlichen Tasse Kaffee hin und liest
Serverlogs. Die Datenmenge ist gewaltig und meistens haben diese Logs keinerlei Bedeutung. Hin
und wieder kann eine Handvoll dieser Logs allerdings sehr, sehr wichtig sein.
Die zwei Use Cases, in denen Server-Logdaten am häufigsten genutzt werden, sind
Netzwerksicherheitsverstöße und Prüfungen der Netzwerk-Compliance. In beiden Fällen sind Server-
Loginformationen von zentraler Bedeutung für eine zügige, effiziente Problemlösung und auch für
längerfristige forensische Maßnahmen und Ressourcenplanung. Hortonworks: Apache Hadoop Basics Seite 7
Hadoop hilft Ihnen, die Sicherheit Ihres Netzwerkes zu schützen
Es vergeht kaum eine Woche, in der die Öffentlichkeit nicht von einer erneuten Netzwerkverletzung
durch böswillige Personen und Gruppen erfährt. Unternehmen und Regierungsbehörden investieren
enorme Summen in Antivirus- und Firewall-Software, um ihre Netzwerke vor Malware und Angriffen
von außen zu schützen und in der Regel erfüllen diese Lösungen ihren Zweck. Wenn die
Schutzmaßnahmen jedoch versagen, hilft Hadoop großen Unternehmen dabei, die Schwachstelle zu
verstehen und zu beheben, und erleichtert eine Ursachenanalyse, um für dauerhaften Schutz zu
sorgen.
Häufig erfahren Unternehmen erst dann von Schwachstellen im System, wenn diese bereits
ausgenutzt wurden. Die schnelle Entdeckung, Diagnose und Behebung der Eindringung ist daher
entscheidend. 2011 erfolgte zum Beispiel ein Angriff auf das Playstation-Netzwerk von Sony, der drei
Tage andauerte. Am vierten Tag sperrte Sony das Netzwerk, das fast einen ganzen Monat außer
Betrieb blieb. Namen, Geburtstage und Kreditkartennummern von nahezu 25 Millionen Kontoinhabern
wurden gestohlen. Sony gab die Sicherheitsverletzung sechs Tage nach Sperrung des Netzwerkes
bekannt. Angaben von Sony zufolge wurde die Öffentlichkeit nicht früher verständigt, da Sony Zeit
brauchte „um den Umfang der Sicherheitsverletzung, der nach mehrtägiger forensischer Analyse
durch externe Experten deutlich wurde, zu verstehen“.
Hadoop kann eine derartige forensische Analyse beschleunigen. Wenn ein IT-Administrator weiß,
dass Serverlogs immer in den Hadoop-Datenpool fließen, um sich mit anderen Arten von Daten
zusammenzuschließen, kann er wiederkehrende Standardprozesse entwickeln, um jegliche
Auffälligkeiten zu kennzeichnen. Er kann außerdem Abfragen zur Datenexploration und
Transformationen erstellen und testen, die bei Verdacht auf einen Einbruch einfach angewandt werden
können.
Hadoop hilft bei der Vorbereitung auf Prüfungen der IT-Compliance
Natürlich verfassen die Gesetzgeber Gesetze, um Krisen wie der von Sony vorzubeugen. Die
folgenden Compliance-Standards verlangen von Unternehmen eine Netzwerküberwachung in
Echtzeit, ein hohes Maß an Sicherheit für ihre vertraulichen Vermögenswerte zu gewährleisten und
Prüfungsberichte zur Netzwerk-Compliance für Prüfer zur Verfügung zu stellen:
• Payment Card Industry Data Security Standards (PCI DSS)
• Sarbanes Oxley (SOX)
• Health Insurance Portability and Accountability Act (HIPAA)
• Federal Information Security Management Act (FISMA)
• Der Gramm-Leach-Bliley Act (GLBA)
Hortonworks: Apache Hadoop Basics Seite 9
Zudem fordern die Regulierungsbehörden von Unternehmen lange Aufbewahrungsfristen für
Logdaten. Auf diese Weise wird es Prüfern ermöglicht, Sicherheitsvorfälle zu authentisieren, indem sie
die Prüfpfade in den Logdaten prüfen. Das Speichern von über Jahre hinweg angesammelten
Logdaten in relationalen Datenbanken kann kostspielig sein. Hadoop kann eine beständige,
kostengünstige Plattform zum Nachweis der Compliance bieten.
Sensordaten
Von Ihrem Kühlschrank und Ihrer Kaffeemaschine bis hin zu den Strom- und Wasserzählern in Ihren
Häusern – Sensordaten sind allgegenwärtig. Sie werden von den Maschinen, die Fließbänder
antreiben, und den Mobilfunkmasten, die unsere Telefonanrufe senden, erzeugt. Es sind neue Netto-
Daten, die sich im Informationszeitalter exponentiell vermehren. Manchmal messen und berichten wird
über Maschinendaten, allerdings lassen sich diese nicht gut skalieren und sind anfällig für Fehler. In
einigen Fällen ist es nicht möglich, dass diese Daten durch Menschen gesammelt werden. Stellen Sie
sich eine Messung aus dem Inneren einer Erdöl-Pipeline in der gefrorenen Tundra zu jeder Stunde
des Jahres vor. Kein Mensch möchte diesen Job, aber Sensoren können ihn zuverlässig und
kostengünstig ausführen und sie schlafen nie.
Sensoren erfassen außerdem Daten zu naturwissenschaftlichen Systemen, z. B.:
• Meteorologische Muster, die von Wetterballons erfasst werden;
• Bohrmechanismen für Ölquellen;
• Wetter- und Bodendaten für landwirtschaftliche Zwecke; und
• Vitalparameter von Patienten während der postoperativen Genesung. Hortonworks: Apache Hadoop Basics Seite 9
Sensoren liefern Big Data, Hadoop liefert den Wert von Big Data
Hadoop löst zwei der größten Probleme, die derzeit die Nutzung von Sensordaten einschränken: Ihr
Umfang und ihre Struktur.
Sensoren messen und übertragen kleine Datenmengen effizient, allerdings sind sie immer in Betrieb.
Mit zunehmender Anzahl an Sensoren (und im Verlauf der Zeit) können sich die Bytes oder Kilobytes
von jedem Sensor schnell zu Petabytes anhäufen. Mit traditionellen Datenspeicherplattformen stellt ein
solcher Datenstrom ein Problem dar. Die Kosten zur Speicherung der Daten können ein Unternehmen
veranlassen entweder die Sammlung von Daten einzuschränken (durch Einschränkung der Anzahl der
Sensoren) oder deren Speicherung zu begrenzen (durch Löschen von Daten über einer bestimmten
Menge oder nach einem bestimmten Zeitraum). Hadoop bietet eine effizientere und kostengünstigere
Speicherung dieser Daten. Dank Hadoop verwandeln sich große Mengen an Sensordaten von einem
Problem zu einem Vermögenswert.
Sensordaten sind zudem zum Zeitpunkt ihrer Erhebung in der Regel flach und unstrukturiert und
werden normalerweise durch einen mechanischen, sich wiederholenden Prozess generiert. Apache
Hive kann die Sensordaten in Übereinstimmung mit ihren Metadaten (z. B. Zeit, Datum, Temperatur,
Druck oder Neigung) umwandeln. Die Daten werden dann in HCatalog in einem geläufigeren
Tabellenformat präsentiert, auch wenn die zugrunde liegenden Daten noch in ihrem ursprünglichen
Format in HDFS vorhanden sind.
Verwendung von Hadoop für prädiktive Analytik und proaktive Wartung
Die Fähigkeit, einen Geräteausfall vorherzusagen (und entsprechend proaktiv zu reagieren) ist
ungemein wertvoll, da es wesentlich günstiger ist, proaktive Wartungsmaßnahmen durchzuführen als
für Notreparaturen zu bezahlen Geräte austauschen zu müssen. Wenn der Kühlraum eines
Restaurants ausfällt, verliert das Restaurant Tausende von Euro durch verdorbene Lebensmittel und
die Einnahmen eines Tages. Der Austausch von Sachanlagen wie z. B. Mobilfunkmasten ist schwierig
und kostspielig und dennoch existieren sie zur Übertragung von Daten; somit können Sensoren
diagnostische Daten senden, die dazu beitragen, die Lebensdauer dieser Anlagen zu verlängern.
Algorithmen können riesige Mengen von Sensorsignalen so verarbeiten, dass sie zuvor unsichtbare,
subtile Muster identifizieren, die anzeigen, wenn eine günstige Reparatur aller Wahrscheinlichkeit nach
einen teuren Austausch verhindern kann.
Die Differenz zwischen Kosten und Nutzen ist natürlich wesentlich größer wenn Menschenleben auf
dem Spiel stehen. Das Children's Hospital Los Angeles sammelt seit 2007 Sensordaten aus seinen
pädiatrischen Intensivstationen, die alle 30 Sekunden von jedem Patienten erhoben werden. Dieser
Datensatz enthält mehr als eine Milliarde einzelne Messungen. Die Ärzte haben vor, diese Daten zur
genaueren Diagnose und Prognose von medizinischen Episoden einzusetzen. Laut Äußerung eines
der Forschers besteht die Schwierigkeit darin, medizinisch brauchbare Muster zu finden, da „es eine
Hortonworks: Apache Hadoop Basics Seite 10
unbegrenzte Anzahl an unbedeutenden Mustern gibt, wie z. B. Personen, die Babys
bekommen, sind Frauen, und Personen, die größer als 1,80 m sind, sind größer als 1,50 m.“
Mit Hilfe von Hadoop ist es viel einfacher diese Daten aufzubereiten und zu untersuchen, um die
aussagekräftigen Muster zu finden. Tools wie Apache Hive und Apache Pig können verwendet
werden, um verschiedene Datensätze zu verbinden, diese dann mit Daten zu medizinischen
Ergebnissen zu kombinieren und schließlich alle in einen Hauptdatensatz zu filtern, der die
wichtigen Muster einschließt und die unbedeutenden ausschließt.
Da Hadoop die Speicherung und Analyse von Big Data auf Prozesse ausdehnt, die über die
gewerbliche Nutzung des Internets hinausgehen, können andere Bemühungen verstärkt und
unterstützt werden, um durch die Vorhersage, Identifizierung und Prävention möglicher
Tragödien Leben zu retten.
Standortdaten
Standortdaten sind eine Untergruppe der Sensordaten, da das Gerät seinen Standort erkennt
und Daten zu seinem Längen- und Breitengrad in vorgegebenen Intervallen übermittelt. Hierbei
handelt es sich wirklich um eine neue Datenform, da sie (außerhalb hochspezialisierter Militär-
und Raumfahrtanwendungen) vor zehn Jahren noch nicht existierte.
Das Global Positioning System (GPS) wurde Ende der 1990er Jahre großflächig erhältlich.
Heute können Smartphones in regelmäßigen Zeitabständen präzise Längen- und Breitengrade
erfassen und übermitteln – der Sensor ist mit dem Kommunikationsnetzwerk im gleichen Gerät
verbunden. Verbraucherorientierte Unternehmen wollen diese Daten nutzen, um zu erfahren,
wo sich potentielle Kunden zu bestimmten Tageszeiten versammeln. Kommunalverwaltungen
oder Handelskammern möchten wissen, wenn Personen aus dem Ausland ankommen, damit
sie sie begrüßen und örtliche Sehenswürdigkeiten und Anbieter vorschlagen können.
Eine weitere viel versprechende Verwendung diese Standortdaten ist für Lieferfahrzeuge.
Unternehmen wie UPS, die an Privathaushalte zustellen, können feingranulare Standortdaten,
die in regelmäßigen Zeitabständen gesammelt werden, nutzen, um die Fahrerrouten zu
optimieren. Dies führt zu kürzeren Lieferzeiten, niedrigeren Kraftstoffkosten und einem
geringeren Unfallrisiko. Logistikunternehmen möchten zu jeder Tageszeit wissen, wo sich all
ihre mobilen Vermögenswerte befinden. Hortonworks: Apache Hadoop Basics Seite 11
Big Data sorgen dafür, dass LKW pünktlich und sicher ankommen
Fernfahrer bieten eine besonders interessante Einsatzmöglichkeit für Standortdaten. Sensoren
auf LKW können genutzt werden, um sowohl „Makrobewegungen“, wie z. B. die
Durchschnittsgeschwindigkeit in 10 km-Abschnitten, als auch „Mikroereignisse“, wie z. B.
abruptes Bremsen, Ausbrechen oder ungenügender Sicherheitsabstand zu anderen
Fahrzeugen, zu messen und zu berichten. Diese großen Standortdatensätze können genutzt
werden:
• Zur Verringerung des Leerlaufverbrauchs
• Zur Einhaltung von Bundesgesetzen, die die Mindestruhezeit und die maximale
Lenkzeit vorgeben
• Zur Vorbeugung von Unfällen durch die Erkennung von unsicherem Fahrverhalten.
US Xpress ist eines der größten Fuhrunternehmen in den Vereinigten Staaten. Sie entwickelten
ein System namens DriverTech, das zehntausende von Sensoren einsetzt, um Daten in ein
Hadoop-Cluster zu streamen. Laut einem Artikel in Computer Weekly „basiert der Datenstrom auf
900 Datenelementen von zehntausenden LKW-Systemen – Sensordaten für Reifenabnutzung
und Kraftstoffverbrauch, Motorlauf, Geodaten zur Verfolgung der LKW-Flotte, sowie Fahrer-
Feedback von Social-Media-Seiten.“ Hortonworks: Apache Hadoop Basics Seite 12
Dank Hadoop ist US Xpress in der Lage, riesige Mengen von Standortdaten über viele Jahre
hinweg zu speichern. Darüber hinaus können diese Standortdaten aber auch mit anderen
Datenströmen, die in ihren Datenpool einfließen, kombiniert werden, um einen ganzheitlicheren
Datensatz dazu zu erhalten, was mit ihren Fahrern und Fahrzeugen geschieht. Mit Hilfe von
DriverTech erzielt US Xpress eine bekannte Ersparnis von mehr als $6 Millionen pro Jahr durch
Kraftstoff und Geräte, ganz zu schweigen von den unbekannten Ersparnissen aus den Unfällen
oder Verletzungen, die es verhindert.
Unstrukturierter Text
Eine Staatsbibliothek für jedes Unternehmen
Freiformtext kommt in Unternehmen in Arbeitserzeugnissen wie Webseiten, E-Mails,
Dokumenten, Angeboten, Patenten und Literatur vor. Text ist eine der ältesten Datenformen,
jedoch wurde sie bisher immer in relativ kleinen Mengen aufbewahrt und genutzt. In der heutigen
Geschäftswelt hat fast jeder die Fähigkeit (und die Verantwortung) Freiformtext zu erstellen,
sodass die Menge dieses Datentyps weiterhin exponentiell zunimmt. Es gilt das gleiche
Verhältnis wie bei Sensordaten: Ein Kilobyte hier, ein Kilobyte da und bevor man sich versieht
hat man Big Data. Finanzdienstleister, Regierungen, Einzelhandel, Großhandel, verarbeitende
Industrien und Gesundheitswesen erzeugen alle erhebliche Mengen an Freiformtext und
numerischen Daten.
Laut Informationen auf der Website der US-amerikanischen Library of Congress verfügte die
Bibliothek im April 2011 über 235 Terabytes an gespeicherten Daten. Der im Mai 2011
veröffentlichte Bericht von McKinsey & Company Big data: The next frontier for innovation,
competition, and productivity (Big Data: Die nächste Herausforderung für Innovation,
Wettbewerb und Produktivität) warf einen Blick auf US-Unternehmen mit mehr als eintausend
Beschäftigten im Jahr 2009 und stellte fest, dass in 15 von 17 Branchen die
Durchschnittsmenge der speicherten Daten pro Unternehmen größer war als die der Library of
Congress. Wenn wir die vielzitierte Annahme verwenden, dass 80 % der gespeicherten
Unternehmensdaten unstrukturiert sind, dann speichert das Durchschnittsunternehmen in 14
von 17 Sektoren mehr Daten als die Library of Congress. Allerdings können nur sehr wenige
Unternehmen diese Daten nutzen. Sie sind auf unverbundenen Dateninseln gespeichert; nicht
durchsuchbar oder indiziert.
Die meisten Unternehmen sitzen auf einer Goldmine aus Freiformtext, ohne eine einfache Möglichkeit, diese abzubauen.
Hortonworks: Apache Hadoop Basics Seite 13
Quelle: „Big data: The next frontier for innovation, competition, and productivity“. McKinsey Global Institute, Mai 2011.
Die Befreiung des Freiformtexts
Es gibt drei Schritte, um diese Daten für die Nutzung in Ihrem Unternehmen zu befreien:
Extrahierung, Verdichtung und Analyse. Die bekannte „WordCount“ MapReduce Funktion – das
„Halle World“ von Hadoop – bietet ein einfaches Beispiel dieser drei Schritte. Die WordCount-
Funktion kann zählen, wie oft jedes Wort in einem sehr umfangreichen Textdokument
vorkommt.
Hier sind die drei Schritte für dieses Textverarbeitungspensum:
1. Extrahierung: Jedes Dokument wird in seine einzelnen Worte aufgespalten und
jedes Wort wird von der Map-Funktion gezählt
2. Verdichtung: Das Framework gruppiert alle identischen Wörter mit dem gleichen
Schlüssel und führt sie der gleichen Aufforderung zur Reduzierung zu
3. Analyse: Für jedes vorhandene Wort fasst die Funktion alle Eingabewerte
zusammen, um zu ermitteln, wie oft das jeweilige Wort insgesamt auftaucht
Hortonworks: Apache Hadoop Basics Seite 14
Sektor Terabytes gespeichert pro
Geschätzte Anzahl der unstrukturierten Library of Congress
Unternehmen (>1000 Terabytes pro Unternehmen (unter Annahme
Entsprechungen pro Unternehmen
Mitarbeiter) eines Anteils von 80 %)
Wertpapiere und Investition 3.866 3.093 13 Bankwesen 1.931 1.545 7 Kommunikation und Medien 1.792 1.434 6 Versorgungsbetriebe 1.507 1.206 5 Regierung 1.312 1.050 4 Diskrete Fertigung 967 774 3 Versicherungen 870 696 3 Prozessfertigung 831 665 3 Rohstoffindustrien 825 660 3 Transport 801 641 3 Einzelhandel 697 558 2 Großhandel 536 429 2 Gesundheitswesen 370 296 1 Bildungswesen 319 255 1 Dienstleistungsgewerbe 278 222 <1 Baugewerbe 231 185 <1 Konsum- und freizeitorientierte Dienstleistungen 150 120 <1
Es gibt möglicherweise einige echte Use Cases für Unternehmen, in denen gezählt wird, wie oft
bestimmte Wörter in den E-Mails eines Unternehmens auftauchen, allerdings ist es nur schwer
vorstellbar, dass diese besonders nützlich wären. Der wahre Wert liegt in der Bestimmung bestimmter
Formulierungen und der anschließenden Analyse des Vorkommens dieser Formulierungen im
Verhältnis zu anderen Datenquellen. Die folgenden drei Zusammenfassungen von Use Cases zeigen
spezielle Anwendungen von Hadoop für die Analyse von Freiformtext.
Hadoop Textanwendungen für Anwälte, Versicherer und Banker
Textanalyse für die juristische Offenlegung
Der Prozess der juristischen Beweisführung und Argumentation basiert größtenteils auf Informationen,
die aus einer Vielfalt von Dokumenten extrahiert werden. Anwälte erhalten beträchtliche
Stundenhonorare für die Analyse von Dokumenten, um Beweismaterial zusammenzutragen. Hadoop
kann dabei behilflich sein, diese manuelle Durchsicht von Dokumenten effizienter zu gestalten.
Kanzleien können die Dokumente in Hadoop speichern und anschließend den Text en masse anhand
von Verfahren wie der Verarbeitung natürlicher Sprache oder Text Mining analysieren. Auf diese
Weise können Juristen Dokumente nach wichtigen Formulierungen durchsuchen und dann mit Hilfe
von Hadoop Ecosystem-Lösungen die Zusammenhänge zwischen diesen und anderen
Formulierungen analysieren. Diese vorläufige Analyse optimiert die Zeit des Anwalts für die Durchsicht
des Texts, sodass er die Teile lesen kann, die wirklich wichtig sind.
Textanalyse für Versicherungsgeschäfte
Versicherungsgesellschaften besitzen riesige Mengen an unstrukturierten, textbasierten
Schadensfalldaten. Sie haben außerdem Zugriff auf andere, strukturierte und unstrukturierte
Datensätze (öffentlich und privat), die sie mit Schadensfalldaten kombinieren können, um ihre
Risikobeurteilung zu verbessern.
So können Versicherungsgesellschaften ihr „subjektives Risiko“ verringern, das im Grunde durch
Datenmangel entsteht. Subjektives Risiko liegt in einer Situation vor, in der riskantere Antragsteller
eine Versicherung beantragen, da sie wissen, dass sie diese eventuell brauchen werden, während
sicherere Antragsteller sich aus dem Markt heraushalten, da sie ihr Risiko als Gering einschätzen.
Datenanalysen, die auf dem Hadoop-Datenpool aufbauen, schmälern die Lücke zwischen dem, was
der Versicherer weiß, und dem, was der Versicherungsnehmer weiß, sodass beide Parteien eine
ähnliche Sichtweise der Risiken haben. Versicherungsgesellschaften verwenden mehr Daten aus
mehr Quellen über längere Zeit, sodass ihre Vorhersagekraft im Laufe der Zeit zunimmt.
Textanalyse für die Antragsrisikoprüfung
Banken erhalten jeden Tag Tausende von Anträgen auf Darlehen und Kontoeröffnungen. Um die
Risiken dieser Anträge zu beurteilen, berufen sich Banker auf von Dritten erstellte Risikoberichte. Hortonworks: Apache Hadoop Basics Seite 15
Banker können sich über diese Empfehlungen zur Öffnung von Konten und Finanzierung von
Darlehen hinwegsetzen (und tun dies auch). Diese Entscheidungen führen im Durchschnitt zu
höheren Kontoausbuchungen und Kreditausfällen.
Führungskräfte versuchen riskantes Verhalten durch die Bewilligung von Einzelpersonen, die
Aktualisierung von Richtlinien, die Verbesserung von Schulungen oder die Ermittlung von
internen Betrugsfällen zu beheben. Dazu müssen sie die Entscheidungen aller Banker mit den
zahlreichen Informationsquellen, die Banker zur Entscheidungsfindung nutzen, abstimmen. Der
Hadoop-Datenpool kann alle verfügbaren Daten speichern, die eventuell über Vorhersagekraft für
verbesserte Entscheidungen der Banker verfügen.
Diese drei spezifischen Use Cases können auf alle Branchen übertragen werden, die
große Mengen an Textdaten sammeln und diese anschließend verwendet, um
Entscheidungen von großer Bedeutung zu treffen.
Hadoop im Unternehmen:
Eine neu entstehende Datenarchitektur
Heutzutage verwenden die meisten Unternehmen mindestens eine analytische Anwendung
zur Verwaltung ihrer täglichen Geschäftsabläufe. Der traditionelle Ansatz zu Analytik wird
relativ gut verstanden und ist in Abbildung 1 dargestellt. Bei diesem Ansatz:
• Stammen die Daten aus einer Reihe von Datenquellen; in der Regel aus
Unternehmensanwendungen wie ERP, CRM oder anderen
Transaktionsanwendungen, die die Geschäfte fördern
• Die Daten werden extrahiert, umgewandelt und in ein Datendepot wie z. B. eine
relationale Datenbank oder ein Data-Warehouse geladen
• Analytische Anwendungen – entweder eine vorkonfigurierte Lösung (z. B. SAS) oder
kundenspezifische Anwendung – werden dann eingesetzt, um die Daten im Depot zu
manipulieren, um Berichte oder Visualisierungen zu erstellen, die geschäftlichen
Anwendern Einblicke ermöglichen
Hortonworks: Apache Hadoop Basics Seite 16
Abbildung 1: Traditionelle Unternehmensdatenarchitektur
Aufgrund der Einführung dieser neuen Datenquellen sind Unternehmen gezwungen, ihre
Denkweise zu ändern. Die neu entstehende Datenarchitektur, die am häufigsten auftaucht,
führt Apache Hadoop ein, um diese neuen Datentypen auf effiziente und wirtschaftliche Weise
zu bearbeiten. Hadoop ist kein Ersatz für die traditionellen Datendepots, die im Unternehmen
verwendet werden, sondern dient als Ergänzung dazu.
Abbildung 2: Die neu entstehende Big Data-Architektur Hortonworks: Apache Hadoop Basics Seite 17
Dank der Verfügbarkeit von unternehmenstauglichen Apache
Hadoop Distributionen wie z. B. Hortonworks Data Platform,
nehmen Unternehmen eine große Vielfalt von Hadoop-basierten
Big-Data-Projekten in Angriff. Während es viele Beispiele gibt,
haben sich drei Anwendungsmuster ergeben:
• Refine (Aufbereiten). Die Erfassung vielfältiger
Datenquellen in eine einzige Plattform, in der ein Mehrwert
geschaffen werden kann, indem die Daten in Formate, die
von Plattformen, wie z. B. einem Data-Warehouse,
einfacher gebraucht werden können, aufbereitet werden.
• Explore (Untersuchen). Die interaktive Untersuchung riesiger Datenmengen zur
Feststellung von Mustern und Zusammenhängen, um Möglichkeiten für einen geschäftlichen
Nutzen zu erschließen.
• Enrich (Anreichern) Die Befähigung von Unternehmen, fortschrittliche analytische Tools auf
die Daten anzuwenden, die sie durch Logdateien oder Social-Media-Streams sammeln. Damit
sollen andere Anwendungen, wie z. B. mobile Geschäftsanwendungen, hinsichtlich der
Erfahrung die sie liefern, „intelligenter“ gestaltet werden.
Hortonworks Data Platform
Hortonworks Data Platform (HDP) ist die einzige 100 % Open-Source-Datenmanagementplattform für
Apache Hadoop. Mit Hilfe von HDP können Unternehmen Daten in jedem beliebigen Format und in
voller Größe erfassen, verarbeiten und teilen. Die Plattform, die von den wichtigsten Architekten,
Entwicklern und Anwendern von Hadoop aufgebaut und zusammengestellt wurde, beinhaltet alle
notwendigen Komponenten zur Verwaltung eines Clusters in vollem Umfang und zur Aufdeckung
geschäftlicher Erkenntnisse aus vorhandenen und neuen Big-Data-Quellen.
Hortonworks Data Platform ist die stabilste und zuverlässigste Distribution von Apache Hadoop auf
dem Markt. Sie liefert die fortschrittlichen Leistungen, die für Unternehmenseinsätze erforderlich sind,
ohne dabei die Kostenwirksamkeit und Offenheit von Apache Hadoop zu beeinträchtigen. Diese
Leistungen sind u.a.:
• Datenservices, die zur Speicherung, Analyse und dem Zugriff auf die Daten erforderlich sind
• Operative Services, die zur Verwaltung und dem Betrieb von Hadoop erforderlich sind
• Plattformservices wie z. B. Hochverfügbarkeit und Schnappschüsse, die erforderlich
sind, um Hadoop unternehmenstauglich zu machen
Hortonworks: Apache Hadoop Basics Seite 18
Unternehmenstauglich. Community-orientiert. Apache Hadoop™.
Wir bei Hortonworks sind überzeugt, dass Hadoop eine unternehmenstaugliche Datenplattform
ist, und dass der effektivste Weg zu ihrer Bereitstellung in der Open-Source-Community liegt.
Daher entwickeln, vertreiben und unterstützen wir eine 100 % Open-Source-Distribution von
Apache Hadoop, die wahrhaftig unternehmenstauglich ist und diese drei Grundsätze verfolgt:
1. Identifizierung und Einführung von Unternehmensanforderungen in die öffentliche Domain
2. Zusammenarbeit mit der Community, zur Förderung und Veranlassung der Open-Source-Projekte
3. Anwendung von unternehmerischer Präzision, für die stabilste und zuverlässigste Distribution
Hortonworks, Hadoop und Sie
Sie können uns folgen oder sich näher mit unseren Lerntools befassen. Oder laden Sie die
HDP Sandbox, eine Single-Node-Installation von HDP, die Sie auf Ihrem Laptop ausführen
können, herunter. Hadoop hat das Potential, die Datenlandschaft stark zu prägen und durch
die Kenntnis der gemeinsamen Anwendungsmuster können Sie die Komplexität deutlich
reduzieren.
Laden Sie Hortonworks Sandbox herunter und beginnen Sie noch heute, Hadoop zu nutzen
Über Hortonworks Hortonworks ist der führende gewerbliche Anbieter von Apache Hadoop, der unübertroffenen Open-Source-Plattform für die Speicherung, Verwaltung und Analyse von Big Data. Unsere Distribution, die Hortonworks Data Platform mit Unterstützung von Apache Hadoop, bietet eine offene und stabile Grundlage für Unternehmen und ein wachsendes Ökosystem für die Entwicklung und den Einsatz on Big-Data-Lösungen. Hortonworks ist die zuverlässige Quelle für Informationen zu Hadoop und zusammen mit der Hadoop-Community macht Hortonworks Hadoop robuster und sorgt für eine einfachere Installation, Verwaltung und Anwendung. Hortonworks bietet unerreichten technischen Support, Schulungs- und Zertifizierungsprogramme für Unternehmen, Systemintegratoren und Technologieanbieter.
3460 West Bayshore Rd. In den USA: 1.855.846.7866 Twitter: twitter.com/hortonworks
International: +1.408.916. 4121 Facebook: facebook.com/hortonworks
Palo Alto, CA 94303 USA
www.hortonworks.com LinkedIn: linkedin.com/company/hortonworks