Der geschäftliche Nutzen von...

Unternehmenstauglich. Community-orientiert. Apache Hadoop™.

Der geschäftliche Nutzen von Hadoop

...veranschaulicht anhand von Daten Juni 2013 © 2013 Hortonworks Inc. http://www.hortonworks.com

Big Data... Hadoop Nutzen

Hortonworks hilft Unternehmen seit vielen Jahren bei der Integration und Implementierung einer

Hadoop-Strategie. Während wir vielen Unternehmen dabei behilflich waren, sich über die

Hadoop-Technologie zu informieren, haben wir gleichzeitig auch viel über Daten gelernt und

darüber, wie Unternehmen Hadoop integrieren und anwenden können, um einen Nutzen aus

Big Data zu erzielen.

Auch wenn sich alle Unternehmen unterscheiden, sind ihre Big Data oftmals sehr ähnlich.

Hadoop ist ein entscheidender Teil einer neu entwickelten, modernen Datenarchitektur und

sammelt riesige Datenmengen aus Social-Media-Aktivitäten, Clickstream-Daten, Weblogs,

finanziellen Transaktionen, Videos und Maschinen-/Sensordaten von eingesetzten Geräten.

Diese „neuen“ Datenquellen weisen alle die Eigenschaften von Big Data auf: Volumen (Größe),

Geschwindigkeit und Vielfalt (Art). Oftmals wurden diese Daten als Daten von geringem oder

mittlerem Wert oder sogar als „erschöpfte Daten“ betrachtet, deren Speicherung und

Auswertung zu teuer ist. Aber es sind genau diese Arten von Daten, die das Gespräch von

„Datenanalyse“ auf „Big-Data-Analyse“ bringen, da aus ihnen so viele Einblicke für einen

geschäftlichen Vorteil gewonnen werden können.

Natürlich sind diese Arten von Daten streng genommen nicht wirklich „neu“ – es gibt sie schon

seit geraumer Zeit. Textdaten gibt es zum Beispiel schon seit dem alten Ägypten, jedoch war

nie sehr viel davon vorhanden (zumindest nicht nach dem heutigen Standard). Mit Hilfe von

Hadoop lernen Unternehmen diese Arten von Daten als wirtschaftliche, zugängliche und

tägliche Quellen für Einsichten und Wettbewerbsvorteile zu betrachten – und all das aus

Daten, die sie früher löschten, vernichteten oder auf Band speicherten.

Obwohl sie sich ähneln, bietet jede dieser wichtigen Arten von Big Data einen sehr

unterschiedlichen Nutzen. Wir wollen einen Blick auf die einzelnen Arten von Big Data werfen.

Hortonworks: Apache Hadoop Basics Seite 2

Clickstream-Daten

Clickstream-Daten bieten Informationen von unschätzbarem Wert für Internet-Vermarkter. Analysten

überprüfen den Clickstream (Datenstrom) auf der Suche danach, welche Webseiten die Besucher

aufrufen und in welcher Reihenfolge. Diese Informationen entstehen aus einer Reihe von Mausklicks

(dem Clickstream), die jeder Besucher ausführt. Die Clickstream-Analyse kann aufzeigen, wie Nutzer

Produkte recherchieren und wie sie ihre Online-Käufe tätigen.

Clickstream-Analyse

Clickstream-Daten werden oftmals eingesetzt, um die Produktrecherche und Kaufüberlegungen der

Besucher einer Website zu verstehen. Mit Hilfe von Clickstream-Analysen können Online-Vermarkter

Produktseiten und verkaufsfördernde Inhalte optimieren, und somit die Wahrscheinlichkeit erhöhen,

dass sich ein Besucher über die Produkte informiert und anschließend auf „Kaufen“ klickt. Dank

umfangreicher Aufzeichnungen von realen Verhaltensmustern können Online-Vermarkter die

Wirksamkeit verschiedener Werbemittel und Calls-to-Action beurteilen – mit der Zuversicht, dass ihre

Ergebnisse statistisch signifikant und reproduzierbar sind. So kann es bei bestimmten Produkten sein,

dass Videos Besucher häufiger zum Kauf anregen als Whitepaper. Bei einem anderen Produkt ist es

dafür möglich, dass ein Whitepaper ein besseres Ergebnis erzielt als ein Datenblatt.

Die Clickstream-Analyse gibt Aufschluss über das Kundenverhalten während des eigentlichen

Kaufvorgangs. Mit Hilfe von Verhaltensmustern aus Millionen von Einkaufswagen können Vermarkter

verstehen lernen, weshalb ganze Kundengruppen einen Einkaufswagen an der gleichen Stelle im

Kaufvorgang abbrechen. Sie können außerdem sehen, welche Produkte Kunden zusammen kaufen

und dann Preis- und Werbestrategien entwickeln, um die Produktpakete zu verkaufen, die ihre Kunden

durch ihr Online-Verhalten definieren.

Clickstream-Daten sind jedoch nicht nur für Online-Händler von Konsumgütern geeignet. Die

Clickstream-Analyse kann von allen Unternehmen genutzt werden, um zu erfahren, wie gut ihre

Website die Bedürfnisse ihrer Kunden, Mitarbeiter oder verbundenen Unternehmen erfüllt.

Hadoop macht Ihren Clickstream noch wertvoller

Mit Hilfe von Tools wie Omniture und Google Analytics sind Web-Teams bereits jetzt in der Lage, ihre

Clickstreams zu analysieren, Hadoop fügt jedoch drei wichtige Vorteile hinzu. Erstens kann Hadoop

Clickstream-Daten mit anderen Datenquellen wie z. B. CRM-Daten zu Kundendemographik,

Umsatzdaten von stationären Geschäften oder Informationen zu Werbekampagnen verbinden. Diese

zusätzlichen Daten bieten häufig wesentlich vollständigere Informationen als eine isolierte Analyse des

Clickstreams alleine. Hortonworks: Apache Hadoop Basics Seite 3

Zweitens bietet Hadoop eine einfache Skalierung, sodass Sie über Jahre gesammelte Daten ohne

Mehrkosten speichern können. Das bietet Ihnen die Möglichkeit, eine temporale Analyse oder einen

Jahresvergleich des Clickstreams zu erstellen. Sie können jahrelang gesammelte Daten auf

Bedarfscomputern speichern und tiefergehende Muster aufdecken, die Ihre Konkurrenz

möglicherweise übersieht. Das Speichern aller Daten im Hadoop-Datenpool vereinfacht den

Zusammenschluss verschiedener Datensätze auf unterschiedliche Art und Weise und für

unterschiedliche Zwecke. Im Laufe der Zeit können Sie diesen Zusammenschluss mit leichten

Abweichungen wiederholen.

Und drittens erleichtert Hadoop die Website-Analyse. Ohne Hadoop ist es in der Regel sehr schwierig,

Clickstream-Daten zu verarbeiten und zu strukturieren. Mit Hadoop kann selbst ein unerfahrener Web-

Business-Analyst Apache Hive oder Apache Pig-Scripts verwenden, um Clickstream-Daten nach

Benutzersitzung zu organisieren und anschließend zu verfeinern, um sie in Analyse- oder

Visualisierungstools einzuspeisen. Auch die Planung von wiederkehrenden, regelmäßigen

Beurteilungen und Vergleichen von Verhaltensweisen ist vereinfacht. Hadoop vereinfacht das

Speichern und die Verfeinerung der Daten, sodass sich der Analyst auf die Ermittlung von

Ergebnissen konzentrieren kann.

Stimmungsdaten

Stimmungsdaten sind unstrukturierte Daten zu Meinungen, Emotionen und Einstellungen, die in

Quellen wie z. B. Social-Media-Einträgen, Blogs, Online-Produktrezensionen und Kundendienst-

Kommunikationen enthalten sind. Unternehmen nutzen die Analyse von Stimmungsdaten, um die

öffentliche Meinung zu einer bestimmten Sache zu verstehen und die langfristigen Änderungen dieser

Meinung zu verfolgen. Ein Unternehmen kann Stimmungen zu Produkten, Dienstleistungen,

Wettbewerbern oder anderen beliebigen Themen, zu dem Millionen von Menschen eine Meinung

haben, analysieren. Hortonworks: Apache Hadoop Basics Seite 4

Stimmungsanalyse für bessere Entscheidungen

Jeder Vermarkter möchte die Meinungen der Kunden kennen. Sie möchten wissen, welche Meinungen

Kunden heute haben und dann verfolgen, wie sich diese Meinungen im Laufe der Zeit ändern.

Traditionelle Marktforschungstools mit intensiver Kundeninteraktion, wie z. B. Kundenbefragungen und

Fokusgruppen, haben drei Nachteile: Sie sind künstlich, träge, sowie kostspielig und werden nur

selten. Stimmungsanalysen können einige dieser Einschränkungen erweitern oder beseitigen.

• Künstlich. Umfragen und Fokusgruppen sind künstlich, da die Teilnehmer aus ihrem natürlichen Umfeld herausgenommen und zur Beantwortung von hypothetischen Fragen

aufgefordert werden. Die Ergebnisse können verzerrt sein (aufgrund von kleiner

Stichprobengröße oder Umfragemethodik) und es kann oftmals Wochen dauern, diese

Ergebnisse zusammenzutragen, zu ordnen und zu interpretieren.

Träge. Wenn es zwei Monate dauert, die Studie abzuschließen und den Bericht anzufertigen und dann einen weiteren Monat, um die Ergebnisse zu prüfen und zu einer Entscheidung zu kommen, beginnen sich die Empfänger der Informationen zu fragen, ob die Ergebnisse noch relevant sind. Und damit haben sie möglicherweise sogar Recht. Auch wenn wir ein genaues Bild der Meinungen der Kunden vom 1. Januar haben, kann es bis zum 1. April schon nicht mehr relevant sein.

• Kostspielig und werden selten durchgeführt. Forscher können größere Studiengruppen

zusammenstellen, um die Studie schneller durchzuführen und Fehler zu reduzieren, die aus

einer kleinen Stichprobengröße entstehen, jedoch können diese Studien aufgrund der

Belohnungen für die Teilnehmer recht teuer werden. Falls eine Studie neue Fragen aufwirft,

erfordert deren Beantwortung eine weitere Studie und somit auch mehr Zeit- und

Kostenaufwand.

Stimmungsdaten vermeiden die Einschränkungen traditioneller

Marktforschungsmethoden und erweitern diese oftmals. Die Analyse von

Stimmungsdaten ist reell, direkt, reproduzierbar und kostengünstig. Twitter-

Nutzer sind Beispielsweise keine Teilnehmer einer Studie aber stellen ihre

Meinungen kostenlos zur Verfügung. Sie kommunizieren einfach mit Freunden

und Kollegen, was bedeutet, dass sie offen und ehrlich kommunizieren.

Der Wert von Online-Stimmungsdaten geht über reines Produktmarketing

hinaus. Sie können eine dynamische Preisliste zur Optimierung von Preisen

und Profiten begünstigen. Stimmungsdaten können eingesetzt werden, um

eine PR-Krise oder einen gesundheitlichen Notstand zu bewältigen. Außerhalb

von Twitter, Facebook oder LinkedIn können Analysen von Stimmungsdaten

auch mit Hilfe von anderen „kostenlosen“ Feedbackquellen, wie anonymen

Umfragen oder Formularen für Kundenkommentare, durchgeführt werden. Hortonworks: Apache Hadoop Basics Seite 5

Mit Hadoop können Sie Stimmungsdaten heute ansehen und für später speichern

Hadoop speichert und verarbeitet riesige Mengen an komplexen, unstrukturierten Inhalten; es ist wie

geschaffen für „unordentliche“ Stimmungsdaten. Mit Hadoop können Social-Media-Einträge mit Hilfe

von Apache Flume in das Hadoop Distributed Files System (HDFS) zum Echtzeit-Streaming geladen

werden. Apache Pig und Apache Mahout ordnen die unstrukturierten Daten und bewerten die

Stimmungsdaten mit Hilfe von fortschrittlichen Methoden für maschinelles Lernen.

Die Stimmungsanalyse quantifiziert die qualitativen Meinungen, die in den Social Media zum Ausdruck

gebracht werden. Marktforscher brauchen große Datenmengen, um diese Analyse zuverlässig

durchzuführen. Zehn Tweets sind einfach nur Meinungen. Eine Million Tweets sagen aus, wie die

meisten Personen zu einem bestimmten Zeitpunkt über ein Thema denken.

Und so funktioniert es: Wörtern und Sätzen wird ein Polarität-Score (positiv, neutral oder negativ)

zugeordnet. Durch die Bewertung und Anhäufung von Millionen von Interaktionen können Analysten

ehrliche Meinungen im Maßstab und in Echtzeit beurteilen.

Nach der Bewertung der Meinungen müssen die Daten aus den Social Media mit anderen

Datenquellen kombiniert werden. Der HDFS-Datenpool macht diese Zusammenschlüsse von Daten

einfach und reproduzierbar. CRM-, ERP- und Clickstream-Daten können verwendet werden, um das,

was früher anonyme oder halb anonyme Meinungen waren, einem bestimmten Kunden oder

Kundensegment zuzuordnen. All dies kann in Hadoop erledigt werden; die Ergebnisse können

anschließend mit Business Intelligence-Tools wie Microsoft Excel, Platfora, Splunk oder Tableau

veranschaulicht werden. Hortonworks: Apache Hadoop Basics Seite 6

Erstellen Sie Social Graphs

Ein weiterer komplexer und recht hochentwickelter Ansatz zur Stimmungsanalyse ist die Erstellung

eines Social Graph. Die lauteste Person in einem gesellschaftlichen Kreis ist meistens nicht die

einflussreichste. Die Trennung der „lauten“ Stimmungsbeeinflusser von den „vertrauenswürdigen“ ist

von großer Bedeutung. Es ist wichtig die richtigen Personen zu beeinflussen oder dazu anzuregen,

sich in einem sozialen Umfeld positiv über eine Marke oder Erfahrung zu äußern.

Auch hier bietet Hadoop eine ausgezeichnete Möglichkeit, um die riesigen Mengen von sich schnell

verändernden Informationen, die zur Erstellung und Aktualisierung eines Social Graph notwendig sind,

nicht nur zu speichern, sondern auch zu verarbeiten.

Server-Logdaten

Große Konzerne errichten, verwalten und schützen ihre eigenen proprietären, verteilten

Informationsnetzwerke. Serverlogs sind die computergenerierten Berichte, die Daten zu den

Aktivitäten dieser Netzwerke aufzeichnen. Sie sind die EKG-Werte des Netzwerkes: Wenn ein

Problem auftaucht, sind sie eine der ersten Stellen, an denen das IT-Team nach einer Diagnose sucht.

Kein IT-Administrator setzt sich jedoch mit seiner morgendlichen Tasse Kaffee hin und liest

Serverlogs. Die Datenmenge ist gewaltig und meistens haben diese Logs keinerlei Bedeutung. Hin

und wieder kann eine Handvoll dieser Logs allerdings sehr, sehr wichtig sein.

Die zwei Use Cases, in denen Server-Logdaten am häufigsten genutzt werden, sind

Netzwerksicherheitsverstöße und Prüfungen der Netzwerk-Compliance. In beiden Fällen sind Server-

Loginformationen von zentraler Bedeutung für eine zügige, effiziente Problemlösung und auch für

längerfristige forensische Maßnahmen und Ressourcenplanung. Hortonworks: Apache Hadoop Basics Seite 7

Hadoop hilft Ihnen, die Sicherheit Ihres Netzwerkes zu schützen

Es vergeht kaum eine Woche, in der die Öffentlichkeit nicht von einer erneuten Netzwerkverletzung

durch böswillige Personen und Gruppen erfährt. Unternehmen und Regierungsbehörden investieren

enorme Summen in Antivirus- und Firewall-Software, um ihre Netzwerke vor Malware und Angriffen

von außen zu schützen und in der Regel erfüllen diese Lösungen ihren Zweck. Wenn die

Schutzmaßnahmen jedoch versagen, hilft Hadoop großen Unternehmen dabei, die Schwachstelle zu

verstehen und zu beheben, und erleichtert eine Ursachenanalyse, um für dauerhaften Schutz zu

sorgen.

Häufig erfahren Unternehmen erst dann von Schwachstellen im System, wenn diese bereits

ausgenutzt wurden. Die schnelle Entdeckung, Diagnose und Behebung der Eindringung ist daher

entscheidend. 2011 erfolgte zum Beispiel ein Angriff auf das Playstation-Netzwerk von Sony, der drei

Tage andauerte. Am vierten Tag sperrte Sony das Netzwerk, das fast einen ganzen Monat außer

Betrieb blieb. Namen, Geburtstage und Kreditkartennummern von nahezu 25 Millionen Kontoinhabern

wurden gestohlen. Sony gab die Sicherheitsverletzung sechs Tage nach Sperrung des Netzwerkes

bekannt. Angaben von Sony zufolge wurde die Öffentlichkeit nicht früher verständigt, da Sony Zeit

brauchte „um den Umfang der Sicherheitsverletzung, der nach mehrtägiger forensischer Analyse

durch externe Experten deutlich wurde, zu verstehen“.

Hadoop kann eine derartige forensische Analyse beschleunigen. Wenn ein IT-Administrator weiß,

dass Serverlogs immer in den Hadoop-Datenpool fließen, um sich mit anderen Arten von Daten

zusammenzuschließen, kann er wiederkehrende Standardprozesse entwickeln, um jegliche

Auffälligkeiten zu kennzeichnen. Er kann außerdem Abfragen zur Datenexploration und

Transformationen erstellen und testen, die bei Verdacht auf einen Einbruch einfach angewandt werden

können.

Hadoop hilft bei der Vorbereitung auf Prüfungen der IT-Compliance

Natürlich verfassen die Gesetzgeber Gesetze, um Krisen wie der von Sony vorzubeugen. Die

folgenden Compliance-Standards verlangen von Unternehmen eine Netzwerküberwachung in

Echtzeit, ein hohes Maß an Sicherheit für ihre vertraulichen Vermögenswerte zu gewährleisten und

Prüfungsberichte zur Netzwerk-Compliance für Prüfer zur Verfügung zu stellen:

• Payment Card Industry Data Security Standards (PCI DSS)

• Sarbanes Oxley (SOX)

• Health Insurance Portability and Accountability Act (HIPAA)

• Federal Information Security Management Act (FISMA)

• Der Gramm-Leach-Bliley Act (GLBA)


Zudem fordern die Regulierungsbehörden von Unternehmen lange Aufbewahrungsfristen für

Logdaten. Auf diese Weise wird es Prüfern ermöglicht, Sicherheitsvorfälle zu authentisieren, indem sie

die Prüfpfade in den Logdaten prüfen. Das Speichern von über Jahre hinweg angesammelten

Logdaten in relationalen Datenbanken kann kostspielig sein. Hadoop kann eine beständige,

kostengünstige Plattform zum Nachweis der Compliance bieten.

Sensordaten

Von Ihrem Kühlschrank und Ihrer Kaffeemaschine bis hin zu den Strom- und Wasserzählern in Ihren

Häusern – Sensordaten sind allgegenwärtig. Sie werden von den Maschinen, die Fließbänder

antreiben, und den Mobilfunkmasten, die unsere Telefonanrufe senden, erzeugt. Es sind neue Netto-

Daten, die sich im Informationszeitalter exponentiell vermehren. Manchmal messen und berichten wird

über Maschinendaten, allerdings lassen sich diese nicht gut skalieren und sind anfällig für Fehler. In

einigen Fällen ist es nicht möglich, dass diese Daten durch Menschen gesammelt werden. Stellen Sie

sich eine Messung aus dem Inneren einer Erdöl-Pipeline in der gefrorenen Tundra zu jeder Stunde

des Jahres vor. Kein Mensch möchte diesen Job, aber Sensoren können ihn zuverlässig und

kostengünstig ausführen und sie schlafen nie.

Sensoren erfassen außerdem Daten zu naturwissenschaftlichen Systemen, z. B.:

• Meteorologische Muster, die von Wetterballons erfasst werden;

• Bohrmechanismen für Ölquellen;

• Wetter- und Bodendaten für landwirtschaftliche Zwecke; und

• Vitalparameter von Patienten während der postoperativen Genesung. Hortonworks: Apache Hadoop Basics Seite 9

Sensoren liefern Big Data, Hadoop liefert den Wert von Big Data

Hadoop löst zwei der größten Probleme, die derzeit die Nutzung von Sensordaten einschränken: Ihr

Umfang und ihre Struktur.

Sensoren messen und übertragen kleine Datenmengen effizient, allerdings sind sie immer in Betrieb.

Mit zunehmender Anzahl an Sensoren (und im Verlauf der Zeit) können sich die Bytes oder Kilobytes

von jedem Sensor schnell zu Petabytes anhäufen. Mit traditionellen Datenspeicherplattformen stellt ein

solcher Datenstrom ein Problem dar. Die Kosten zur Speicherung der Daten können ein Unternehmen

veranlassen entweder die Sammlung von Daten einzuschränken (durch Einschränkung der Anzahl der

Sensoren) oder deren Speicherung zu begrenzen (durch Löschen von Daten über einer bestimmten

Menge oder nach einem bestimmten Zeitraum). Hadoop bietet eine effizientere und kostengünstigere

Speicherung dieser Daten. Dank Hadoop verwandeln sich große Mengen an Sensordaten von einem

Problem zu einem Vermögenswert.

Sensordaten sind zudem zum Zeitpunkt ihrer Erhebung in der Regel flach und unstrukturiert und

werden normalerweise durch einen mechanischen, sich wiederholenden Prozess generiert. Apache

Hive kann die Sensordaten in Übereinstimmung mit ihren Metadaten (z. B. Zeit, Datum, Temperatur,

Druck oder Neigung) umwandeln. Die Daten werden dann in HCatalog in einem geläufigeren

Tabellenformat präsentiert, auch wenn die zugrunde liegenden Daten noch in ihrem ursprünglichen

Format in HDFS vorhanden sind.

Verwendung von Hadoop für prädiktive Analytik und proaktive Wartung

Die Fähigkeit, einen Geräteausfall vorherzusagen (und entsprechend proaktiv zu reagieren) ist

ungemein wertvoll, da es wesentlich günstiger ist, proaktive Wartungsmaßnahmen durchzuführen als

für Notreparaturen zu bezahlen Geräte austauschen zu müssen. Wenn der Kühlraum eines

Restaurants ausfällt, verliert das Restaurant Tausende von Euro durch verdorbene Lebensmittel und

die Einnahmen eines Tages. Der Austausch von Sachanlagen wie z. B. Mobilfunkmasten ist schwierig

und kostspielig und dennoch existieren sie zur Übertragung von Daten; somit können Sensoren

diagnostische Daten senden, die dazu beitragen, die Lebensdauer dieser Anlagen zu verlängern.

Algorithmen können riesige Mengen von Sensorsignalen so verarbeiten, dass sie zuvor unsichtbare,

subtile Muster identifizieren, die anzeigen, wenn eine günstige Reparatur aller Wahrscheinlichkeit nach

einen teuren Austausch verhindern kann.

Die Differenz zwischen Kosten und Nutzen ist natürlich wesentlich größer wenn Menschenleben auf

dem Spiel stehen. Das Children's Hospital Los Angeles sammelt seit 2007 Sensordaten aus seinen

pädiatrischen Intensivstationen, die alle 30 Sekunden von jedem Patienten erhoben werden. Dieser

Datensatz enthält mehr als eine Milliarde einzelne Messungen. Die Ärzte haben vor, diese Daten zur

genaueren Diagnose und Prognose von medizinischen Episoden einzusetzen. Laut Äußerung eines

der Forschers besteht die Schwierigkeit darin, medizinisch brauchbare Muster zu finden, da „es eine


unbegrenzte Anzahl an unbedeutenden Mustern gibt, wie z. B. Personen, die Babys

bekommen, sind Frauen, und Personen, die größer als 1,80 m sind, sind größer als 1,50 m.“

Mit Hilfe von Hadoop ist es viel einfacher diese Daten aufzubereiten und zu untersuchen, um die

aussagekräftigen Muster zu finden. Tools wie Apache Hive und Apache Pig können verwendet

werden, um verschiedene Datensätze zu verbinden, diese dann mit Daten zu medizinischen

Ergebnissen zu kombinieren und schließlich alle in einen Hauptdatensatz zu filtern, der die

wichtigen Muster einschließt und die unbedeutenden ausschließt.

Da Hadoop die Speicherung und Analyse von Big Data auf Prozesse ausdehnt, die über die

gewerbliche Nutzung des Internets hinausgehen, können andere Bemühungen verstärkt und

unterstützt werden, um durch die Vorhersage, Identifizierung und Prävention möglicher

Tragödien Leben zu retten.

Standortdaten

Standortdaten sind eine Untergruppe der Sensordaten, da das Gerät seinen Standort erkennt

und Daten zu seinem Längen- und Breitengrad in vorgegebenen Intervallen übermittelt. Hierbei

handelt es sich wirklich um eine neue Datenform, da sie (außerhalb hochspezialisierter Militär-

und Raumfahrtanwendungen) vor zehn Jahren noch nicht existierte.

Das Global Positioning System (GPS) wurde Ende der 1990er Jahre großflächig erhältlich.

Heute können Smartphones in regelmäßigen Zeitabständen präzise Längen- und Breitengrade

erfassen und übermitteln – der Sensor ist mit dem Kommunikationsnetzwerk im gleichen Gerät

verbunden. Verbraucherorientierte Unternehmen wollen diese Daten nutzen, um zu erfahren,

wo sich potentielle Kunden zu bestimmten Tageszeiten versammeln. Kommunalverwaltungen

oder Handelskammern möchten wissen, wenn Personen aus dem Ausland ankommen, damit

sie sie begrüßen und örtliche Sehenswürdigkeiten und Anbieter vorschlagen können.

Eine weitere viel versprechende Verwendung diese Standortdaten ist für Lieferfahrzeuge.

Unternehmen wie UPS, die an Privathaushalte zustellen, können feingranulare Standortdaten,

die in regelmäßigen Zeitabständen gesammelt werden, nutzen, um die Fahrerrouten zu

optimieren. Dies führt zu kürzeren Lieferzeiten, niedrigeren Kraftstoffkosten und einem

geringeren Unfallrisiko. Logistikunternehmen möchten zu jeder Tageszeit wissen, wo sich all

ihre mobilen Vermögenswerte befinden. Hortonworks: Apache Hadoop Basics Seite 11

Big Data sorgen dafür, dass LKW pünktlich und sicher ankommen

Fernfahrer bieten eine besonders interessante Einsatzmöglichkeit für Standortdaten. Sensoren

auf LKW können genutzt werden, um sowohl „Makrobewegungen“, wie z. B. die

Durchschnittsgeschwindigkeit in 10 km-Abschnitten, als auch „Mikroereignisse“, wie z. B.

abruptes Bremsen, Ausbrechen oder ungenügender Sicherheitsabstand zu anderen

Fahrzeugen, zu messen und zu berichten. Diese großen Standortdatensätze können genutzt

werden:

• Zur Verringerung des Leerlaufverbrauchs

• Zur Einhaltung von Bundesgesetzen, die die Mindestruhezeit und die maximale

Lenkzeit vorgeben

• Zur Vorbeugung von Unfällen durch die Erkennung von unsicherem Fahrverhalten.

US Xpress ist eines der größten Fuhrunternehmen in den Vereinigten Staaten. Sie entwickelten

ein System namens DriverTech, das zehntausende von Sensoren einsetzt, um Daten in ein

Hadoop-Cluster zu streamen. Laut einem Artikel in Computer Weekly „basiert der Datenstrom auf

900 Datenelementen von zehntausenden LKW-Systemen – Sensordaten für Reifenabnutzung

und Kraftstoffverbrauch, Motorlauf, Geodaten zur Verfolgung der LKW-Flotte, sowie Fahrer-

Feedback von Social-Media-Seiten.“ Hortonworks: Apache Hadoop Basics Seite 12

Dank Hadoop ist US Xpress in der Lage, riesige Mengen von Standortdaten über viele Jahre

hinweg zu speichern. Darüber hinaus können diese Standortdaten aber auch mit anderen

Datenströmen, die in ihren Datenpool einfließen, kombiniert werden, um einen ganzheitlicheren

Datensatz dazu zu erhalten, was mit ihren Fahrern und Fahrzeugen geschieht. Mit Hilfe von

DriverTech erzielt US Xpress eine bekannte Ersparnis von mehr als $6 Millionen pro Jahr durch

Kraftstoff und Geräte, ganz zu schweigen von den unbekannten Ersparnissen aus den Unfällen

oder Verletzungen, die es verhindert.

Unstrukturierter Text

Eine Staatsbibliothek für jedes Unternehmen

Freiformtext kommt in Unternehmen in Arbeitserzeugnissen wie Webseiten, E-Mails,

Dokumenten, Angeboten, Patenten und Literatur vor. Text ist eine der ältesten Datenformen,

jedoch wurde sie bisher immer in relativ kleinen Mengen aufbewahrt und genutzt. In der heutigen

Geschäftswelt hat fast jeder die Fähigkeit (und die Verantwortung) Freiformtext zu erstellen,

sodass die Menge dieses Datentyps weiterhin exponentiell zunimmt. Es gilt das gleiche

Verhältnis wie bei Sensordaten: Ein Kilobyte hier, ein Kilobyte da und bevor man sich versieht

hat man Big Data. Finanzdienstleister, Regierungen, Einzelhandel, Großhandel, verarbeitende

Industrien und Gesundheitswesen erzeugen alle erhebliche Mengen an Freiformtext und

numerischen Daten.

Laut Informationen auf der Website der US-amerikanischen Library of Congress verfügte die

Bibliothek im April 2011 über 235 Terabytes an gespeicherten Daten. Der im Mai 2011

veröffentlichte Bericht von McKinsey & Company Big data: The next frontier for innovation,

competition, and productivity (Big Data: Die nächste Herausforderung für Innovation,

Wettbewerb und Produktivität) warf einen Blick auf US-Unternehmen mit mehr als eintausend

Beschäftigten im Jahr 2009 und stellte fest, dass in 15 von 17 Branchen die

Durchschnittsmenge der speicherten Daten pro Unternehmen größer war als die der Library of

Congress. Wenn wir die vielzitierte Annahme verwenden, dass 80 % der gespeicherten

Unternehmensdaten unstrukturiert sind, dann speichert das Durchschnittsunternehmen in 14

von 17 Sektoren mehr Daten als die Library of Congress. Allerdings können nur sehr wenige

Unternehmen diese Daten nutzen. Sie sind auf unverbundenen Dateninseln gespeichert; nicht

durchsuchbar oder indiziert.

Die meisten Unternehmen sitzen auf einer Goldmine aus Freiformtext, ohne eine einfache Möglichkeit, diese abzubauen.


Quelle: „Big data: The next frontier for innovation, competition, and productivity“. McKinsey Global Institute, Mai 2011.

Die Befreiung des Freiformtexts

Es gibt drei Schritte, um diese Daten für die Nutzung in Ihrem Unternehmen zu befreien:

Extrahierung, Verdichtung und Analyse. Die bekannte „WordCount“ MapReduce Funktion – das

„Halle World“ von Hadoop – bietet ein einfaches Beispiel dieser drei Schritte. Die WordCount-

Funktion kann zählen, wie oft jedes Wort in einem sehr umfangreichen Textdokument

vorkommt.

Hier sind die drei Schritte für dieses Textverarbeitungspensum:

1. Extrahierung: Jedes Dokument wird in seine einzelnen Worte aufgespalten und

jedes Wort wird von der Map-Funktion gezählt

2. Verdichtung: Das Framework gruppiert alle identischen Wörter mit dem gleichen

Schlüssel und führt sie der gleichen Aufforderung zur Reduzierung zu

3. Analyse: Für jedes vorhandene Wort fasst die Funktion alle Eingabewerte

zusammen, um zu ermitteln, wie oft das jeweilige Wort insgesamt auftaucht


Sektor Terabytes gespeichert pro

Geschätzte Anzahl der unstrukturierten Library of Congress

Unternehmen (>1000 Terabytes pro Unternehmen (unter Annahme

Entsprechungen pro Unternehmen

Mitarbeiter) eines Anteils von 80 %)

Wertpapiere und Investition 3.866 3.093 13 Bankwesen 1.931 1.545 7 Kommunikation und Medien 1.792 1.434 6 Versorgungsbetriebe 1.507 1.206 5 Regierung 1.312 1.050 4 Diskrete Fertigung 967 774 3 Versicherungen 870 696 3 Prozessfertigung 831 665 3 Rohstoffindustrien 825 660 3 Transport 801 641 3 Einzelhandel 697 558 2 Großhandel 536 429 2 Gesundheitswesen 370 296 1 Bildungswesen 319 255 1 Dienstleistungsgewerbe 278 222 <1 Baugewerbe 231 185 <1 Konsum- und freizeitorientierte Dienstleistungen 150 120 <1

Es gibt möglicherweise einige echte Use Cases für Unternehmen, in denen gezählt wird, wie oft

bestimmte Wörter in den E-Mails eines Unternehmens auftauchen, allerdings ist es nur schwer

vorstellbar, dass diese besonders nützlich wären. Der wahre Wert liegt in der Bestimmung bestimmter

Formulierungen und der anschließenden Analyse des Vorkommens dieser Formulierungen im

Verhältnis zu anderen Datenquellen. Die folgenden drei Zusammenfassungen von Use Cases zeigen

spezielle Anwendungen von Hadoop für die Analyse von Freiformtext.

Hadoop Textanwendungen für Anwälte, Versicherer und Banker

Textanalyse für die juristische Offenlegung

Der Prozess der juristischen Beweisführung und Argumentation basiert größtenteils auf Informationen,

die aus einer Vielfalt von Dokumenten extrahiert werden. Anwälte erhalten beträchtliche

Stundenhonorare für die Analyse von Dokumenten, um Beweismaterial zusammenzutragen. Hadoop

kann dabei behilflich sein, diese manuelle Durchsicht von Dokumenten effizienter zu gestalten.

Kanzleien können die Dokumente in Hadoop speichern und anschließend den Text en masse anhand

von Verfahren wie der Verarbeitung natürlicher Sprache oder Text Mining analysieren. Auf diese

Weise können Juristen Dokumente nach wichtigen Formulierungen durchsuchen und dann mit Hilfe

von Hadoop Ecosystem-Lösungen die Zusammenhänge zwischen diesen und anderen

Formulierungen analysieren. Diese vorläufige Analyse optimiert die Zeit des Anwalts für die Durchsicht

des Texts, sodass er die Teile lesen kann, die wirklich wichtig sind.

Textanalyse für Versicherungsgeschäfte

Versicherungsgesellschaften besitzen riesige Mengen an unstrukturierten, textbasierten

Schadensfalldaten. Sie haben außerdem Zugriff auf andere, strukturierte und unstrukturierte

Datensätze (öffentlich und privat), die sie mit Schadensfalldaten kombinieren können, um ihre

Risikobeurteilung zu verbessern.

So können Versicherungsgesellschaften ihr „subjektives Risiko“ verringern, das im Grunde durch

Datenmangel entsteht. Subjektives Risiko liegt in einer Situation vor, in der riskantere Antragsteller

eine Versicherung beantragen, da sie wissen, dass sie diese eventuell brauchen werden, während

sicherere Antragsteller sich aus dem Markt heraushalten, da sie ihr Risiko als Gering einschätzen.

Datenanalysen, die auf dem Hadoop-Datenpool aufbauen, schmälern die Lücke zwischen dem, was

der Versicherer weiß, und dem, was der Versicherungsnehmer weiß, sodass beide Parteien eine

ähnliche Sichtweise der Risiken haben. Versicherungsgesellschaften verwenden mehr Daten aus

mehr Quellen über längere Zeit, sodass ihre Vorhersagekraft im Laufe der Zeit zunimmt.

Textanalyse für die Antragsrisikoprüfung

Banken erhalten jeden Tag Tausende von Anträgen auf Darlehen und Kontoeröffnungen. Um die

Risiken dieser Anträge zu beurteilen, berufen sich Banker auf von Dritten erstellte Risikoberichte. Hortonworks: Apache Hadoop Basics Seite 15

Banker können sich über diese Empfehlungen zur Öffnung von Konten und Finanzierung von

Darlehen hinwegsetzen (und tun dies auch). Diese Entscheidungen führen im Durchschnitt zu

höheren Kontoausbuchungen und Kreditausfällen.

Führungskräfte versuchen riskantes Verhalten durch die Bewilligung von Einzelpersonen, die

Aktualisierung von Richtlinien, die Verbesserung von Schulungen oder die Ermittlung von

internen Betrugsfällen zu beheben. Dazu müssen sie die Entscheidungen aller Banker mit den

zahlreichen Informationsquellen, die Banker zur Entscheidungsfindung nutzen, abstimmen. Der

Hadoop-Datenpool kann alle verfügbaren Daten speichern, die eventuell über Vorhersagekraft für

verbesserte Entscheidungen der Banker verfügen.

Diese drei spezifischen Use Cases können auf alle Branchen übertragen werden, die

große Mengen an Textdaten sammeln und diese anschließend verwendet, um

Entscheidungen von großer Bedeutung zu treffen.

Hadoop im Unternehmen:

Eine neu entstehende Datenarchitektur

Heutzutage verwenden die meisten Unternehmen mindestens eine analytische Anwendung

zur Verwaltung ihrer täglichen Geschäftsabläufe. Der traditionelle Ansatz zu Analytik wird

relativ gut verstanden und ist in Abbildung 1 dargestellt. Bei diesem Ansatz:

• Stammen die Daten aus einer Reihe von Datenquellen; in der Regel aus

Unternehmensanwendungen wie ERP, CRM oder anderen

Transaktionsanwendungen, die die Geschäfte fördern

• Die Daten werden extrahiert, umgewandelt und in ein Datendepot wie z. B. eine

relationale Datenbank oder ein Data-Warehouse geladen

• Analytische Anwendungen – entweder eine vorkonfigurierte Lösung (z. B. SAS) oder

kundenspezifische Anwendung – werden dann eingesetzt, um die Daten im Depot zu

manipulieren, um Berichte oder Visualisierungen zu erstellen, die geschäftlichen

Anwendern Einblicke ermöglichen


Abbildung 1: Traditionelle Unternehmensdatenarchitektur

Aufgrund der Einführung dieser neuen Datenquellen sind Unternehmen gezwungen, ihre

Denkweise zu ändern. Die neu entstehende Datenarchitektur, die am häufigsten auftaucht,

führt Apache Hadoop ein, um diese neuen Datentypen auf effiziente und wirtschaftliche Weise

zu bearbeiten. Hadoop ist kein Ersatz für die traditionellen Datendepots, die im Unternehmen

verwendet werden, sondern dient als Ergänzung dazu.

Abbildung 2: Die neu entstehende Big Data-Architektur Hortonworks: Apache Hadoop Basics Seite 17

Dank der Verfügbarkeit von unternehmenstauglichen Apache

Hadoop Distributionen wie z. B. Hortonworks Data Platform,

nehmen Unternehmen eine große Vielfalt von Hadoop-basierten

Big-Data-Projekten in Angriff. Während es viele Beispiele gibt,

haben sich drei Anwendungsmuster ergeben:

• Refine (Aufbereiten). Die Erfassung vielfältiger

Datenquellen in eine einzige Plattform, in der ein Mehrwert

geschaffen werden kann, indem die Daten in Formate, die

von Plattformen, wie z. B. einem Data-Warehouse,

einfacher gebraucht werden können, aufbereitet werden.

• Explore (Untersuchen). Die interaktive Untersuchung riesiger Datenmengen zur

Feststellung von Mustern und Zusammenhängen, um Möglichkeiten für einen geschäftlichen

Nutzen zu erschließen.

• Enrich (Anreichern) Die Befähigung von Unternehmen, fortschrittliche analytische Tools auf

die Daten anzuwenden, die sie durch Logdateien oder Social-Media-Streams sammeln. Damit

sollen andere Anwendungen, wie z. B. mobile Geschäftsanwendungen, hinsichtlich der

Erfahrung die sie liefern, „intelligenter“ gestaltet werden.

Hortonworks Data Platform

Hortonworks Data Platform (HDP) ist die einzige 100 % Open-Source-Datenmanagementplattform für

Apache Hadoop. Mit Hilfe von HDP können Unternehmen Daten in jedem beliebigen Format und in

voller Größe erfassen, verarbeiten und teilen. Die Plattform, die von den wichtigsten Architekten,

Entwicklern und Anwendern von Hadoop aufgebaut und zusammengestellt wurde, beinhaltet alle

notwendigen Komponenten zur Verwaltung eines Clusters in vollem Umfang und zur Aufdeckung

geschäftlicher Erkenntnisse aus vorhandenen und neuen Big-Data-Quellen.

Hortonworks Data Platform ist die stabilste und zuverlässigste Distribution von Apache Hadoop auf

dem Markt. Sie liefert die fortschrittlichen Leistungen, die für Unternehmenseinsätze erforderlich sind,

ohne dabei die Kostenwirksamkeit und Offenheit von Apache Hadoop zu beeinträchtigen. Diese

Leistungen sind u.a.:

• Datenservices, die zur Speicherung, Analyse und dem Zugriff auf die Daten erforderlich sind

• Operative Services, die zur Verwaltung und dem Betrieb von Hadoop erforderlich sind

• Plattformservices wie z. B. Hochverfügbarkeit und Schnappschüsse, die erforderlich

sind, um Hadoop unternehmenstauglich zu machen


Unternehmenstauglich. Community-orientiert. Apache Hadoop™.

Wir bei Hortonworks sind überzeugt, dass Hadoop eine unternehmenstaugliche Datenplattform

ist, und dass der effektivste Weg zu ihrer Bereitstellung in der Open-Source-Community liegt.

Daher entwickeln, vertreiben und unterstützen wir eine 100 % Open-Source-Distribution von

Apache Hadoop, die wahrhaftig unternehmenstauglich ist und diese drei Grundsätze verfolgt:

1. Identifizierung und Einführung von Unternehmensanforderungen in die öffentliche Domain

2. Zusammenarbeit mit der Community, zur Förderung und Veranlassung der Open-Source-Projekte

3. Anwendung von unternehmerischer Präzision, für die stabilste und zuverlässigste Distribution

Hortonworks, Hadoop und Sie

Sie können uns folgen oder sich näher mit unseren Lerntools befassen. Oder laden Sie die

HDP Sandbox, eine Single-Node-Installation von HDP, die Sie auf Ihrem Laptop ausführen

können, herunter. Hadoop hat das Potential, die Datenlandschaft stark zu prägen und durch

die Kenntnis der gemeinsamen Anwendungsmuster können Sie die Komplexität deutlich

reduzieren.

Laden Sie Hortonworks Sandbox herunter und beginnen Sie noch heute, Hadoop zu nutzen

Über Hortonworks Hortonworks ist der führende gewerbliche Anbieter von Apache Hadoop, der unübertroffenen Open-Source-Plattform für die Speicherung, Verwaltung und Analyse von Big Data. Unsere Distribution, die Hortonworks Data Platform mit Unterstützung von Apache Hadoop, bietet eine offene und stabile Grundlage für Unternehmen und ein wachsendes Ökosystem für die Entwicklung und den Einsatz on Big-Data-Lösungen. Hortonworks ist die zuverlässige Quelle für Informationen zu Hadoop und zusammen mit der Hadoop-Community macht Hortonworks Hadoop robuster und sorgt für eine einfachere Installation, Verwaltung und Anwendung. Hortonworks bietet unerreichten technischen Support, Schulungs- und Zertifizierungsprogramme für Unternehmen, Systemintegratoren und Technologieanbieter.

3460 West Bayshore Rd. In den USA: 1.855.846.7866 Twitter: twitter.com/hortonworks

International: +1.408.916. 4121 Facebook: facebook.com/hortonworks

Palo Alto, CA 94303 USA

www.hortonworks.com LinkedIn: linkedin.com/company/hortonworks

Der geschäftliche Nutzen von...

Documents

Transcript of Der geschäftliche Nutzen von...