Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der...

26
Ist Big-Data-Technologie auch bei kleinen Datenmengen sinnvoll einsetzbar? i+e 2015 / Freiburg Peter Soth exensio GmbH

Transcript of Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der...

Page 1: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

Ist Big-Data-Technologie

auch bei kleinen Datenmengen sinnvoll einsetzbar?

i+e 2015 / Freiburg

Peter Soth

exensio GmbH

Page 2: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

2

Unsere Expertise

● Tätigkeitsfelder ● IT-Consulting

• Beratung, Analyse, Planung, Architektur, Design, Projektmanagement, …

● Software-Entwicklung

● Unser Know-How ● Enterprise Portallösungen mit der

Integration unterschiedlichster Back-End-Systeme, z.B. Documentum, Day CQ oder SAP.

● Integration von heterogenen Systemlandschaften

● Datawarehouse / Business Intelligence

● Enterprise Suche

● Mobile Lösungen

● Social Media (Web 2.0 und Enterprise 2.0)

Page 3: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

3

Was ist Big Data?

● Definition ● Unter Big Data versteht man das Sammeln und Auswerten riesiger Datenmengen, das

mit den herkömmlichen Verfahren der Datentechnik nicht durchführbar wäre

● Herkömmliche Relationale-Datenbanken stoßen hier an Ihre Grenzen.

● Bei Big Data zählt der Gesamtzusammenhang, aber nicht der einzelne Datensatz

● NoSQL Technologien sind für den Einsatz bei Big Data besonders gut geeignet

● Mögliche Einsatz-Szenarien ● Marketing und Vertrieb

• Markt- und Wettbewerbsanalysen

• Management von Kundenabwanderungen

● Internet of Things (Sensordaten)

• Vorrausschauende Instandhaltung von Maschinen

● Intelligente Verbrauchssteuerung (Smart Metering)

● IT-Forensik (Log-File-Analyse)

● …

Page 4: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

4

3-V-Modell von Gartner

● Volume steigende Datenmengen (GB/TB/PB)

● Velocity steigende Geschwindigkeit mit der Daten erzeugt und verarbeitet werden

● Echtzeit

● Nahe an Echtzeit

● Periodisch

● Batch

● Variety Vielfalt der Daten

● Strukturiert

● Unstrukturiert

● Videos / Ton

Forschungsbericht des Analysten Doug Laney

Page 5: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

5

Warum sind NoSQL Technologien nötig?

● Vorteile gegenüber Relationalen Datenbanken: ● Keine Performance-Einbußen bei großen Datenmengen durch horizontale Skalierung

(neue Server können hinzugefügt werden)

● Strukturierte und unstrukturierte Daten wie Texte, Videos, PDFs, etc. können durch flexibleres Datenmodell (kein SQL Tabellen-Korsett) besser verwaltet und abgefragt werden

● Nachteile ● Keine Konsistenzgarantien über Cluster

● Keine Zuverlässigkeitsgarantien (ACID) wie bei Relationalen Datenbanken

● Die bekanntesten NoSQL Datenbanken (Quelle: http://db-engines.com) ● MongoDB

● Apache Casandra

● Redis

● Apache Solr (Suchmaschine)

● Apache Hbase (basiert auf Apache Hadoop)

● Elasticsearch (Suchmaschine)

Page 6: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

6

SQL vs. NoSQL

Quelle: Wikipedia / Volkswagen

Früher war Plattenplatz - im Verhältnis zu den

Entwicklungskosten - teuer, heute ist es umgekehrt.

Page 7: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

7

Elasticsearch vs. Hadoop Eco-System

Elasticsearch

● Suchmaschine

● Eignet sich besonders gut für die Suche und Analyse von strukturierten und unstrukturierten Daten

Hadoop

● Framework (MapReduce) für skalierbare und verteilte Systeme auf großen Datenmengen

● Basis für Eco-System mit über 100 Erweiterungen, wie Hbase, Hive, Pig, Spark, ZooKeeper …

Hadoop ist aktuell die Schlüsseltechnologie für Big Data. Elasticsearch bietet ähnliche Möglichkeiten, bei geringerer Komplexität.

Page 8: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

8

Elasticsearch vs. Hadoop Eco-System

Vorteile von Elasticsearch

● Schnell aufzusetzen, geringe Komplexität bzw. niedrigere Einstiegshürde ● Lohnt sich mehr bei kleinen Datenvolumen

● Abfragen in „Real-time“

● Viele Standard-Analysemöglichkeiten (min, max, avg, etc.) sind einfacher als bei Hadoop zu verwenden

Nachteile

● Für komplexe Analysen wie Datamining eher ungeeignet, da sich statistische Module wie R nur schwer integrieren lassen

● Funktionalität wie Predictive Analytics (bspw. Vorhersagen eines Wartungsintervalls) nicht realisierbar. Hier Hadoop-Eco-System verwenden

Elasticsearch = Einfachheit mit eingeschränktem Funktionsumfang

Hadoop = Komplexität mit Full-Scope.

Page 9: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

9

Einsatz-Szenarien für Elasticsearch

● Suchmaschinentechnologien ermöglichen Software-Lösungen, die mit Relationalen Datenbanken nur schwer umsetzbar wären.

● Diese Technologie ergänzt SQL, ist aber nicht die Lösung aller Probleme.

Page 10: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

10

Einsatz-Szenarien für Elasticsearch

● NoSQL Document Store (JSON) ● Einfache Skalierbarkeit für Big Data (Sharding)

● Keine Transkationen

● Sehr gute Aggregationsmöglichkeiten im Vergleich zu anderen NoSQL Lösungen

● Alle Attribute sind automatisch indiziert – im vgl. zu einer Datenbank – hier muss man angeben, welches Attribut indiziert werden soll

● Query Engine für strukturierte Daten ● Daten werden in SQL DB gespeichert

● Abfragen laufen über Elasticsearch

• Vereinfachung von komplexen SQL Queries (insb. bei hierarchischen Abfragen)

• Keine Notwendigkeit SQL-Queries mit Indices zu optimieren

• Mehr Möglichkeiten bei textbasierten Abfragen (bspw. Fuzzy-Search)

Page 11: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

11

Einsatz-Szenarien für Elasticsearch

● Volltextsuche bzw. Facettierte Suche ● Volltextsuche

• Erweiterbar um Vorschläge

• Phonetische bzw. Fuzzy Suche

● Facettierte Suche basiert auf einer Taxonomie (Schlagworte)

• Schnelleres und präziseres Finden von Informationen anhand von Schlagworten anstatt der Relevanz (basiert auf Wörter zählen)

● Suche in strukturierten (Datenbanken, CRM, ERP, …) sowie unstrukturierten Daten (Content, Dokumente) möglich

● Mögliche Anwendungen:

• Wissensportale

• Enterprise Search (Integration von verschiedenen Informations-Silos)

Page 12: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

12

Suche in unstrukturierten Daten

Taxonomie

Volltextsuche

Page 13: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

13

Suche in strukturierten Daten – Präparate-DB

Volltextsuche

Taxonomie

Strukturierte

Daten aus

indizierter

Datenbank

Page 14: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

14

Einsatz-Szenarien für Elasticsearch

● Geo-Suche ● PLZ-Umkreissuche (Filialen)

● Immobilienportal zeigt Gebäude (bspw. Schulen) im Umkreis der selektierten Immobilie

● Flottenmanagement

● Logistik

● Location Based Services

● …

Einfachere Geo-Such-Möglichkeiten als mit bspw. Oracle Spatial, jedoch keine Routenplanung bzw. Optimierung möglich

Page 15: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

15

Einsatz-Szenarien für Elasticsearch

● Business Analytics ● Datawarehouse (Aggregationen ersetzen Dimensionen im Star-Schema)

● Competitive Intelligence

• Mapping bspw. über den Weinnamen, falls keine eindeutige Id wie EAN Code vorhanden ist

● Schneller und kostengünstiger vgl. mit Data Warehouse

● Nahezu Realtime. Keine nächtlichen Aggregations-Batches

● Auch unstrukturierte Daten können integriert werden

Business Intelligence Lösungen setzen strukturierte, konsistente und beständige Daten voraus, wohingegen Big Data Lösungen speziell auf unstrukturierte und möglicherweise nicht konsistente Daten hin optimiert sind.

Folglich eignen sich Big Data Lösungen weniger für ein Konzern-Reporting.

Quelle: Gesellschaft für Informatik / http://www.gi.de/service/informatiklexikon/detailansicht/article/big-data.html

Page 16: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

16

Competitive Intelligence Dimensionen

strukturierte

Informationen

Volltextsuche in

strukturierten und

unstrukturierten Daten

Page 17: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

17

Competitive Intelligence

Umsatz pro Land

und

Wettbewerber

Page 18: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

18

Einsatz-Szenarien für Elasticsearch

● Logfile-Analyse ● IT-Forensik

● Optimierung von Online-Kampagnen

● Sortimentslücken entdecken (Kunden suchen nach nicht vorhandenen Artikeln)

● Prozesslaufzeiten analysieren

● …

Page 19: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

19

Wann und wo treten die Fehler auf? Unterstützung bei der Fehlersuche in Log-Files

Page 20: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

20

Was geschah alles um diesen Zeitpunkt herum? Unterstützung bei Einhaltung von Informationspflicht

Analyse: „Zeige alle Einträge zwischen 10 und 13 Uhr am fraglichen Tag“ Bei dieser Analyse werden alle Logdateien des Index durchsucht. Man kann somit schnell alle Systeme überblicken!

Page 21: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

21

Online Marketing-Kampagnen Zugriffe und Trends ermitteln

Welche Browser verwenden die Kunden hauptsächlich?

Auswertung der gestiegenen Zugriffszahlen infolge Online Marketing-Kampagne

Page 22: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

22

Einsatz-Szenarien für Elasticsearch

● Internet-Of-Things ● Darstellung von Zeitreihen

● Setzen von Alarmen (bspw. Temperatur steigt über Schwellwert)

● Alerts (Percolator -> indiziertes Dokument passt zu gespeicherter Query) ● News Alerts

● Preis-Monitor

● Online-Werbung

● …

Page 23: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

23

Fallstudien Big Data mit Hadoop Unseres Partners Dr. Hornecker IT-Dienstleistungen

● Überwachung von Maschinen- und Anlagenparametern und voraus-schauende Wartung

● Messdaten aus Anlagen werden gesammelt und in einer Datenzentrale ausgewertet, hierbei sind Aspekte der Datensicherheit zu berücksichtigen

● Mehrwert entsteht durch Verbesserungen im Herstellungsprozess, bessere Planung von Wartungsintervallen sowie durch die frühzeitige Erkennung von Störungen.

● Überwachung und Früherkennung im Produktionsprozess ● Ein bestehendes System zur Qualitätskontrolle wird um Big Data Methoden erweitert.

● Zusammenhänge im Produktionsprozess können dynamisch analysiert werden, Durchlaufzeiten werden optimiert.

● Ein Frühwarnsystem ermöglich die frühe und somit kostengünstige Erkennung von Störungen.

Die Firma Dr. Hornecker verfügt über eine langjährige Kompetenz, um aus immensen Datenmengen nützliches Wissen abzuleiten.

Page 24: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

24

Zusammenfassung

Ist Big-Data-Technologie auch bei kleinen Datenmengen sinnvoll einsetzbar?

exensio konnte bereits mehrere der aufgezeigten Szenarien produktiv einführen

Folgende Fragen gilt es bei der Technologiewahl zu klären:

● Art der Analysen

● Datenkomplexität

● Voraussichtliche Datenmengen

● Budget

Page 25: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

25

Besuchen Sie uns auch gerne an unserem Stand:

Halle: F Stand: A 108

Fragen?

Page 26: Ist Big-Data-Technologie auch bei kleinen Datenmengen ... Bei Big Data zählt der Gesamtzusammenhang, aber nicht einzelne Datensatz NoSQL Technologien sind für den Einsatz bei Big

exensio Gesellschaft für Informationstechnologie mbH Am Rüppurrer Schloß 12 76199 Karlsruhe http://www.exensio.de http://blog.exensio.de http://twitter.com/exensio