Rbu amanox big_data_intro_infrastruktur

33
BigData-Schlüsselerfolgsfaktoren aus der Praxis Anforderungen und Alternativen Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015

Transcript of Rbu amanox big_data_intro_infrastruktur

Page 1: Rbu amanox big_data_intro_infrastruktur

BigData-Schlüsselerfolgsfaktoren aus der Praxis Anforderungen und Alternativen

Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015

Page 2: Rbu amanox big_data_intro_infrastruktur

Agenda Big Data After-Work Seminar @BFH

Zeit Thema Referent

17.30 Begrüssung Dr. Arno Schmidhauser, BFH

17.35 Big Data – Infrastruktur und Software-Stacks

René Burgener, amanox solutions AG

18.00 BigData – Instrumente, Werkzeuge, Frameworks und konkrete Use-Cases

Dr. Daniel Fasel, Scigility GmbH

18.50 BigData PaaS – Automatisierung & Orchestration Frameworks

Matthias Imsand, amanox solutions AG

19.20 Wrap-Up – Zusammenfassung und Take-away’s

Urs Zumstein, amanox solutions AG

19.30 Abschluss der Veranstaltung – individuelles Networking

Teilnehmer

Inhalt

Page 3: Rbu amanox big_data_intro_infrastruktur

BigData-Infrastruktur und Software-Stacks Anforderungen und Alternativen

Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015

Senior Consultant

René Burgener

Page 4: Rbu amanox big_data_intro_infrastruktur

Unsere Herausforderung – digitale Welt 2020

Page 5: Rbu amanox big_data_intro_infrastruktur
Page 6: Rbu amanox big_data_intro_infrastruktur

Big Data- Infrastruktur und Software-Stacks

Inhalt

• Big Data – Herausforderungen und Dimension

Die digitale Transformation unseres Alltags

60 Sekunden im Internet Zeitalter

Die Welt im 2020 (IoT - Internet-of-Things)

• Big Data – Die Entstehung der Technologien & Instrumente

• Big Data – Anforderungen an die Infrastruktur

• Big Data – Hadoop Distributionen im Überblick

• Big Data – Take away’s

Page 7: Rbu amanox big_data_intro_infrastruktur

Unser vernetzter Alltag

Quelle: http://img.geo.de/div/image/78762/big-data-gross.jpg

Page 8: Rbu amanox big_data_intro_infrastruktur

60 Sekunden im Sozial Media Zeitalter

Page 9: Rbu amanox big_data_intro_infrastruktur

Ausblick auf zukünftige Herausforderungen

Heute

Page 10: Rbu amanox big_data_intro_infrastruktur

Wie gross wird Big Data wirklich?

Page 11: Rbu amanox big_data_intro_infrastruktur

Big Data Technologien sorgt dafür,dass die Welt sich dreht - Heute als auch Morgen

Page 12: Rbu amanox big_data_intro_infrastruktur

Big Data

Entstehung der Technologien & Instrumente

Paradigmenwechsel, Prinzipien, Publikationen, Technologien

Page 13: Rbu amanox big_data_intro_infrastruktur

Die Vorreiter der ersten Stunde

• Google publizierte 2004 die Referenzarchitektur für MapReduce zusammen mit dem Google File System (ein verteiltes Datei-System).

MapReduce war der Pate für die Entwicklung von Hadoop

Das Google File System war der Pate für das Hadoop Distributed File System (HDFS)

• Dough Cutting entwickelte Hadoop – einfache MapReduce Implementation für Unternehmen

• Yahoo!: Entwickelte Hadoop weiter und übergab das Resultat an das Apache Open Source Project

• Hadoop ist heute der weltweit verbreiteste Technologie Stack für Big Data Projekte

• Für Hadoop gibt es verschiedenen Distributionen mit unterschiedlich verfügbarem Support und verschieden zusammengesetzten Tools

Apache Hadoop Project Organisation

HortonWorks

Cloudera (wo Dough Cutting als Chef-Architekt arbeitet)

Page 14: Rbu amanox big_data_intro_infrastruktur

Die 4 V’s von Big Data

VolumenVielfalt(Variety)

Ungenauigkeit(Veracity)

Geschwindigkeit(Velocity)

Datenspeicherungsvolumen

Datenbewegung (z.B. Streaming)

Daten in vielen Formen

Datenunschärfe

Page 15: Rbu amanox big_data_intro_infrastruktur

Die 4 V’s von Big Data

Page 16: Rbu amanox big_data_intro_infrastruktur

Big Data: Paradigmawechsel

Traditionelles Vorgehen Big Data Vorgehen

GesamteInformationsmenge

GesamterDatenbestandwird analysiert

AnalysierterInformations-

Ausschnitt

Analyse von kleinenData-Subsets

Analyse des gesamtenDatenbestandes

Page 17: Rbu amanox big_data_intro_infrastruktur

Big Data: Paradigmawechsel 2

Traditionelles Vorgehen Big Data Vorgehen

Hypothese

Start mit einer Hypothese undPrüfung gegen die vorhandenen Daten

Erkunde alle vorhandenen Datenund erkenne die Korrelationen

?

Fragestellung

Antwort Daten

Daten Exloration

KorrelationErkenntnis

Page 18: Rbu amanox big_data_intro_infrastruktur

Die Vielfalt der Daten (Informationen)

Kunde

Name

Vorname

Kundennummer

Ort

Artikel

Bezeichnung

EAN

Preis

MwSt

KundenNr EAN Netto MwSt Brutto Datum

98273891 CH28309810 12,21 8% 24,05 19.04.15

83691817 CH94839928 81,77 8% 97,31 22.04.15

63879287 CH87687628 2,31 7% 2,47 29.04.15

Relationale DB

- Attribute- Tupel

SQL Query:SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789

Relationale DB

Parallelverarbeitung

Page 19: Rbu amanox big_data_intro_infrastruktur

Beispiel: Erkennung von Kreditkartenmissbrauch

Visa hat ca. 2 Mrd. Kreditkarten weltweit

Kreditkartenunternehmen erstellen ein Muster aus den Zahlungsdaten

Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein Missbrauch vor!

Durch Big Data Technologie hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt

Quelle: Bild der Wissenschaft, Ulrich Schmitz

Page 20: Rbu amanox big_data_intro_infrastruktur

Big Data

Anforderungen an die Infrastruktur

Analogie der Big Data und der Web-Scale Technologien

Page 21: Rbu amanox big_data_intro_infrastruktur

Die Infrastrukturanforderungen

POWERzu erschwinglichem Preis• Rechenpower & Datenspeicherkapazität

• Rechner (Verarbeitungsgeschwindigkeit)

1 Rechner = sequentiell

Mehrere Rechner = parallel

Tausende Rechner = Skalierbarkeit (Clustering)

• Storage (Speichervolumen)

Schreib- und Lesegeschwindigkeit

Speicherkapazität vs. Baugrösse (Abmessungen)

Verdichtung

Kosten pro Speichereinheit

Agile, dynamische Skalierbarkeit

• Informations-Korrelation

Abhängig vom raschen Austausch der Informationen zwischen Speicher und Rechner

Idealerweise besteht ein direkter Austausch

Page 22: Rbu amanox big_data_intro_infrastruktur

Die richtige Antwort ist hyperkonvergente Infrastruktur

Page 23: Rbu amanox big_data_intro_infrastruktur

Infrastruktur Gemeinsamkeiten

Hyperkonvergenter Technologie Stack (z.B. NUTANIX)

Hadoop Big Data Open Source Technologie Stack

CommodityHardware File SystemMap Reduce

Architecture

x86CPU

x86CPU

parallelComputing

storeexplosive Data

NDFSCluster

Cluster

virtualInfrastructure

OSS virtualMachine

CommodityStorage

Page 24: Rbu amanox big_data_intro_infrastruktur

Vorteile hyperkonvergente Infrastruktur

Big Data DesktopVirtualisierung

Server Virtualisierung

ConvergedSoftwaredefined

massivelyscalable

ServerFlash

Hybrid

Page 25: Rbu amanox big_data_intro_infrastruktur

Big Data

Hadoop Distributionen

Open Source Projekt Apache Hadoop; die wichtigsten Distributionen

Page 26: Rbu amanox big_data_intro_infrastruktur

Big Data: Hadoop Software Distributionen

Page 27: Rbu amanox big_data_intro_infrastruktur

Big Data: Take awaysGrundsätzlicher Paradigmawechsel bei der Technologie

INFRASTRUKTUR STACKHerausforderungen mit Web-Scale Technologien meistern

Grundprinzipien• agil statt statisch• umfassend statt selektiv• explorativ statt hypothetisch• parallel statt sequentiell• offen statt proprietär• einfach statt komplex• automatisch statt manuell• virtuell statt physikalisch

Software Defined Everything!

Page 28: Rbu amanox big_data_intro_infrastruktur

Big Data – Einführung und Infrastruktur

Dankefür Ihr Interesse

Page 29: Rbu amanox big_data_intro_infrastruktur

Big Data

Wrap-Up und Abschluss

Urs Zumstein, Senior Consultant, amanox solutions AG

Page 30: Rbu amanox big_data_intro_infrastruktur

BigData / Enterprise Lösungen

Big Data Applikationen

• Strategie «schema on read» eröffnet neue Vorgehensweisen, mehr Flexibilität für während der Produktelaufzeit veränderte Bedürfnisse

• BigData Lösungen / Public Clouds

• BigData Private Cloud

Hadoop als «Middleware»

• Hadoop wird für verschiedene BigDataVorhaben eingesetzt

• Hadoop entwickelt sich als Standard Plattform

• Integration auf Enterprise Plattform

Nutanix Plattform

Eine Lösung für verschiedene Workload

• Hadoop / «BigData Lake»

• Virtual Desktop Infrastructures (VDI)

• Server Virtualisierung (Exchange, DB, Sharepoint, ..)

• Software Defined Networks (SDN)

• Ideale Basis für Orchestration and Automation (nur zwei Typen API im RZ)

Dienstleistungen

• BigData Analytic Plattform (Plan, Build, Run)

• Technisches Consulting

• DevOps und Engineering (Plan, Build, Run)

• Performance Care Services

Page 31: Rbu amanox big_data_intro_infrastruktur

Unsere Vision

Cloud Design Manufacture

ICT Automation and Standardization

BigDataInfrastructure

Expertise

Application Performance

Management (APM)

Wir unterstützen unsere Kunden bei der Standardisierung und Automatisierung Ihrer ICT Services.

Cloud Services

CPU Mem

Software Management Stack

Software Defined Network

App App App

Page 32: Rbu amanox big_data_intro_infrastruktur

Big Data – Veranstaltung

Die Grenzen der digitalen Transformation

https://m.youtube.com/watch?v=N8w6COfheoo

Page 33: Rbu amanox big_data_intro_infrastruktur