Rbu amanox big_data_intro_infrastruktur
-
Upload
rene-burgener -
Category
Documents
-
view
89 -
download
0
Transcript of Rbu amanox big_data_intro_infrastruktur
BigData-Schlüsselerfolgsfaktoren aus der Praxis Anforderungen und Alternativen
Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015
Agenda Big Data After-Work Seminar @BFH
Zeit Thema Referent
17.30 Begrüssung Dr. Arno Schmidhauser, BFH
17.35 Big Data – Infrastruktur und Software-Stacks
René Burgener, amanox solutions AG
18.00 BigData – Instrumente, Werkzeuge, Frameworks und konkrete Use-Cases
Dr. Daniel Fasel, Scigility GmbH
18.50 BigData PaaS – Automatisierung & Orchestration Frameworks
Matthias Imsand, amanox solutions AG
19.20 Wrap-Up – Zusammenfassung und Take-away’s
Urs Zumstein, amanox solutions AG
19.30 Abschluss der Veranstaltung – individuelles Networking
Teilnehmer
Inhalt
BigData-Infrastruktur und Software-Stacks Anforderungen und Alternativen
Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015
Senior Consultant
René Burgener
Unsere Herausforderung – digitale Welt 2020
Big Data- Infrastruktur und Software-Stacks
Inhalt
• Big Data – Herausforderungen und Dimension
Die digitale Transformation unseres Alltags
60 Sekunden im Internet Zeitalter
Die Welt im 2020 (IoT - Internet-of-Things)
• Big Data – Die Entstehung der Technologien & Instrumente
• Big Data – Anforderungen an die Infrastruktur
• Big Data – Hadoop Distributionen im Überblick
• Big Data – Take away’s
Unser vernetzter Alltag
Quelle: http://img.geo.de/div/image/78762/big-data-gross.jpg
60 Sekunden im Sozial Media Zeitalter
Ausblick auf zukünftige Herausforderungen
Heute
Wie gross wird Big Data wirklich?
Big Data Technologien sorgt dafür,dass die Welt sich dreht - Heute als auch Morgen
Big Data
Entstehung der Technologien & Instrumente
Paradigmenwechsel, Prinzipien, Publikationen, Technologien
Die Vorreiter der ersten Stunde
• Google publizierte 2004 die Referenzarchitektur für MapReduce zusammen mit dem Google File System (ein verteiltes Datei-System).
MapReduce war der Pate für die Entwicklung von Hadoop
Das Google File System war der Pate für das Hadoop Distributed File System (HDFS)
• Dough Cutting entwickelte Hadoop – einfache MapReduce Implementation für Unternehmen
• Yahoo!: Entwickelte Hadoop weiter und übergab das Resultat an das Apache Open Source Project
• Hadoop ist heute der weltweit verbreiteste Technologie Stack für Big Data Projekte
• Für Hadoop gibt es verschiedenen Distributionen mit unterschiedlich verfügbarem Support und verschieden zusammengesetzten Tools
Apache Hadoop Project Organisation
HortonWorks
Cloudera (wo Dough Cutting als Chef-Architekt arbeitet)
Die 4 V’s von Big Data
VolumenVielfalt(Variety)
Ungenauigkeit(Veracity)
Geschwindigkeit(Velocity)
Datenspeicherungsvolumen
Datenbewegung (z.B. Streaming)
Daten in vielen Formen
Datenunschärfe
Die 4 V’s von Big Data
Big Data: Paradigmawechsel
Traditionelles Vorgehen Big Data Vorgehen
GesamteInformationsmenge
GesamterDatenbestandwird analysiert
AnalysierterInformations-
Ausschnitt
Analyse von kleinenData-Subsets
Analyse des gesamtenDatenbestandes
Big Data: Paradigmawechsel 2
Traditionelles Vorgehen Big Data Vorgehen
Hypothese
Start mit einer Hypothese undPrüfung gegen die vorhandenen Daten
Erkunde alle vorhandenen Datenund erkenne die Korrelationen
?
Fragestellung
Antwort Daten
Daten Exloration
KorrelationErkenntnis
Die Vielfalt der Daten (Informationen)
Kunde
Name
Vorname
Kundennummer
Ort
Artikel
Bezeichnung
EAN
Preis
MwSt
KundenNr EAN Netto MwSt Brutto Datum
98273891 CH28309810 12,21 8% 24,05 19.04.15
83691817 CH94839928 81,77 8% 97,31 22.04.15
63879287 CH87687628 2,31 7% 2,47 29.04.15
Relationale DB
- Attribute- Tupel
SQL Query:SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789
Relationale DB
Parallelverarbeitung
Beispiel: Erkennung von Kreditkartenmissbrauch
Visa hat ca. 2 Mrd. Kreditkarten weltweit
Kreditkartenunternehmen erstellen ein Muster aus den Zahlungsdaten
Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein Missbrauch vor!
Durch Big Data Technologie hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt
Quelle: Bild der Wissenschaft, Ulrich Schmitz
Big Data
Anforderungen an die Infrastruktur
Analogie der Big Data und der Web-Scale Technologien
Die Infrastrukturanforderungen
POWERzu erschwinglichem Preis• Rechenpower & Datenspeicherkapazität
• Rechner (Verarbeitungsgeschwindigkeit)
1 Rechner = sequentiell
Mehrere Rechner = parallel
Tausende Rechner = Skalierbarkeit (Clustering)
• Storage (Speichervolumen)
Schreib- und Lesegeschwindigkeit
Speicherkapazität vs. Baugrösse (Abmessungen)
Verdichtung
Kosten pro Speichereinheit
Agile, dynamische Skalierbarkeit
• Informations-Korrelation
Abhängig vom raschen Austausch der Informationen zwischen Speicher und Rechner
Idealerweise besteht ein direkter Austausch
Die richtige Antwort ist hyperkonvergente Infrastruktur
Infrastruktur Gemeinsamkeiten
Hyperkonvergenter Technologie Stack (z.B. NUTANIX)
Hadoop Big Data Open Source Technologie Stack
CommodityHardware File SystemMap Reduce
Architecture
x86CPU
x86CPU
parallelComputing
storeexplosive Data
NDFSCluster
Cluster
virtualInfrastructure
OSS virtualMachine
CommodityStorage
Vorteile hyperkonvergente Infrastruktur
Big Data DesktopVirtualisierung
Server Virtualisierung
ConvergedSoftwaredefined
massivelyscalable
ServerFlash
Hybrid
Big Data
Hadoop Distributionen
Open Source Projekt Apache Hadoop; die wichtigsten Distributionen
Big Data: Hadoop Software Distributionen
Big Data: Take awaysGrundsätzlicher Paradigmawechsel bei der Technologie
INFRASTRUKTUR STACKHerausforderungen mit Web-Scale Technologien meistern
Grundprinzipien• agil statt statisch• umfassend statt selektiv• explorativ statt hypothetisch• parallel statt sequentiell• offen statt proprietär• einfach statt komplex• automatisch statt manuell• virtuell statt physikalisch
Software Defined Everything!
Big Data – Einführung und Infrastruktur
Dankefür Ihr Interesse
Big Data
Wrap-Up und Abschluss
Urs Zumstein, Senior Consultant, amanox solutions AG
BigData / Enterprise Lösungen
Big Data Applikationen
• Strategie «schema on read» eröffnet neue Vorgehensweisen, mehr Flexibilität für während der Produktelaufzeit veränderte Bedürfnisse
• BigData Lösungen / Public Clouds
• BigData Private Cloud
Hadoop als «Middleware»
• Hadoop wird für verschiedene BigDataVorhaben eingesetzt
• Hadoop entwickelt sich als Standard Plattform
• Integration auf Enterprise Plattform
Nutanix Plattform
Eine Lösung für verschiedene Workload
• Hadoop / «BigData Lake»
• Virtual Desktop Infrastructures (VDI)
• Server Virtualisierung (Exchange, DB, Sharepoint, ..)
• Software Defined Networks (SDN)
• Ideale Basis für Orchestration and Automation (nur zwei Typen API im RZ)
Dienstleistungen
• BigData Analytic Plattform (Plan, Build, Run)
• Technisches Consulting
• DevOps und Engineering (Plan, Build, Run)
• Performance Care Services
Unsere Vision
Cloud Design Manufacture
ICT Automation and Standardization
BigDataInfrastructure
Expertise
Application Performance
Management (APM)
Wir unterstützen unsere Kunden bei der Standardisierung und Automatisierung Ihrer ICT Services.
Cloud Services
CPU Mem
Software Management Stack
Software Defined Network
App App App
Big Data – Veranstaltung
Die Grenzen der digitalen Transformation
https://m.youtube.com/watch?v=N8w6COfheoo