Rbu amanox big_data_intro_infrastruktur

BigData-Schlüsselerfolgsfaktoren aus der Praxis Anforderungen und Alternativen

Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015

Agenda Big Data After-Work Seminar @BFH

Zeit Thema Referent

17.30 Begrüssung Dr. Arno Schmidhauser, BFH

17.35 Big Data – Infrastruktur und Software-Stacks

René Burgener, amanox solutions AG

18.00 BigData – Instrumente, Werkzeuge, Frameworks und konkrete Use-Cases

Dr. Daniel Fasel, Scigility GmbH

18.50 BigData PaaS – Automatisierung & Orchestration Frameworks

Matthias Imsand, amanox solutions AG

19.20 Wrap-Up – Zusammenfassung und Take-away’s

Urs Zumstein, amanox solutions AG

19.30 Abschluss der Veranstaltung – individuelles Networking

Teilnehmer

Inhalt

BigData-Infrastruktur und Software-Stacks Anforderungen und Alternativen

Berner Fachhochschule, Informatik, Mittwoch, 1.7.2015

Senior Consultant

René Burgener

Unsere Herausforderung – digitale Welt 2020

Big Data- Infrastruktur und Software-Stacks

Inhalt

• Big Data – Herausforderungen und Dimension

Die digitale Transformation unseres Alltags

60 Sekunden im Internet Zeitalter

Die Welt im 2020 (IoT - Internet-of-Things)

• Big Data – Die Entstehung der Technologien & Instrumente

• Big Data – Anforderungen an die Infrastruktur

• Big Data – Hadoop Distributionen im Überblick

• Big Data – Take away’s

Unser vernetzter Alltag

Quelle: http://img.geo.de/div/image/78762/big-data-gross.jpg

60 Sekunden im Sozial Media Zeitalter

Ausblick auf zukünftige Herausforderungen

Heute

Wie gross wird Big Data wirklich?

Big Data Technologien sorgt dafür,dass die Welt sich dreht - Heute als auch Morgen

Big Data

Entstehung der Technologien & Instrumente

Paradigmenwechsel, Prinzipien, Publikationen, Technologien

Die Vorreiter der ersten Stunde

• Google publizierte 2004 die Referenzarchitektur für MapReduce zusammen mit dem Google File System (ein verteiltes Datei-System).

MapReduce war der Pate für die Entwicklung von Hadoop

Das Google File System war der Pate für das Hadoop Distributed File System (HDFS)

• Dough Cutting entwickelte Hadoop – einfache MapReduce Implementation für Unternehmen

• Yahoo!: Entwickelte Hadoop weiter und übergab das Resultat an das Apache Open Source Project

• Hadoop ist heute der weltweit verbreiteste Technologie Stack für Big Data Projekte

• Für Hadoop gibt es verschiedenen Distributionen mit unterschiedlich verfügbarem Support und verschieden zusammengesetzten Tools

Apache Hadoop Project Organisation

HortonWorks

Cloudera (wo Dough Cutting als Chef-Architekt arbeitet)

Die 4 V’s von Big Data

VolumenVielfalt(Variety)

Ungenauigkeit(Veracity)

Geschwindigkeit(Velocity)

Datenspeicherungsvolumen

Datenbewegung (z.B. Streaming)

Daten in vielen Formen

Datenunschärfe

Die 4 V’s von Big Data

Big Data: Paradigmawechsel

Traditionelles Vorgehen Big Data Vorgehen

GesamteInformationsmenge

GesamterDatenbestandwird analysiert

AnalysierterInformations-

Ausschnitt

Analyse von kleinenData-Subsets

Analyse des gesamtenDatenbestandes

Big Data: Paradigmawechsel 2

Traditionelles Vorgehen Big Data Vorgehen

Hypothese

Start mit einer Hypothese undPrüfung gegen die vorhandenen Daten

Erkunde alle vorhandenen Datenund erkenne die Korrelationen

?

Fragestellung

Antwort Daten

Daten Exloration

KorrelationErkenntnis

Die Vielfalt der Daten (Informationen)

Kunde

Name

Vorname

Kundennummer

Ort

Artikel

Bezeichnung

EAN

Preis

MwSt

KundenNr EAN Netto MwSt Brutto Datum

98273891 CH28309810 12,21 8% 24,05 19.04.15

83691817 CH94839928 81,77 8% 97,31 22.04.15

63879287 CH87687628 2,31 7% 2,47 29.04.15

Relationale DB

- Attribute- Tupel

SQL Query:SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789

Relationale DB

Parallelverarbeitung

Beispiel: Erkennung von Kreditkartenmissbrauch

Visa hat ca. 2 Mrd. Kreditkarten weltweit

Kreditkartenunternehmen erstellen ein Muster aus den Zahlungsdaten

Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein Missbrauch vor!

Durch Big Data Technologie hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt

Quelle: Bild der Wissenschaft, Ulrich Schmitz

Big Data

Anforderungen an die Infrastruktur

Analogie der Big Data und der Web-Scale Technologien

Die Infrastrukturanforderungen

POWERzu erschwinglichem Preis• Rechenpower & Datenspeicherkapazität

• Rechner (Verarbeitungsgeschwindigkeit)

1 Rechner = sequentiell

Mehrere Rechner = parallel

Tausende Rechner = Skalierbarkeit (Clustering)

• Storage (Speichervolumen)

Schreib- und Lesegeschwindigkeit

Speicherkapazität vs. Baugrösse (Abmessungen)

Verdichtung

Kosten pro Speichereinheit

Agile, dynamische Skalierbarkeit

• Informations-Korrelation

Abhängig vom raschen Austausch der Informationen zwischen Speicher und Rechner

Idealerweise besteht ein direkter Austausch

Die richtige Antwort ist hyperkonvergente Infrastruktur

Infrastruktur Gemeinsamkeiten

Hyperkonvergenter Technologie Stack (z.B. NUTANIX)

Hadoop Big Data Open Source Technologie Stack

CommodityHardware File SystemMap Reduce

Architecture

x86CPU

x86CPU

parallelComputing

storeexplosive Data

NDFSCluster

Cluster

virtualInfrastructure

OSS virtualMachine

CommodityStorage

Vorteile hyperkonvergente Infrastruktur

Big Data DesktopVirtualisierung

Server Virtualisierung

ConvergedSoftwaredefined

massivelyscalable

ServerFlash

Hybrid

Big Data

Hadoop Distributionen

Open Source Projekt Apache Hadoop; die wichtigsten Distributionen

Big Data: Hadoop Software Distributionen

Big Data: Take awaysGrundsätzlicher Paradigmawechsel bei der Technologie

INFRASTRUKTUR STACKHerausforderungen mit Web-Scale Technologien meistern

Grundprinzipien• agil statt statisch• umfassend statt selektiv• explorativ statt hypothetisch• parallel statt sequentiell• offen statt proprietär• einfach statt komplex• automatisch statt manuell• virtuell statt physikalisch

Software Defined Everything!

Big Data – Einführung und Infrastruktur

Dankefür Ihr Interesse

Big Data

Wrap-Up und Abschluss

Urs Zumstein, Senior Consultant, amanox solutions AG

BigData / Enterprise Lösungen

Big Data Applikationen

• Strategie «schema on read» eröffnet neue Vorgehensweisen, mehr Flexibilität für während der Produktelaufzeit veränderte Bedürfnisse

• BigData Lösungen / Public Clouds

• BigData Private Cloud

Hadoop als «Middleware»

• Hadoop wird für verschiedene BigDataVorhaben eingesetzt

• Hadoop entwickelt sich als Standard Plattform

• Integration auf Enterprise Plattform

Nutanix Plattform

Eine Lösung für verschiedene Workload

• Hadoop / «BigData Lake»

• Virtual Desktop Infrastructures (VDI)

• Server Virtualisierung (Exchange, DB, Sharepoint, ..)

• Software Defined Networks (SDN)

• Ideale Basis für Orchestration and Automation (nur zwei Typen API im RZ)

Dienstleistungen

• BigData Analytic Plattform (Plan, Build, Run)

• Technisches Consulting

• DevOps und Engineering (Plan, Build, Run)

• Performance Care Services

Unsere Vision

Cloud Design Manufacture

ICT Automation and Standardization

BigDataInfrastructure

Expertise

Application Performance

Management (APM)

Wir unterstützen unsere Kunden bei der Standardisierung und Automatisierung Ihrer ICT Services.

Cloud Services

CPU Mem

Software Management Stack

Software Defined Network

App App App

Big Data – Veranstaltung

Die Grenzen der digitalen Transformation

https://m.youtube.com/watch?v=N8w6COfheoo

https://m.youtube.com/watch?v=N8w6COfheoo

Rbu amanox big_data_intro_infrastruktur

Documents

Transcript of Rbu amanox big_data_intro_infrastruktur