Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den...

21
Big Data Management Innovationspotenzialanalyse für die neuen Technologien für das Verwalten und Analysieren von großen Datenmengen Kurzfassung im Auftrag Prof. Volker Markl Prof. Thomas Hoeren Prof. Helmut Krcmar

Transcript of Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den...

Page 1: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

Big Data Management Innovationspotenzialanalyse für die neuen Technologien für

das Verwalten und Analysieren von großen Datenmengen

Kurzfassung

im Auftrag

Prof. Volker Markl Prof. Thomas Hoeren Prof. Helmut Krcmar

Page 2: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

Zusammenfassung

Die zunehmende Vernetzung im Internet der Dinge und Dienste sowie die Verwendung vonfortgeschrittener Sensorik und Simulationsmodellen in Industrie 4.0, bei Dienstleistungs-unternehmen, in der Forschung und im privaten Sektor fuhren zu einer immer großerenVerfugbarkeit von Daten. Die Analyse dieser Daten wird wirtschaftliche, wissenschaftli-che und gesellschaftliche Prozesse revolutionieren, durch eine zeitnahe und umfassendedatengetriebene Entscheidungsunterstutzung. Insbesondere fur Unternehmen sind hier-durch erheblich Wettbewerbsvorteile zu erwarten. Dieser Trend wird derzeit durch dieSchlagworter

”Big Data“ oder

”Data Science“ umschrieben. Dabei bedeutet

”Big Data“,

dass sowohl Daten als auch Analysen auf diesen Daten in den letzten Jahren eine neueForm der Qualitat und Komplexitat erreicht haben.Die nachhaltige Sicherung der Wettbewerbsfahigkeit des Wirtschaftsstandorts Deutsch-

lands sowie die Sicherung zukunftiger Innovationen in der modernen Informationsgesell-schaft erfordert ein in sich stimmiges Zusammenspiel aus vier Bereichen:

Technologie: Bereitstellung von effektiven Methoden und Werkzeugen zur Analyse vongroßen Mengen heterogener Daten mit hoher Datenrate,

wirtschaftliche Verwertung: Schaffung von Anwendungen zur Erschließung von neu-en Markten oder Starkung existierender Markte,

juristische Rahmenbedingungen: Datenschutz, Urheber- und Vertragsrecht

und die Ausbildung von Fachkraften.

Die Entwicklung konvergenter IKT im vorwettbewerblichen Bereich fur das”Big Data

Management“ ist ein folgerichtiger und besonders forderungswurdiger Schwerpunkt desBundesministeriums fur Wirtschaft und Technologie (BMWi).Die vorliegende Kurzfassung ist eine Zusammenfassung einer ausfuhrlichen Studie, die

dieses Zusammenspiel bewertet, um durch das Verwalten und Analysieren von”Big Data“

zu”Smart Data“ zu gelangen. Die vollstandige Studie steht unter der folgenden Adres-

se http://www.dima.tu-berlin.de/menue/research/big_data_management_report/

zum Download bereit.

Page 3: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

1Einleitung: Was ist die neue Qualitat von Big Data?

”Big Data“ zeichnet sich durch eine neue

Komplexitat im Hinblick auf die Daten aus,sowie durch eine neue Komplexitat der Ana-lyse, die auf diesen Daten durchgefuhrtwerden. Die neue Art der Datenkomple-xitat wird dabei durch Anforderungen anDatenvolumen (engl. volume), Datenrate(engl. velocity), Datenheterogenitat (engl.variety) und Datenqualitat (engl. veracity)charakterisiert, welche von handelsublichenDatenbanksystemen nicht abgedeckt wer-den konnen. So erfordert die Analyse vonBig Data:

• die Speicherung und Verarbeitung vonriesigen Datenmengen,

• wobei gleichzeitig die Entscheidungs-zeitfenster, in denen Analyseergebnis-se bereitgestellt werden mussen, immerkurzer werden,

• eine Vielzahl von unterschiedlichen Da-tenquellen (z.B. Zeitreihen, Tabellen,Textdokumente, Bilder, Audio- undVideodatenstrome) in die Datenanaly-se einbezogen werden,

• und aufgrund der Unscharfe von eini-gen Datenquellen (z.B. Sensoren mitfixer Genauigkeit) bzw. von Informa-tionsextraktionsverfahren und Integra-tionsverfahren mussen Systeme undAnalysten mit wahrscheinlichkeitsba-sierten Modellen und Konfidenzen imRahmen der Analyse von Big Data um-gehen.

Zudem werden neue deklarative Sprachenfur Spezifikation und automatische Opti-mierung und Parallelisierung von komple-xen Datenanalyseprogrammen (inkl. neu-er statistischer und mathematischer Algo-rithmen) benotigt um das Datenvolumen,die Verarbeitungsgeschwindigkeit, die un-terschiedlichen Datenformate und die Ver-trauenswurdigkeit der Daten in den Griff zubekommen. Big Data besitzt ausserdem ei-ne neue Analysekomplexitat, die sich daranzeigt, dass zur EntscheidungsunterstutzungModelle aus den Daten generiert werden.Dies erfordert den Einsatz von fortgeschrit-tenen Algorithmen der Datenanalyse, ins-besondere statistischer Verfahren, Verfah-ren des maschinellen Lernens, der linearenAlgebra und Optimierung, Signalverarbei-tung sowie des Data Mining, des Text Mi-nings, des Graph Minings, Video Miningsund der visuellen Analyse.Diese Anforderungen werden zu einem

Paradigmenwechsel bei Datenanalysespra-chen, Datenanalysesystemen und auch Da-tenanalysealgorithmen fuhren und volligneuartige Anwendungen ermoglichen.

1

Page 4: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

2”Big Data“ Management:

Eine Chance fur Innovation in Europa

Die neuen Herausforderungen von”Big

Data“ stellen eine große Chance fur deut-sche und europaische Firmen dar, sowohlwas die Technologie betrifft als auch bei An-wendungen fur dieses Gebiet. ExistierendeProdukte im kommerziellen, uberwiegendvon US-Firmen dominierten Datenbank-markt basieren auf Technologien, die auf-grund zu geringer Skalierbarkeit, mangeln-der Fehlertoleranz, oder eingeschrankterProgrammiermodelle den Anforderungenvon Big Data nicht gewachsen sind. Somitwerden derzeit die Karten im Bereich derskalierbaren Datenanalysesysteme interna-tional neu gemischt. Dabei ist Deutschlandgut positioniert. Neben den USA besitztDeutschland die zweitstarkste Forschungs-Gemeinschaft im Bereich des skalierba-ren Datenmanagements. Diese fuhrt bereitssehr viele Aktivitaten in der Grundlagen-forschung zu Big Data durch (z.B. dasStratosphere System der TU Berlin, Hy-per der TU Munchen, die Forschungen zuHadoop++ und HAIL an der UniversitatSaarbrucken). Neben einer auch in Deutsch-land aktiven Open-Source Bewegung for-dern derzeit viele Unternehmen, insbeson-dere Startups, die etablierten großen Anbie-ter wie IBM, Oracle und Microsoft heraus.

Unter den Herausforderern, die sichChancen und Marktanteile in dem gera-de entstehenden Big-Data Markt verspre-chen, finden sich dabei auch eine Vielzahlan deutschen Technologieunternehmen, ne-ben Großunternehmen wie z.B. SAP mitHANA und der Software AG mit Terra-cotta auch viele High-Tech-Startups wiez.B. ParStream, Exasol. Um diese Un-ternehmen in ihrer Produkt- und Mark-teroberungsstrategie zu unterstutzen, ist eswichtig, ein Technologietransfer- und In-novationsklima zu schaffen, das es deut-schen Unternehmen, insbesondere den mit-telstandischen Unternehmen, universitarenAusgrundungen und Startups im Bereichder skalierbaren Datenverarbeitung sowieder Datenanalyse ermoglicht, mit den Star-tups insbesondere im Silicon Valley, in Eng-land und in China auf Augenhohe im Be-reich der Technologieentwicklung und Mit-arbeitergewinnung zu stehen.Auf diese Weise kann die Politik

einen wichtigen Beitrag fur die Wett-bewerbsfahigkeit deutscher Unterneh-men bei der zukunftigen Entwicklungund Kommerzialisierung von Big-DataSchlusseltechnologien leisten und Deutsch-land durch wissenschaftliche Leistungenund Innovationen den Weg in den Milliar-denmarkt Big Data ebnen.

2

Page 5: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

3Ausbildung an den Hochschulen

Um die Wirtschaft, Wissenschaft und Ge-sellschaft in Deutschland auf diesen glo-balen Trend optimal vorzubereiten, sindhochgradig koordinierte Aktivitaten in derForschung, Lehre und Technologietrans-fer im Bereich der Datenanalysemethodenund skalierbaren Datenbanksysteme erfor-derlich. Big Data ist nicht mehr langer nureine Herausforderung fur eine spezifischeBranche, es tangiert vielmehr alle Wirt-schaftszweige, alle Organisationen und al-le Nutzer von digitalen Technologien. Dasneuartige Berufsbild Data Scientist kom-biniert Methodenkenntnisse in Datenana-lyseverfahren (Statistik und maschinellesLernen, Optimierung, linearer Algebra, Si-gnalverarbeitung, Sprachverarbeitung, Da-ta Mining, Text Mining, Video Mining,Bildverarbeitung) mit technischen Kompe-tenzen im Bereich des skalierbaren Daten-managements (Datenbanksysteme, Data-Warehousing, Informationsintegration, ver-teilte Systeme, Rechnernetze, Rechnerar-chitekturen) sowie praktischen Kompeten-zen der Systemimplementierung.Dabei sollte eine derartige Ausbildung

durch praktische Anwendungsprojekte zurVermittlung von Fachkompetenzen in be-stimmen Anwendungsdomanen flankiertwerden.

3

Page 6: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

4Rechtliche Aspekte von Big Data

Die technische Entwicklung der letztenJahre hat die verfugbaren Datenmengenerheblich vergroßert. Der Einsatz der be-schriebenen Technologien und deren An-wendungsfelder ermoglichen nicht nur diequasi unbegrenzte Langzeitspeicherung vonDaten, sondern auch deren detailgenaueAnalyse im Hinblick auf Nutzerverhaltenund –interessen. Der Datenumgang wirftallerdings vielfaltige rechtliche Fragen auf,die vor allem die Rechtsdisziplinen desDatenschutz-, Urheber- und des Vertrags-rechts betreffen. Daneben hat sich in derRechtswissenschaft eine Diskussion entwi-ckelt, deren Ergebnis gravierende Folgen furdie Big-Data-Branche hat. Es geht um dieFrage, ob Daten eigentumsfahig sind und,falls dies so ist, wem das Eigentum daranzusteht.

Eigentum an Daten

Ein Eigentumsrecht an Daten mag mitBlick auf die bestehenden Differenzierungenhinsichtlich Sacheigentum, Urheberrecht,Schutz des Datenbankherstellers und Da-tenschutz zunachst einmal als uberflussigestheoretisches Konstrukt erscheinen. Aller-dings haben sich Daten zu einem erhebli-chen Wirtschaftsfaktor entwickelt. Sie stel-len ein Handelsgut dar und haben eineneigenstandigen fuhlbaren Wert. Die Ent-wicklung eines absoluten Schutzregimes er-scheint vor diesem Hintergrund als ange-messen.

Dogmatisch bereitet das Konzept vomDateneigentum jedoch Schwierigkeiten. Ei-gentumsfahigkeit setzt voraus, dass Daten

nach der Rechtsordnung einem Rechtssub-jekt zugeordnet werden konnen, sodass die-sem ein umfassendes Herrschaftsrecht dar-an zusteht. Eine Zuordnung nach §§ 90ff. BGB erscheint ausgeschlossen. Das Da-tum an sich ist keine korperliche Sacheim Sinne des § 90 BGB, sondern viel-mehr korperlich abhangig. Einer Bewer-tung des Datums als wesentlicher Bestand-teil des Datentragers nach § 93 BGBsteht entgegen, dass dann

”Dateneigen-

tum“ und Sacheigentum nicht auseinan-derfallen konnten. Genau dies muss abermoglich sein, um Schaden in vernetztenDatenbestanden sachgerecht ausgleichen zukonnen.

Beispielhaft sei auf die Situation verwie-sen, in der der wirtschaftliche Schaden nichtbeim Eigentumer des Datentragers eintritt,weil nicht er sondern eine dritte Persondie Daten wirtschaftlich nutzt. Wahrenddie Rechtsprechung vor rund 25 Jahreneinen Fall des Datenverlusts auf einem ei-genen Datentrager durch Ruckgriff auf dasEigentumsrecht an diesem losen konnte,ist diese Konstruktion aufgrund technischerNeuerungen wie Speichern von Daten inder

”Cloud“ nicht mehr zeitgemaß. Das in

dem damaligen Zusammenhang diskutier-te

”Recht am eigenen Datenbestand“ als

sonstiges Recht im Sinne des § 823 BGBkonnte zwar in solchen Situationen seineBerechtigung haben, begegnet jedoch dog-matischen Bedenken. Als ausschließlichesRecht musste das

”Recht am eigenen Da-

tenbestand“ namlich eine den in § 823 Abs.1 BGB genannten Rechten ahnliche Aus-schlussfunktion bieten. Wem dieses Aus-

4

Page 7: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

schlussrecht zustehen soll, ist nicht ersicht-lich, sodass die Losung als Hilfskonstruktionbewertet werden muss, die mehr Problemeaufwirft als sie lost.

Eine eigentumsrechtliche Zuordnung vonDaten zu einem Rechtssubjekt kann auchnicht uber das Datenschutzrecht erfolgen.Dieses schafft nur eine rechtliche Verant-wortlichkeit fur Daten, darf jedoch nicht da-hin verstanden werden, dass der Betroffe-ne Ausschließlichkeitsrechte an den einzel-nen Datensatzen im Sinne eines Eigentumsbesitzt. Gleiches gilt fur eine in Betrachtkommende Losung uber das urheberrecht-liche sui-generis-Recht an einer Datenbank.Dieses stellt einen Investitionsschutz dar,der vor wirtschaftlicher Ausbeutung frem-der Leistung schutzt, nicht jedoch daruberhinausgehend Daten einer Person zuordnensoll.

Die Zuordnungsproblematik kann al-lerdings durch einen Ruckgriff auf dasStrafrecht gelost werden. § 303a StGBschutzt explizit Daten. Die Zuordnung desSchutzgutes zu einem Rechtssubjekt er-folgt anhand des Skripturaktes, also nachdem technischen Herstellungsprozess. EineUbertragung dieser Konzeption auf das Zi-vilrecht ermoglicht also eine eindeutige Zu-ordnung und damit die Moglichkeit der Eta-blierung eines

”Dateneigentums“.

Es lasst sich somit festhalten, dass dieHerleitung eines Eigentums am Datum dog-matisch moglich ist. Ob sich das Insti-tut des Dateneigentums durchsetzt, ist je-doch noch nicht abzusehen, da die Dis-kussion erst am Anfang steht. Dennochmuss diesem Thema gerade aus Sicht derBig-Data-Unternehmen hohe Aufmerksam-keit gewidmet werden. Denn je nach Aus-gang der Debatte konnten unabhangig vomDatenschutz- oder Urheberrecht Anspruchedurch den

”Dateneigentumer“ geltend ge-

macht werden, die den Umgang mit denDatensatzen beeinflussen wurden. Zudemhatte eine Klarung der Frage nach dem Ei-gentum an Daten auch grundlegende Aus-wirkungen auf insolvenzrechtliche Frage-stellungen.

Datenschutzrecht

In der aktuellen wissenschaftlichen Diskus-sion wird vehement auf das Spannungs-feld von Big Data und dem Datenschutz-recht hingewiesen. Mit Blick auf die daten-schutzrechtlichen Grundsatze wie Zweck-bindung, Transparenz, Direkterhebung, Da-tenvermeidung bzw. Datensparsamkeit unddem Verbot mit Erlaubnisvorbehalt wirdklar, dass Big Data mit dem Schutz perso-nenbezogener Daten kollidieren kann. UmDatenschutzverstoße zu vermeiden, mussenBig-Data-Unternehmen deshalb vielfaltigeProblemfelder bei ihrer Entscheidungsfin-dung beachten.Ein Problem liegt bereits in der Fra-

ge nach der Anwendbarkeit des deutschenDatenschutzrechts. Das grundsatzlich gel-tende Territorialprinzip bereitet als An-knupfungspunkt Schwierigkeiten, wenn Da-ten weltweit auf verschiedenen Stand-orten verteilt sind, die Datenmengenfluchtig sind und sich der einmal ermit-telte Standort binnen kurzer Zeit andernkann. Big-Data-Unternehmen mussen des-halb womoglich eine Vielzahl unterschied-licher Rechtsordnungen beim Umgang mitDaten berucksichtigen.Weiterhin erfordert der Umgang mit per-

sonenbezogenen Daten nach deutschem Da-tenschutzrecht grundsatzlich die Einwilli-gung des Betroffenen oder eine Legitimati-on durch gesetzliche Erlaubnisgrunde. Die-ser Grundsatz des Verbots mit Erlaub-nisvorbehalt wird zunehmend als untaug-lich kritisiert, da angesichts der Ubiquitatder Datenverarbeitung in Smartphones etc.potentiell jedermann zum Datenverarbei-ter wird. Der Schutz der informationel-len Selbstbestimmung wird im Ausgangs-punkt uber alles gestellt, um in der Fol-ge jedoch viele und zum Teil sehr weit-gehende Erlaubnistatbestande festzulegen.Es wird deshalb vorgeschlagen, im Rah-men einer Modernisierung des Datenschutz-rechts das Konzept des Verbots mit Er-laubnisvorbehalt zu uberdenken. Big-Data-Unternehmen konnten auf diesem Wege vonder komplexen Aufgabe der Ermittlung ei-

5

Page 8: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

nes”passenden“ Legitimationstatbestandes

entlastet werden.

Im Zusammenhang damit stellt sich auchdie generelle Frage nach der Wirksamkeitdes Instituts der Einwilligung als Legitima-tionstatbestand. Zum einen bestehen Be-denken hinsichtlich der Freiwilligkeit derEinwilligung, wenn diese faktisch Gegenleis-tung fur eine

”kostenlose“ Dienstleistung

wird und sich somit zum Handelsgut ent-wickelt. Zum anderen ist zu klaren, wieeine Einwilligung wirksam eingeholt wer-den kann und ob diese in ihrer Zeitdauermoglicherweise begrenzt werden kann.

Insgesamt zeigen die hier angedeutetensowie eine Vielzahl weiterer Probleme, dassdas Datenschutzrecht ein Hemmnis fur Big-Data-Unternehmen darstellt. Dies ist aufder einen Seite gewollt, um personenbezoge-ne Daten effektiv zu schutzen. Auf der an-deren Seite ist jedoch auch zu sehen, dassdie Grundgedanken des Datenschutzrechtsnoch aus einer Zeit stammen, in der dasPhanomen Big Data nicht existierte. Des-halb sind Modernisierungsvorschlage not-wendig, in deren Rahmen die gegenlaufigenInteressen in einen angemessenen Ausgleichgebracht werden mussen.

Urheberrecht

Der Umgang mit Big Data wirft auch Fra-gen aus urheberrechtlicher Sicht auf. Ei-ne allgemeingultige und fur jede Big Data-Losung einheitliche Begutachtung urheber-rechtlicher Problematiken ist nicht moglich.Die konkreten Probleme ergeben sich stetsaus der Ausgestaltung des Verfahrens imEinzelfall. Zu bedenken ist jedoch, dass derSchutz des Urheberrechts in zwei Richtun-gen wirken kann. Zum einen ist es moglich,dass sich das datenverarbeitende Unterneh-men selbst auf das Urheberrecht – namlichden Sui-generis-Datenbankschutz – berufenkann. Zum anderen konnte ein Datenum-gang jedoch auch gegen Urheberrechte bzw.verwandte Schutzrechte Dritter verstoßen.Gerade letzteres muss bei der Entscheidunguber eine konkrete Datenverarbeitung vomBig-Data-Unternehmen berucksichtigt wer-den.

Wie beim Datenschutzrecht stellt sichauch in diesem Zusammenhang die Fra-ge nach der Anwendbarkeit der deut-schen Rechtsordnung. Grundsatzlich wirdbei in Deutschland genutzten Big-Data-Losungen wegen des Territorialitatsprinzipsdeutsches Recht anwendbar sein. BeiInternet-Sachverhalten, die sich nicht ei-nem bestimmten Schutzterritorium zuord-nen lassen, entstehen jedoch kollisions-rechtliche Fragestellungen, die noch nichtvollumfassend geklart sind. Fur Big-Data-Unternehmen bedeutet dies wiederum eineunsichere rechtliche Lage, da es moglich ist,dass eine Vielzahl verschiedener Rechtsord-nungen Anwendung findet.

Urheberrechtlicher Schutz wird nurgewahrt, wenn eine ausreichende Gestal-tungshohe des Werkes vorliegt. EinzelneDaten haben regelmaßig nicht die dafurerforderliche individuelle Pragung, so-dass Urheberrechtsverstoße beim Umgangmit einzelnen Daten zunachst nicht zubefurchten sind. Etwas anderes kann je-doch gelten, wenn nutzergenerierte Inhaltez.B. aus sozialen Netzwerken ausgewertetwerden sollen. Solche Daten konnen alsLichtbilder (§ 72 UrhG), Lichtbildwerke (§2 Abs. 1 Nr. 5 UrhG) oder Sprachwerke (§2 Abs. 1 Nr. 1 UrhG) geschutzt sein. DieAuswertung wurde dementsprechend dasVervielfaltigungsrecht und das Recht deroffentlichen Zuganglichmachung beruhren.

Die Zulassigkeit des Datenumgangshangt aus urheberrechtlicher Sicht davonab, ob eine gesetzliche Schrankenregelungzugunsten der datenverarbeitenden Un-ternehmen greift oder der Rechtsinhaberdieser Handlung zustimmt. Die gesetzlichenSchranken werden den Umgang mit großenDatenmengen jedoch regelmaßig nichtlegitimieren. Diese Feststellung wird zumAnlass genommen, daruber zu diskutieren,ob das UrhG um eine weitere Schrankeerganzt werden muss, um den neuen Di-mensionen des Datenverkehrs gerecht zuwerden. Ohne

”passende“ Schranke bleibt

den Big-Data-Unternehmen nur der Weguber die Zustimmung des Rechteinhabers.Dabei bestehen jedoch erhebliche prakti-sche Probleme. Die neuen Technologien des

6

Page 9: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

Internetzeitalters fuhren dazu, dass fastzwangslaufig in zahllose fremde Ausschließ-lichkeitsrechte eingegriffen wird, so dasseine große Zahl vertraglicher Vereinbarun-gen getroffen werden musste. Um diesesProblem zu umgehen, wird die Figur einerfaktischen Einwilligung diskutiert. Ob einesolche Konstruktion allerdings tatsachlichdazu geeignet ist, die Handlung zu legiti-mieren, ist noch ungeklart. Grundsatzlichist also die Tendenz zu erkennen, dass imFalle des Eingreifens von Urheberrechtenein Umgang mit Big Data nur untererschwerten Bedingungen moglich ist.

Diese Feststellung lasst sich auch durchdie Tatsache unterstreichen, dass dane-ben ein weiteres urheberrechtliches Schutz-recht den Umgang mit Big Data hem-men kann. Werden die Daten namlich ausfremden Datenbanken bezogen, so kannder Sui-generis-Datenbankschutz gem. §§

87a ff. UrhG den Handlungen des Big-Data-Unternehmens entgegenstehen. DerSui-generis-Schutz ist unabhangig von ei-ner individuellen Schopfungshohe. Vielmehrwird eine Datenbank geschutzt, wenn ei-ne wesentliche Investition fur ihre Erstel-lung getatigt wurde. Wann die erforderli-che Wesentlichkeit vorliegt, ist eine Fragedes Einzelfalls. Daraus resultiert fur Big-Data-Unternehmen also wiederum eine Un-sicherheit, die vor der Vornahme einer un-ternehmerischen Entscheidung ausgeraumtwerden muss. Denn sollte die erforderlicheSchwelle uberschritten sein, so durfen ohneZustimmung des Datenbankherstellers nurunwesentliche Teile der Datenbank fur deneigenen Datenumgang genutzt werden. Un-terhalb der gesetzlich vorgesehenen Schwel-le konnen die Daten hingegen ohne urheber-rechtliche Beschrankung verwertet werden.

Alles in allem belegen also bereits diehier nur kurz skizzierten Probleme, dassdas Urheberrecht mit seinen ungeklartenRechtsfragen sowie teilweise modernisie-rungsbedurftigen Regelungen ein Hemmnisfur den Big-Data-Sektor sein kann. Jeden-falls darf aus der Sicht der Unternehmender Fokus auf das Datenschutzrecht nichtden Blick fur ebenfalls einschlagige urheber-rechtliche Regelungen truben.

Vertragsrechtliche und haftungsrecht-liche Fragen

Weiteren Unklarheiten sind Big-Data-Unternehmen im Hinblick auf die Ver-tragsgestaltung sowie Haftungsfragenausgesetzt. Die Vertragsgestaltung ist auf-grund der vielen technischen Fragen sowieder Beruhrungspunkte zum Datenschutz-und Urheberrecht kompliziert. Pauschali-sierte Aussagen lassen sich nur schwerlichtreffen. Nichtsdestotrotz lasst ist festzu-stellen, dass Regelungen in allgemeinenGeschaftsbedingungen, die eine Haftungfur Datenverlust bzw. -beschadigungausschließen oder beschranken sollen, Ge-fahr laufen, im Rahmen der gerichtlichenAGB-Kontrolle als unwirksam bewertetzu werden. Daneben ergeben sich ganzallgemein Fragen bezuglich der Haftungvon Big-Data-Unternehmen. Eine solchesetzt ein Fehlverhalten des jeweiligenUnternehmens voraus. Dieses konnte unterUmstanden in der Ubermittlung einerfehlerhaften Information zu sehen sein.Nach welchen Kriterien jedoch bestimmtwerden kann, wann eine solche vorliegt, istbislang nicht abschließend geklart.

Fazit

Die Entwicklung von Big Data in Deutsch-land wird maßgeblich vom geltenden Rechtbeeinflusst. Von besonderer Bedeutung wirddie weitere Diskussion um ein etwaiges

”Da-

teneigentum“ sein. Zudem ergeben sich ins-besondere aus dem Datenschutzrecht sowiedem Urheberrecht einige Hurden, die denUmgang mit großen Datenmengen erschwe-ren. Im Rahmen von Diskussionen uberModernisierungen dieser Rechtsgebiete soll-te uberpruft werden, inwieweit diese Rege-lungen noch zeitgemaß sind und an wel-cher Stelle Anderungen sachgerecht waren,um den wirtschaftlichen Interessen daten-verarbeitender Unternehmen entgegenzu-kommen ohne jedoch die schutzwurdigenInteressen betroffener Personen zu ver-nachlassigen. Solange dieser Prozess andau-ert mussen sich Big-Data-Unternehmen injedem konkreten Einzelfall damit ausein-andersetzen, ob ihre Big-Data-Losung mitdem Urheber- und Datenschutzrecht imEinklang steht.

7

Page 10: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

5Innovationspotential von Big Data

In der Studie wurde das Innovati-onspotenzial von Big Data sowohl inausgewahlten Branchen als auch bran-chenubergreifend untersucht. Im folgendenAbschnitt werden die Ergebnisse zusam-mengefasst wiedergegeben.

Ergebnisse der Untersuchung aktuel-ler Studien. Fur die Studie wurde einUberblick aktueller Studien zu den Inno-vationspotenzialen von Big Data erarbei-tet. Fur diese Untersuchung wurden nurBig Data Studien ausgewahlt, die Aus-sagen zu Deutschland beinhalten, die ei-ne quantitative Datengrundlage haben undvergleichbare Aussagen enthalten, so dassdiese zueinander verknupft werden konnten.Es wurden insgesamt 9 Studien ausgewer-tet. Die Stichprobengroße der untersuch-ten Studien (BARC, BITKOM, Compu-ting Research, Experton Group, Fraunho-fer IAIS,Interxion, TATA Consultancy Ser-vices, TNSinfratest) ist mit n > 4492 um-fangreich.Die Kernaussagen der Studien konnen

wie folgt zusammengefasst werden:

1. Big Data war bisher vor allem ein The-ma fur IT-Experten, das sonst noch re-lativ unbekannt ist.

2. Big Data wird die Unterneh-mensfuhrung, Geschaftsprozesse unddie betriebliche Informationslogistikverandern.

3. Konkreter Handlungsbedarf wird aktu-ell vor allem in der Informationslogistikgesehen.

4. Unternehmen beginnen erst damit,Strategien fur den Einsatz von Big Da-ta uber die Analyse strukturierter Da-ten hinaus zu entwickeln.

5. Fur den Einsatz von Big Data fehlennoch Fachkrafte sowie organisatorischeStrukturen und Prozesse in den Unter-nehmen. Diese werden in Zukunft nochstarker nachgefragt werden.

6. Mit zunehmender Bereitschaft der Un-ternehmen wird der Big Data Markt er-heblich wachsen.

Ergebnisse der im Rahmen der Stu-die durchgefuhrten empirischen Stu-die. Erganzend zu obiger Analyse derexistierenden Studien zu Innovationspoten-zialen von Big Data wurde fur die Studieeine eigene empirische Untersuchung durch-gefuhrt. Das Ziel dieser Untersuchung wares, die bestehenden Erkenntnisse zu validie-ren und zu erganzen.

Die Untersuchung wurde im 2. und 3.Quartal des Jahres 2013 durchgefuhrt. Diegesamte Anzahl von Fragebogenrucklaufenbetrug 185.

Personlicher Hintergrund der Stu-dienteilnehmer. Abbildung 5.1 zeigtden Tatigkeitshintergrund der Teilnehmeran der Studie, rund 16 Prozent der Teil-nehmer der Studie waren Entscheider. DieTeilnehmer der Studie hatten in der Mehr-heit einen (Wirtschafts-) Informatik Ausbil-dungshintergrund (siehe Abbildung 5.2).

8

Page 11: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

Abbildung 5.1: Tatigkeitsbereiche der Teil-nehmer der Studie

Abbildung 5.2: Ausbildungshintergrund derTeilnehmer der Studie (Anzahl Antwor-ten=183)

Die meisten Teilnehmer waren zwischen20 - 54 Jahre alt (164 Antworten; 16 Teil-nehmer alter als 54) und rechneten sichmehrheitlich der Branche Informationstech-

nologie zu.

Von den 90 Teilnehmern, die sich ei-nem Unternehmen zuordneten, rechnetensich 40 Teilnehmer der Unternehmensgroßekleines und mittelstandisches Unternehmen(KMU) zu. 47 Teilnehmer arbeiteten in Un-ternehmen mit mehr als 1000 Angestellten,23 in Unternehmen mit 250-1000 Mitarbei-tern und 39 mit 250 oder weniger Mitarbei-tern (insgesamt 109 Antworten). Bei 38 Un-ternehmen betrug der Jahresumsatz uber250 Mio. Euro, bei 66 Unternehmen lagder Jahresumsatz darunter, davon hatten24 Unternehmen einen Jahresumsatz von 5-50 Millionen.

In den folgenden Abschnitten werden dieErgebnisse der Studie naher betrachtet.

Big Data Projekte sind noch in ei-ner sehr fruhen Phase. 40 Prozent derEntscheider geben an, in der Informations-phase uber Big Data-Technologien zu sein(siehe Abbildung 5.3). Lediglich 8 Prozentder Entscheider haben sich bereits mit derUmsetzung beschaftigt. Ein Viertel der Ent-scheider gab an, dass sie bereits die Ent-

Abbildung 5.3: Status von Big Data Projek-ten

wicklung von Strategien, Maßnahmen undRoadmaps planen bzw. prufen. Dazu gehortebenfalls eine Kosten-Nutzen-Analyse. Aufder Anwenderseite hingegen sind Unterneh-men bereits weiter fortgeschritten. Hier ge-ben bereits 15 Prozent an, eine Big DataStrategie umgesetzt zu haben. Auch befin-den sich mehr Unternehmen in den PhasenUmsetzen, Prufen und Planen.

Big Data wird in den kommendenfunf Jahren wichtig... Im Rahmen derStudie wurden Anwender und Entscheiderbzgl. ihrer Einschatzung der Wichtigkeitdes Themas Big Data in der Praxis ge-fragt. Wahrend sich 44 Prozent der Anwen-der (n=50) dem Thema Big Data im Jahre2013 eine sehr wichtige bzw. eher wichtige

Rolle zumassen, waren es bei den Entschei-dern (n=24) 29 Prozent. Fur das Jahr 2014lag die Einschatzung bei den Anwendernbereits bei 61 Prozent und bei den Entschei-dern bei 43 Prozent. Die großte Wichtig-keit wurde dem Thema Big Data jedoch inden nachsten funf Jahren zugemessen (An-wender 78 Prozent und Entscheider 60 Pro-zent).

...und wird sich in weniger als 10 Jah-ren etabliert haben Der Großteil derBefragten geht davon aus, dass sich Big Da-

9

Page 12: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

Abbildung 5.4: Wann wird Big Data wett-

bewerbsentscheidend?

ta in weniger als 10 Jahren in ihrer Bran-che flachendeckend durchsetzen wird. Die-se Einschatzung wird auch von Anbieternund Entscheidern geteilt, wie Abbildung 5.4zeigt.

Big Data hat ein hohesWertschopfungspotential. AusEntscheider und aus Anwendersicht be-schreiben 50 Prozent bzw. 72 Prozentdas Wertschopfungspotential von BigData als hoch bis sehr hoch. Von denEntscheidern sehen nur 25 Prozent undvon den Anwendern nur 8 Prozent dasWertschopfungspotential von Big Dataals niedrig an. Hervorzuheben ist, dassAnwender die Potenziale von Big Datadeutlich positiver bewerten als die Gruppeder Entscheider.

Messbarer Wertbeitrag von Big Da-ta? Von den Befragten geben 16 Pro-zent der Entscheider und 19 Prozent derAnwender an, dass sie bereits einen mess-baren Wert mit Big Data schaffen konn-ten. Jedoch geben 72 Prozent der Entschei-der und 54 Prozent der Anwender auchan, dass sie bis jetzt noch keinen messba-ren Wert beziffern konnten. Diese Ergeb-nisse zeigen zum Teil noch die Diskrepanzzwischen demWertschopfungspotential und

dem tatsachlich bisher messbaren Beitrag.

Neben relationalen Daten dominie-ren Transaktionsdaten, Textanalysenund Webanalysen. Die Anbieter vonBig Data Technologie sind breit aufgestelltund konnen fur eine Vielzahl von Daten-typen entsprechende Analysewerkzeuge an-bieten. Es dominieren aber Werkzeuge furrelationale Daten und stark strukturierteDaten wie Transaktionsdaten. Der Analy-se von Video-, Bild-, und Audiodaten wirdvergleichsweise wenig Bedeutung beigemes-sen (siehe Abbildung 5.5).Aus Anwendersicht steht die Analyse von

Transaktionsdaten und Daten aus dem In-ternet im Vordergrund, wenn es um be-reits durchgefuhrte Analysen geht. Auf An-wenderseite ist vor allem interessant, dassnur wenige Befragte den zukunftigen Ein-satz planen, sondern vielmehr noch garnicht wissen, ob bestimmte Analysen durch-gefuhrt werden sollten.

Hochqualitative Daten, fehlendesFachpersonal und mangelnde Wirt-schaftlichkeit sind die großten Her-ausforderungen Entscheider sehen diegroßten Hemmnisse fur die Adoptionvon Big Data vor allem in fehlendenMoglichkeiten, die Datenanalysen inEntscheidungen einfließen zu lassen.Auch haben Entscheider große Bedenkenbezuglich datenschutzrechtlicher Rahmen-bedingungen. Ebenso wird ein Mangelan qualifiziertem Personal fur Daten-analysen konstatiert. Auf Anwenderseitedominieren ebenso die Bedenken hin-sichtlich Datenschutz und Privatsphare.Nahezu gleichwertig herausfordernd wirddie Einbindung von Datenanalysen inEntscheidungsprozesse gesehen. Anbieterhingegen kampfen vor allem mit Bedenkenhinsichtlich des Datenschutzes. Ebensosehen sich Anbieter vor der Herausfor-derung genau zeigen zu konnen, wie dieDatenanalysen in die Entscheidungspro-zesse einfließen konnen. Anbieter kampfenzudem mit den komplexen Strukturender Daten in den Unternehmen. Zusam-menfassend kann festgehalten werden,

10

Page 13: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

Abbildung 5.5: Angebot an Big Data Werkzeugen anhand der verbreiteten Datentypen(Anbieterperspektive)

dass die großten Herausforderungen ineiner wertschopfenden Einbindung vonBig Data in die Entscheidungsprozesse derUnternehmen, ein Mangel an qualifiziertemPersonal und Bedenken hinsichtlich desDatenschutzes sind.

Zusammenfassung der Ergebnisse derStudie.

1. Big Data wird vor dem Hintergrundeffektiverer Unternehmensentscheidun-gen gesehen. Allerdings stehen Anbie-ter und Anwender vor der Herausfor-derung, uberzeugende Kombinationenaus Datenanalyse, unternehmerischerEntscheidung, und Wertbeitrag zu ent-wickeln. Eine Chance bieten hier unter-nehmensinterne Prozesse, da eine Viel-zahl von Daten bisher nicht genutztwerden.

2. Deutsche Anbieter von Big Data Tech-nologie sind in der Lage, die An-forderungen deutscher Anwender zuerfullen. Eine zentrale Herausforde-rung liegt aber in der Aufklarung

und Erlauterung der datenschutzrecht-lichen Rahmenbedingungen sowie inder Entwicklung tragfahiger und wirt-schaftlicher Losungen.

3. Die Potenziale von Big Data wer-den zudem im Bereich neuerGeschaftsmodelle, Produkte undDienstleistungen gesehen. Anwender-unternehmen sind sich im Unklaren,welche Datenanalysen fur ihre jewei-ligen Geschaftsprozesse relevant undwertschopfend sind. Hier konntenAnbieter und Anwender intensivkooperieren, um entsprechendeGeschaftsmodelle, Produkte undDienstleistungen zu entwickeln.

4. Eine wichtige Herausforderung ist derverantwortungsvolle Umgang mit per-sonenbezogenen Daten. Hier sehen alleBeteiligten sehr hohe Herausforderun-gen. Dabei stehen neben einer Anpas-sung der rechtlichen Rahmenbedingun-gen an den Stand der Technik vor al-lem die Aufklarung und ein effektivesErwartungsmanagement.

11

Page 14: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

5. Eine weitere wichtige Herausforde-rung ist die Verfugbarkeit entspre-chend qualifizierten Personals. Geeig-nete Ausbildungs- und Weiterbildungs-angebote sind hier notwendig, umden Unternehmen das entsprechendeKnowhow bereitzustellen.

6. Es gibt kaum Unterschiede in derEinschatzung der Innovationspotenzia-le, wenn man dediziert kleine und mit-telstandische Unternehmen untersucht.Dies kann als Chance fur den Mittel-stand interpretiert werden, da es offen-bar keine zusatzlichen Hurden fur denMittelstand gibt.

Branchenubergreifendes und bran-chenspezifisches Innovationspotential.Im Folgenden werden aus den unter-

suchten Studien und der eigenen Studiezunachst allgemeine branchenubergreifendeInnovationspotentiale diskutiert, bevor aufdie als herausragend klassifizierten einzel-nen Branchen eingegangen wird.Fur die Analyse der Strengths (Starken),

Weaknesses (Schwachen), Opportunities(Chancen) und Threats (Risiken) , kurz:SWOT-Analyse wurde zunachst eine Lite-raturrecherche durchgefuhrt, um anschlie-ßend eine Bewertung vornehmen zu konnen.Dabei lassen sich aus der Literatur unter-schiedliche Starken und Schwachen, sowieChancen und Risiken ableiten.

In Abbildung 5.6 sind die Ergebnisse derSWOT-Analyse zu Big Data im Allgemei-nen dargestellt.

Die folgenden Branchen wurden als be-sonders herausragend in Bezug auf Big Da-ta Innovationspotential identifiziert:

• offentlicher Sektor,

• Industrie 4.0,

• Gesundheitssektor/Lifesciences,

• Markforschung,(Social-) Media undEntertainment,

• Mobilitatsdienstleistungen,

• Energiewirtschaft sowie

• Risikomanagement und Versicherungs-wesen.

In den Untersuchungen und den aus-gewahlten Branchen zeigt sich, dass das Da-tenvolumen uber unterschiedliche Technolo-gien, wie z.B. Hadoop, Stratosphere, in ei-nigen Fallen auch uber SAP HANA, Par-Stream, oder andere In-Memory- Datenban-ken beherrschbar ist. Der Datenschutz unddie Datensicherheit zeigen ein erheblichesPotential fur eine Big Data-Technologie inDeutschland. Dazu besteht in dem Bereichdes Datenschutzes und der Datensicherheitweiterer Forschungsbedarf, insbesondere imHinblick auf Integration von Datenschutz-funktionalitat in existierende oder entste-hende Datenanalysesysteme bzw. Algorith-men. Insbesondere zur Wahrung von wirt-schaftlichen Interessen ist der Schutz vonDaten von erheblicher Bedeutung.

12

Page 15: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

SWOT-AnalyseInterne Analyse

Starken Schwachen

Extern

eAnalyse

Chance

n

• Schnellere und genauere Auswer-tungen

• Bessere strategische Entscheidun-gen

• Verbesserte Steuerung operativerProzesse

• Bessere Auswertung mittels Busi-ness Intelligence

• Kostenreduktion

• Flexiblere Dienstleistungen, ziel-orientiertere Marketingaktionen

• Bessere Informationen zum inner-betrieblichen Risikomanagement

• Besseres Verstandnis des Marktes

• Verbesserter Kundenservice

• Monitoring fuhrt zurErhohung der internenKontrolle

• Reduktion von Datensatzeließ Informationen unbeob-achtet, Big Data schafftverlasslichere Daten

• KundenindividuelleLosungen (glaserner Kunde)

Risiken

• Distributive Daten

• Betrugserkennung (engl. FraudDetection)

• Unstrukturierte informelle Kom-munikation

• Fehlendes fachliches und techni-schen Wissen

• Datenschutz

• Datensicherheit

• Gesellschaftliche Akzeptanz

• Ethische Grunde

• Fehlende uberzeugende Ein-satzszenarien

• Technische Probleme

• Kosten

Abbildung 5.6: SWOT-Analyse zur Potentialbewertung von Big Data im Allgemeinen.

13

Page 16: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

6Analyse von Big Data & Big Data Technologien

Als Resultat der Studie und den Anfor-derungen der Industrie konnten die folgen-den vier Kernanforderungen fur das Mana-gement von Big Data abgeleitet werden:

1. Umgang mit großen, heterogenen Da-tenmengen

2. Komplexe Datenanalysealgorithmen

3. Interaktive, oftmals visuell un-terstutzte Datenanalyse

4. Nachvollziehbare Datenanalyse

Um diese Herausforderungen zu meis-tern, mussen skalierbare, einfach zu bedie-nende Datenanalysesysteme und neue Al-gorithmen bzw. Paradigmen zur Datenana-lyse entwickelt werden, die die verschie-denen Aspekte und Anforderungen gleich-zeitig adressieren. Diese Herausforderun-gen werden von existierenden Datenmana-gementsystemen bisher nicht erreicht.

Analyse von Big Data

Die neue Art der Datenkomplexitatwird dabei durch Anforderungen an Daten-volumen (engl. volume), Datenrate (engl.velocity), Datenheterogenitat (engl. varie-ty) und Datenqualitat (engl. veracity) cha-rakterisiert, welche von handelsublichenDatenbanksystemen nicht abgedeckt wer-den konnen. So erfordert die Analysevon Big Data die Speicherung und Ver-arbeitung von riesigen Datenmengen imTerabyte- oder Petabytebereich. Gleichzei-tig werden die Entscheidungszeitfenster, in

denen Analyseergebnisse bereitgestellt wer-den mussen, immer kurzer. Datenanalyse-systeme mussen akkurate Analysen mit ge-ringem Zeitverzug liefern und dies trotz po-tentiell hoher Datenraten, mit denen neueDaten in die Datenbasis integriert werden.Gleichzeitig werden eine Vielzahl von un-terschiedlichen Datenquellen in die Daten-analyse einbezogen, welche Daten in un-terschiedlichsten Formaten speichern (z.B.Zeitreihen, Tabellen, Textdokumenten, Bil-der, Audio- und Videodatenstromen).

Die neue Art der Analysekomple-xitat von

”Big Data“ zeigt sich daran,

dass zur Entscheidungsunterstutzung Mo-delle aus den Daten generiert werden. Dieserfordert den Einsatz von fortgeschrittenenAlgorithmen der Datenanalyse, insbeson-dere statistischer Verfahren, Verfahren desmaschinellen Lernens, der linearen Algebraund Optimierung, Signalverarbeitung sowiedes Data Minings, des Text Minings, desGraph Minings, Video Minings und der vi-suellen Analyse. So muss das Datenanalyse-system komplexe Algorithmen der linearenAlgebra, Statistik oder Optimierung zeit-nah verarbeiten. Diese Algorithmen zeich-nen sich durch die Verbindung von benut-zerdefinierten Funktionen und iterativen,zustandsbehafteten Algorithmen mit denublichen Operationen der relationalen Al-gebra aus. Die Kombination von relationa-ler Algebra mit iterativen Algorithmen undbenutzerdefinierten Funktionen wird wedervon den klassischen SQLDatenbanksyste-men noch den Big Data Losungen (Ha-doop, Pig, Hive, Storm, Lambda Architek-

14

Page 17: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

tur, etc.) realisiert. Hierdurch ergibt sichhohes Innovations und Marktpotential furdie Entwicklung und Kommerzialisierungmoderner Datenanalysesysteme, die rela-tionale Datenverarbeitung mit Algorithmeninsbesondere des maschinellen Lernens undder Statistik vereint.

Technische Herausforderungen vonBig Data Technologien

Der interaktive und iterative Datenanalyse-prozess erfordert die Losung von drei tech-nischen Herausforderungen:

1. Menschen mussen das gewunschte Er-gebnis der Anfragen in einer Hochspra-che beschreiben konnen,

2. die Technologie muss iterative Daten-strome verarbeiten und

3. die Technologie muss auch unbekann-te Programme dritter Anbieter, so-genannte benutzerdefinierte Funktio-nen (engl. user-defined functions, kurzUDFs) ausreichend schnell verarbeitenkonnen.

Programmiermodelle fur die breiteMasse von Analysten. Es gibt nebenHadoop eine Vielzahl von interessanten For-schungsarbeiten zur massiv-parallelen Ver-arbeitung von datengetriebenen iterativenAlgorithmen. Allerdings adressiert keinedieser Entwicklungen die deklarative Spezi-fikation und automatische Optimierung voniterativen Algorithmen. Daher erfordert dieAnalyse von Big Data derzeit Kenntnisse inder Programmierung von (verteilten) Sys-temen zusatzlich zur Kenntnis der Analy-sedomane sowie den Kenntnissen der ma-schinellen Lernverfahren. Personen, die die-se Kombination an Kenntnissen mit sichbringen, sind rar. Die Uberwindung diesesEngpasses wird der kritische Erfolgsfaktor,nicht nur fur neue Big Data-Technologien,sondern auch fur die breite Anwendung vonBig Data Analytics sein.

Iterative Datenstromverarbeitung.Iterative Datenanalyseverfahren berechnen

ublicherweise in vielen einzelnen Schrittendas Ergebnis der Analyse. In jedem Schrittwird dazu ein Zwischenergebnis oder Zu-stand berechnet und aktualisiert. Da dieseBerechnungen aufgrund des Datenvolumensparallel ausgefuhrt werden mussen, mussder Zustand effizient uber viele Rechner ver-teilt, gespeichert und verwaltet werden. AusEffizienzgrunden ist es notwendig den Zu-stand im Hauptspeicher zu halten. VieleAlgorithmen benotigen außerdem sehr vie-le Iterationen, um das endgultige Ergebniszu berechnen. Deshalb ist es sehr wichtig,dass einzelne Iterationen mit einer geringenLatenz berechnet werden konnen, um diegesamte Anfragezeit zu minimieren. In ei-nigen Anwendungsfallen reduziert sich derBerechnungsaufwand erheblich von der ers-ten Iteration zur letzten Iteration. Batch-basierte Systeme wird Map/Reduce undSpark fuhren in jeder Iteration immer alleBerechnungen aus, auch wenn sich das Er-gebnis einer wiederholten Berechnung nichtandert. Im Gegensatz dazu konnen echteiterative Datenflusssysteme wie Stratosphe-re oder spezielle Graphverarbeitungssyste-me zum Beispiel GraphLab und Google Pre-gel diese Eigenschaft ausnutzen und redu-zieren den Berechnungsaufwand mit jederIteration.

Verarbeitung von BenutzerdefiniertenFunktionen mit geringer Latenz

Benutzerdefinierte Funktionen, also Algo-rithmen und Funktionen, die nicht Bestand-teil des Ausfuhrungssystems sind, werdenschon lange in relationalen Datenbank-systemen unterstutzt. Allerdings sind dieSchnittstellen fur diese Funktionen in rela-tionalen Datenbanken haufig zu restriktiv,um komplexe Algorithmen zu implementie-ren. Google‘s MapReduce, SCOPE, Strato-sphere und Spark sind einige Systeme, dieausdruckstarkere, benutzerdefinierte Funk-tionen parallel verarbeiten konnen. Dabeiist der Grad der parallelen Verarbeitungweitestgehend bestimmt durch die Seman-tik der Programmierschnittstellen, also z.B.die Funktionen zweiter Ordnung wie mapund reduce in Hadoop, bzw. weiterer Funk-

15

Page 18: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

tionen wie Match, CoGroup und Cross inStratosphere.

Benutzer-definierte-Funktionen gehorennicht zum Funktionsumfang desausfuhrenden Systems, sondern wer-den haufig extern ausgefuhrt. Aus diesemGrund sind mit ihrem Einsatz oft hohereAusfuhrungskosten verbunden. Diese Kos-ten konnen gesenkt werden, je starkerUDFs mit dem Ausfuhrungssystem in-tegriert werden konnen. Eine weitereHerausforderung ist der Umgang mitbenutzer-definierten-Funktionen bei derOptimierung von Datenanalyseprogram-men. Da die Semantik einer UDF demAusfuhrungssystem ublicherweise unbe-kannt ist, konnen Analyseprogramme mitUDFs nur eingeschrankt optimiert werden,wenn der Optimierer uber zusatzliche In-formationen uber die UDFs verfugt. ErsteAnsatze versuchen diese Informationen mitHilfe von manuellen Annotationen odermittels statischer Codeanalyse zu erhalten.

Stand der Technik

Die neuen Herausforderungen durch BigData werden durch etablierte Systeme nichtabgedeckt. Daher besteht derzeit die Chan-ce, durch innovative Technologien das imklassischen Datenbankbereich vorhandeneQuasimonopol US-amerikanischer Anbieterzu durchbrechen.

Big Data als Chance fur deut-sche Technologieanbieter. Eine Viel-zahl an deutschen Anbietern, Forschungs-institutionen und Universitaten sind hier-zu sehr gut positioniert. Neben SAP, dasmit HANA eine In-Memory-Technologiezur Datenanalyse entwickelt, sowie Soft-ware AGs Terracotta-System, sind hierbeiinsbesondere kleine und mittelstandischeUnternehmen zu nennen, wie beispiels-weise ParStream oder Exasol, sowie in-novative Technologien aus dem univer-sitaren Umfeld wie Stratosphere, Hyperoder Hadoop++/ HAIL, welche kommer-zialisiert werden konnten. Diese durch Uni-versitatskooperationen entstandenen Un-ternehmen haben bereits mehrere interna-

tionale Preise gewonnen bzw. schlagen dieUS-amerikanischenWettbewerber in wichti-gen Benchmarks, z.B. im TPC Benchmark.

Innovative Forschungsprototypen andeutschen Universitaten. An deut-schen Universitaten sind mit den Syste-men Stratosphere (TU Berlin, HU Ber-lin, Hasso Plattner Institut), Hyper (TUMunchen), Hadapt/HAIL (Universitat desSaarlandes) weitere sehr innovative Syste-me und Prototypen entstanden, mit neuendisruptiven Technologien im Bereich der ef-fizienten Spezifikation und skalierbaren Ver-arbeitung von Verfahren des maschinellenLernens bzw. der Verarbeitung von MixedWorkloads.

Datenmarktplatze

Die hohen technischen, organisatori-schen und personellen Aufwande fur dieDurchfuhrung und Bereitstellung vonverlasslichen und nachvollziehbaren Ana-lysen von Big Data sind aktuell nochein Hemmnis fur viele Unternehmen.Datenmarktplatze stellen extrahierte undintegrierte Daten zentralisiert bereit undkonnen somit die Kosten fur einzelne Un-ternehmen, die diese Daten dann integriertund bereinigt beziehen konnen, signifikantsenken. Der zentrale Einstiegspunkt einesDatenmarktplatzes erleichtert den Zugangzu diesen Dienstleistungen und Daten.Zusatzlich fungiert der Datenmarktplatzals Kunden- und Anbieter-ubergreifendeDatenintegrationsplattform, insbesonderefur das kollektive Speichern, Analysierenund Wiederverwenden von Daten.Insbesondere werden es Informations-

marktplatze gerade kleinen und mit-telstandischen Unternehmen (KMU)ermoglichen, diese Daten zu analysierenund wirtschaftlich zu nutzen und somiteinen Wettbewerbsnachteil auszugleichen.

16

Page 19: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

7Empfehlungen fur Entscheider

Big Data ist ein Sammelbegriff fur Tech-nologien zur Sammlung, Verarbeitung undPrasentation von großen, heterogenen Da-tenmengen die in sehr kurzen Zeitraumenanfallen und fur sehr zeitnahe Entschei-dungen genutzt werden konnen. Big Da-ta kann damit disruptive Anderungen inMarkten und Unternehmen fordern. Ausdiesen disruptiven Anderungen konnen er-hebliche Chancen und Wettbewerbsvorteilefur den deutschen Wirtschaftsstandort er-wachsen. Gleichzeitig birgt Big Data aberauch Risiken. In einer globalisierten und engverzahnten Wirtschaft ist es notwendig, dieRahmenbedingungen zu setzen, die es deut-schen Unternehmen ermoglicht die Chancenvon Big Data zu nutzen wahrend gleich-zeitig die damit verbundenen Risiken effek-tiv gesteuert werden. Im Folgenden werdendrei Pramissen sowie 6 Handlungsempfeh-lungen zur Entwicklung effektiver Rahmen-bedingungen fur Big Data vorgestellt. DiePramissen betonen zentrale Aspekte einerForderung von Big Data in Deutschland,die fur alle Handlungsempfehlungen alsGrundlage dienen. Die Handlungsempfeh-lungen stellen wichtige Entwicklungsrich-tungen dar, die es ermoglichen, die Chan-cen von Big Data zu nutzen und die damitverbundenen Risiken zu kontrollieren.

Pramisse 1: Aufklarung und Mana-gement der Erwartungshaltung.Wettbewerbsvorteile durch Big Databrauchen einen sachlichen Diskurs zuChancen und Risiken von Big Data-Technologien und deren Anwendungenmit breiter Beteiligung aus Wirtschaft,Politik, Gesellschaft und Wissenschaft.

Pramisse 2: VerantwortungsvollerUmgang mit Daten. Wettbewerbs-vorteile durch Big Data brauchen klareAnforderungen, Voraussetzungen undGrenzen eines verantwortungsvollenUmgangs mit personenbezogenenDaten.

Pramisse 3: Kleine und mit-telstandische Unternehmen alswichtige Zielgruppe. Wettbewerbs-vorteile durch Big Data brauchendie gezielte Unterstutzung fur kleineund mittelstandische Anbieter undAnwender von Big Data Technologie.

Handlungsempfehlung 1: Bisher un-genutzte Daten zur Optimierungoperativer Geschaftsprozesse an-wenden. Die Zusammenstellungund Aufbereitung von Daten istressourcen- und kostenintensiv. Unter-nehmen scheuen daher Investitionen inBig Data. Es sollten daher Pilotpro-jekte unterstutzt werden, die helfen,den Aufwand und Nutzen von Big Da-ta besser abschatzen zu konnen. Be-sonders geeignet dafur sind Datenar-chive aus der Fertigung, der Entwick-lung oder dem Betrieb. Diese umfas-sen in der Regel kaum personenbe-zogene Daten, so dass die rechtlichenHurden geringer sind. Daruber hinauskonnen sie spezifischen operativen Pro-zessoptimierungen zugeordnet werden,so dass eine Nachvollziehbarkeit desNutzens leichter gewahrleistet werdenkann. Konnen die Potenziale von BigData wirtschaftlich sinnvoll realisiert

17

Page 20: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

werden, konnen belastbare Argumentefur den Einsatz von Big Data abgelei-tet werden.

Handlungsempfehlung 2: Aufbau undStarkung von Okosystemen furDatendienstleistungen. Big Dataschafft die technologischen Rahmenbe-dingungen fur Datendienstleistungen,d.h., Daten und Datenanalysen wer-den Wirtschaftsguter. Es sollten da-her Maßnahmen unterstutzt werden,die große Datenmengen zur Analyseauch durch Dritte bereitstellen. Insbe-sondere sollten Unternehmen dadurchbefahigt werden, Daten und Datenana-lysen kommerziell zu handeln, zu tau-schen oder offenzulegen. Diese Maß-nahmen sollten es ermoglichen, be-lastbare Aussagen zu Struktur, Ent-wicklung und Vertrieb solcher Daten-dienstleistungen zu treffen. Aufgrundder Neuartigkeit bzw. Volatilitat ei-nes solchen Marktes sollte die Entste-hung von komplementaren Datenanbie-tern fur Deutschlands Kernbranchenwie Industrie, Gesundheit und Mobi-litat fur wichtige offentliche Daten un-terstutzt werden.

Handlungsempfehlung 3: Starkungvon deutschen Technologieanbie-tern fur Big Data (TechnologyPush). Im Bereich der Big Data-Technologien Deutschland ist durchForschung an Universitaten undEntwicklungen in Unternehmen sehrgut positioniert. Es sollten daherMaßnahmen unterstutzt werden,welche die Kommerzialisierung dieserTechnologien in Deutschland undinternational zum Ziel haben. Dieskann vor allem durch die enge Koope-ration von Technologieanbietern undpotenziellen Anwendern erfolgen. Diepotenziellen Anwender haben so dieMoglichkeit, in den Endphasen derTechnologieentwicklung in ihrem Sinneeinzugreifen, der Anbieter kann seinProdukt oder Dienstleistung auf diekonkreten Bedurfnisse der Anwenderausrichten. Das Ziel dabei ist es, die

Erfolgschancen der auf den Marktkommenden deutschen Big Data Tech-nologieanbieter (Technology Push) zuerhohen.

Handlungsempfehlung 4: Aufbauund Starkung von bran-chenspezifischen und bran-chenubergreifenden Innovations-netzwerken fur Big Data (MarketPull). Eine wesentliche Herausfor-derung fur die breite Nutzung derPotenziale von Big Data ist es, Bedarfbei potenziellen Anwendern zu iden-tifizieren bzw. zu etablieren (MarketPull). Es sollten dafur Maßnahmenunterstutzt werden, die es potenziellenAnwendern und Technologieanbie-tern von Big Data ermoglicht, sichin Innovationsnetzwerken zusam-menzuschließen und datengetriebeneInnovationen zu entwickeln. Die Formder Innovationsnetzwerke sichertdabei die Nachhaltigkeit der Inno-vation uber einzelne Unternehmenhinweg und ermoglicht neue Formender Kooperation in der Nutzungvon Daten. Dabei stehen vor allemdie betriebswirtschaftlichen Aspekteim Vordergrund sowie die Umset-zung von Big Data Potenzialen inneue Produkte, Dienstleistungen undGeschaftsmodelle. Konnen hier kon-krete und belastbare Anforderungenan Big Data Technologie etabliertwerden, entstehen Chancen fur Unter-nehmen entsprechende Angebote zuentwickeln.

Handlungsempfehlung 5: Erhohungder Rechtssicherheit fur denUmgang mit Big Data undBeseitigung bestehender Hemm-nisse. Die Anwendung von BigData ist bereits heute rechtskonformmoglich. Dennoch hemmt die beste-hende Rechtslage Unternehmen darin,das volle wirtschaftliche Potenzialvon Big-Data-Anwendungen effektivauszuschopfen. Eine Anpassung desRechtsrahmens an den aktuellen Standder Technik, insbesondere auf dem

18

Page 21: Big Data Management - dima.tu- · PDF fileter wie IBM, Oracle und Microsoft heraus. Unter den Herausforderern, die sich Chancen und Marktanteile in dem gera-de entstehenden Big-Data

Gebiet des Datenschutz- und Urheber-rechts, konnte einen entscheidendenBeitrag dazu leisten, Hemmnisse zubeseitigen und die Rechtssicherheit zuerhohen.

Handlungsempfehlung 6: Ausbauvon Aus- und Weiterbildungs-angeboten fur Data Science alsSchlusselkompetenz. Es bestehtdringender Bedarf an Aus- undWeiterbildungsangeboten zur quan-titativen und qualitativen Analysevon großen heterogenen Datenmengenmit geringer Latenz. Hierbei solltenAngebote gefordert werden, welchedie Systemsicht von Big Data mitder Analysesicht sowie mit einemverantwortungsvollen, rechtssicherenUmgang von Big Data integrie-ren. Ebenso mussen okonomischeAspekte der Nutzung von Big Databerucksichtigt werden.

Impressum

HerausgeberProf. Volker Markl, TU-BerlinProf. Thomas Hoeren, WWU-MunsterProf. Helmut Krcmar, TU-Munchen

AutorenDie vorliegende Kurzfassung ist eineZusammenfassung einer vom BMWi inAuftrag gegebenen Studie mit dem Ti-tel ”Innovationspotenzialanalyse fur dieneuen Technologien fur das Verwaltenund Analysieren von großen Datenmen-gen (Big Data Management)” Die Au-toren der Studie sind: Volker Markl,Alexander Loser, Thomas Hoeren, Hel-mut Krcmar, Holmer Hemsen, Micha-el Schermann, Matthias Gottlieb, Chri-stoph Buchmuller, Philip Uecker, TillBitter

BildnachweisFoto (S. 3) Holmer Hemsen/TU-BerlinGrafiken (S. 9-11) Eigene Darstellung ba-sierend auf Ergebnissen und Daten derim Rahmen der Studie durchgefuhrtenUmfrage

RedaktionTU-Berlin/FG DIMA

StandMarz, 2014; Version 0.99

19