Wirtschaftsinformatik - files.pearsoned.de

13

Transcript of Wirtschaftsinformatik - files.pearsoned.de

Page 1: Wirtschaftsinformatik - files.pearsoned.de
Page 2: Wirtschaftsinformatik - files.pearsoned.de

Kenneth C. LaudonJane P. LaudonDetlef Schoder

3., vollständig überarbeitete Aufl age

Eine Einführung

Wirtschaftsinformatik

Page 3: Wirtschaftsinformatik - files.pearsoned.de

298

Datenorganisation und Datenmanagement6

ETL: Extract-Transform-Load

Extraktion Zur Datenextraktion muss zunächst eintechnischer Zugriff auf die relevanten Datenquellenzumeist über bekannte Schnittstellen oder Konnek-toren hergestellt werden.

Transformation Ziel hierbei ist es, die aus unter-schiedlichen Quellen stammenden Daten, diehöchstwahrscheinlich unterschiedlich strukturiertsind, in eine einheitliche Datenstruktur zu überfüh-ren. Dabei werden in mehrerlei Hinsicht die Datenintegriert und bereinigt, etwa Dubletten entfernt,Datumsformate und Einheiten standardisiert, Agg-regationsgrade angeglichen.

Laden Das Laden des transformierten Datensatzesumfasst die technische Anbindung der ETL-Kompo-nente an ein Data Warehouse.

Angenommen, ein Unternehmen vertreibt vierverschiedene Produkte (Muttern, Bolzen, Unterleg-scheiben und Schrauben) in den Regionen Ost,West und Mitte. Die Unternehmensführung könntenun die tatsächlichen Produktumsätze pro Regionermitteln und diese mit Umsatzvorhersagen verglei-chen wollen. Diese Analyse erfordert eine mehr-dimensionale Sicht auf die gespeicherten Daten,d.h., dieselben Daten müssen unter Verwendungmehrerer Dimensionen auf verschiedene Weisen

betrachten werden können. Jedes Kriterium – Pro-dukt, Preis, Kosten, Region und Zeitraum – reprä-sentiert eine andere Dimension.

Um diese Art von Information zu aggregieren, kanndas Unternehmen spezielle Analysewerkzeuge ein-setzen, die mehrdimensionale Sichten von Daten ausrelationalen Datenbanken erstellen. So könnte bei-spielsweise ein Produktmanager mithilfe sogenannterOnline-Analytical-Processing-Werkzeuge (OLAP) inErfahrung bringen, wie viele Unterlegscheiben imMonat Juni in der Region Ost verkauft wurden, wiesich dieser Umsatz zum Umsatz des Vormonats oderzum Umsatz im Monat Juni des letzten Jahres verhältund ob dieser Umsatz der Umsatzvorhersage ent-spricht.

Abbildung 6.17 zeigt ein entsprechendes mehrdi-mensionales Modell zur Darstellung von Produkten,Regionen, tatsächlichen Umsätzen und Umsatzvor-hersagen. OLAP bietet eine Reihe von Grundopera-tionen wie Slicing, Dicing, Pivoting, Roll-Up undDrill-Down. Beim Slicing wird nur ein Ausschnitt(„eine Scheibe“) des Würfels betrachtet und nurdiese Daten werden analysiert. Beim Dicing wird der

p

Online Analytical Processing (OLAP) | Technik, um

Daten nach mehreren Dimensionen bzw. aus mehreren

Perspektiven zu analysieren.

Abbildung 6.17: OLAP-Würfel sowie Slicing- und Dicing-Operationen (Chaudhuri und Dayal, 1997)

Nord

P4

P3

P4

P3

P2

P1

P4

P3

P2

P1

Ost Süd

Nord Ost Süd

West

Nord Ost Süd West

2012

2015

2013

20142015

20142015

Dice

Vertriebsregion

Pro

du

ktn

am

e

Zeit

Slice

Page 4: Wirtschaftsinformatik - files.pearsoned.de

299

6.4 Business Intelligence & Analytics

Würfel in mehreren Dimensionen gleichzeitig zuge-schnitten, wodurch wieder ein (kleinerer) Würfelentsteht. Beim Pivoting wird der gesamte Würfelgedreht und die Daten werden aus einer anderenDimension betrachtet. Unterschiedliche Aggrega-tionsgrade werden durch Drill-Down (feiner auflö-send) und Roll-Up (aggregierend) erreicht. Durch dieSchachtelung von Würfeln können komplexe Daten-ansichten erzeugt werden. Zudem können Benutzerden Würfel entlang einer Dimension „zerschneiden“,um so weitere Datenansichten zu erzeugen.

6.4.7 Data-Mining

Traditionelle Datenbankabfragen beantworten Fra-gen wie etwa „Wie viele Einheiten des Produkts mitder Nummer 403 wurden im Januar 2009 ausge-liefert?“. OLAP, eine mehrdimensionale Analyse,unterstützt komplexere Informationsanforderungen,wie beispielsweise: „Vergleiche die Verkäufe für dasProdukt 403 in Hinblick auf den Vierteljahresplanund die Verkaufsbereiche für die beiden vergange-nen Jahre.“ Dennoch benötigt der Anwender fürOLAP und eine abfrageorientierte Datenanalysebereits eine klare Vorstellung darüber, welche Fragemit den Daten beantwortet werden soll.

Data-Mining hingegen ist im Kern ein explora-tiver Prozess. Unter Data-Mining versteht man denEinsatz verschiedener Techniken, um verborgeneMuster und Beziehungen in großen Datenbeständenausfindig zu machen und daraus auf Regeln zuschließen, die zur Vorhersage künftigen Verhaltensund als Orientierungshilfe für eine Entscheidungs-findung genutzt werden können (Fayyad et al.,2002; Hirji, 2001). Diese Muster und Regeln werdendazu benutzt, die Entscheidungsfindung zu unter-stützen und die Auswirkungen dieser Entscheidun-gen vorherzusagen. Die Arten von Informationen,die durch Data-Mining abgeleitet werden können,sind u.a. Assoziationen, Sequenzen, Klassifizierun-gen, Cluster und Prognosen.

p

Assoziationen sind Ausprägungen, die einem ein-zelnen Ereignis zugeordnet sind. Beispielsweisekönnte eine Studie von Einkaufsmustern, die soge-nannte Warenkorbanalyse, im Supermarkt zeigen,dass beim Kauf von Kartoffelchips in 65% allerFälle auch Cola gekauft wird, während für den Falleiner speziellen Werbekampagne in 85% allerFälle Cola gekauft wird. Mit dieser Informationkönnen Manager bessere Entscheidungen treffen,weil sie damit z.B. zielgerichteter werben oder dieProdukte bedarfsgerechter anordnen können.

In Sequenzen sind die Ereignisse über die Zeitverknüpft. Man könnte beispielsweise feststel-len, dass beim Kauf eines Hauses in 65% allerFälle innerhalb von zwei Wochen ein neuerKühlschrank gekauft wird und in 45% aller Fälleinnerhalb eines Monats ein Herd.

Die Klassifizierung erkennt Muster, die dieGruppe beschreiben, zu denen ein Artikel gehört,indem sie vorhandene Artikel untersucht, diebereits klassifiziert wurden, und eine Regelmengeableitet. Beispielsweise befürchten etwa Kredit-karten- oder Telekommunikationsanbieter die Ab-wanderung von Stammkunden. Die Klassifizie-rung kann helfen, die Eigenschaften von Kundenzu erkennen, die wahrscheinlich wechseln wol-len, und ein Modell bereitstellen, das den Mana-gern hilft vorherzusehen, um wen es sich dabeihandelt, sodass man spezielle Kampagnen durch-führen kann, um solche Kunden zu halten.

Clustering arbeitet ähnlich wie die Klassifizie-rung, wenn noch keine Gruppen definiert wurden.Ein Data-Mining-Werkzeug erkennt verschiedeneGruppierungen innerhalb von Daten; beispiels-weise kann es Ähnlichkeitsgruppen für Bank-karten ermitteln oder die Kundendatensätze einerDatenbank in Kundengruppen segmentieren, dieauf Umfragen und den persönlichen Ausgabever-halten beruhen.

Die Prognose- oder Forecasting-Technik bedientsich statistischer Regressions- und Zeitreihenana-lysen. Regressionsanalysen lassen sich heranzie-hen, um bei gegebenen (hypothetischen) Daten-werten, zukünftige Werte oder Ereignisse auf derBasis historischer Trends und Statistiken vorher-zusagen (z.B. die Vorhersage des Absatzes vonFahrradzubehör auf Basis des Fahrradabsatzes imletzten Quartal). Im Gegensatz dazu sagen Zeit-reihen nur zeitabhängige Datenwerte voraus (z.B.

Data-Mining | Analyse großer Datenbestände, um

Zusammenhänge, Muster und Regeln zu finden, die als

Orientierungshilfe bei der Entscheidungsfindung und der

Vorhersage künftiger Entwicklungen dienen können.

Page 5: Wirtschaftsinformatik - files.pearsoned.de

300

Datenorganisation und Datenmanagement6

die Stauwahrscheinlichkeit in der Ferienzeit aufBasis der tatsächlichen Staus in den Ferien desVorjahres). Statistische Methoden und Prognosenbasieren auf vom Anwender vorgegebenen Mus-tern (Modellen). Dabei werden konkrete Werteermittelt. Hingegen sollen beim Data-Miningohne diese Vorgabe Muster und Zusammenhängeerkannt werden.

Alle diese Data-Mining-Methoden sind dazu geeig-net, Analysen über Muster und Trends auf einer sehrhohen Analyseebene aggregiert auszuführen, sie sindauch dazu geeignet, detaillierte Berichte zu erstellen,falls dies gewünscht wird. Data-Mining-Lösungenkönnen in allen funktionellen Bereichen einesUnternehmens oder einer Verwaltung eingesetzt wer-den. Eine populäre Anwendung von Data-Mining istdie detaillierte Analyse von Mustern in Kunden-daten zur Identifikation rentabler Kunden oder zurPlanung von Eins-zu-eins-Marketingkampagnen.

Beispielsweise hat Virgin Mobile Australia DataWarehousing und Data-Mining dazu eingesetzt, dieKundenloyalität zu erhöhen und neue Services aufden Markt zu bringen. Im Data Warehouse von VirginMobile werden Daten aus dem ERP-System, demCRM-System und dem Rechnungswesen in einer gro-ßen Datenbank konsolidiert. Dabei liefert das Data-Mining dem Management die Informationen, um diedemografischen Profile neuer Kunden zu bestimmenund in Beziehung dazu zu setzen, welche Telefon-modelle diese Kunden gekauft haben. Außerdemhelfen diese Datenanalysen dem Management dabei,die Rentabilität einer jeden Filiale sowie den Erfolgvon Point-of-Sale-Kampagnen zu beurteilen. Auchdie Reaktionen der Kunden auf neue Produkte undDienstleistungen, die Kundenschwundquote und diedurch jeden Kunden generierten Erlöse könnendurch Data-Mining besser eingeschätzt werden.

Predictive Analytics verwendet Techniken desData-Mining. Ziel ist, historische Daten und Annah-men über zukünftige Umweltzustände in einemModellansatz zu integrieren, um den Ausgang vonEreignissen in der Zukunft vorherzusagen, wie etwadie Wahrscheinlichkeit, dass ein Kunde auf ein Ange-bot reagiert oder ein spezifisches Produkt kauft.Beispielsweise wendete die US-Filiale von The BodyShop International plc. Predictive Analytics auf ihrenDatenbanken der Katalog-, Web- und Einzelhandels-kunden an, um Kunden zu identifizieren, die amehesten aus einem Katalog bestellen würden. Diese

Informationen halfen dem Unternehmen dabei,genauere und zielgerichtete Verteiler für ihre Katalogezu erstellen, sodass die Beantwortungsquote der Kata-loge und die Erlöse durch Katalogverkäufe gesteigertwerden konnten.

6.4.8 Text-Mining und Web-Mining

Viele Werkzeuge für Business Intelligence & Ana-lytics beschäftigen sich vorwiegend mit Daten, die inDatenbanken und Dateien strukturiert worden sind.Allerdings sollen Schätzungen zufolge unstruktu-rierte Daten, die meisten davon in Form von Text-dateien, über 80% der nützlichen Informationeneiner Organisation ausmachen. E-Mails, Memos,Callcenter-Transkripte, Umfrageantworten, Rechts-fälle, Patentbeschreibungen und Serviceberichtesind äußerst wertvoll für das Aufdecken von Mus-tern und Trends, die für Mitarbeiter zu einer besse-ren Entscheidungsgrundlage führen. Heute stehenden Unternehmen Text-Mining-Tools für die Ana-lyse dieser Daten zur Verfügung. Mit diesen Toolslassen sich Schlüsselelemente aus großen unstruktu-rierten Datensets extrahieren, Muster und Beziehun-gen aufdecken und Informationen zusammenfassen.Die Unternehmen könnten Text-Mining so etwa fürdie Analyse von Aufzeichnungen der Anrufe beiKundenservicezentren einsetzen, um größere Defi-zite bei Service und Reparaturen zu identifizieren.

Air Products and Chemicals in Allentown, Penn-sylvania, verwendet Text-Mining zur Unterstützungbei der Identifizierung von Dokumenten, für diespezielle Aufbewahrungsverfahren gemäß dem Sarba-nes-Oxley Act gelten. Das Unternehmen besitzt mehrals 9 Terabyte an unstrukturierten Daten (ohneE-Mails). Die SmartDiscovery-Software von InxightSoftware klassifiziert und organisiert diese Daten so,dass das Unternehmen Geschäftsregeln auf eine Kate-gorie von Dokumenten statt auf Einzeldokumenteanwenden kann. Wenn sich herausstellt, dass einDokument sich mit Vorgängen befasst, die unter dasSarbanes-Oxley-Gesetz fallen, kann das Unternehmensicherstellen, dass das Dokument vorschriftsgemäßaufbewahrt wird.

Das Web ist eine weitere reiche Quelle von wertvol-len Informationen, von denen einige nach Mustern,Trends und Einsichten in das Kundenverhaltendurchsucht werden können. Das Aufdecken und dieAnalyse nützlicher Muster und Informationen aus

Page 6: Wirtschaftsinformatik - files.pearsoned.de

301

6.4 Business Intelligence & Analytics

dem World Wide Web wird als Web-Mining bezeich-net. Unternehmen könnten Web-Mining für ein besse-res Verständnis des Kundenverhaltens, die Bewer-tung der Effektivität einer bestimmten Website oderdie Quantifizierung des Erfolgs einer Marketingkam-pagne nutzen. Zum Beispiel setzen Werbungstrei-bende Google Trends und Google Insights für Such-dienste ein, die die Beliebtheit verschiedener Wörterund Sätze verfolgen, die in Google-Suchanfragenverwendet werden, um herauszufinden, wofür sichdie Leute interessieren und was sie gerne kaufen.

Web-Mining sucht nach Mustern in den Daten mit-tels Content-Mining, Structure-Mining und Usage-Mining. Als Web-Content-Mining wird der Prozessbezeichnet, in dem Wissen aus dem Content vonWebseiten extrahiert wird. Diese Informationen kön-nen Text, Bilder, Audio- und Videodaten umfassen.Beim Web-Structure-Mining werden Daten über-prüft, die mit der Struktur einer bestimmten Websitein Beziehung stehen. Zum Beispiel geben Links, dieauf ein Dokument verweisen, die Beliebtheit desDokuments an, während Links, die von einem Doku-ment ausgehen, die Themenfülle oder auch dieBandbreite der Themen angeben, die in dem Doku-ment behandelt werden. Beim Web-Usage-Mining

werden die Benutzerinteraktionsdaten geprüft, dievon einem Webserver beim Erhalten von Anforde-rungen für die Ressourcen einer Website aufgezeich-net werden. In den Nutzungsdaten wird das Verhal-ten des Benutzers aufgezeichnet, wenn der Benutzerdas Web durchsucht oder Transaktionen auf derWebsite vornimmt. Die Daten werden in einem Ser-ver-Protokoll gesammelt. Die Analyse solcher Datenkann Unternehmen dabei unterstützen, unter ande-rem den Wert bestimmter Kunden, produktübergrei-fende Cross-Marketingstrategien und die Effektivitätvon Werbekampagnen zu bestimmen.

Data-, Text- und Web-Mining sind mächtige undhilfreiche Werkzeuge, was gemäß datenschutzrecht-licher Überlegungen jedoch auch kritisch betrachtetwerden kann. Mithilfe von Mining-Techniken kön-nen Daten aus verschiedenen Quellen zu einemdetaillierten „Datenbild“ (Datenschatten) einzelnerPersonen kombiniert werden, das Auskunft überAttribute wie Einkommen, Fahrgewohnheiten, Frei-zeitaktivitäten, Familienmitglieder, politische Inter-essen etc. geben kann. Auf die Frage, ob und wie esUnternehmen erlaubt sein sollte, derart detaillierteDaten über einzelne Personen zu erfassen, wurde inKapitel 4 näher eingegangen.

Blickpunkt Technik

Big Data – großer Nutzen

Unternehmen heute haben mit einer wahrenFlut an Daten aus Social Media, Suchabfragenund Sensoren sowie aus traditionellen Quellenzu kämpfen. 2012 soll die Menge der erzeugtendigitalen Daten Schätzungen zufolge bei 988Exabytes liegen, was einem Stapel Bücher vonder Sonne zum Planet Pluto und zurück ent-spricht. Die Interpretation der „Big Data“ ist eineder größten Herausforderungen für Unterneh-men aller Arten und Größen, aber sie bietet auchneue Möglichkeiten. Und es stellt sich die Frage,wie Unternehmen diese Möglichkeiten von BigData zu ihrem Vorteil nutzen.

Die British Library musste sich erst an den Ein-satz von Big Data gewöhnen. Jedes Jahr werdenvon den Besuchern der British-Library-Websiteüber 6 Millionen Datenrecherchen durchgeführtund die Nationalbibliothek ist außerdem dafür zu-

ständig, nicht mehr existierende britische Web-sites aus historischen Gründen zu bewahren, wiebeispielsweise Websites zu ehemaligen Politikern.Die bisherigen Datenmanagementverfahren erwie-sen sich für die Archivierung dieser Millionenvon Websites als ungeeignet und die veraltetenAnalysetools konnten aus den riesigen Datenmen-gen keine nützlichen Informationen extrahieren.Angesichts dieser Herausforderungen suchte dieBritish Library in Zusammenarbeit mit IBM nacheiner Lösung für ihr Big-Data-Problem. IBM Big-Sheets ist eine Insight-Engine, die der Bibliothekdabei hilft, riesige Mengen unstrukturierter Web-daten zu sammeln, mit Anmerkungen zu ver-sehen, zu analysieren und zu visualisieren, undam Ende die extrahierten Ergebnisse über einenWebbrowser auszugeben. So können Nutzer sichbeispielsweise die Suchergebnisse als Tortendia-

Page 7: Wirtschaftsinformatik - files.pearsoned.de

302

Datenorganisation und Datenmanagement6

Forts.

gramm anzeigen lassen. IBM BigSheets setzt aufdas Hadoop-Framework auf, das eine schnelleund effiziente Verarbeitung riesiger Datenmengengarantiert.

Strafverfolgungsbehörden auf allen Ebenenanalysieren Big Data auf verborgene Muster beiStraftaten, wie Korrelationen zwischen Zeit, Gele-genheit und Organisationen, oder auf nicht direktersichtliche Beziehungen (Kapitel 4) zwischenEinzelpersonen und kriminellen Vereinigungen,die aus kleineren Datenmengen nicht abzulesensind. Verbrecher und kriminelle Vereinigungennutzen das Internet, um ihre Verbrechen zu koor-dinieren oder zu verüben. Neue Tools bietenBehörden die Möglichkeit, Daten aus den ver-schiedensten Quellen zu analysieren und anhandder Ergebnisse zukünftige Kriminalitätsmustervorauszusagen. Das bedeutet, dass die PolizeiVerbrechen proaktiver bekämpfen kann und imIdealfall durch rechtzeitige Präsenz verhindert,dass es überhaupt zu einer Straftat kommt.

Das Data Warehouse des Real Time CrimeCenter in New York City speichert Millionenvon Datenpunkten zu Großstadtkriminalität undStraftätern. IBM und das New York Police Depart-ment (NYPD) haben zusammen ein Warehouseeingerichtet, das Daten zu mehr als 120 MillionenStrafanzeigen, 31 Millionen nationale Strafregis-tereintragungen und 33 Milliarden öffentlich ver-fügbare Registereinträge enthält. Mit den Such-funktionen des Systems hat das NYPD schnellenZugriff auf die Daten all dieser Datenquellen.Informationen zu Straftätern, wie Fotos der Ver-dächtigen, genaue Angaben zu ihren früherenStraftaten oder Adressen mit Wegbeschreibung,können in Sekunden auf einer Videowand ange-zeigt oder direkt einem Polizisten am Ort des Ver-brechens übermittelt werden.

Andere Organisationen nutzen diese Daten,um sich umweltfreundlicher aufzustellen, oder,wie im Fall von Vestas, noch umweltfreundlicheraufzustellen. Vestas, mit Firmensitz in Däne-mark, ist mit 43.000 Windkraftanlagen in 66 Län-dern der größte Windenergieerzeuger der Welt.Standortdaten sind für Vestas sehr wichtig, damites seine Anlagen genau dort aufstellen kann, wodie Windverhältnisse für die Energieerzeugungoptimal sind. In Gebieten mit zu wenig Windwird nicht genug Strom erzeugt und in Gebieten

mit zu viel Wind können die Windräder Scha-den nehmen. Deshalb verlässt sich Vestas bei derWahl des besten Aufstellungsorts vornehmlichauf diese Standortdaten.

Vestas arbeitet mit einer Windbibliothek, diedie Daten globaler Wettersysteme mit den Datenbereits im Betrieb befindlicher Windkraftanla-gen abgleicht, um die Voraussetzungen für einenoptimalen Standort zu ermitteln. Die vorherigeWindbibliothek des Unternehmens legte denInformationen ein Messraster zugrunde, dessenQuadrate eine Größe von 27 × 27 Kilometernhatten. Den Ingenieuren bei Vestas ist es gelun-gen, die räumliche Auflösung auf 10 × 10 Meterzu verringern, um sich ein genaues Bild von denWindströmungsmustern an einem bestimmtenStandort zu machen. Um die Genauigkeit seinerStandortbestimmungsmodelle jedoch noch wei-ter zu verbessern, musste Vestas die Rasterquad-rate noch kleiner machen, was eine leistungs-stärkere Datenmanagementplattform für das 10-Fache an Daten verglichen zu früherer forderte.

Das Unternehmen implementierte eine Lösung,die aus der IBM-Software InfoSphere BigInsightsauf einem leistungsstarken Server vom ModellIBM System x iDataPlex bestand. (InfoSphereBigInsights ist ein Bündel von Softwaretools fürdie Analyse und Visualisierung von Big Data aufder Basis von Apache Hadoop.) Mit diesen Tech-nologien konnte Vestas seine Windbibliothekstark erweitern und die Wetter- und Standort-daten mit viel genaueren und leistungsstärkerenModellen verwalten und analysieren. Vestas’Windbibliothek umfasst zurzeit 2,8 Petabytes anDaten auf der Basis von ungefähr 178 Parameternwie Luftdruck, Luftfeuchtigkeit, Windrichtung,Temperatur, Windgeschwindigkeit und weiterehistorische Unternehmensdaten. Vestas plant fürdie Zukunft, globale Entwaldungsdaten, Satelli-tenbilder, Geodaten und Daten zu Mond- undGezeitenphasen ebenfalls in die Datenbank mitaufzunehmen.

Nachdem das Unternehmen die Auflösung sei-nes Winddatenrasters um fast 90 Prozent auf 3 × 3Kilometer reduzierte, konnte es den optimalenStandort für eine Windkraftanlage in 15 Minutenermitteln und nicht wie früher in drei Wochen,was den Vestas-Kunden eine wesentlich schnel-lere Rendite beschert.

Page 8: Wirtschaftsinformatik - files.pearsoned.de

303

6.4 Business Intelligence & Analytics

6.4.9 Data-Mining-Prozessmodelle

Daten-Wertschöpfungskette (Data Value Chain)

Der Begriff Wertschöpfungskette (value chain) wurdevon Porter (1987) als Reihe von Aktivitäten, dieWertschöpfung erzeugen und aufbauen, definiert(siehe Kapitel 1 und 3). Miller und Mork (2013)haben dieses Konzept auf die speziellen Herausfor-derungen von Big Data angewendet und eine Data

Value Chain (DVC) definiert, die Big-Data-Prozessevon der Datensammlung über die Datenanalyse biszur Entscheidungsfindung unterstützen soll unddabei nicht an bestimmte Stakeholder und Technolo-gien gebunden ist.

Die DVC ist dabei in drei Teilaufgaben Datenent-deckung (Data Discovery), Datenintegration undDatenerschließung (Data Exploitation) mit weiterenUnteraufgaben strukturiert (Miller und Mork, 2013,Abbildung 6.18).

Forts.

Big-Data-Lösungen werden von Unternehmenaber auch zur Analyse des Konsumverhaltensgenutzt. Der Autovermieter Hertz zum Beispielsammelt Daten von Internetumfragen, E-Mails,Textnachrichten, Website-Verkehrsmustern sowieDaten, die an allen 8.300 Hertz-Standorten in 146Ländern erhoben werden, und verwaltet dieseDaten jetzt zentral anstatt in den einzelnen Nie-derlassungen. Das reduzierte den Zeitaufwandfür die Datenverarbeitung und verbesserte dieReaktionszeit des Unternehmens auf Kunden-feedback und geändertes Konsumverhalten. DieAnalyse der Daten aus mehreren Quellen ergabzum Beispiel, dass es in Philadelphia zubestimmten Uhrzeiten zu Verzögerungen bei derRückgabe kam. Nach Erkennen dieser Anomaliekonnte das Unternehmen rechtzeitig gegensteu-ern und während dieser Spitzenzeiten die Anzahlder Mitarbeiter in der Philadelphia-Niederlassungerhöhen, sodass immer ein Ansprechpartner beiProblemen zur Verfügung stand. Das verbessertenicht nur die Performance von Hertz, sondernauch die Kundenzufriedenheit.

Doch die Nutzung von Big Data hat auch Gren-zen. In Zahlen zu schwimmen, heißt nicht unbe-dingt, dass die richtigen Daten gesammelt oderdie besseren Entscheidungen getroffen werden.Letztes Jahr warnte ein Bericht des McKinseyGlobal Institutes vor einem Mangel an Spezialis-ten, die die richtigen Schlüsse aus all diesenInformationen ziehen können. Nichtsdestotrotzgibt es keine Anzeichen dafür, dass das Interesse

an Big Data nachlässt; vielmehr ist zu erwarten,dass es in Zukunft noch viel mehr Big Datageben wird.

Quellen: Samuel Greengard, „Big Data Unlocks Business

Value“, Baseline, Januar 2012; Paul S. Barth, „Managing Big

Data: What Every CIO Needs to Know“, CIO Insight,

12. Januar 2012; IBM Corporation, „Vestas: Turning Climate

into Capital with Big Data“, 2011; IBM Corporation, „Exten-

ding and enhancing law enforcement capabilities“, „How

Big Data is Giving Hertz a Big Advantage“ und „British

Library and J Start Team Up to Archive the Web“, 2010.

FRAGEN ZUR FALLSTUDIE

1. Beschreiben Sie die Art der Daten, die vonden Organisationen in dieser Fallstudie ge-sammelt werden.

2. Nennen und beschreiben Sie die Business-Intelligence-Technologien, die in dieser Fall-studie angesprochen werden.

3. Aus welchen Gründen haben sich die Unter-nehmen in dieser Fallstudie dafür entschie-den, Big Data zu sammeln und zu analysie-ren? Welche Vorteile hatten sie dadurch?

4. Nennen Sie drei Entscheidungen, die durchHeranziehen von Big Data verbessert wurden.

5. Welche Arten von Organisationen werdenwahrscheinlich Big-Data-Management undAnalysetools am nötigsten brauchen? Wa-rum?

Page 9: Wirtschaftsinformatik - files.pearsoned.de

304

Datenorganisation und Datenmanagement6

Abbildung 6.18: Die Data Value Chain (nach Miller und Mork, 2013, S. 58)

Die Teilaufgaben im Überblick:

Datenentdeckung (Data Discovery): Bevor eineAnalyse möglich ist, müssen die Daten aus ver-schiedensten Quellen gesammelt, mit Metadatenversehen und zugänglich gemacht werden.

Datenintegration: Um eine (bestimmte) Datenana-lyse durchführen zu können, müssen die Daten zueiner konsolidierten Repräsentation zusammenge-fasst werden. Dies geschieht etwa über Mappings,die eine Relation zwischen der Datenquelle undder konsolidierten Repräsentation definieren.

Datenerschließung (Data Exploitation): Die Datensind jetzt bereit, analysiert zu werden. Entschei-dungsträger können sich dabei zumeist auf meh-rere Analysen stützen, um fundierte Entscheidun-gen zu treffen. Es gelangen verschiedenste Verfah-ren zum Einsatz (siehe oben). Die Analysen solltenausreichend dokumentiert sein, damit sie durchandere Analysten nachvollzogen werden können.

Prozessmodell Knowledge Discovery in Databases (KDD)

Die ungelenkte Anwendung von Data-Mining-Algo-rithmen führt meistens dazu, dass nur wenig bisnichts aussagende Muster (Patterns) in den Datengefunden werden und die besonders wertvollenInformationen womöglich verborgen bleiben (Fay-yad et al.,1996). Um dieses Problem zu entschärfen,begann im Jahr 1989 die Entwicklung am Prozess-modell Knowledge Discovery in Databases, kurz:

KDD (Fayyad et al., 1996). Viele der darauf folgen-den Data-Mining-Prozessmodelle bauen darauf aufund ähneln sich daher auch stark. KDD verstehtsich als nichttrivialer Prozess der Identifizierungvon validen, neuartigen, potenziell nützlichen undletztendlich verständlichen Patterns in Daten. Eshandelt sich bei KDD um ein Prozessmodell, da esalle Schritte eines Data-Mining-Projekts definiert,aber es ist keine Methodik, da es nicht festlegt, wiedie einzelnen Aufgaben ausgeführt werden sollen(Marbán et al, 2009). In einem komplexen Datensatzgibt es Hunderte Attribute und viele Datensätze, diefür die gewünschte Data-Mining-Aufgabe irrelevantoder redundant sind (Relich und Muszynski, 2014).Am Anfang von KDD stehen daher eine Reihe vonunterstützenden Phasen, die dazu dienen, die Datenvorzubereiten und die richtigen Data-Mining-Algo-rithmen auszuwählen. Kern bildet die Phase „DataMining“, in der die ausgewählten Algorithmen aufdie Daten angewendet werden. Danach folgt diePhase „Interpretation“, bevor mit der Phase „UsingDiscovered Knowledge“ der Abschluss gebildetwird. KDD ist iterativ: Von jeder Phase im Prozesskann in jede vorausgegangene Phasen zurückge-sprungen werden, so entstehen gewollte Schleifen.KDD ist außerdem ein interaktives Prozessmodell,da der Benutzer im Laufe des Prozesses viele Ent-scheidungen treffen muss.

Nach diesem „Strickmuster“ sind viele weitereModelle entstanden, z.B. SEMMA (Azevedo undSantos, 2008) und CRISP-DM. Letzteres wird im fol-genden Abschnitt vorgestellt.

Analyse der integrierten

Daten.

Präsentation der Analyse-ergebnisse

für Entschei-dungsträger

als interaktive

Anwendung, die zur

Exploration und Verfei-nerung der

Analyse dient.

Entscheidung darüber, wel-che Aktionen

(falls über-haupt zutref-

fend) auf Basis der in-terpretierten Ergebnisse

durchgeführt werden sollen.

Integration

Daten-integration

Datenentdeckung Datenerschließung

OrganisierenAufbereitungSammeln und

annotierenAnalyse Visualisierung

Entscheidungfällen

Zugriff ermöglichen und Kontroll-rechte de�-

nieren.

Erstellung eines Ver-

zeichnisses der Daten-quellen und der Meta-daten, die

diese Daten-quellen

beschreiben.

Identi�ka-tion von Syntax,

Struktur und Semantik für jede Daten-

quelle.

Aufbau einer konsolidier-ten Datenre-präsetation. Erhalt der

Information über die

Herkunft der Daten.

Page 10: Wirtschaftsinformatik - files.pearsoned.de

305

6.4 Business Intelligence & Analytics

Cross-Industry Standard Process for Data Mining – CRISP-DM

Der Cross-Industry Standard Process for Data

Mining, kurz: CRISP-DM, wurde 1996 von den dama-ligen Marktführern auf dem Gebiet des Data-Mining,Daimler-Benz, Integral Solutions Ltd., NCR undOHRA, ins Leben gerufen (Shearer, 2000). CRISP-DMist ein frei verfügbares, hersteller-, werkzeug- undanwendungsunabhängiges Data-Mining-Prozessmo-dell. Das Modell ist sehr stark strukturiert: Die Inputs,Aufgaben und Outputs jeder Phase sind klar definiertund dokumentiert (zu finden in der CRISP-DM-Anlei-tung „CRISP-DM 1.0“, Chapman et al., 2000). DasModell soll dadurch für Data-Mining-Einsteiger leichtzu erlernen, es soll aber trotzdem auf die speziellenAnforderungen jeder Anwendung anpassbar sein(Shearer, 2000). Die Version 1.0 wurde im Jahr 2000durch die in der Zwischenzeit gebildete CRISP-DMSpecial Interest Group veröffentlicht (Shearer, 2000).In den Folgejahren hat sich CRISP-DM in der Praxiszum De-facto-Standard unter den DM-Prozessmodel-len entwickelt (Marbán et al., 2009; Rennolls undAl-Shawabkeh, 2008).

CRISP-DM besteht aus 6 Phasen (Shearer, 2000):Geschäftsverständnis (Business Understanding),Datenverständnis (Data Understanding), Datenvor-bereitung (Data Preperation), Modellierung (Mode-ling), Evaluierung (Evaluation) und Bereitstellung

(Deployment). Diese Phasen sind ihrerseits in Unter-aktivitäten weiter aufgeteilt. Es handelt sich um einiteratives Modell, da die Erkenntnisse und Erfahrun-gen einer Iteration die Grundlage für einen neuenfundierteren Durchlauf bilden (Abbildung 6.19).

Die Phasen im Einzelnen (in Klammern jeweilsdie Bezeichnung der Subphasen):

Phase 1 – Geschäftsverständnis/Business Under-standing: In der ersten Phase wird ein betriebswirt-schaftlicher Blick auf die aktuelle Situation gewor-fen, um in den späteren Phasen zu verstehen, welcheDaten mit welchen Methoden analysiert werdenmüssen. Es wird festgelegt, welche Fragen ausbetriebswirtschaftlicher Sicht beantwortet, welcheZiele erreicht werden sollen und wie der Erfolg desDM-Projekts gemessen wird („Determine the Busi-ness Objective“). Dann soll der Data Scientist/DataMiner sich einen Überblick über die für das Data-Mining-Projekt zur Verfügung stehenden Ressourcen(Personal, Software und insbesondere Daten) ver-schaffen („Assess the Situation“). Außerdem werdendie Projektrisiken identifiziert und Lösungspläneerstellt. Die Geschäfts-/Auswerteziele werden in dietechnische Perspektive mit der entsprechenden Ter-minologie übersetzt („Determine the Data MiningGoals“). Über einen Projektplan („Produce a ProjectPlan“) werden alle Planschritte aufgestellt, um dieAuswerteziele zu erreichen.

Abbildung 6.19: Der CRISP-DM-Lifecycle (Azevedo und Santos, 2008, Nachbildung)Die Pfeile stellen die häufigsten Phasenübergänge dar (Shearer, 2000; Chapman et al., 2000).

Evaluierung

Geschäftsverständnis

Bereitstellung

Datenverständnis

Datenvorbereitung

Modellierung

Daten

Page 11: Wirtschaftsinformatik - files.pearsoned.de

306

Datenorganisation und Datenmanagement6

Phase 2 – Datenverständnis/Data Unterstanding:Zunächst werden die zu betrachtenden Daten gela-den bzw. zugänglich gemacht. Im Anschluss folgenweitere Aktivitäten, um mit den Daten vertraut zuwerden, die Schlüsselattribute und Beziehungenzwischen den Daten zu identifizieren, interessanteSubsets zu finden und Qualitätsprobleme in denDaten festzustellen.

Phase 3 – Datenvorbereitung/Data Preperation:Diese Phase enthält alle Aktivitäten, die nötig sind,um aus den Rohdaten den Datensatz zu formen, aufdem die Modellerstellungen und die Analysen aus-geführt werden können. Die Gesamtdatenmenge wirddabei hinsichtlich des Auswerteziels, der Qualitätund technischen Beschränkungen reduziert („SelectData“). Qualitätsprobleme wie Datenlücken oder feh-lerhafte Daten werden bereinigt, etwa durch Löschungausgewählter Daten, Einsetzen von plausiblen Wertenoder Schätzung („Clean Data“). Je nach Erforderniswerden abgeleitete Attribute oder gänzlich neueDatensätze erstellt, die das Modell vereinfachen(„Construct Data“). Daten aus verschiedenen Quellenund Einträgen werden kombiniert, um neue Werteund Einträge zu erhalten („Integrate Data“). Gegebe-nenfalls müssen syntaktische Änderungen an denDatensätzen vorgenommen werden („Format Data“).

Phase 4 – Modellierung/Modeling: Unterschied-liche Modellierungen („Select the Modeling Tech-nique“) und Verfahren werden ausgewählt und ange-wendet, ihre Parameter werden kalibriert. Wenn einVerfahren nicht auf den vorhandenen Datensatzangewendet werden kann, muss zu Phase 3 zurück-gesprungen werden. Ein oder mehrere konkreteModeling-Verfahren werden ausgewählt. Bevor dasModeling ausgeführt wird, wird festgelegt, wie dasresultierende Modell auf Qualität und Validität getes-tet werden kann („Generate Test Design“). Die Model-lierung wird ausgeführt, ein oder mehrere (Analyse-)Modelle sind dabei der Output („Build the Model“).Der Data Mining Analyst interpretiert die erhaltenenModelle in Kooperation mit Business-Analysten undFachbereichsexperten und beurteilt den Erfolg hin-sichtlich der Geschäftsziele („Assess the Model“).

Phase 5 – Evaluierung: In dieser Phase wird dasgesamte bisherige Data-Mining- Projekt evaluiert. Daserhaltene Modell und alle Schritte, die zu seinerGenerierung geführt haben, müssen zu den Geschäfts-/Auswertezielen passen. Wenn Zeit und Budget eserlauben, können die Ergebnisse anhand einer prakti-schen Anwendung getestet werden. Zum Abschluss

der Phase muss der Projektleiter entscheiden, ob dieErgebnisse bereit für das sogenannte Deployment (aufDeutsch etwa „Bereitstellung“, „Einsatz“) oder obweitere Iterationen nötig sind.

Phase 6 – Bereitstellung/Deployment: Die gewon-nen Kenntnisse müssen so strukturiert und präsen-tiert werden, dass der Anwender sie nutzen kann. Jenach Projekt kann die Deployment-Phase aus derGenerierung eines Berichts bestehen oder die Imple-mentierung eines wiederholbaren (automatisierten)Data-Mining-Prozesses umfassen. Im Rahmen einerDeployment-Strategie lässt sich dies festlegen („PlanDeployment“). Durch Überwachung und Wartungsoll die unzweckmäßige Nutzung der DM-Ergebnissevermieden werden („Plan Monitoring and Main-tenance“). Ein finaler Bericht wird erstellt, der allevorherigen Outputs und die DM-Ergebnisse enthal-ten soll („Produce Final Report“). Schließlich erfolgteine Beurteilung des Projekts hinsichtlich Erfolgeund Misserfolge, um für zukünftige DM-Projekte ausden Erfahrungen zu lernen („Review Project“).

Datenbanken und das Web 6.5Wenn ein Nutzer versucht, im Web einen Auftrag zuerteilen oder einen Produktkatalog anzuzeigen,greift er in diesem Moment vermutlich auf eineWebseite zu, die mit einer internen Unternehmens-datenbank verknüpft ist. Viele Unternehmen ver-wenden inzwischen das Web, um Kunden undGeschäftspartnern Informationen aus ihren internenDatenbanken zur Verfügung zu stellen. Abbildung6.20 veranschaulicht, wie der Zugriff eines Kundenauf eine interne Datenbank des Händlers über dasWeb erfolgen könnte, wenn der Kunde mit einemWebbrowser in der Onlinedatenbank des Händlersnach Preisinformationen sucht.

Der Anwender greift über das Internet mit einemWebbrowser auf seinem Client-PC auf die Händler-Website zu. Der Browser des Anwenders fordert Datenaus der Unternehmensdatenbank an und verwendetHTTP zur Kommunikation mit dem Webserver. Weilviele Backend-Datenbanken über andere Protokolleals HTTP kommunizieren, übergibt der Webserverdiese Datenanforderungen an Software, die eineTransformation der Befehle auf SQL-Anfragen durch-führt, welche das DBMS der Datenbank verarbeitenkann. In einer Client-Server-Umgebung befindet sich

Page 12: Wirtschaftsinformatik - files.pearsoned.de

307

6.6 Datenmanagement in der Praxis

das DBMS auf einem speziellen Computer, der alsDatenbankserver bezeichnet wird. Das DBMS emp-fängt die SQL-Abfragen und stellt die erforderlichenDaten bereit. Die Middleware übermittelt die Informa-tionen von der internen Unternehmensdatenbankzurück an den Webserver, der sie dem Anwender inForm einer Webseite zur Verfügung stellt.

Abbildung 6.20 zeigt, dass die Middleware zwi-schen dem Webserver und dem DBMS aus einemAnwendungsserver bestehen kann, der sich auf einemeigenen speziellen Computer befindet (vgl. Kapitel 5).Der Anwendungsserver verarbeitet alle Anwendungs-operationen, wie die Dialogverarbeitung und denDatenzugriff, zwischen dem Computer, auf dem derBrowser läuft, und den Backend-Anwendungen oder-Datenbanken der Unternehmung. Der Anwendungs-server übernimmt die Anforderungen vom Webserver,führt die notwendigen Schritte zur Transaktionsverar-beitung auf Basis dieser Anforderungen aus und stelltdie Verbindung mit den Backend-Systemen oder-Datenbanken der Organisation her. Alternativ kannes sich bei der Software zur Verarbeitung dieser Ope-rationen um ein selbst erstelltes Programm oder einCGI-Skript handeln. Ein CGI-Skript ist ein kompaktesProgramm, das die CGI-Spezifikation (Common Gate-way Interface) zur Datenverarbeitung auf einem Web-server verwendet.

Der Zugriff auf die internen Datenbanken einesUnternehmens über das Internet ist mit zahlreichenVorteilen verbunden. Zunächst einmal ist die Ver-wendung von Webbrowsern viel einfacher als derEinsatz proprietärer Abfragetools. Darüber hinauserfordert die Webschnittstelle nur wenige oder garkeine Anpassungen der internen Datenbank. Außer-dem ist es wesentlich preisgünstiger, eine Web-schnittstelle einem bewährten System hinzuzufü-gen, als das gesamte System neu zu entwerfen undauszubauen, wenn man den Anwenderzugriff ver-bessern möchte. Schließlich ermöglicht der Zugriff

auf Unternehmensdatenbanken über das Web auchneue Funktionen, Chancen und Geschäftsmodelle.

Beispielsweise stellt ThomasNet.com ein Online-verzeichnis für mehr als 650.000 Lieferanten vonIndustrieprodukten zur Verfügung, das z.B. Lieferan-ten von Chemikalien, Metallen, Kunststoffen undAutomobilzubehör beinhaltet. Unter dem früherenNamen Thomas Register versendete die Unterneh-mung umfangreiche Papierkataloge mit diesen Infor-mationen.

iGo.com ist eine Firma, die Batterien und Zubehörfür Mobiltelefone und Computer über das Internetvertreibt. Die Website von iGo.com ist mit einerumfassenden relationalen Datenbank voller Arti-keldaten über Batterien und Peripheriegeräte nahezualler Marken und Modelle für Notebooks und porta-ble elektronische Geräte verbunden.

Die Website der Internet Movie Database(imdb.com) ist mit einer umfangreichen Datenbankverknüpft, die Zusammenfassungen, Besetzungs-listen und Biografien der Schauspieler für nahezujeden Film enthält, der jemals produziert wurde.

Datenmanagement in der Praxis 6.6Eine erfolgreiche Gestaltung sowie ein erfolgreicherEinsatz von Datenbanken in der Praxis erfordert vielmehr als lediglich die Auswahl eines konkretenDatenbankmanagementsystems. Der Einsatz schei-tert, wenn Datenbanksysteme vom Management desUnternehmens nicht unterstützt und verstanden undkeine entsprechend notwendigen organisatorischenÄnderungen vollzogen werden. Daher sind folgendeEinflussfaktoren von kritischer Bedeutung: die Daten-verwaltung, die Datenmodelle, die Modellierungs-methoden sowie die Endanwender (Abbildung 6.21).

Abbildung 6.20: Verknüpfung interner Datenbanken mit dem WebDie Benutzer greifen mithilfe z.B. eines PCs und eines Webbrowsers über das Internet auf die interne Datenbank eines Unternehmens zu.

Internet

Client mitWebbrowser

Web-server

Anwendungs-server

Datenbank-server Datenbank

Page 13: Wirtschaftsinformatik - files.pearsoned.de

Copyright

Daten, Texte, Design und Grafiken dieses eBooks, sowie die eventuell

angebotenen eBook-Zusatzdaten sind urheberrechtlich geschützt. Dieses eBook

stellen wir lediglich als persönliche Einzelplatz-Lizenz zur Verfügung!

Jede andere Verwendung dieses eBooks oder zugehöriger Materialien und

Informationen, einschließlich

der Reproduktion,

der Weitergabe,

des Weitervertriebs,

der Platzierung im Internet, in Intranets, in Extranets,

der Veränderung,

des Weiterverkaufs und

der Veröffentlichung

bedarf der schriftlichen Genehmigung des Verlags. Insbesondere ist die

Entfernung oder Änderung des vom Verlag vergebenen Passwortschutzes

ausdrücklich untersagt!

Bei Fragen zu diesem Thema wenden Sie sich bitte an: [email protected]

Zusatzdaten

Möglicherweise liegt dem gedruckten Buch eine CD-ROM mit Zusatzdaten bei.

Die Zurverfügungstellung dieser Daten auf unseren Websites ist eine freiwillige

Leistung des Verlags. Der Rechtsweg ist ausgeschlossen.

Hinweis

Dieses und viele weitere eBooks können Sie rund um die Uhr und legal auf

unserer Website herunterladen:

http://ebooks.pearson.de