1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard...

38
1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version 1.0 Data Mining

Transcript of 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard...

Page 1: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

1

Lehrstuhl für Wirtschaftsinformatik undBetriebliche KommunikationssystemeProf. Dr. Reinhard Jung

Sascha Enders / Tim Dreesen

Wintersemester 07/08

Version 1.0

Data Mining

Page 2: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

2

Wegweiser

Ausgangslage

Data Mining Prozess

Überblick Techniken

Ausprägungen

Anwendung

Fazit

Page 3: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

3

Wegweiser

Ausgangslage

Data Mining Prozess

Überblick Techniken

Ausprägungen

Anwendung

Fazit

Page 4: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

4

Einleitung

Was ist Data Mining?

"Als Data Mining (engl.: data mining; deutsch: Daten-Bergbau, Daten schürfen) bezeichnet man die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge, Muster und Trends aus dem Datenbestand sehr großer Datenbanken bzw. des Data Warehouse. […] “

[HaNe2005]

„Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern und Daten“ (nach Fayyad)

[AlNi]

Page 5: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

5

Ausgangslage

• Automatische DV auf dem Vormarsch- Datenflut!

• Entscheidungsfindung über Unternehmensgrenze hinweg Data Warehouse als Lösung

• Aber was mit dem ganzen Datenwust anstellen???• Herkömmliche Methoden nicht mehr ausreichend

Hilfsmittel: Data Mining

Wieso Data Mining?

Page 6: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

6

Ausgangslage

Abb.: in Anlehnung an [AlNi]

Wo ist Data Mining einzusortieren?

Operative Systeme

Data Warehouse

Ad-Hoc Abfragen Auswertungssysteme

z.B. SQL OLAP, Data Mining

Page 7: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

7

Ausgangslage

Data Mining als wachsendes Forschungsgebiet

1960 1970 1990 20001980

KI

DBMS

Abfragesprachen

Data WarehouseData Mining

Web Mining

Abb.: in Anlehnung an [FrKö]

Page 8: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

8

Wegweiser

Ausgangslage

Data Mining Prozess

Überblick Techniken

Ausprägungen

Anwendung

Fazit

Page 9: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

9

Data Mining Prozess

Überblick

Daten

Zieldaten /Vorverarbeitete

Daten

Transformierte Daten

Auswahl / Datenexploration

Transformation

Data Mining

Abb.: in Anlehnung an [AlNi]

Page 10: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

10

Data Mining Prozess

Auswahl

• Die Auswahl erfolgt auf einem vorhandenen Datenbestand

• Relevante Datenfelder / Datensätze werden ausgewählt

Welche Informationsquellen sollen genutzt werden ?

Page 11: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

11

Data Mining Prozess

Datenexploration

• Ausreißer analysieren und eliminieren- z.B. Herr Prof. Dr. Reinhard Jung ist 30

cm groß.

• Behandlung fehlender Werte- z.B. ist Birgitt weiblich?

• Ziel: Ein möglichst fehlerfreier / konsistenter Datenbestand als Basis für das Data Mining zu schaffen.

Page 12: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

12

Data Mining Prozess

Transformation

Daten werden bei Bedarf…

• …verändert.• …normiert.• …kategorisiert.

Datenfelder werden neu angelegt• z.B. bei Aggregation von Daten

Bei den meisten Transformationen werden Daten reduziert

Page 13: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

13

Data Mining Prozess

Zwischenstand

Die ersten drei Phasen sind laut Experten die

aufwendigsten innerhalb des Data Mining

Prozesses.

Sie nehmen ca. 75-85 % des Data Mining ein.

Quelle: in Anlehnung an [AlNi]

Page 14: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

14

Data Mining Prozess

Data Mining

• Selektion der inhaltlichen Data Mining Technikenz.B.• Segmentierung • Klassifikation

• Selektion des konkret anzuwendenden Data Mining Algorithmusz.B.• Lineare Diskriminanzanalyse

• Ablauf des Algorithmus über die transformierten Daten

Page 15: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

15

Data Mining Prozess

Wissen

Ergebnisse Interpretation

Page 16: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

16

Wegweiser

Ausgangslage

Data Mining Prozess

Überblick Techniken

Ausprägungen

Anwendung

Fazit

Page 17: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

17

Methoden

Abb.: in Anlehnung an [AlNi]

Methoden - Überblick

Operative Systeme

SegmentierungKlassifikation Prognose

Abhängigkeits-analyse

Abweichungs-analyse

Page 18: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

18

Methoden

Zuordnung von Elementen in bekannte Klassen, z.B.Entscheidungsbaumverfahren

Klassifikation

Flugmeilen

Frequenz Frequenz

Platinkunde Goldkunde Kunde Kunde

> 10tsd < 10tsd

1-2 Woche> 2 Woche > 2 Woche 1-2 Woche

Page 19: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

19

Methoden

Zerlegung einer Gesamtheit in kleinere Teile, z.B.Clusterverfahren (1/2)

Beispiel: Lebensmittelvertrieb

• Erkenntnis: Fleisch- und Fischesser• Nächster Schritt: Gruppenbildung

Segmentierung

Kundennr. Milchprodukte Fleischwaren Waschmittel Gebäck Fisch

1004589 4 10 5 12 2

1017123 8 6 2 3 10

Page 20: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

20

Methoden

Zerlegung einer Gesamtheit in kleinere Teile, z.B.Clusterverfahren (2/2)

Gruppiert:

• Nutzung des neuen Wissen z.B. für Personalisierung der Werbung

Segmentierung

Gruppe Milchprodukte Fleischwaren Waschmittel Gebäck Fisch

Fleischesser 3,75 11,2 3,7 10,2 1,7

Fischesser 9,2 6,4 4,2 2,75 12,25

Quelle: in Anlehnung an [HaNe2005]

Page 21: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

21

Methoden

auf Basis bestehender Werte auf Zukünftige schließen, Künstliche Neuronale Netze (KNN)

• Stammt aus der KI• Neuronen = Verarbeitungseinheiten• Muss erst angelernt werden• Einsatz z.B. Kreditrisikorechnung,

Käuferklassen, Wertpapiere…

Prognose

Quelle.: in Anlehnung an [ChGl]

Page 22: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

22

Methoden

Beziehungen zwischen zwei Merkmalen aufdeckenAssoziationsregeln

Beispiel für das Aufdecken von Affinitäten :

„Wenn ein Kunde eine Immobilie länger als zwei Jahre mietet und älter als 25 Jahre ist, wird er in 40% aller Fälle eine Immobilie kaufen. Diese Assoziation gilt für 35% aller Kunden, die eine Immobilie mieten.“

Abhängigkeitsanalyse

Quelle.: in Anlehnung an [ToBo]

Page 23: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

23

Methoden

Beziehungen zwischen zwei Merkmalen aufdeckenAssoziationsregeln (1/2)

Abhängigkeitsanalyse

Quelle.: in Anlehnung an [ToBo]

Einkäufe Artikel

E1 Saft, Cola, Bier

E2 Saft, Cola, Wein

E3 Saft, Wasser

E4 Cola, Bier, Saft

E5 Saft, Cola, Bier, Wein

E6 Wasser

Artikel Einkäufe

Saft E1,E2,E3,E4,E5

Cola E1,E2,E4,E5

Bier E1,E4,E5

Wein E2,E5

Wasser E3,E6

Page 24: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

24

Methoden

Beziehungen zwischen zwei Merkmalen aufdeckenAssoziationsregeln (2/2)

Abhängigkeitsanalyse

Quelle.: in Anlehnung an [ToBo]

Regeln Einkäufe Konfidenz Support

Saft Cola E1,E2,E4,E5 80% 66%

Cola Saft E1,E2,E4,E5 100% 66%

Cola Bier E1,E4,E5 75% 50%

Bier Cola E1,E4,E5 100% 50%

Page 25: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

25

Methoden

Ausreißer identifizieren z.B. mit Ausreißertests

Allgemein:

• Gegenteil der Assoziationsanalysen• Versuch der Ursachenentdeckung • Ausreißer entweder fehlerhafte Daten oder interessante

Ausprägungen!• z.B. für Schadensfällen bei Versicherungen, QM,

Kreditkartenbetrug oder allg. bei Verfolgung von Defekten

Abweichungsanalyse

Quelle.: in Anlehnung an [ToBo]

Page 26: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

26

Wegweiser

Ausgangslage

Data Mining Prozess

Überblick Techniken

Ausprägungen

Anwendung

Fazit

Page 27: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

27

Ausprägungen

Text Mining

Web Mining

Page 28: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

28

Ausprägungen

TextMining - Aufgaben

• Entdecken von Interessanten Beziehungen zwischen Dokumenten

• Klassifikation von Dokumenten

• Segmentierung von Dokumenten (Clustering)

• Erstellen von Abstracts

• Aufbau von begrifflichen Netzen

Page 29: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

29

Ausprägungen

Data Mining Text Mining

Der grundlegendste Unterschied zwischen Data Mining und

Text Mining besteht in den vorliegenden Daten, die zur Verfügung

stehen.

Stark strukturierte Daten im Data Mining

vs.

Kaum strukturierte Daten im Text Mining

Page 30: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

30

Ausprägungen

Web Mining – Aufgaben / Unterscheidung

• Dieselben Aufgaben die auch Data Mining ausführt, aber mit dem Bezug zum Internet / Intranet.

• Verarbeitung / Analyse von sekundären Daten die ein Nutzer hinterlässt.

Page 31: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

31

Wegweiser

Ausgangslage

Data Mining Prozess

Überblick Techniken

Ausprägungen

Anwendung

Fazit

Page 32: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

32

Anwendung

Microsoft analysiert mit Hilfe des Verfahren der

Neuronalen Netze im Data Mining.

Wieso die einen Kunden auf ihr Postanschreiben

antworten und die Anderen nicht.

Beispiele

Antwortquote von 2 auf 8% erhöht, mit gleichzeitiger Senkung der Portokosten.

Quelle.: in Anlehnung an [WiBu]

Page 33: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

33

Anwendung

Eine Firma in den USA, mit 5 Millionen Aufrufe im

Monat, analysierte mit Hilfe von Web Mining

Methoden, das Verhalten der Nutzer im Bezug auf Bannerwerbung.

Beispiele

Durch nun Zielgerichtete Bannerwerbung konnte die Klickrate von 1% auf 2% erhöht werden. Damit erhöhte sich der Erlös pro Banner, was zu einer Umsatzsteigerung der Firma um 1,2 Millionen Dollar führte.

Quelle.: in Anlehnung an [WiBu]

Page 34: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

34

Wegweiser

Ausgangslage

Data Mining Prozess

Überblick Techniken

Ausprägungen

Anwendung

Fazit

Page 35: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

35

Fazit

• Kontext und Handlungsbezug nur durch Individuum möglich!• Lediglich gutes Hilfsmittel zur Mustererkennung• Hohe HW-Anforderungen

- Wirtschaftliche Aspekte berücksichtigen

Kritik

Ausblick

• Data Mining im großen Unternehmen „Standard“• Markt ist zukunftsträchtig• Forschung, vor allem im Bereich

- Realitätsnaher Interpretation- Neue Anwendungsgebiete

Page 36: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

36

Fragen

Page 37: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

37

Literatur

[AlNi]

Alpar, P; Niedereichholz, J.: Data Mining im praktischen Einsatz

Braunschweig / Wiesbaden 2000

[ChGl]

Chamoni, P.; Gluchowski, P.: Analytische Informationssysteme

Berlin 2006

[DaKe]

Keim, D.: Datenvisualisierung und Data Mining

Universität Konstanz und AT&T Shannon Research Labs 2004

[FrKö]

Köster, F.: Data Warehousing and Knowledge Discovery in Databases

Universität Oldenburg 2003

[GrGe]

Grothe, M.; Gentsch, P.: Business Intelligence

München 2000

[GrBe]

Heinz L. Grob; Frank Bensberg: Das Data Mining Konzept

Universität Münster 1999

Page 38: 1 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung Sascha Enders / Tim Dreesen Wintersemester 07/08 Version.

38

Literatur

[HaNe2005]

Hansen, R.; Neumann, G.: Wirtschaftsinformatik Band 1 + 2,

Stuttgart 2005

[MeBo]

Mertens; Bodendorf; König; Picot; Schumann; Hess: Grundzüge der Wirtschaftsinformatik,

Berlin 2005

[MeWi]

Mertens, P.; H.-W. Wieczorrek: Data-X Strategien,

Berlin 2000

[RaWa]

Walther, R.: Web Mining,

Berlin 2001 (Informatik Spektrum 24)

[ToBo]

Bollinger, T.: Assoziationsregeln – Analyse eines Data Mining Verfahrens,

Berlin 1996 (Informatik Spektrum 19 - Hauptbeitrag)

[WiBu]

Wiedmann, K.; Buckler, F.: Neuronale Netze im Marketing Management

Braunschweig / Wiesbaden 2003