PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne...

21
PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10 DATA MINING ALS EXPERIMENT VORTRAG: CHRISTOPH NÖLLENHEIDT 26.01.10

Transcript of PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne...

Page 1: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTEWS 09/10

DATA MINING ALS EXPERIMENT

VORTRAG: CHRISTOPH NÖLLENHEIDT

26.01.10

Page 2: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Ablauf

� Das CRISP-DM-Modell

� Zwei verschiedene Standpunkte über die Theoriebildung im Prozess

� Ein verändertes CRISP-DM-Modell� Ein verändertes CRISP-DM-Modell

� Die Idee des „anything goes“ für das Data Mining

� Wie sieht das Experiment in RapidMiner aus?

� Literatur

Page 3: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

CRISP-DM („Cross Industry Standard Process for Data Mining“)

� Inhaltliche Ausprägung vollständig aus Projekterfahrungen zum Data Mining abgeleitet

� Beteiligt an der Entwicklung seit 1996:� Beteiligt an der Entwicklung seit 1996:

- DaimlerChrysler (damals Daimler-Benz)

- Integral Solutions Ltd. (seit 1999 Teil von SPSS)

- NCR („National Cash Register“)

� Ziel: Etablierung eines Standards zur Vorgehensweise bei Data Mining Projekten

Page 4: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

CRISP-DM-Modell

Projekt-Verständnis

Daten-Verständnis

AnwendungKDD

Datenvorverarbeitung

Modellbildung

Bewertung

Data Mining

Daten

Page 5: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

1. Projekt-Verständnis

� Ziel: Eckpunkte eines Data Mining Projektes festlegenfestlegen

Teilschritte:

� Situationsanalyse und Aufgabendefinition

� Formulierung der Data Mining Ziele

� Erstellung des Projektplans

Page 6: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

2. Verständnis der Daten erreichen

� Datenbeschaffung

Erste Einblicke in die Daten� Erste Einblicke in die Daten

� Probleme mit der Qualität der Daten ausfindig machen

� Hinzunahme externer Daten?

Page 7: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

3. Datenvorverarbeitung

� schließt alle Aktivitäten ein, um den für die Modellbildung verwendeten Datensatz aus den Modellbildung verwendeten Datensatz aus den Rohdaten zu erhalten

� für den Projekterfolg von großer Bedeutung

� enthält bereits Verfahren des maschinellen Lernens

Page 8: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

3. Datenvorverarbeitung

� Aufgaben sind z.B. Merkmalsauswahl, Transformation als auch DatenbereinigungTransformation als auch Datenbereinigung

� Fehlerkorrektur: Fehlende Werte ersetzen

� Wie gehe ich mit Ausreißern um?

� Stichproben ziehen

Page 9: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

4. Modellbildung

� Anwendung der Data Mining Verfahren

Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des � Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des Analyseergebnisses

� Einige Verfahren haben spezielle Anforderungen an die Form der Daten, zur Vorverarbeitung zurückzukehren ist daher oftmals nötig

Page 10: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

5. Bewertung

� Bevor das gefundene Modell zur abschließenden Analyse verwendet wird, muss es bewertet werden

� Einzelne Schritte, die ausgeführt wurden, um das Modell zu bilden, werden überprüft

� Wurden die Data Mining Ziele erreicht?

Page 11: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

6. Anwendung� Wissen für den Kunden darstellen

Phase kann enthalten:� Phase kann enthalten:

- Bericht

- wiederholbaren Data Mining Prozess implementieren

� Wichtig für den Kunden: Welche Aktionen müssen ausgeführt werden, um das Modell zu verwenden?

Page 12: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Experiment

� Experiment setzt zwingend Theorie voraus

� Messung macht ohne Theorie keinen Sinn (Kuhn)

� Bateson: „Theorien können sich im Laufe der Untersuchung ändern“

� 2 verschiedene Sichtweisen über die Bildung einer Theorie im Data Mining Prozess

Page 13: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Theoriebildung im Data Mining Prozess

Projekt-Verständnis

Daten-Verständnis

Anwendung

Theoriebildung

A)

Datenvorverarbeitung

Modellbildung

Bewertung

Daten

Theoriebildung

B)

Page 14: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

CRISP-DM

� Im CRISP-DM gibt es keinen datengenerierenden Prozess

� Informatik: „Ihr gebt uns die Daten, ob wir damit die � Informatik: „Ihr gebt uns die Daten, ob wir damit die Realität abbilden, wissen wir nicht“

⇒ Erkenntnisse aufgrund der Daten

� Statistik: betont datengenerierenden Prozess

Page 15: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Was macht Wissenschaft aus?

Projekt-Verständnis

Daten-Verständnis

Anwendung

Datengenerierende Prozess

Datenvorverarbeitung

Modellbildung

Bewertung

Page 16: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Paul Feyerabend

� „anything goes“

� Wir müssen nicht ab einem gewissen Punkt anfangen und an einem gewissen Punkt ankommenund an einem gewissen Punkt ankommen

� Wissenschaft sollte nicht „durch Zwänge eingeschränkt werden“

Page 17: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Idee des „anything goes“

Bedeutung im Data Mining:

� Kreativität

� Vielleicht erhalten wir durch neue Betrachtungen bessere Ergebnisse

Page 18: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Idee des „anything goes“

Projekt-Verständnis

Daten-Verständnis

Anwendung

Theorie

Verständnis

Datenvorverarbeitung

Modellbildung

Bewertung

Daten

Theorie

Page 19: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

RapidMiner (vormals YALE)

� Open-Source Umgebung für Data Mining

� Rapid-I (http://www.rapid-i.com)

� Mittlerweile meist genutzte open-source Umgebung für Data Mining

� Anwendungen in Forschung und Praxis

Page 20: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

RapidMiner

� Wichtigste Eigenschaft: Prozesse des Data Mining als Operator-Bäume modellieren

� Operator in RapidMiner bedeutet: einzelne Methode, � Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens

� Experimente können auf der Grundlage einer großen Anzahl von beliebig ineinander verschachtelbaren Operatoren durchgeführt werden

Page 21: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Literatur

� Mierswa, I. et al., YALE: Rapid Prototyping for

Complex Data Mining Tasks, In: Proceedings of theACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), 2006.2006), 2006.

� Gabriel, R. et al.: Data Warehouse & Data Mining

(2009), W3L-Verlag, Herdecke, Witten.

� Für das CRISP-DM-Modell:

http://www.crisp-dm.org