Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer...

34
Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Datenvorverarbeitung Grundlagen und Lösungen mit KNIME

Transcript of Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer...

Page 1: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Modul Wissensextraktion / Data Mining

Karim Eddarif(Multimediatechnik)Christian Meyerhöfer(Digitale Logistik und Management)

Datenvorverarbeitung

Grundlagen und Lösungen mit KNIME

Page 2: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 2

Gliederung

1. Einführung in die Thematik

2. Grundlagen der Datenvorverarbeitung

3. Datenvorverarbeitung anhand von Beispielen mit

Knime

3.1Datenreduktion

3.2Datentransformation

3.3Datensäuberung

4. Schlussfolgerung

Page 3: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

1. Einführung in die Thematik

Datenvorverarbeitung ist im Bereich der

Multimediatechnik und im Logistik-Bereich von Bedeutung

Ziele:

Datenvorverarbeitung mit ihren Bestandteilen und

unterschiedlichen Verfahren vorstellen

Durchführung von Anwendungsbeispielen mithilfe von

Knime

Unterschiedliche Voraussetzungen mit unterschiedlichen

Verfahren

3

Page 4: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

2. Grundlagen der Datenvorverarbeitung

Zweck der Datenvorverarbeitung:

Reduktion der Eingangsgrößen auf ein Mindestmaß

die Reduktion der Datensätze darf dabei nicht zu einem

Verlust systemrelevanter Parameter führen

Unterschiedliche Varianten und Verfahren dienen der

Verbesserung von Datensätzen

Dadurch kann der Datensatz besser be- und verarbeitet

werden

Knime hilft bei der Verbesserung durch Datenvorverarbeitung

4

Page 5: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren

5

Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren

Datenvorverarbeitungsverfahren

Page 6: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Verschiedene Prozesse der Vorbereitungsollen das Data Mining vereinfachen

6

Data Mining

Verbesserung der Daten-qualität

Betrach-tung der Daten

Zugriffauf Daten

Anreicherung der Daten

Verringe-rung der Dimen-sionen

Stich-proben:

Verteilung überprüfen

Page 7: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

3. Datenvorverarbeitung mit Knime

Darstellung der einzelnen Verfahren durch die Software

Knime

Welchen Einfluss hat eine unterschiedliche Datenvor-

verarbeitung auf das Ergebnis?

Wie geht man mit welchen Daten um?

Experimente mit verschiedenen Datensätzen als erster

Ansatz für Anwendungsempfehlungen

7

Page 8: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

3.1 Datenreduktion

Ziel ist es die Zahl der relevanten Dimensionen zu

reduzieren

Attribute streichen / auswählen

Korrelationen dienen der Darstellung von

Zusammenhängen zwischen zwei Attributen

Auch unrealistische Werte können eliminiert werden

Streichung von Spalten oder Zeilen mit keinem oder

sehr niedrigen Aussagewert

8

Page 9: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Korrelation bilden, um die Beziehungender Daten zueinander herauszufinden

9

Page 10: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Tabelle zeigt die Zusammenhängeder Daten zueinander

10

Page 11: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Zur Darstellung werdenalle anderen Spalten entfernt

11

Page 12: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden

müssen

12

Page 13: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen

überflüssig sind

13

Page 14: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Weiteres Sortieren bestätigtden Zusammenhang

14

Page 15: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Das Ergebnis ist die Streichungeiner Spalte und von 54 Zeilen

15

Page 16: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Beispiel für eine vermutetenichts aussagende Spalte

16

ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes

Ursache liegt in der Aussage der Spalten

Die Aussagefähigkeiten der Daten müssen beachtet

werden, auch wenn nur wenige Attribute vorhanden

sind!

Page 17: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

3.2 Datentransformation

17

Überführung der Daten in eine Form, die für Data

Mining- Verfahren geeigneter ist

(Repräsentationsänderung)

Verfahren zur Behandlung von Rauschen können hierzu

gezählt werden

Umkodierung von Attributen (Veränderung des Typ)

Generalisierung: Ersetzung eines numerischen Attributs

durch ein symbolisches Attribut mit quantitativer

Aussage, z.B. niedrig, mittel, hoch

Aggregation: Zusammenfassen mehrerer Tupel zu

einem

Page 18: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Datentransformation – Umkodierung von Attributen

18

Normalisierung von numerischen werten im Wertebereichen

Skalierung von Daten in Intervallen [0..1]Binning ermöglicht die Intervallbildung von

numerischen Daten

Page 19: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Auto-Binner erstellt eine neue Spalte

19

Veränderung der Darstellung, aber nicht des Informations-gehaltes eines Attributes.

Page 20: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Das Ergebnis mit der alten Spalteund ohne Binning ist sehr unübersichtlich

20

Page 21: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Nach dem Auto-Binning erhält meine eine über-sichtliche Darstellung der gebildeten

Intervalle

21

Page 22: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Das Numeric Binner benötigt Eingabe-informationen über die zu bildenden

Intervalle

22

Page 23: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der

Altersgruppen

23

Page 24: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 24

Reduktion des Informationsgehaltes eines Attributs

Zusammenfassung mehrerer Ausprägungen eines

symbolischen Attributes zu einer einzigen Ausprägung

z.B. c_temperat>=80 -> High, c_temperat>=70 &&

c_temperat<80 ->Mittel

Datentransformation - Generalisierung

Page 25: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 25

Datentransformation - Java-Snippet Node

Page 26: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

3.3 Datensäuberung

Rohdaten sind oft Lückenhaft

Fehlerhaft oder wenig sorgfältig erfasste Daten

Fehlende Werte müssen aus verschiedenen Gründen

behandelt werden:

Data Mining-Verfahren können nicht mit fehlenden

Werten umgehen

Attribute mit überwiegend fehlenden Werten sind

nutzlos

26

Page 27: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln

27

Page 28: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 28

Wie soll man mit fehlende Daten umgehen?

Spielt die Positionierung des Missing-Value Knoten eine Rolle?

Page 29: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 29

Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag-

gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut „heart“ Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen

Page 30: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

3.3 DatensäuberungAnwendungsempfehlungen (1/2)

30

Behandlung fehlender Werte:

Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll,

wenn die Klassifikation fehlt

wenn dies wenige Tupel betrifft

Entfernen des Attributes ist sinnvoll,

wenn dies viele Tupel betrifft

Page 31: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Anwendungsempfehlungen (2/2)

Manueller Nachtrag der fehlenden Werte

sehr zeitaufwendig

nur sinnvoll bei wenigen fehlenden Werten

Semantik der fehlenden Werte muss berücksichtigt werden

Vorhersage eines wahrscheinlichen Wertes

Lernen einer Klassifikation zur Vorhersage des betroffenen

Attributs

Daten-Training

Zu viel Training der Daten führt zu einem schlechteren Ergebnis

31

Page 32: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

4. Schlussfolgerung

Der Bereich der Datenvorverarbeitung ist sehr vielfältig

Durch sie kann die Auswertung eines Datensatzes vereinfacht

und verbessert werden

Fehler werden in der Datenvorverarbeitung gesucht, erkannt

und bearbeitet

Mit der Software Knime kann die Datenvorverarbeitung sehr

gut und umfangreich gestaltet werden

Die Datenvorverarbeitung ist zur

Auswertung von Datensätzen

unumgänglich und äußerst wichtig!

32

Page 33: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Quellen

Althoff, Klaus-Dieter (2005)

„Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim

2005;URL:http://www.iis.uni-hildesheim.de/files/teaching/wintersemester20042005/

VorlesungWissensentdeckung/Resourcen/2004-weml-12.pdf, letzter Abruf: 05.06.2013

Reuter, Matthias (2004)

„Datenvorverarbeitung (Preprocessing)“, URL: http://www2.in.tu-clausthal.de/~reuter/fd.htm, letzter

Abruf: 05.06.2013

Werth, Oliver (2004/2005)

„Datenvorverarbeitung von nominalen Daten für DataMining“, http://www.ke.tu-

darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: 05.06.2013

Cleve, Jürgen (2011)

„DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59

ff.

33

Page 34: Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 34

Vielen Dank für Ihre Aufmerksamkeit!

Wir stehen Ihnen nun für weiterführende Fragen

zur Verfügung!