Post on 05-Apr-2015
Modul Wissensextraktion / Data Mining
Karim Eddarif(Multimediatechnik)Christian Meyerhöfer(Digitale Logistik und Management)
Datenvorverarbeitung
Grundlagen und Lösungen mit KNIME
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 2
Gliederung
1. Einführung in die Thematik
2. Grundlagen der Datenvorverarbeitung
3. Datenvorverarbeitung anhand von Beispielen mit
Knime
3.1Datenreduktion
3.2Datentransformation
3.3Datensäuberung
4. Schlussfolgerung
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
1. Einführung in die Thematik
Datenvorverarbeitung ist im Bereich der
Multimediatechnik und im Logistik-Bereich von Bedeutung
Ziele:
Datenvorverarbeitung mit ihren Bestandteilen und
unterschiedlichen Verfahren vorstellen
Durchführung von Anwendungsbeispielen mithilfe von
Knime
Unterschiedliche Voraussetzungen mit unterschiedlichen
Verfahren
3
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
2. Grundlagen der Datenvorverarbeitung
Zweck der Datenvorverarbeitung:
Reduktion der Eingangsgrößen auf ein Mindestmaß
die Reduktion der Datensätze darf dabei nicht zu einem
Verlust systemrelevanter Parameter führen
Unterschiedliche Varianten und Verfahren dienen der
Verbesserung von Datensätzen
Dadurch kann der Datensatz besser be- und verarbeitet
werden
Knime hilft bei der Verbesserung durch Datenvorverarbeitung
4
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren
5
Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren
Datenvorverarbeitungsverfahren
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Verschiedene Prozesse der Vorbereitungsollen das Data Mining vereinfachen
6
Data Mining
Verbesserung der Daten-qualität
Betrach-tung der Daten
Zugriffauf Daten
Anreicherung der Daten
Verringe-rung der Dimen-sionen
Stich-proben:
Verteilung überprüfen
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3. Datenvorverarbeitung mit Knime
Darstellung der einzelnen Verfahren durch die Software
Knime
Welchen Einfluss hat eine unterschiedliche Datenvor-
verarbeitung auf das Ergebnis?
Wie geht man mit welchen Daten um?
Experimente mit verschiedenen Datensätzen als erster
Ansatz für Anwendungsempfehlungen
7
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.1 Datenreduktion
Ziel ist es die Zahl der relevanten Dimensionen zu
reduzieren
Attribute streichen / auswählen
Korrelationen dienen der Darstellung von
Zusammenhängen zwischen zwei Attributen
Auch unrealistische Werte können eliminiert werden
Streichung von Spalten oder Zeilen mit keinem oder
sehr niedrigen Aussagewert
8
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Korrelation bilden, um die Beziehungender Daten zueinander herauszufinden
9
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Tabelle zeigt die Zusammenhängeder Daten zueinander
10
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Zur Darstellung werdenalle anderen Spalten entfernt
11
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden
müssen
12
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen
überflüssig sind
13
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Weiteres Sortieren bestätigtden Zusammenhang
14
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Ergebnis ist die Streichungeiner Spalte und von 54 Zeilen
15
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Beispiel für eine vermutetenichts aussagende Spalte
16
ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes
Ursache liegt in der Aussage der Spalten
Die Aussagefähigkeiten der Daten müssen beachtet
werden, auch wenn nur wenige Attribute vorhanden
sind!
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.2 Datentransformation
17
Überführung der Daten in eine Form, die für Data
Mining- Verfahren geeigneter ist
(Repräsentationsänderung)
Verfahren zur Behandlung von Rauschen können hierzu
gezählt werden
Umkodierung von Attributen (Veränderung des Typ)
Generalisierung: Ersetzung eines numerischen Attributs
durch ein symbolisches Attribut mit quantitativer
Aussage, z.B. niedrig, mittel, hoch
Aggregation: Zusammenfassen mehrerer Tupel zu
einem
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Datentransformation – Umkodierung von Attributen
18
Normalisierung von numerischen werten im Wertebereichen
Skalierung von Daten in Intervallen [0..1]Binning ermöglicht die Intervallbildung von
numerischen Daten
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Auto-Binner erstellt eine neue Spalte
19
Veränderung der Darstellung, aber nicht des Informations-gehaltes eines Attributes.
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Ergebnis mit der alten Spalteund ohne Binning ist sehr unübersichtlich
20
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Nach dem Auto-Binning erhält meine eine über-sichtliche Darstellung der gebildeten
Intervalle
21
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Numeric Binner benötigt Eingabe-informationen über die zu bildenden
Intervalle
22
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der
Altersgruppen
23
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 24
Reduktion des Informationsgehaltes eines Attributs
Zusammenfassung mehrerer Ausprägungen eines
symbolischen Attributes zu einer einzigen Ausprägung
z.B. c_temperat>=80 -> High, c_temperat>=70 &&
c_temperat<80 ->Mittel
Datentransformation - Generalisierung
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 25
Datentransformation - Java-Snippet Node
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.3 Datensäuberung
Rohdaten sind oft Lückenhaft
Fehlerhaft oder wenig sorgfältig erfasste Daten
Fehlende Werte müssen aus verschiedenen Gründen
behandelt werden:
Data Mining-Verfahren können nicht mit fehlenden
Werten umgehen
Attribute mit überwiegend fehlenden Werten sind
nutzlos
26
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln
27
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 28
Wie soll man mit fehlende Daten umgehen?
Spielt die Positionierung des Missing-Value Knoten eine Rolle?
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 29
Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag-
gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut „heart“ Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.3 DatensäuberungAnwendungsempfehlungen (1/2)
30
Behandlung fehlender Werte:
Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll,
wenn die Klassifikation fehlt
wenn dies wenige Tupel betrifft
Entfernen des Attributes ist sinnvoll,
wenn dies viele Tupel betrifft
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Anwendungsempfehlungen (2/2)
Manueller Nachtrag der fehlenden Werte
sehr zeitaufwendig
nur sinnvoll bei wenigen fehlenden Werten
Semantik der fehlenden Werte muss berücksichtigt werden
Vorhersage eines wahrscheinlichen Wertes
Lernen einer Klassifikation zur Vorhersage des betroffenen
Attributs
Daten-Training
Zu viel Training der Daten führt zu einem schlechteren Ergebnis
31
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
4. Schlussfolgerung
Der Bereich der Datenvorverarbeitung ist sehr vielfältig
Durch sie kann die Auswertung eines Datensatzes vereinfacht
und verbessert werden
Fehler werden in der Datenvorverarbeitung gesucht, erkannt
und bearbeitet
Mit der Software Knime kann die Datenvorverarbeitung sehr
gut und umfangreich gestaltet werden
Die Datenvorverarbeitung ist zur
Auswertung von Datensätzen
unumgänglich und äußerst wichtig!
32
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Quellen
Althoff, Klaus-Dieter (2005)
„Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim
2005;URL:http://www.iis.uni-hildesheim.de/files/teaching/wintersemester20042005/
VorlesungWissensentdeckung/Resourcen/2004-weml-12.pdf, letzter Abruf: 05.06.2013
Reuter, Matthias (2004)
„Datenvorverarbeitung (Preprocessing)“, URL: http://www2.in.tu-clausthal.de/~reuter/fd.htm, letzter
Abruf: 05.06.2013
Werth, Oliver (2004/2005)
„Datenvorverarbeitung von nominalen Daten für DataMining“, http://www.ke.tu-
darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: 05.06.2013
Cleve, Jürgen (2011)
„DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59
ff.
33
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 34
Vielen Dank für Ihre Aufmerksamkeit!
Wir stehen Ihnen nun für weiterführende Fragen
zur Verfügung!