Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer...

Modul Wissensextraktion / Data Mining

Karim Eddarif(Multimediatechnik)Christian Meyerhöfer(Digitale Logistik und Management)

Datenvorverarbeitung

Grundlagen und Lösungen mit KNIME

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 2

Gliederung

1. Einführung in die Thematik

2. Grundlagen der Datenvorverarbeitung

3. Datenvorverarbeitung anhand von Beispielen mit

3.1Datenreduktion

3.2Datentransformation

3.3Datensäuberung

4. Schlussfolgerung

Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

1. Einführung in die Thematik

Datenvorverarbeitung ist im Bereich der

Multimediatechnik und im Logistik-Bereich von Bedeutung

Ziele:

Datenvorverarbeitung mit ihren Bestandteilen und

unterschiedlichen Verfahren vorstellen

Durchführung von Anwendungsbeispielen mithilfe von

Unterschiedliche Voraussetzungen mit unterschiedlichen

Verfahren

2. Grundlagen der Datenvorverarbeitung

Zweck der Datenvorverarbeitung:

Reduktion der Eingangsgrößen auf ein Mindestmaß

die Reduktion der Datensätze darf dabei nicht zu einem

Verlust systemrelevanter Parameter führen

Unterschiedliche Varianten und Verfahren dienen der

Verbesserung von Datensätzen

Dadurch kann der Datensatz besser be- und verarbeitet

werden

Knime hilft bei der Verbesserung durch Datenvorverarbeitung

Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren

Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren

Datenvorverarbeitungsverfahren

Verschiedene Prozesse der Vorbereitungsollen das Data Mining vereinfachen

Data Mining

Verbesserung der Daten-qualität

Betrach-tung der Daten

Zugriffauf Daten

Anreicherung der Daten

Verringe-rung der Dimen-sionen

Stich-proben:

Verteilung überprüfen

3. Datenvorverarbeitung mit Knime

Darstellung der einzelnen Verfahren durch die Software

Welchen Einfluss hat eine unterschiedliche Datenvor-

verarbeitung auf das Ergebnis?

Wie geht man mit welchen Daten um?

Experimente mit verschiedenen Datensätzen als erster

Ansatz für Anwendungsempfehlungen

3.1 Datenreduktion

Ziel ist es die Zahl der relevanten Dimensionen zu

reduzieren

Attribute streichen / auswählen

Korrelationen dienen der Darstellung von

Zusammenhängen zwischen zwei Attributen

Auch unrealistische Werte können eliminiert werden

Streichung von Spalten oder Zeilen mit keinem oder

sehr niedrigen Aussagewert

Korrelation bilden, um die Beziehungender Daten zueinander herauszufinden

Tabelle zeigt die Zusammenhängeder Daten zueinander

Zur Darstellung werdenalle anderen Spalten entfernt

Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden

müssen

Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen

überflüssig sind

Weiteres Sortieren bestätigtden Zusammenhang

Das Ergebnis ist die Streichungeiner Spalte und von 54 Zeilen

Beispiel für eine vermutetenichts aussagende Spalte

ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes

Ursache liegt in der Aussage der Spalten

Die Aussagefähigkeiten der Daten müssen beachtet

werden, auch wenn nur wenige Attribute vorhanden

3.2 Datentransformation

Überführung der Daten in eine Form, die für Data

Mining- Verfahren geeigneter ist

(Repräsentationsänderung)

Verfahren zur Behandlung von Rauschen können hierzu

gezählt werden

Umkodierung von Attributen (Veränderung des Typ)

Generalisierung: Ersetzung eines numerischen Attributs

durch ein symbolisches Attribut mit quantitativer

Aussage, z.B. niedrig, mittel, hoch

Aggregation: Zusammenfassen mehrerer Tupel zu

Datentransformation – Umkodierung von Attributen

Normalisierung von numerischen werten im Wertebereichen

Skalierung von Daten in Intervallen [0..1]Binning ermöglicht die Intervallbildung von

numerischen Daten

Auto-Binner erstellt eine neue Spalte

Veränderung der Darstellung, aber nicht des Informations-gehaltes eines Attributes.

Das Ergebnis mit der alten Spalteund ohne Binning ist sehr unübersichtlich

Nach dem Auto-Binning erhält meine eine über-sichtliche Darstellung der gebildeten

Intervalle

Das Numeric Binner benötigt Eingabe-informationen über die zu bildenden

Intervalle

Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der

Altersgruppen

Reduktion des Informationsgehaltes eines Attributs

Zusammenfassung mehrerer Ausprägungen eines

symbolischen Attributes zu einer einzigen Ausprägung

z.B. c_temperat>=80 -> High, c_temperat>=70 &&

c_temperat<80 ->Mittel

Datentransformation - Generalisierung

Datentransformation - Java-Snippet Node

3.3 Datensäuberung

Rohdaten sind oft Lückenhaft

Fehlerhaft oder wenig sorgfältig erfasste Daten

Fehlende Werte müssen aus verschiedenen Gründen

behandelt werden:

Data Mining-Verfahren können nicht mit fehlenden

Werten umgehen

Attribute mit überwiegend fehlenden Werten sind

nutzlos

Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln

Wie soll man mit fehlende Daten umgehen?

Spielt die Positionierung des Missing-Value Knoten eine Rolle?

Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag-

gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut „heart“ Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen

3.3 DatensäuberungAnwendungsempfehlungen (1/2)

Behandlung fehlender Werte:

Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll,

wenn die Klassifikation fehlt

wenn dies wenige Tupel betrifft

Entfernen des Attributes ist sinnvoll,

wenn dies viele Tupel betrifft

Anwendungsempfehlungen (2/2)

Manueller Nachtrag der fehlenden Werte

sehr zeitaufwendig

nur sinnvoll bei wenigen fehlenden Werten

Semantik der fehlenden Werte muss berücksichtigt werden

Vorhersage eines wahrscheinlichen Wertes

Lernen einer Klassifikation zur Vorhersage des betroffenen

Attributs

Daten-Training

Zu viel Training der Daten führt zu einem schlechteren Ergebnis

4. Schlussfolgerung

Der Bereich der Datenvorverarbeitung ist sehr vielfältig

Durch sie kann die Auswertung eines Datensatzes vereinfacht

und verbessert werden

Fehler werden in der Datenvorverarbeitung gesucht, erkannt

und bearbeitet

Mit der Software Knime kann die Datenvorverarbeitung sehr

gut und umfangreich gestaltet werden

Die Datenvorverarbeitung ist zur

Auswertung von Datensätzen

unumgänglich und äußerst wichtig!

Quellen

Althoff, Klaus-Dieter (2005)

„Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim

2005;URL:http://www.iis.uni-hildesheim.de/files/teaching/wintersemester20042005/

VorlesungWissensentdeckung/Resourcen/2004-weml-12.pdf, letzter Abruf: 05.06.2013

Reuter, Matthias (2004)

„Datenvorverarbeitung (Preprocessing)“, URL: http://www2.in.tu-clausthal.de/~reuter/fd.htm, letzter

Abruf: 05.06.2013

Werth, Oliver (2004/2005)

„Datenvorverarbeitung von nominalen Daten für DataMining“, http://www.ke.tu-

darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: 05.06.2013

Cleve, Jürgen (2011)

„DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59

Vielen Dank für Ihre Aufmerksamkeit!

Wir stehen Ihnen nun für weiterführende Fragen

zur Verfügung!

Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer...

Documents

Transcript of Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer...

Energie-Test von Android-Anwendungenst.inf.tu-dresden.de/files/teaching/ss12/kpss12android/2012_05_24.pdf · Fakultät Informatik Institut für Software- und Multimediatechnik - Lehrstuhl

Projektarbeit Datenvorverarbeitungcleve/vorl/projects/dm/ss13/Datenvorb/... · Die Projektarbeit im Modul Wissensextraktion / Data Mining im Sommersemester 2013 an der Hochschule

- Institut Software- und Multimediatechnik ...st.inf.tu-dresden.de/files/teaching/ss18/st/slides/32-st-complex-objects.pdf · P r o f. U. A ß m a n n 2 Softwaretechnologie (ST) Obligatorische

Neuronale Netze - Wettbewerbslernen Folie 1 Wissensextraktion mittels künstlicher neuronaler Netze Wettbewerbslernen Uwe Lämmel Wismar Business School.

Wissensmanagement UL - 1 - Wissensbasierte Systeme Wissensmanagement Prof. Dr. Jürgen Cleve Prof. Dr. Uwe Lämmel Prof. Dr. Reinhard Weck Wissensextraktion.

Infos - Startseite - Hochschule Wismarcleve/vorl/dmining14/fdm8bwM.pdf · 1 Einführung Wissensextraktion 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) 1.3.4 Datentransformation Datentransformation

Präsentieren wissenschaftlicher Arbeitens4560758/resources/... · 2016. 6. 10. · Fakultät Informatik Institut für Software- und Multimediatechnik, Lehrstuhl für Softwaretechnologie

- Institut Software- und Multimediatechnik ...st.inf.tu-dresden.de/files/teaching/ss18/st/slides/10-st-object... · Ein Objekt hat ein definiertes Verhalten mit Schnittstelle, Ein

40 . Earning Money with Software - st.inf.tu-dresden.dest.inf.tu-dresden.de/.../slides/40-earning-money-with-software-2x2.pdfFakult t Informatik, Institut f r Software- und Multimediatechnik,

Evaluation des Referendariats im Land Brandenburg ... · Evaluation des Referendariats im Land Brandenburg, Fachseminare Mathematik Wolfram Meyerhöfer, Clara Rienits Abstract: Wir

Vorwärts gerichtete Neuronale Netze Folie 1 Wissensextraktion mittels künstlicher neuronaler Netze Vorwärts gerichtete NN Uwe Lämmel Wismar Business School.

Data-Mining-Cup 2012 Fakultät für Wirtschaftswissenschaften Wirtschaftsinformatik Master Wissensextraktion SS12 Team 1 Annemarie Ulbricht, Ariane Kunst,

Fachbereich Informatik und Medien · B15 Multimedia-Engineering I 3 2 2 5 5 P FB VI B16 Multimediatechnik (Video) 3 2 2 5 5 P FB VI B17 Multimediatechnik (Audio) 3 2 2 5 5 P FB VI

Wissensextraktion / Data Mining - wi.hs-wismar.decleve/vorl/dmining14/dmcolorMaster.pdf · Wissensextraktion / Data Mining SS 2015 Prof. Dr. Jürgen Cleve Hochschule Wismar, akultätF

Wissensextraktion mittels künstlicher neuronaler Netze Vorwärts gerichtete NN

Wissensextraktion mittels künstlicher neuronaler Netze Einführung

- Institut Software- und Multimediatechnik ...st.inf.tu-dresden.de/files/teaching/ss19/st/slides/31-st-structure-driven-analysis.pdf · Element des Metamodells Klassen und weitere

LEF - Swissphotonics · 2017. 1. 27. · LEF-Team Peter Götz, Katrin Meyerhöfer, Stephanie Wiedenmann Bayerisches Laserzentrum GmbH +49 9131 85-23369 Konrad-Zuse-Straße 2-6 …

Vorlage für Experten und Expertinnen · 2012. 9. 14. · 2009 Qualifikationsverfahren Multimediaelektroniker / Multimediaelektronikerin Berufskenntnisse schriftlich Multimediatechnik

Softwarepraktikum WS 2011/2012 Gruppe 20 - Clowncollege Fakultät Informatik Institut für Software- und Multimediatechnik, Professur Softwaretechnologie.