Data Mining
description
Transcript of Data Mining
Data Mining
Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-
Source Software KNIME
Vorgetragen von: Sina Maria Viehhofer
Sophie Wieckowski
Betreuer: Prof. Dr. Jürgen Cleve
Datum: 07.01.2013
Zur Veranstaltung Business Intelligence
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
2
Gliederung
1. Datenvorbereitung
2. Data Mining
- Clustering
- Klassifikation
- Assoziationsanalyse
3. Fazit
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
3
Datenvorbereitung
Vollständigkeit
Konsistenz
Überprüfung auf VollständigkeitErmittlung fehlender Werte mithilfe von kNN
Widersprüche identifizierenWenn möglich korrigierenggf. als fehlerhaft markieren
Datensatz Ergebnis Fr.13 WS Ergebnis Fr. 15 WS Ergebnis Fr. 23 WS22 2 60%62 5 33% 1 41%64 0 54%87 5 32%110 2 38%170 0 70190 0 54%
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
4
Detaillierungsgrad Detaillierungsgrad reduzierenFragen zusammenfassenAntwortmöglichkeiten zusammenfassen
TransformationUmwandlung in numerische Daten
Datenvorbereitung
Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 6 ErststudiumFrage 6.2 nominal Erststudium
Frage 13+14 (Arbeit und Stundenzahl) Frage 13 ArbeitFrage 22+23 (Fernseher und Stundenzahl) Frage 22 FernseherFrage 24+25 (Videospiele und Stundenzahl) Frage 24 VideospieleFrage 16 Antwortmöglichkeit WG in
Mietwohnung ergänzt
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
5
Gliederung
1. Datenvorbereitung
2. Data Mining
- Clustering
- Klassifikation
- Assoziationsanalyse
3. Fazit
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
6
Data MiningClustering
Keine sinnvollen Ergebnisse
Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen
k-Means
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
7
Data MiningKlassifikation
EntscheidungsbaumVergleich Decision Tree Learner – Node (Gini- Index, Gain-Ratio) mit dem J48-Node (C4.5-Algorithmus)
Fehlerfreiheit > 80 Prozent AttributFehlerfreiheit in Prozent
Erststudium 90,425
Studium an der Hochschule Wismar aufgrund der Empfehlung 84,043
Studium an der Hochschule Wismar aufgrund im Fragebogen nicht aufgeführter Gründe 96,17
Zur Hochschule mit der Bahn 95,745
Zur Hochschule mit dem Bus 94,681
Zur Hochschule mit dem Auto 81,915
Zur Hochschule mit dem Motorrad 98,936
Fortbewegung in Wismar mit dem Bus 92,553
Fortbewegung in Wismar mit dem Fahrrad 86,17
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
8
Data MiningKlassifikation
k- Nearest Neighbor
Überprüfung auf VollständigkeitErmittlung fehlender Wert emit Hilfe von kNN
Fehlerfreiheit Spanne von 25% bis 100%In Summe 61% Höchste Genauigkeit bei Multiple-Choice Fragen
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
9
Data MiningKlassifikation
Naive Bayes Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich
Attribut: Leistung Fehlerfreiheit 61%Distanz 74Durchschnittliche Distanz 1,17Fehlerfreiheit Gesamt: 63%
Sehr gut Gut Okay Mäßig Schlecht Weiß nicht
0102030405060708090
Naive Bayes Bestimmung des Attributs Leistung
GesamtBestimmt
Date
nsät
ze
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
10
Data MiningAssoziationsanalyse
A-Priori Interessantheitsmaße: Konfidenz + SupportAusgabe in Assoziationsregeln
Assoziationsregeln Bsp.: 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97)
2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS)
==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
11
Gliederung
1. Datenvorbereitung
2. Data Mining
- Clustering
- Klassifikation
- Assoziationsanalyse
3. Fazit
Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski
12
Fazit
Algorithmus Durchschnittliche Fehlerfreiheit in Prozent
k-Means 0
k-Nearest Neighbor 61
NaiveBayes 63
C4.5 67
Apriori ----
Auswahl des richtigen Verfahrens von großer Bedeutung.Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist,
muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht.
Data Mining als unterstützendes Werkzeug
Danke für die Aufmerksamkeit