Data Mining

Data Mining

Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-

Source Software KNIME

Vorgetragen von: Sina Maria Viehhofer

Sophie Wieckowski

Betreuer: Prof. Dr. Jürgen Cleve

Datum: 07.01.2013

Zur Veranstaltung Business Intelligence

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

2

Gliederung

1. Datenvorbereitung

2. Data Mining

- Clustering

- Klassifikation

- Assoziationsanalyse

3. Fazit


3

Datenvorbereitung

Vollständigkeit

Konsistenz

Überprüfung auf VollständigkeitErmittlung fehlender Werte mithilfe von kNN

Widersprüche identifizierenWenn möglich korrigierenggf. als fehlerhaft markieren

Datensatz Ergebnis Fr.13 WS Ergebnis Fr. 15 WS Ergebnis Fr. 23 WS22 2 60%62 5 33% 1 41%64 0 54%87 5 32%110 2 38%170 0 70190 0 54%


4

Detaillierungsgrad Detaillierungsgrad reduzierenFragen zusammenfassenAntwortmöglichkeiten zusammenfassen

TransformationUmwandlung in numerische Daten

Datenvorbereitung

Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 6 ErststudiumFrage 6.2 nominal Erststudium

Frage 13+14 (Arbeit und Stundenzahl) Frage 13 ArbeitFrage 22+23 (Fernseher und Stundenzahl) Frage 22 FernseherFrage 24+25 (Videospiele und Stundenzahl) Frage 24 VideospieleFrage 16 Antwortmöglichkeit WG in

Mietwohnung ergänzt


5

Gliederung


2. Data Mining

- Clustering

- Klassifikation


3. Fazit


6

Data MiningClustering

Keine sinnvollen Ergebnisse

Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen

k-Means


7

Data MiningKlassifikation

EntscheidungsbaumVergleich Decision Tree Learner – Node (Gini- Index, Gain-Ratio) mit dem J48-Node (C4.5-Algorithmus)

Fehlerfreiheit > 80 Prozent AttributFehlerfreiheit in Prozent

Erststudium 90,425

Studium an der Hochschule Wismar aufgrund der Empfehlung 84,043

Studium an der Hochschule Wismar aufgrund im Fragebogen nicht aufgeführter Gründe 96,17

Zur Hochschule mit der Bahn 95,745

Zur Hochschule mit dem Bus 94,681

Zur Hochschule mit dem Auto 81,915

Zur Hochschule mit dem Motorrad 98,936

Fortbewegung in Wismar mit dem Bus 92,553

Fortbewegung in Wismar mit dem Fahrrad 86,17


8


k- Nearest Neighbor

Überprüfung auf VollständigkeitErmittlung fehlender Wert emit Hilfe von kNN

Fehlerfreiheit Spanne von 25% bis 100%In Summe 61% Höchste Genauigkeit bei Multiple-Choice Fragen


9


Naive Bayes Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich

Attribut: Leistung Fehlerfreiheit 61%Distanz 74Durchschnittliche Distanz 1,17Fehlerfreiheit Gesamt: 63%

Sehr gut Gut Okay Mäßig Schlecht Weiß nicht

0102030405060708090

Naive Bayes Bestimmung des Attributs Leistung

GesamtBestimmt

Date

nsät

ze


10

Data MiningAssoziationsanalyse

A-Priori Interessantheitsmaße: Konfidenz + SupportAusgabe in Assoziationsregeln

Assoziationsregeln Bsp.: 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97)

2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS)

==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)


11

Gliederung


2. Data Mining

- Clustering

- Klassifikation


3. Fazit


12

Fazit

Algorithmus Durchschnittliche Fehlerfreiheit in Prozent

k-Means 0

k-Nearest Neighbor 61

NaiveBayes 63

C4.5 67

Apriori ----

Auswahl des richtigen Verfahrens von großer Bedeutung.Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist,

muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht.

Data Mining als unterstützendes Werkzeug

Danke für die Aufmerksamkeit

Data Mining

Documents

Transcript of Data Mining