Data Mining

13
Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software KNIME Vorgetragen von: Sina Maria Viehhofer Sophie Wieckowski Betreuer: Prof. Dr. Jürgen Cleve Datum: 07.01.2013 Zur Veranstaltung Business Intelligence

description

Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software KNIME. Zur Veranstaltung Business Intelligence. Vorgetragen von: Sina Maria Viehhofer Sophie Wieckowski Betreuer: Prof. Dr. Jürgen Cleve - PowerPoint PPT Presentation

Transcript of Data Mining

Page 1: Data Mining

Data Mining

Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-

Source Software KNIME

Vorgetragen von: Sina Maria Viehhofer

Sophie Wieckowski

Betreuer: Prof. Dr. Jürgen Cleve

Datum: 07.01.2013

Zur Veranstaltung Business Intelligence

Page 2: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

2

Gliederung

1. Datenvorbereitung

2. Data Mining

- Clustering

- Klassifikation

- Assoziationsanalyse

3. Fazit

Page 3: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

3

Datenvorbereitung

Vollständigkeit

Konsistenz

Überprüfung auf VollständigkeitErmittlung fehlender Werte mithilfe von kNN

Widersprüche identifizierenWenn möglich korrigierenggf. als fehlerhaft markieren

Datensatz Ergebnis Fr.13 WS Ergebnis Fr. 15 WS Ergebnis Fr. 23 WS22 2 60%62 5 33% 1 41%64 0 54%87 5 32%110 2 38%170 0 70190 0 54%

Page 4: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

4

Detaillierungsgrad Detaillierungsgrad reduzierenFragen zusammenfassenAntwortmöglichkeiten zusammenfassen

TransformationUmwandlung in numerische Daten

Datenvorbereitung

Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 6 ErststudiumFrage 6.2 nominal Erststudium

Frage 13+14 (Arbeit und Stundenzahl) Frage 13 ArbeitFrage 22+23 (Fernseher und Stundenzahl) Frage 22 FernseherFrage 24+25 (Videospiele und Stundenzahl) Frage 24 VideospieleFrage 16 Antwortmöglichkeit WG in

Mietwohnung ergänzt

Page 5: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

5

Gliederung

1. Datenvorbereitung

2. Data Mining

- Clustering

- Klassifikation

- Assoziationsanalyse

3. Fazit

Page 6: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

6

Data MiningClustering

Keine sinnvollen Ergebnisse

Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen

k-Means

Page 7: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

7

Data MiningKlassifikation

EntscheidungsbaumVergleich Decision Tree Learner – Node (Gini- Index, Gain-Ratio) mit dem J48-Node (C4.5-Algorithmus)

Fehlerfreiheit > 80 Prozent AttributFehlerfreiheit in Prozent

Erststudium 90,425

Studium an der Hochschule Wismar aufgrund der Empfehlung 84,043

Studium an der Hochschule Wismar aufgrund im Fragebogen nicht aufgeführter Gründe 96,17

Zur Hochschule mit der Bahn 95,745

Zur Hochschule mit dem Bus 94,681

Zur Hochschule mit dem Auto 81,915

Zur Hochschule mit dem Motorrad 98,936

Fortbewegung in Wismar mit dem Bus 92,553

Fortbewegung in Wismar mit dem Fahrrad 86,17

Page 8: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

8

Data MiningKlassifikation

k- Nearest Neighbor

Überprüfung auf VollständigkeitErmittlung fehlender Wert emit Hilfe von kNN

Fehlerfreiheit Spanne von 25% bis 100%In Summe 61% Höchste Genauigkeit bei Multiple-Choice Fragen

Page 9: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

9

Data MiningKlassifikation

Naive Bayes Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich

Attribut: Leistung Fehlerfreiheit 61%Distanz 74Durchschnittliche Distanz 1,17Fehlerfreiheit Gesamt: 63%

Sehr gut Gut Okay Mäßig Schlecht Weiß nicht

0102030405060708090

Naive Bayes Bestimmung des Attributs Leistung

GesamtBestimmt

Date

nsät

ze

Page 10: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

10

Data MiningAssoziationsanalyse

A-Priori Interessantheitsmaße: Konfidenz + SupportAusgabe in Assoziationsregeln

Assoziationsregeln Bsp.: 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97)

2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS)

==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)

Page 11: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

11

Gliederung

1. Datenvorbereitung

2. Data Mining

- Clustering

- Klassifikation

- Assoziationsanalyse

3. Fazit

Page 12: Data Mining

Data Mining – Untersuchung der Direktstudenten im Bereich WirtschaftSina Viehhofer; Sophie Wieckowski

12

Fazit

Algorithmus Durchschnittliche Fehlerfreiheit in Prozent

k-Means 0

k-Nearest Neighbor 61

NaiveBayes 63

C4.5 67

Apriori ----

Auswahl des richtigen Verfahrens von großer Bedeutung.Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist,

muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht.

Data Mining als unterstützendes Werkzeug

Page 13: Data Mining

Danke für die Aufmerksamkeit