Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte...

35
Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik – Lehrstuhl Technische Informationssysteme Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den 15.01.2009

Transcript of Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte...

Page 1: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl Technische Informationssysteme

Vortragender: Jia MuBetreuer: Dipl.-Inf. Denis SteinDresden, den 15.01.2009

Page 2: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 2 von 29

Gliederung

1. Einordnung der Data-Mining-Verfahren

2. Data-Mining-Verfahren

3. Data-Mining-Werkzeuge

4. Zusammenfassung

Page 3: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 3 von 29

Gliederung

1. Einordnung der Data-Mining-Verfahren1.1 Verschiedene Einordnungen in der Literatur1.2 Meine Klassifikation

1.2.1 Statistische Verfahren1.2.2 Maschinelles Lernen

2. Data-Mining-Verfahren

3. Data-Mining-Werkzeuge

4. Zusammenfassung

Page 4: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur

a. Nach Otte, Otte und Kaiser „DataMining für die industrielle Praxis“:

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 4 von 29

Page 5: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

b. Nach Krahl, Windheuser und Zick „Data Mining Einsatz in der Praxis“:

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 5 von 29

1. Einordnung der Data-Mining-Verfahren

Page 6: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

1.2 Meine Klassifikation:

Regression Korrelationsanal. Entscheidungsbäume AssoziationDiskriminanzanal. Faktoranalyse k-means Clustering k-nächste-Nachbarn Varianzanalyse Clusteranalyse usw. usw.Kontingenzanalyse

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 6 von 29

Data-Mining

Statistische Verfahren

maschinelles Lernen

Prüfende Verfahren

EntdeckendeVerfahren

Unüberwachtes Lernen

Überwachtes Lernen

1. Einordnung der Data-Mining-Verfahren

Page 7: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

1.2.1 Statistische Verfahren:a. Prüfende Analyseverfahren:

-Um die genaue Regel herauszufinden-Verfahren für verschiedene Wertebereiche der unabhängigen Variablen:

Regressionsanalyse und Diskriminanzanalyse: metrisch (Zahlen, Vergleiche)Varianzanalyse und Kontingenzanalyse : nominal (Aufzählungen)

- hier betrachtet: lineare Regressionsanalyse

b. Entdeckende Analyseverfahren:-Abhängigkeit testen (Korrelationsanalyse)-Reduzierung von Variablen (Faktoranalyse)-Gruppierung (Clusteranalyse)-hier betrachtet: lineare Korrelationsanalyse

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 7 von 29

1. Einordnung der Data-Mining-Verfahren

Page 8: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

1.2.2 Maschinelles Lernena. Überwachtes Lernen

z.B.: Klassifikation-basiert auf einem Klassifikator

Ein Klassifikator ist ein System, welches Objekte in vorgegebene Kategorie eingeordnet. (Quelle: Krahl, Windheuser und Zick „Data Mining Einsatz in der Praxis“)

-Verfahren: neuronale Netze, Entscheidungsbäume, Regelinduktion,k nächste Nachbarn usw.

-hier betrachtet: k nächste Nachbarn

b. Unüberwachtes Lernen-Entdeckung interessanter Strukturen in einem noch unstrukturierten Datenbestand-Verfahren: Assoziationen, neuronale Netze, demographisches Clustern,

k-means-Clustering usw.-hier betrachtet: k-means-Clustering

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 8 von 29

1. Einordnung der Data-Mining-Verfahren

Page 9: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 9 von 29

1. Einordnung der Data-Mining-Verfahren

2. Data-Mining-Verfahren2.1 Korrelationsanalyse2.2 Regressionsanalyse2.3 k nächste Nachbarn2.4 k-means-Clustering2.5 Vergleich

3. Data-Mining-Werkzeuge

4. Zusammenfassung

Gliederung

Page 10: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

2. Data-Mining-Verfahren2.1 Lineare Korrelationsanalyse:

a. Ziel: Untersuchung der Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe.

b. Korrelationskoeffizient r und Bestimmtheitsmaß r2

- r und r2 sind Parameter zum Test der linearen Abhängigkeit.- Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt:

Wertebreich:

Ein Beispiel werde ich nach der Vorstellung der linearen Regressionsanalyse angeben.

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 10 von 29

Page 11: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

2. Data-Mining-Verfahren2.2 Lineare Regressionsanalyse:a. Ziel: Bestimmung eines Modells für die Abhängigkeit zwischen

Zufallsvariablen x und y.

b. Parameter:y = a + b * x a, b : zu berechnende Parameter

x, y : Zufallsvariablen

c. Berechnung der Parameter a und b:

1.Testen mit der lin. Korrelationsanalyse, ob x und y linear abhängig sind.

2.Berechnung der Parameter a und b :

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 11 von 29

Page 12: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 12 von 29

Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse:

Aufgabe:

x y

1 2

2 3.5

3 6.5

4 8.5

5 10

2. Data-Mining-Verfahren

Page 13: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 13 von 29

2. Data-Mining-Verfahren

Page 14: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

2. Data-Mining-Verfahren2.3 k nächste Nachbarn:

a.Ziel : Klassifizieren von Daten mit Hilfe eines Modells

b. Idee : Zuordnung analog der k nächsten Nachbarn.

Quelle: Krahl, Windheuser und Zick “Data Mining: Einsatz in der Praxis“

c.Schritte: 1. Bestimmung des Parameters k (Anzahl der zu betrachtenden Nachbarn)2. Berechnung der Distanz zwi. zu klassifizierendem Objekt und allen Daten.3. Sortieren dieser Distanzen.4. Auswahl der ersten k Daten

Finden der Gruppe,zu der die meisten Daten gehören.5. Das zu klassifizierende Objekt gehört zu dieser Gruppe.

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 14 von 29

Page 15: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

d. Beispiel: (Quelle: Kardi Teknomo „KNN Numerical Example“)

-Aufgabe:Eine Fabrik produziert Papier. Mittels einer Umfrage hat sie eine Gruppierung der derzeitigen Produkte gemacht. Jetzt produziert sie ein neues Papier und möchte dieses Produkt klassifizieren.

-Input:Daten (Gruppierung der alten Produkten):

Zu klassifizierendes Objekt (neues Produkt) :X1 = 3, X2 = 7 (3,7)

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 15 von 29

2. Data-Mining-Verfahren

Page 16: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

-Klassifizierung mit KNN:1.wähle k = 32.Berechnung der Distanz zwi. zu klassifizierendes Objekt und die Daten

3. Sortieren dieser Distanzen und finden 3 nähesten Daten

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 16 von 29

2. Data-Mining-Verfahren

Page 17: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

2. Data-Mining-Verfahren4. Finden der Gruppe, zu der die meisten 3 nähesten Daten gehören.

Das zu klassifizierendes Objekt hat 2 Nachbarn, die zu Good Gruppe gehören, und 1 Nachbar, der zu Bad Gruppe gehört. Deswegen gehört das zu klassifizierende Objekt zu der Gruppe Good.

- Output:X1=3 , X2=7 , Y=Good (3,7,Good)

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 17 von 29

Page 18: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

2.4 k-means-Clustering:a. Ziel : Klassifizierung der Daten ohne vorhandenes Modell

b. Idee : Vergleich des Datenbestandes mit ausgewählten Repräsentanten

c. Schritte:1.Auswahl von k Repräsentanten.

Diese Repräsentanten sollten möglichst repräsentativ sein.

2.Zuordnung der Objekten.Ordnen Objekte mit großer Ähnlichkeit den Repräsentanten zu.

Iter.

3.Anpassung der RepräsentantenVergleich der Repräsentanten und Objekte, dann ggf. Auswahl besserer Repräsentanten.

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 18 von 29

2. Data-Mining-Verfahren

Page 19: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

2. Data-Mining-Verfahrend.Beispiel:

Quelle: Krahl, Windheuser und Zick „Data Mining: Einsatz in der Praxis“

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 19 von 29

Page 20: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

2.5 Vergleich:a. lin. Regression und lin. Korrelation:

-Häufig benutzt in vielen Bereichen (z.B.: Signalverarbeitung)-Beschränkungen ist auch deutlich (z.B.: die Kurve)-Es gibt noch Multiple Regression.

b. k nächste Nachbarn:-Einfach zu implementieren-Aber man muss ein schon klassifiziertes Modell haben.-Bestimmung von k nach Erfahrungen.

c. k-means-Clustering:-Das am längsten eingesetzte Verfahren zur Segmentierung.(Quelle: Krahl, Windheuser und Zick „Data Mining: Einsatz in der Praxis“)

-Viele Abwandlungen und Variationen-Problem: die Bestimmung von k ist schwer.-Um optimale k zu bekommen mehrere Durchläufe

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 20 von 29

2. Data-Mining-Verfahren

Page 21: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 21 von 29

1. Einordnung der Data-Mining-Verfahren

2. Data-Mining-Verfahren

3. Data-Mining-Werkzeuge3.1 Allgemein3.2 RapidMiner3.3 Knime3.4 Gait-CAD3.5 Vergleich

4. Zusammenfassung

Gliederung

Page 22: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

3.Data-Mining-Werkzeuge3.1 Allgemein:

-Auswahl kommerzieller Data-Mining-Werkzeuge (teilweise nicht weiterentwickelt):

Data Cockpit (DeltaMaster)Knowledge StudioNeuroModelEnterprise 6D-MinerIBM Intelligent MinerPolyanalyst von MetaputerDataEngine von MITSAS Enterprise MinerSPSS Clementine

-Auswahl hier betrachteter freier Data-Mining-Werkzeuge:Rapidminer (1. Platz bei KDNuggets)Knime (4. Platz bei KDNuggets)Gait-CAD

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 22 von 29

Page 23: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

3.Data-Mining-Werkzeuge3.2 RapidMiner:

-Ein Data-Mining-Tool von RAPID-I in Dortmund (vorher YALE genannt, Uni Dortmund)

-Java-Applikation (plattformunabhängig), weka-kompatibelweka : Waikato Environment for Knowledge Analysis

-Community-Version ist kostenlos

-ca. 150 unterstützte Verfahren: Entscheidungsbäume und RegellernerLazy LearnersBayes'sche LernerLogistische LernerGauss'sche Prozesse Meta LearningAssociation Rule MiningClusteringund mehr

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 23 von 29

Page 24: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

3.Data-Mining-Werkzeuge3.3 KNIME:

-Ein Data-Mining-Tool von der Universität Konstanz

-Eine Eclipse-RCP-Anwendung, weka-kompatibelweka : Waikato Environment for Knowledge Analysis

-Base Version ist kostenlos

-ca. 100 bis 150 unterstützte Verfahren für data I/O, preprocessing, cleansing, modelling, analysis und data mining ,various interactive views usw.

- API, d.h.: Man kann eigene Programm darauf schreiben.

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 24 von 29

Page 25: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

3.Data-Mining-Werkzeuge3.4 Gait-CAD:

-Ein Data-Mining-Tool vom Forschungszentrum Karlsruhe

-Eine MATLAB-TOOLBOX

-Kostenlos, open source

-ca. 50 Algorithmen zur Lösung von Data-Mining-Problemen:Datentupelselektion, Merkmalsextraktion, Merkmalsbewertung und –selektion, Merkmalstransformation, überwachte bzw. unüberwachte Klassifikation, Validierung

-Update sehr langsam (letztes Update im Januar 2008)

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 25 von 29

Page 26: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

3.Data-Mining-Werkzeuge3.5 Vergleich:-RapidMiner:

Die beste Graphendarstellungsfähigkeit.Vorgehensweise ist nicht bequem.Dokumentation für DM-Algorithmen ist nicht gut.Erweiterbarkeit ist gut. (API)

-KNIME:Graphendarstellung ist nicht so gut, aber geht.Vorgehensweise ist sehr bequem.Gut dokumentiert.Erweiterbarkeit ist gut. (API)

-Gait-CAD:Graphendarstellung ist schlecht.Vorgehensweise ist nicht bequem.weil auf MATLAB basiert, z.B.: für Elektrotechniker sehr gut.

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 26 von 29

Page 27: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 27 von 29

1. Einordnung der Data-Mining-Verfahren

2. Data-Mining-Verfahren

3. Data-Mining-Werkzeuge

4. Zusammenfassung

Gliederung

Page 28: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

4.Zusammenfassung

- Data-Mining-Klassifikation vorgestellt, um eine Übersicht über alle Data-Mining-Verfahren zu geben.

- 4 Verfahren aus verschiedenen Data-Mining-Verfahren beispielhaft erklärt.lin. Regression und Korrelation, k nächste Nachbarn und k-means-Clustering.

- 3 Werkzeuge kurz gezeigt, um praktische Übersicht zu geben.

- 3 Werkzeuge verglichen.

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 28 von 29

Page 29: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

Literaturverzeichnis

[1] Otte, Otte, Kaiser, “Data Mining für die industrielle Praxis“,ISBN 3-446-22465-3

[2] Krahl, Windheuser, Zick, “Data Mining Einsatz in der Praxis“,ISBN 3-8273-1349-X

[3] Teknomo, “KNN Numerical Example (hand computation) “,http://people.revoledu.com/kardi/tutorial/KNN/KNN_Numerical-example.htmlStand: 13.01.2009

[4] Wikipedia, “Regressionsanalyse“, http://de.wikipedia.org/wiki/RegressionsanalyseStand: 13.01.2009

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 29 von 29

Page 30: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

FRAGEN?

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 30 von 29

Page 31: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

DANKESCHÖN!

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 31 von 29

Page 32: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

Berechnung eines Korrelationskoeffizientenr = 0 : kein Zusammenhang

-1<- r ->1 : stärkere lineare Abhängigkeit

- Häufig wird Bestimmtheitsmaß r2 statt r benutzt.r2 = r * rr2 = 0 : kein Zusammenhang r2 -> 1 : stark linear abhängig

- Berechnung von r

x,y : Zufallsvariablen : Anzahl der Stichprobenr : Korrelationskoeffizient

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 32 von 29

Page 33: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

Berechnung der lin. Regressionsparameter

y = a + bx a,b : zu berechnende Parameterx,y : Zufallsvariablen

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 33 von 29

Page 34: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

Beispiel für Lin. Korrelation und Regressionc. Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse:

1. Korrelationsanalyse: 2. Regressionsanalyse:

3. Ergebnis:y = -0,2 + 2,1x

mitr = 0,99327 oder r2 = 0,9866

r2 = 0,9866

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 34 von 29

Page 35: Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl

Kurze Erklärung zu Entscheidungsbäumen- Ist eine spezielle Darstellungsform von Entscheidungsregeln

- Knoten : Abfrage der Attribute, Treffen der EntscheidungBlatt : Ein Knoten, an dem es keine weitere Verzweigung gibt.

- Schritt : 1. An jedem Knoten wird ein Attribut abgefragt 2. Entscheidung3. Wiederholung dieses Prozess bis dem Erreichen eines Blatt

- Beispiel: <35 >35

<40000 >40000 <50000 >50000

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 35 von 29

Alter

Gehalt Gehalt

Bezahlung schlecht

Bezahlung schlecht

Bezahlung gut

Bezahlung gut