Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data...

56
Oberseminar Data Mining Systeme und Tools zum Data Mining: RapidMiner Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Transcript of Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data...

Page 1: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data Mining

Systeme und Tools zum Data Mining: RapidMiner

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 2: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 2 von 56

Motivation

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 3: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 3 von 56

Inhalt

1 Das Projekt RapidMiner

2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 4: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 4 von 56 Das Projekt RapidMiner ä Entwicklung

Entwicklung

entwickelt an der Technischen Universitat Dortmunderschienen im Jahre 2001anfangs unter dem Namen YALE - (”Yet AnotherLearning Environment”) veroffentlicht2007 umbenannt in RapidMinerzu diesem Zeitpunkt Version 4.0seit Februar 2010 Version 5.0

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 5: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 5 von 56 Das Projekt RapidMiner ä Produktubersicht

Produktubersicht I

lizensiert unter der AGPL bzw. proprietarOpen-Souce-Softwareerhaltlich in der Community- oder Enterprise Editionkomplett in Java geschrieben und damit auf allengroßen Plattformen lauffahigbietet die Moglichkeit uber Java API von externenProgrammen genutzt zu werden

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 6: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 6 von 56 Das Projekt RapidMiner ä Produktubersicht

Produktubersicht IIUmgebung zum maschinellen Lernen und zurUmsetzung des KDD-Prozesses (insbesondere desData Minings)Realisierung mittels einer Reihe von Operatoren(z.Z. ca. 500 verschiedene), z.B.:

Algorithmen zum maschinellen LernenDatenvorverarbeitungsoperatorenMeta-OperatorenOperatoren zur VisualisierungOperatoren zum Im- und Export. . .

RapidMiner nutzt XML um Operatorbaumedarzustellen, die den KDD-Prozess modellieren

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 7: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 7 von 56 Das Projekt RapidMiner ä Produktubersicht

XML-Operatorbaum1 <?xml version= ” 1.0 ” encoding= ”UTF−8” standalone= ” no ” ?>2 <process version= ” 5.0 ”>3 <!−− [ . . . ] −−>4 <opera tor a c t i va t e d = ” t r ue ” c lass= ” process ” expanded= ” t rue ” name= ” Root ”>5 <process expanded= ” t rue ” he igh t= ” 541 ” width= ” 675 ”>6 <opera tor a c t i v a t e d = ” t r ue ” c lass= ” r e t r i e v e ” expanded= ” t r ue ” he igh t= ” 60

” name= ” Ret r ieve ” width= ” 90 ” x= ” 45 ” y= ” 30 ”>7 <parameter key= ” r e p o s i t o r y e n t r y ” value= ” . . / . . / data / Gol f ” />8 </ opera tor>9 <opera tor a c t i v a t e d = ” t r ue ” c lass= ” d e c i s i o n t r e e ” expanded= ” t r ue ”

he igh t= ” 76 ” name= ” Decis ionTree ” width= ” 90 ” x= ” 180 ” y= ” 30 ” />10 <connect from op= ” Ret r ieve ” f rom por t = ” output ” to op= ” Decis ionTree ”

t o p o r t = ” t r a i n i n g set ” />11 <connect from op= ” Decis ionTree ” f rom por t = ” model ” t o p o r t = ” r e s u l t 1 ” />12 <!−− [ . . . ] −−>13 </ process>14 </ opera tor>15 </ process>

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 8: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 8 von 56 Das Projekt RapidMiner ä Produktubersicht

Beispiel-Operatoren

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 9: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 9 von 56 Das Projekt RapidMiner ä Produktubersicht

Beispiel-Operatorkette

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 10: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 10 von 56 Funktionen

Uberblick

1 Das Projekt RapidMiner

2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 11: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 11 von 56 Funktionen ä Schnittstellen

Schnittstellen

3 Moglichkeiten zur Bedienung:Server Modus (Kommandozeile)uber Java API aus externen ProgrammenGUI Modus

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 12: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 12 von 56 Funktionen ä Schnittstellen

Server Modus

Voraussetzungen:Umgebungsvariable ”RAPIDMINER HOME“ aufVerzeichnis der Installation setzenoptional: PATH-Variable zu ”rapidminer.bat“ setzen

Beispiel: Datei TestProcess.rmp

Aufruf allg.: rapidminer [-f] Prozessname

am Beispiel: rapidminer -f TestProcess.rmp

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 13: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 13 von 56 Funktionen ä Schnittstellen

Einbindung in externes Programmimport com. rap idminer . Process ;import com. rap idminer . RapidMiner ;import com. rap idminer . opera tor . Operator ;import com. rap idminer . opera tor . OperatorExcept ion ;import com. rap idminer . opera tor . generator . ExampleSetGenerator ;import com. rap idminer . t o o l s . OperatorServ ice ;

public class ProcessCreator {

public s t a t i c void main ( S t r i n g [ ] argv ) {Process process = createProcess ( ) ;System . out . p r i n t l n ( process . getRootOperator ( ) . createProcessTree ( 0 ) ) ;

t ry {process . run ( ) ;

} catch ( OperatorExcept ion e ) {e . p r in tS tackTrace ( ) ;}}

/ / [ . . . ]

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 14: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 14 von 56 Funktionen ä Schnittstellen

Einbindung in externes Programm/ / [ . . . ]

public s t a t i c Process createProcess ( ) {RapidMiner . i n i t ( ) ;Process process = new Process ( ) ;t ry {

Operator inputOpera to r = OperatorServ ice . createOperator (ExampleSetGenerator . class ) ;

inpu tOpera tor . setParameter ( ” t a r g e t f u n c t i o n ” , ”sum c l a s s i f i c a t i o n ” ) ;process . getRootOperator ( ) . getSubprocess ( 0 ) . addOperator ( inputOpera to r ) ;

} catch ( Except ion e ) { e . p r in tS tackTrace ( ) ; }return process ;

}/∗ Ausgabe :∗∗ Process [ 0 ] ( Process )∗ subprocess ’ Main Process ’∗ +− Generate Data [ 0 ] ( Generate Data )∗ /

}

(Quelle: nach [RI09])

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 15: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 15 von 56 Funktionen ä Oberflache

Oberflache - Start

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 16: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 16 von 56 Funktionen ä Oberflache

Oberflache - Neuer Prozess

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 17: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 17 von 56 Funktionen ä Oberflache

Oberflache - Design Workspace

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 18: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 18 von 56 Funktionen ä Oberflache

Oberflache - Operatoren und Repositories

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 19: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 19 von 56 Funktionen ä Oberflache

Oberflache - Result Workspace

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 20: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 20 von 56 Funktionen ä Visualisierung

Visualisierung

es bestehen 3 Moglichkeiten der Visualisierung vonErgebnissen

Meta-Daten-Sicht (Meta Data View)Daten-Sicht (Data View)grafische Darstellungs-Sicht (Plot View)

bei der grafischen Darstellung besteht dieMoglichkeit diverse Visualisierung mittels 2D- und3D-Grafiken zu erzeugen

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 21: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 21 von 56 Funktionen ä Visualisierung

Beispiel - Meta Data View

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 22: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 22 von 56 Funktionen ä Visualisierung

Beispiel - Data View

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 23: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 23 von 56 Funktionen ä Visualisierung

Beispiel - Plot View (Pie)

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 24: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 24 von 56 Funktionen ä Visualisierung

Beispiel - Plot View (Pie 3D)

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 25: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 25 von 56 Funktionen ä Visualisierung

Beispiel - Plot View (Histogramm)

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 26: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 26 von 56 Funktionen ä Erweiterungsmoglichkeiten

Erweiterungsmoglichkeiten

RapidMiner bietet die Moglichkeit uberErweiterungen den Funktionsumfang zu vergroßernBeispiele fur Erweiterungen sind:

Weka ExtensionParallel ProcessingText ProcessingWeb MiningReporting ExtensionSeries ProcessingPMML

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 27: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 27 von 56 Funktionen ä Datenformate

Datenformate

Funktion FormateImport CSV, Excel, Access, BibTeX, Database,

DBase, URL, SPSS, AML, ARFF, XRFF,Stata, Sparse, C4.5, DasyLab

Export CSV, Excel, Access, AML, ARFF, XRFF,Database

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 28: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 28 von 56 KDD-Prozess

Uberblick

1 Das Projekt RapidMiner

2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 29: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 29 von 56 KDD-Prozess

Wiederholung KDD-Prozess

KDD = Knowledge Discovery in DatabasesSchritte:

1 Datenselektion und - extraktion2 Datenbereiningung und -transformation3 Data Mining4 Interpretation

Umsetzung in RapidMiner als Operatoren-Kette

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 30: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 30 von 56 KDD-Prozess ä KDD mit dem RapidMiner

Funktionsweise im RapidMiner

Austausch von IOObjects zwischen OperatorenDatenmenge als ExampleSet bezeichnet

entspricht TabelleExamples sind die ZeilenAttribute sind die Spalten

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 31: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 31 von 56 KDD-Prozess ä KDD mit dem RapidMiner

Attribute

Rollenregular attributesspecial attributes

IDLabelPredictionClusterWeightBatch

Typen(bi-/poly-)nominalnumericdatetext

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 32: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 32 von 56 KDD-Prozess ä KDD mit dem RapidMiner

Farbliche Markierung in GUI

Violett = ExampleSetGrun = ModelBraun =PerformanceVectorPink = Merkmalsgewicht

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 33: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 33 von 56 KDD-Prozess ä Datenselektion und -extraktion

Datenselektion und -extraktion

Import ausRepositoryverschiedenen Dateiformaten

Generierung von DatenAusgabe als ExampleSetSpeicherung im Repositorymoglich

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 34: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 34 von 56 KDD-Prozess ä Datenselektion und -extraktion

Lesen aus Datenbank

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 35: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 35 von 56 KDD-Prozess ä Datenbereiningung und -transformation

Datenbereiningung und -transformation

Umbennung, RollenzuweisungTypumwandlungTransformation von AttributenWertmodifikationDatenbereinigungFilterungSortierungRotationAggregationOperatoren (z.B. Joins)

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 36: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 36 von 56 KDD-Prozess ä Datenbereiningung und -transformation

Beispiel Data Cleansing

Operator: Replace Missing ValuesErsetzung fehlender Werte durch

MinimumMaximumDurchschnittNullWert

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 37: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 37 von 56 KDD-Prozess ä Datenbereiningung und -transformation

Vorverarbeitung als Subprozess

Vorverarbeitungsschritte als Subprozess gekapseltÔ bessere UbersichtUtility/Subprocess

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 38: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 38 von 56 KDD-Prozess ä Data Mining

Data Mining

KlassifikationAttributgewichtungClusteringAssoziationsanalyseKorrelationAhnlichkeitsberechnung

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 39: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 39 von 56 KDD-Prozess ä Data Mining

Beispiel Clustering

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 40: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 40 von 56 KDD-Prozess ä Interpretation

Interpretation

visuelle Darstellung in verschiedenen Graphen- undDiagrammtypenBewertung durch Benutzer

gefundene Muster beurteilenAussagekraft des Ergebnisses

evtl. erneutes Data Mining

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 41: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 41 von 56 KDD-Prozess

Produktprasentation

1 Allgemeine Ubersicht2 Warenkorbanalyse (FP-Growth)3 Clustering nach Einwohnerzahlen4 Text Mining

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 42: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 42 von 56 Weitere Werkzeuge von Rapid-I

Uberblick

1 Das Projekt RapidMiner

2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 43: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 43 von 56 Weitere Werkzeuge von Rapid-I ä RapidNet

RapidNet

Allgemein: Struktur- und Relations-Explorerzahlreiche Moglichkeiten zur Visualisierungbasiert auf Funktionen des RapidMinereinsatzfahig auf allen gangigen PlattformenMoglichkeiten

Strukturelle ClusteranalysenDarstellung von hierarchischen RelationenVisualisierung von geographischen Informationenauf Karten. . .

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 44: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 44 von 56 Weitere Werkzeuge von Rapid-I ä RapidNet

(Quelle: [RI10b])Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 45: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 45 von 56 Weitere Werkzeuge von Rapid-I ä RapidNet

(Quelle: [RI10b])

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 46: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 46 von 56 Weitere Werkzeuge von Rapid-I ä RapidSentilyzer

RapidSentilyzerdient zur automatischen Sammlung vonInformationenVerwendung von Crawling-Techniken in Kombinationmit Data- und Text Miningbasiert auf Funktionen des RapidMinerzentrale Zusammenfassung der Informationen imsogenannten ”RapidSentilyzer BuzzBoard“,bestehend aus:

Buzz StatisticsSentiment StatisticsSentiment HistorySentiment Insight

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 47: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 47 von 56 Weitere Werkzeuge von Rapid-I ä RapidSentilyzer

(Quelle: [RI10c])

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 48: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 48 von 56 Weitere Werkzeuge von Rapid-I ä RapidSentilyzer

(Quelle: [RI10c])

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 49: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 49 von 56 Weitere Werkzeuge von Rapid-I ä RapidAnalytics

RapidAnalytics

Open Source Enterprise Analytics Serverbasierend auf RapidMinerShared RepositoriesRemote und Scheduled ExecutionZugriff uber

RapidMiner Client SoftwareWeb-InterfaceWebservices

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 50: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 50 von 56 Weitere Werkzeuge von Rapid-I ä RapidAnalytics

(Quelle: [RIa])

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 51: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 51 von 56 Weitere Werkzeuge von Rapid-I ä RapidDoc

RapidDoc

automatische Klassifikation von TextenFunktionsweise

Basis: WebservicesTrainingstexte und vordef. Klassen vorgebenEinordnung neuer Text in wahrscheinlichste KlasseAngabe der Sicherheit der VorhersageNutzung der RapidMiner EngineOptimierung durch Rapid-I Mitarbeiter

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 52: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 52 von 56 Weitere Werkzeuge von Rapid-I ä RapidDoc

(Quelle: [RIb])

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 53: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 53 von 56 Zusammenfassung

Zusammenfassungmachtiges Open Source-Data Mining-Toolermoglicht gesamten KDD-Prozessviele Operatoren bereits vorhandenflexibel einsetz- und erweiterbarzahlreiche Visualisierungsvariatenweitere Moglichkeiten durch zusatzliche ToolsEinsatz z.B. bei

AllianzSiemensEADST-MobilePC-Ware

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 54: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 54 von 56

Quellen I

[RIa] RAPID-I: Rapid Analytics. http://rapid-i.com/component/option,com_docman/task,doc_download/gid,48/. –Zugriff: 22.04.2010

[RIb] RAPID-I: Rapid Doc. http://rapid-i.com/component/option,com_docman/task,doc_download/gid,49/. –Zugriff: 22.04.2010

[RIc] RAPID-I: RapidMiner Benutzerhandbuch. http://sourceforge.net/projects/yale/files/1.%20RapidMiner/5.0/rapidminer-5.0-manual-german.pdf/download. – Zugriff:09.05.2010

[RI09] RAPID-I: RapidMiner 4.4.http://ignum.dl.sourceforge.net/project/yale/1.%20RapidMiner/4.4/rapidminer-4.4-tutorial.pdf.Version: Marz 2009. – Zugriff: 18.04.2010

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 55: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 55 von 56

Quellen II[RI10a] RAPID-I: Rapid - I - RapidMiner.

http://rapid-i.com/content/view/181/190/.Version: April 2010. – Zugriff: 20.04.2010

[RI10b] RAPID-I: RapidNet. http://rapid-i.com/component/option,com_docman/task,doc_download/gid,50/.Version: Februar 2010. – Zugriff: 23.04.2010

[RI10c] RAPID-I: RapidSentilyzer. http://rapid-i.com/component/option,com_docman/task,doc_download/gid,51/.Version: Februar 2010. – Zugriff: 23.04.2010

[TU ] TU DORTMUND: Data Mining mit RapidMiner.http://www-ai.cs.uni-dortmund.de/LEHRE/VORLESUNGEN/KDD/SS09/RapidMiner.pdf. – Zugriff:22.04.2010

[Wik10] WIKIPEDIA: RapidMiner.http://de.wikipedia.org/wiki/RapidMiner. Version: April2010. – Zugriff: 18.04.2010

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010

Page 56: Oberseminar Data Mining - Startseite — HTWK Fakultät ... Data Mining Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Ricardo Hofmann, Matthias Neubert jLeipzig

Oberseminar Data MiningSysteme und Tools zum Data Mining: RapidMiner

Folie 56 von 56

Vielen Dank fur die Aufmerksamkeit!

Ricardo Hofmann, Matthias Neubert | Leipzig | 11. Mai 2010