Data Mining Studie 2013 | Praxistest & Benchmarking€¦ · RapidMiner fälschlicherweise als...

mayato® GmbH | T +49 30.4174.8657 | F +49 30.4174.8658 | [email protected] | www.mayato.com

Data Mining Studie 2013 | Praxistest & Benchmarking

Seite  2

4.3    Rapid-I: RapidMiner 5.3 / R

RapidMiner  zählt  zu  den  bekanntesten  Open Source  Data  Mining  Tools.  Mit  der  aktuellen Version 5.3 der kostenlosen Community-Edition  wird  eine  breite  Palette  an  Funktionen  bereit-gestellt,  die  seit  der  Version  5.0  über  eine grundlegend überarbeitete Benutzeroberfläche  angeboten  wird.  Die  Software  deckt  alle  An-wendungsbereiche  des  Data  Minings  ab  und ist im Funktionsumfang vergleichbar mit klassi-schen Data-Mining-Suiten. 

Das  umfangreiche  Repertoire  an  Funktionen kann durch Extensions noch erweitert werden. So  kann RapidMiner  z.B. um Text Mining, Zeit-reihenanalysen und Web-Schnittstellen ergänzt werden.  Zusätzlich  kann  man  weitere  Open-Source-Produkte  wie Weka  und  R  über  Exten-sions integrieren.

Neben der Community-Edition wird RapidMiner auch  in  den  kostenpflichtigen  Enterprise-  und Big-Data-Varianten angeboten. Sie enthalten un-ter Anderem zusätzliche Funktionen wie einen  SAP-Connector,  eine  Hadoop  Integration  (Big Data) oder In-Database-Mining. Außerdem sind Service,  Support  und  Maintenance  durch  den Hersteller enthalten. 

Zur unternehmensweiten Bereitstellung von Re-ports und Analysen wird zusätzlich das Produkt  Rapid  Analytics  bereitgestellt.  Durch  das  ge-meinsam  genutzte  Repository  des  Rapid  Ana-lytics Server kann RapidMiner in Arbeitsgruppen besser genutzt werden und Analyseergebnisse können  Fachanwendern  über  das  Web  bereit-gestellt werden.

4.3.1   Bedienkonzept & Nutzeroberfläche

RapidMiner lässt sich innerhalb weniger Minuten  unter Windows installieren. Für andere Betriebs-systeme wie OS X oder Linux ist ein plattform-übergreifendes Java-Paket verfügbar. Das Instal- lationspaket  bringt  alles  Notwendige  mit,  so-dass keine zusätzlichen Anpassungen oder  Ins-tallationen notwendig sind. 

Nach  dem  Öffnen  des  Programms  wird  der  Benutzer  mit  einem  Startbildschirm  begrüßt. Von hier aus  können neue Analyseprozesse er-stellt werden oder bestehende geladen werden. Am  oberen  Bildschirmrand  befinden  sich  wie gewohnt die Menüleiste und eine Symbolleiste für häufig verwendete Funktionen. RapidMiner ist durchgängig in englischer Sprache gehalten und nicht in Deutsch verfügbar.

Die Benutzeroberfläche setzt sich aus zwei vor-definierten  Perspektiven  zusammen:  „Design Perspective“  und  „Results  Perspective“.  Beide  Perspektiven  sind Sammlungen von  jeweils  se-paraten  Fenstern,  die  unterschiedliche  Infor-mationen  und  Funktionen  enthalten.  In  der „Design  Perspective“  wird  ein  Analyseprozess aufgebaut,  dessen  Ergebnisse  anschließend  in der  „Results  Perspective“  untersucht  und  gra-fisch  aufbereitet  werden  können.  Extensions können weitere Perspektiven erzeugen: So zum Beispiel  die  „R  Extension“,  deren  Perspektive eine eigene R-Konsole enthält.

© mayato® GmbH | Alle Rechte vorbehalten.


Seite  3

[Abb. 28]: Ausgangsbildschirm eines leeren Analyseprozesses in der „Design Perspective“



Seite  4

Zentrale  Komponente  der  „Design  Perspec-tive“ ist die „Process“-Komponente [siehe Abb. 28], auf der der Analyseprozess grafisch erstellt wird.  Ein  Analyseprozess  besteht  aus  „Input-Ports“  für  eingehende  Daten,  „Output-Ports“ für  Ergebnisse  und  ausgehende  Daten  sowie einzelnen  Operatoren.  Alle  drei  Komponenten werden  durch  gerichtete  Kanten  (Pfeile)  mit- einander  verbunden.  Operatoren  stellen  ein-zelne  Verarbeitungsschritte  im  Data-Mining- Prozess,  vom  Dateneinlesen  bis  zur  Modellie-rung, dar.  Sie verfügen ebenfalls über „Input-“ und „Output-Ports“ und können über diese mit-einander  verbunden  werden:  So  entsteht  der Datenfluss.

Die Operatoren  sind  thematisch  in  Kategorien eingeteilt in einer Baumstruktur am linken Bild-schirmrand verfügbar. Jeweils im Kontext eines ausgewählten Operators werden Einstellungen und  eine  Hilfe  rechts  des  Analyseprozesses  in zwei  weiteren  Fenstern  angezeigt.  Ein  kleines Übersichtsfenster hilft bei der Navigation über den  gesamten  Analyseprozess,  während  eine zusätzliche Log-Komponente Statusmeldungen und Probleme auflistet, die bei der Ausführung des Prozesses auftreten.

Ein  neues  Unterstützungsmerkmal  in  RapidMi-ner  bei  der  Gestaltung  von  Analyseprozessen ist  die  Bereitstellung  von  Metadaten.  Zu  den Metadaten  zählen  Datensatzinformationen wie die Anzahl von Variablen und Zeilen, sowie  Beschreibungen der einzelnen Variablen: Rolle,  Typ,  Wertebereich  und  fehlende  Werte.  Jeder  Operator  informiert  den  Benutzer  in-nerhalb  der  „Design  Perspective“,  also  noch bevor  der  Prozess  ausgeführt wurde,  über  die voraussichtliche  Struktur  der  Daten  nach  Ab-schluss  des  Verarbeitungsschrittes.  Die  Meta- informationen  werden  von  Operator  zu  Ope- rator weitergetragen und so mit jedem Arbeits-schritt transformiert. 

Dadurch  lassen  sich  prinzipiell  auch  größere Analyseprozesse  gestalten,  ohne  den  Prozess wiederholt ausführen zu müssen, um Zwischen-ergebnisse  zu  inspizieren.  Die  Umsetzung  ist jedoch noch nicht ganz ausgereift: So werden u.a. die Metainformationen zum Wertebereich bei  der  Verwendung  einer  Aggregation  nicht transformiert. 

Auch  Operatoren  der  „R-Extension“  (siehe  letztes  Unterkapitel  „Integration  von  R  in  RapidMiner“ dieses Kapitels) sorgen bei ihrer  Anwendung  für  einen  Verlust  der  Meta- information. Für einen kompletten Verzicht auf das  Inspizieren  von  Zwischenergebnissen  und Testen  von  Operatoren,  wie  von  RapidMiner in  der  Produktbeschreibung  beworben,  reicht die  Metadatentransformation  in  der  aktuellen  Version somit noch nicht.

Zur  zentralen  Verwaltung  von  Prozessen  und Daten wird  in   RapidMiner ein Repository   be-nutzt. Der Benutzer wird nach der  Installation zum  Anlegen  des  Repositories  aufgefordert, welches lokal auf der Festplatte abgelegt wird. Neben  den  Analyseprozessen  selbst  können auch die Ergebnisse von Analysen oder Daten- aufbereitungen  im  Repository  gespeichert  werden. Während der Gestaltung von neuen Analyseprozessen kann dann auf bestehende Objekte  –  und  die  enthaltenen  Metainforma-tionen – im Repository mit wenigen Klicks zuge-griffen werden. Nachdem  ein  Analyseprozess  aus  Operato-ren  erstellt  und  mit  dem  „Output-Port“  der „Process“-Komponente verbunden wurde, kann der Prozess ausgeführt werden. Nach der Aus-führung  wechselt  RapidMiner  in  die  „Results Perspective“.  Hier  wird  für  jeden  Datenfluss, der mit einem „Output-Port“ verbunden wurde, ein  Ergebnis-Reiter  angezeigt.  Im  zusätzlichen „Result-Overview“-Reiter wird eine Historie der 



Seite  5

Ausgaben  gespeichert,  die  Ergebnisse  vorhe-riger Ausführungen erneut anzeigt. Je nach Art des Ergebnisses stehen verschiedene Ansichten zur  Verfügung,  wie  z.B.  Datenansicht,  Meta- datenansicht oder die grafische Aufbereitung.

Das gesamte Bedienkonzept sowie Grundlagen zum Data Mining werden  ausführlich  und  ein-steigerfreundlich  im  Benutzerhandbuch,  das auch  auf  Deutsch  verfügbar  ist,  dargestellt.  Für  den  Umgang  mit  der  grafischen  Ausgabe wird  eine  weitere  auf  English  gehaltene  An-leitung  bereitgestellt.  Video-Tutorials  auf  der Website des Herstellers helfen dabei, sich einen schnellen  Überblick  über  die  Software  zu  ver-schaffen. 

Innerhalb der Software  ist die Online-Hilfe der wichtigste  Anlaufpunkt  für  den  Anwender.  Sie  wurde mit  der  Version  5.3  zu  großen  Tei-len überarbeitet und bietet zu den Operatoren eine  angemessene  Einführung  sowie  Verweise auf Tutorials. Tiefergehende Hinweise zu einzel-nen Parametern oder sinnvollen Werten bei de-ren Einstellung werden jedoch kaum gegeben.  Eine gute Anlaufstelle bei Schwierigkeiten und Fehlern mit der Software  ist das Online-Forum von RapidMiner – es wird aktiv von Entwicklern und erfahrenen Anwendern betreut.

4.3.2  Datenmanagement

RapidMiner  bietet  19  unterschiedliche  Im-port-Operatoren  zum  Laden  von  Quelldaten.  Darunter  sind Operatoren  zum  Lesen  von  Flat Files (Excel, CSV und XML), Datenbanken sowie Dateiformate  verschiedener  bekannter  Anbie-ter  von Data-Mining-Software  (z.B.  SPSS,  Stata und SAS).

Unsere  Testdaten  lesen  wir  über  den  „Read-CSV“-Operator  ein.  Der  Operator  erlaubt  die 

Konfiguration  der  Parameter  zum  Einlesen sowohl  von  Hand  als  auch  durch  einen  Assis-tenten.  Auf  beiden Wegen muss  zunächst  der  Speicherort  der  Datei  und  die  Art  der  Sepa-rierung  der  einzelnen  Datensätze  angegeben  werden. Der  Assistent  beinhaltet  jedoch  nicht alle  Einstellungsmöglichkeiten  –  z.B.  fehlt  das Dezimaltrennzeichen. 

Während  der  Assistent  automatisch  die  Vari-ablennamen  aus  der  ersten  Zeile  liest  und  für jede Variable ein Datentyp vorschlägt, muss der Benutzer bei manueller Konfiguration diese Auf-gabe von Hand übernehmen. Da der Assistent aber  nicht  alle  Konfigurationsmöglichkeiten  bietet,  bleibt  für den Nutzer  am Ende nur die aufwändige Kombination aus beiden Wegen.

Beim Einlesen unseres Datensatzes wurden alle numerischen  Variablen  sowie  das  Datum  von RapidMiner  fälschlicherweise  als  nominal  er-kannt [siehe Abb.29]. Dieser Umstand lässt sich in  RapidMiner pro Variable  zwar  schnell  behe-ben, doch bei hohen Variablenanzahlen mit fal-schem Skalenniveau  ist die Anpassung unnötig zeitaufwendig. Hier wünscht sich der Benutzer einen  flexibleren  Dialog  und  eine  treffsichere automatische Erkennung der Datenformate. 

Die  eingelesenen  Daten  können  anschließend umfangreich für die unterschiedlichen Analyse- methoden  aufbereitet  werden.  RapidMiner stellt  hierzu  115  Operatoren  unter  der  Kate- gorie „Data Transformation“ bereit – selbst ge-übte Analysten müssen  sich also zunächst ein-gehend mit allen Operatoren beschäftigen, um je  nach  Aufgabe  den  richtigen  auszuwählen. Dies  wird  mittels  einer  Suchfunktion  unter-stützt. 

Bevor  mit  der  Modellierung  begonnen  wird, sollte  sich  der  Analyst  ein  Bild  von  den Daten machen. So können Ausreißer,  fehlende Werte  



Seite  6

oder  ungünstige  Verteilungen  in  Variablen  erkannt  und  bei  der Modellierung  berücksich-tigt oder behoben werden. Im Vergleich zu an-deren Data-Mining-Suiten bietet RapidMiner zur  Datenexploration  keinen  expliziten  Operator, der  die  wichtigsten  Aspekte  der  Exploration in  sich  vereint.  Stattdessen  werden  bei  jeder Ausgabe  eines  Datensatzes  auf  der  „Results Perspective“ eine Zusammenfassung der Meta- informationen („Meta Data View“) zu jeder Va-riable  mit  Mittelwert,  Standardabweichung,  Wertebereich  und  fehlenden  Werten  ange-zeigt. In der „Data View“ lässt sich der gesamte  

Datensatz  anzeigen,  sortieren  sowie  nach  fehlenden Werten filtern. 

Die  grafische  Exploration  wird  durch  den  „Plot  Viewer“  und  „Advanced  Charts“  ermög-licht.  Ersterer  zeichnet  sich  durch  31  vordefi-nierte  Grafiken  aus;  darunter  Histogramme, Scatter-  und  Box-Plots  sowie  diverse  3D-Plots. Zwischen  einzelnen  Plots  und  Variablen  lässt sich  einfach  wechseln,  und  auch  Plots  mit mehreren Variablen gleichzeitig werden unter- stützt.  Die  Anpassung  der  Plots  ist  jedoch stark  eingeschränkt.  Vor  allem  die  Skalen  und  

[Abb. 29]: „Read-CSV“-Operator in RapidMiner



Seite  7

Beschriftungen  der  Achsen  lassen  sich  nicht ändern;  die  Skala  des  Box-Plots  bspw.  zeigt nur  die wissenschaftliche  Notation  und  bietet keinerlei  Möglichkeiten,  die  üblichen  Parame-ter  eines  Boxplots  einzustellen  [siehe  Abb.30]. Für den Analysten ist der Boxplot in dieser Form nur sehr eingeschränkt brauchbar.

Für individuelle Grafi ken, die sich in Berichten und Präsentationen  verwenden  lassen,  bieten  sich „Advanced Charts“ an. Hier lassen sich über ein vorgegebenes  Konfi gurationsraster  unterschied-liche Grafi ken aus den vorhandenen Variablen er-stellen. So können die Variablen neben der Ver-wendung auf X- und Y-Achse auch in den Dimen-sionen Farbe, Form und Größe für Datenpunkte verwendet werden. Über eine stufenlose Zoom-

Funktion lassen sich einzelne Ausschnitte in den Grafi ken leicht untersuchen. Auch Beschriftungen, Farbschemata, die  Legende  und  weitere  allge-meine Aspekte der Grafi k lassen sich bearbeiten. 

Die grafi sche Ausgabe von RapidMiner pendelt zwischen  zwei  Extremen:  Grundlegende  Aus-gaben, die für nicht mehr als einen ersten Daten-überblick verwendet werden können und  indi-viduellen Ausgaben, die viel Zeit bei der Einar-beitung und Konfi guration kosten. Wünschens-werte,  vorbereitete  Standardausgaben  sind  in RapdiMiner nicht enthalten.

[Abb. 30]: Boxplot im RapidMiner



Seite  8

Ein  weiterer  Aspekt  der  Datenexploration  ist die Untersuchung des Datensatzes auf Korrela- tionen. Da das Ergebnis einer linearen Regres-sion  durch  Korrelationen  zwischen  Eingangs-variablen verzerrt werden kann, ist eine solche Untersuchung ratsam. 

Der Operator  „Correlation Matrix“ erleichtert  bei Datensätzen mit vielen Variablen das Auf-finden  solcher  Korrelationen.  Er  kann  ohne weitere  Konfiguration  auf  den  Datensatz  an- gewendet  werden.  In  der  von  ihm  ausge- gebenen  Matrix  werden  hohe  Korrelations-werte  farblich markiert  und  fallen  so  leichter auf  [siehe  Abb.  31].  Auch  eine  Tabelle mit  al-len  Variablen-Paaren  kann  nach  dem  Korrela-tionswert  sortiert  werden.  So  lassen  sich  die  „Top-Scorer“ in den Korrelationswerten schnell identifizieren.

4.3.3  Entwicklung eines Regressions-       modells

Die  Datensätze  der  vorliegenden  Fallstudie liegen  für  eine  lineare  Regression  bereits  im korrekten  Format  vor  und  sind  entsprechend aufbereitet.  Bevor  die  Regression  ausgeführt werden  kann,  benötigt  RapidMiner  noch  die Information, welche  Rollen  die  einzelnen  Vari-ablen einnehmen. Hierzu gibt es den Operator „Set  Role“.  Die  Variable  „Installationen_iOS“  erhält die vordefinierte Rolle „label“ und ist da-mit  als  Zielvariable  definiert.  Für  die  Variable „DatumZeit“  wird  die  vordefinierte  Rolle  „ID“ vergeben. Alle Variablen ohne Rolle gelten au-tomatisch als Eingangsvariablen der Regression.

[Abb. 31]: „Correlation Matrix“ im RapidMiner



Seite  9

Der Operator für die lineare Regression findet sich wie erwartet in der Kategorie „Modeling“ unter den Verfahren für Klassifizierung und Regression. An seinem „Input-Port“ erwartet der Operator den  Datensatz (in RapidMiner ExampleSet genannt). Die  Eingangsvariablen werden  unmittelbar  auf eine  numerische  Ausprägung  geprüft;  ist  z.B. eine  nominale  Variable  enthalten,  meldet  der Operator  einen  Fehler  und  bietet  direkt  einen „Quick  Fix“  an.  In  diesem  Fall  würde  RapidMi-ner  automatisch  einen Operator  zur  Umwand-lung der nominalen in eine numerische Variable  anbieten. 

Wurde  der  Regressions-Operator  mit  dem  Da-tenfluss verbunden, kann er über insgesamt fünf  Parameter konfiguriert werden, wovon drei nur im  Expertenmodus  sichtbar  sind.  Der  bedeu-tendste  Parameter  „Feature  Selection“  bietet vier verschiedene automatische Auswahlmetho-den, um nur die relevanten Variablen des Daten-satzes  in  die  Regression  einzubeziehen.  Aller-dings werden alle vier Verfahren nicht näher in 

der Online-Hilfe beschrieben und so bleibt dem Benutzer nur das Ausprobieren. 

Standardmäßig ist das Verfahren „M5-Prime“ ein- gestellt, das selbstständig unbedeutende Varia- blen ausschließt. Für Benutzer, die zum ersten Mal mit einer Regression arbeiten, kann dies verwir-rend sein, da nicht alle eingegebenen Variablen im Ergebnis auftauchen. Ist keine „Feature Selec-tion“ erwünscht, muss der Benutzer sie im Exper-tenmodus explizit ausschalten. 

Der  Regressions-Operator  hat  insgesamt  drei „Output-Ports“, über die Daten nach der Verarbei- tung  folgende Daten weitergeben werden:  den unveränderten Datensatz [siehe Abb. 33], das Re-gressionsmodell [siehe Abb. 34] und die Gewichte der Attribute. Die Ausführung der Regression dau-ert erwartungsgemäß kaum mehr als eine Sekun-de. Sind alle drei Ausgänge der Regression mit den „Output-Ports“ des Analyseprozesses verbunden, werden dem Analysten alle drei Ergebnisse auf se-paraten Reitern der „Results Perspective“ angezeigt. 

[Abb. 32]: Aufbau einer linearen Regression  und „Forward Selection“



Seite  10

Das  Regressionsmodell  enthält  wichtige  Maß-zahlen  wie  z.B.  die  Regressionskoeffizienten.  Die Bewertung der statistischen Signifikanz ein-zelner Variablen erleichtert RapidMiner,  indem  in einer Spalte „Coding“ zwischen null und fünf  

Sternen pro Variable angegeben werden, wobei  Variablen ohne Stern als nicht signifikant gelten.  Alle drei Ausgaben lassen sich jedoch nicht nur in  der „Results Perspective“ ausgeben, sondern auch  innerhalb des Datenflusses weiterverarbeiten.

[ Obere Abb. 33 ]: Datenansicht auf der „Results Perspective“ 

[ Untere Abb. 34 ]: Ausgabe des Modells der Linearen Regression

Data Mining Studie 2013 | Praxistest & Benchmarking€¦ · RapidMiner fälschlicherweise als...

Documents

Transcript of Data Mining Studie 2013 | Praxistest & Benchmarking€¦ · RapidMiner fälschlicherweise als...