Data Mining Studie 2013 | Praxistest & Benchmarking€¦ · RapidMiner fälschlicherweise als...
Transcript of Data Mining Studie 2013 | Praxistest & Benchmarking€¦ · RapidMiner fälschlicherweise als...
mayato® GmbH | T +49 30.4174.8657 | F +49 30.4174.8658 | [email protected] | www.mayato.com
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 2
4.3 Rapid-I: RapidMiner 5.3 / R
RapidMiner zählt zu den bekanntesten Open Source Data Mining Tools. Mit der aktuellen Version 5.3 der kostenlosen Community-Edition wird eine breite Palette an Funktionen bereit-gestellt, die seit der Version 5.0 über eine grundlegend überarbeitete Benutzeroberfläche angeboten wird. Die Software deckt alle An-wendungsbereiche des Data Minings ab und ist im Funktionsumfang vergleichbar mit klassi-schen Data-Mining-Suiten.
Das umfangreiche Repertoire an Funktionen kann durch Extensions noch erweitert werden. So kann RapidMiner z.B. um Text Mining, Zeit-reihenanalysen und Web-Schnittstellen ergänzt werden. Zusätzlich kann man weitere Open-Source-Produkte wie Weka und R über Exten-sions integrieren.
Neben der Community-Edition wird RapidMiner auch in den kostenpflichtigen Enterprise- und Big-Data-Varianten angeboten. Sie enthalten un-ter Anderem zusätzliche Funktionen wie einen SAP-Connector, eine Hadoop Integration (Big Data) oder In-Database-Mining. Außerdem sind Service, Support und Maintenance durch den Hersteller enthalten.
Zur unternehmensweiten Bereitstellung von Re-ports und Analysen wird zusätzlich das Produkt Rapid Analytics bereitgestellt. Durch das ge-meinsam genutzte Repository des Rapid Ana-lytics Server kann RapidMiner in Arbeitsgruppen besser genutzt werden und Analyseergebnisse können Fachanwendern über das Web bereit-gestellt werden.
4.3.1 Bedienkonzept & Nutzeroberfläche
RapidMiner lässt sich innerhalb weniger Minuten unter Windows installieren. Für andere Betriebs-systeme wie OS X oder Linux ist ein plattform-übergreifendes Java-Paket verfügbar. Das Instal- lationspaket bringt alles Notwendige mit, so-dass keine zusätzlichen Anpassungen oder Ins-tallationen notwendig sind.
Nach dem Öffnen des Programms wird der Benutzer mit einem Startbildschirm begrüßt. Von hier aus können neue Analyseprozesse er-stellt werden oder bestehende geladen werden. Am oberen Bildschirmrand befinden sich wie gewohnt die Menüleiste und eine Symbolleiste für häufig verwendete Funktionen. RapidMiner ist durchgängig in englischer Sprache gehalten und nicht in Deutsch verfügbar.
Die Benutzeroberfläche setzt sich aus zwei vor-definierten Perspektiven zusammen: „Design Perspective“ und „Results Perspective“. Beide Perspektiven sind Sammlungen von jeweils se-paraten Fenstern, die unterschiedliche Infor-mationen und Funktionen enthalten. In der „Design Perspective“ wird ein Analyseprozess aufgebaut, dessen Ergebnisse anschließend in der „Results Perspective“ untersucht und gra-fisch aufbereitet werden können. Extensions können weitere Perspektiven erzeugen: So zum Beispiel die „R Extension“, deren Perspektive eine eigene R-Konsole enthält.
© mayato® GmbH | Alle Rechte vorbehalten.
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 3
[Abb. 28]: Ausgangsbildschirm eines leeren Analyseprozesses in der „Design Perspective“
mayato® GmbH | T +49 30.4174.8657 | F +49 30.4174.8658 | [email protected] | www.mayato.com
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 4
Zentrale Komponente der „Design Perspec-tive“ ist die „Process“-Komponente [siehe Abb. 28], auf der der Analyseprozess grafisch erstellt wird. Ein Analyseprozess besteht aus „Input-Ports“ für eingehende Daten, „Output-Ports“ für Ergebnisse und ausgehende Daten sowie einzelnen Operatoren. Alle drei Komponenten werden durch gerichtete Kanten (Pfeile) mit- einander verbunden. Operatoren stellen ein-zelne Verarbeitungsschritte im Data-Mining- Prozess, vom Dateneinlesen bis zur Modellie-rung, dar. Sie verfügen ebenfalls über „Input-“ und „Output-Ports“ und können über diese mit-einander verbunden werden: So entsteht der Datenfluss.
Die Operatoren sind thematisch in Kategorien eingeteilt in einer Baumstruktur am linken Bild-schirmrand verfügbar. Jeweils im Kontext eines ausgewählten Operators werden Einstellungen und eine Hilfe rechts des Analyseprozesses in zwei weiteren Fenstern angezeigt. Ein kleines Übersichtsfenster hilft bei der Navigation über den gesamten Analyseprozess, während eine zusätzliche Log-Komponente Statusmeldungen und Probleme auflistet, die bei der Ausführung des Prozesses auftreten.
Ein neues Unterstützungsmerkmal in RapidMi-ner bei der Gestaltung von Analyseprozessen ist die Bereitstellung von Metadaten. Zu den Metadaten zählen Datensatzinformationen wie die Anzahl von Variablen und Zeilen, sowie Beschreibungen der einzelnen Variablen: Rolle, Typ, Wertebereich und fehlende Werte. Jeder Operator informiert den Benutzer in-nerhalb der „Design Perspective“, also noch bevor der Prozess ausgeführt wurde, über die voraussichtliche Struktur der Daten nach Ab-schluss des Verarbeitungsschrittes. Die Meta- informationen werden von Operator zu Ope- rator weitergetragen und so mit jedem Arbeits-schritt transformiert.
Dadurch lassen sich prinzipiell auch größere Analyseprozesse gestalten, ohne den Prozess wiederholt ausführen zu müssen, um Zwischen-ergebnisse zu inspizieren. Die Umsetzung ist jedoch noch nicht ganz ausgereift: So werden u.a. die Metainformationen zum Wertebereich bei der Verwendung einer Aggregation nicht transformiert.
Auch Operatoren der „R-Extension“ (siehe letztes Unterkapitel „Integration von R in RapidMiner“ dieses Kapitels) sorgen bei ihrer Anwendung für einen Verlust der Meta- information. Für einen kompletten Verzicht auf das Inspizieren von Zwischenergebnissen und Testen von Operatoren, wie von RapidMiner in der Produktbeschreibung beworben, reicht die Metadatentransformation in der aktuellen Version somit noch nicht.
Zur zentralen Verwaltung von Prozessen und Daten wird in RapidMiner ein Repository be-nutzt. Der Benutzer wird nach der Installation zum Anlegen des Repositories aufgefordert, welches lokal auf der Festplatte abgelegt wird. Neben den Analyseprozessen selbst können auch die Ergebnisse von Analysen oder Daten- aufbereitungen im Repository gespeichert werden. Während der Gestaltung von neuen Analyseprozessen kann dann auf bestehende Objekte – und die enthaltenen Metainforma-tionen – im Repository mit wenigen Klicks zuge-griffen werden. Nachdem ein Analyseprozess aus Operato-ren erstellt und mit dem „Output-Port“ der „Process“-Komponente verbunden wurde, kann der Prozess ausgeführt werden. Nach der Aus-führung wechselt RapidMiner in die „Results Perspective“. Hier wird für jeden Datenfluss, der mit einem „Output-Port“ verbunden wurde, ein Ergebnis-Reiter angezeigt. Im zusätzlichen „Result-Overview“-Reiter wird eine Historie der
© mayato® GmbH | Alle Rechte vorbehalten.
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 5
Ausgaben gespeichert, die Ergebnisse vorhe-riger Ausführungen erneut anzeigt. Je nach Art des Ergebnisses stehen verschiedene Ansichten zur Verfügung, wie z.B. Datenansicht, Meta- datenansicht oder die grafische Aufbereitung.
Das gesamte Bedienkonzept sowie Grundlagen zum Data Mining werden ausführlich und ein-steigerfreundlich im Benutzerhandbuch, das auch auf Deutsch verfügbar ist, dargestellt. Für den Umgang mit der grafischen Ausgabe wird eine weitere auf English gehaltene An-leitung bereitgestellt. Video-Tutorials auf der Website des Herstellers helfen dabei, sich einen schnellen Überblick über die Software zu ver-schaffen.
Innerhalb der Software ist die Online-Hilfe der wichtigste Anlaufpunkt für den Anwender. Sie wurde mit der Version 5.3 zu großen Tei-len überarbeitet und bietet zu den Operatoren eine angemessene Einführung sowie Verweise auf Tutorials. Tiefergehende Hinweise zu einzel-nen Parametern oder sinnvollen Werten bei de-ren Einstellung werden jedoch kaum gegeben. Eine gute Anlaufstelle bei Schwierigkeiten und Fehlern mit der Software ist das Online-Forum von RapidMiner – es wird aktiv von Entwicklern und erfahrenen Anwendern betreut.
4.3.2 Datenmanagement
RapidMiner bietet 19 unterschiedliche Im-port-Operatoren zum Laden von Quelldaten. Darunter sind Operatoren zum Lesen von Flat Files (Excel, CSV und XML), Datenbanken sowie Dateiformate verschiedener bekannter Anbie-ter von Data-Mining-Software (z.B. SPSS, Stata und SAS).
Unsere Testdaten lesen wir über den „Read-CSV“-Operator ein. Der Operator erlaubt die
Konfiguration der Parameter zum Einlesen sowohl von Hand als auch durch einen Assis-tenten. Auf beiden Wegen muss zunächst der Speicherort der Datei und die Art der Sepa-rierung der einzelnen Datensätze angegeben werden. Der Assistent beinhaltet jedoch nicht alle Einstellungsmöglichkeiten – z.B. fehlt das Dezimaltrennzeichen.
Während der Assistent automatisch die Vari-ablennamen aus der ersten Zeile liest und für jede Variable ein Datentyp vorschlägt, muss der Benutzer bei manueller Konfiguration diese Auf-gabe von Hand übernehmen. Da der Assistent aber nicht alle Konfigurationsmöglichkeiten bietet, bleibt für den Nutzer am Ende nur die aufwändige Kombination aus beiden Wegen.
Beim Einlesen unseres Datensatzes wurden alle numerischen Variablen sowie das Datum von RapidMiner fälschlicherweise als nominal er-kannt [siehe Abb.29]. Dieser Umstand lässt sich in RapidMiner pro Variable zwar schnell behe-ben, doch bei hohen Variablenanzahlen mit fal-schem Skalenniveau ist die Anpassung unnötig zeitaufwendig. Hier wünscht sich der Benutzer einen flexibleren Dialog und eine treffsichere automatische Erkennung der Datenformate.
Die eingelesenen Daten können anschließend umfangreich für die unterschiedlichen Analyse- methoden aufbereitet werden. RapidMiner stellt hierzu 115 Operatoren unter der Kate- gorie „Data Transformation“ bereit – selbst ge-übte Analysten müssen sich also zunächst ein-gehend mit allen Operatoren beschäftigen, um je nach Aufgabe den richtigen auszuwählen. Dies wird mittels einer Suchfunktion unter-stützt.
Bevor mit der Modellierung begonnen wird, sollte sich der Analyst ein Bild von den Daten machen. So können Ausreißer, fehlende Werte
mayato® GmbH | T +49 30.4174.8657 | F +49 30.4174.8658 | [email protected] | www.mayato.com
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 6
oder ungünstige Verteilungen in Variablen erkannt und bei der Modellierung berücksich-tigt oder behoben werden. Im Vergleich zu an-deren Data-Mining-Suiten bietet RapidMiner zur Datenexploration keinen expliziten Operator, der die wichtigsten Aspekte der Exploration in sich vereint. Stattdessen werden bei jeder Ausgabe eines Datensatzes auf der „Results Perspective“ eine Zusammenfassung der Meta- informationen („Meta Data View“) zu jeder Va-riable mit Mittelwert, Standardabweichung, Wertebereich und fehlenden Werten ange-zeigt. In der „Data View“ lässt sich der gesamte
Datensatz anzeigen, sortieren sowie nach fehlenden Werten filtern.
Die grafische Exploration wird durch den „Plot Viewer“ und „Advanced Charts“ ermög-licht. Ersterer zeichnet sich durch 31 vordefi-nierte Grafiken aus; darunter Histogramme, Scatter- und Box-Plots sowie diverse 3D-Plots. Zwischen einzelnen Plots und Variablen lässt sich einfach wechseln, und auch Plots mit mehreren Variablen gleichzeitig werden unter- stützt. Die Anpassung der Plots ist jedoch stark eingeschränkt. Vor allem die Skalen und
[Abb. 29]: „Read-CSV“-Operator in RapidMiner
© mayato® GmbH | Alle Rechte vorbehalten.
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 7
Beschriftungen der Achsen lassen sich nicht ändern; die Skala des Box-Plots bspw. zeigt nur die wissenschaftliche Notation und bietet keinerlei Möglichkeiten, die üblichen Parame-ter eines Boxplots einzustellen [siehe Abb.30]. Für den Analysten ist der Boxplot in dieser Form nur sehr eingeschränkt brauchbar.
Für individuelle Grafi ken, die sich in Berichten und Präsentationen verwenden lassen, bieten sich „Advanced Charts“ an. Hier lassen sich über ein vorgegebenes Konfi gurationsraster unterschied-liche Grafi ken aus den vorhandenen Variablen er-stellen. So können die Variablen neben der Ver-wendung auf X- und Y-Achse auch in den Dimen-sionen Farbe, Form und Größe für Datenpunkte verwendet werden. Über eine stufenlose Zoom-
Funktion lassen sich einzelne Ausschnitte in den Grafi ken leicht untersuchen. Auch Beschriftungen, Farbschemata, die Legende und weitere allge-meine Aspekte der Grafi k lassen sich bearbeiten.
Die grafi sche Ausgabe von RapidMiner pendelt zwischen zwei Extremen: Grundlegende Aus-gaben, die für nicht mehr als einen ersten Daten-überblick verwendet werden können und indi-viduellen Ausgaben, die viel Zeit bei der Einar-beitung und Konfi guration kosten. Wünschens-werte, vorbereitete Standardausgaben sind in RapdiMiner nicht enthalten.
[Abb. 30]: Boxplot im RapidMiner
mayato® GmbH | T +49 30.4174.8657 | F +49 30.4174.8658 | [email protected] | www.mayato.com
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 8
Ein weiterer Aspekt der Datenexploration ist die Untersuchung des Datensatzes auf Korrela- tionen. Da das Ergebnis einer linearen Regres-sion durch Korrelationen zwischen Eingangs-variablen verzerrt werden kann, ist eine solche Untersuchung ratsam.
Der Operator „Correlation Matrix“ erleichtert bei Datensätzen mit vielen Variablen das Auf-finden solcher Korrelationen. Er kann ohne weitere Konfiguration auf den Datensatz an- gewendet werden. In der von ihm ausge- gebenen Matrix werden hohe Korrelations-werte farblich markiert und fallen so leichter auf [siehe Abb. 31]. Auch eine Tabelle mit al-len Variablen-Paaren kann nach dem Korrela-tionswert sortiert werden. So lassen sich die „Top-Scorer“ in den Korrelationswerten schnell identifizieren.
4.3.3 Entwicklung eines Regressions- modells
Die Datensätze der vorliegenden Fallstudie liegen für eine lineare Regression bereits im korrekten Format vor und sind entsprechend aufbereitet. Bevor die Regression ausgeführt werden kann, benötigt RapidMiner noch die Information, welche Rollen die einzelnen Vari-ablen einnehmen. Hierzu gibt es den Operator „Set Role“. Die Variable „Installationen_iOS“ erhält die vordefinierte Rolle „label“ und ist da-mit als Zielvariable definiert. Für die Variable „DatumZeit“ wird die vordefinierte Rolle „ID“ vergeben. Alle Variablen ohne Rolle gelten au-tomatisch als Eingangsvariablen der Regression.
[Abb. 31]: „Correlation Matrix“ im RapidMiner
© mayato® GmbH | Alle Rechte vorbehalten.
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 9
Der Operator für die lineare Regression findet sich wie erwartet in der Kategorie „Modeling“ unter den Verfahren für Klassifizierung und Regression. An seinem „Input-Port“ erwartet der Operator den Datensatz (in RapidMiner ExampleSet genannt). Die Eingangsvariablen werden unmittelbar auf eine numerische Ausprägung geprüft; ist z.B. eine nominale Variable enthalten, meldet der Operator einen Fehler und bietet direkt einen „Quick Fix“ an. In diesem Fall würde RapidMi-ner automatisch einen Operator zur Umwand-lung der nominalen in eine numerische Variable anbieten.
Wurde der Regressions-Operator mit dem Da-tenfluss verbunden, kann er über insgesamt fünf Parameter konfiguriert werden, wovon drei nur im Expertenmodus sichtbar sind. Der bedeu-tendste Parameter „Feature Selection“ bietet vier verschiedene automatische Auswahlmetho-den, um nur die relevanten Variablen des Daten-satzes in die Regression einzubeziehen. Aller-dings werden alle vier Verfahren nicht näher in
der Online-Hilfe beschrieben und so bleibt dem Benutzer nur das Ausprobieren.
Standardmäßig ist das Verfahren „M5-Prime“ ein- gestellt, das selbstständig unbedeutende Varia- blen ausschließt. Für Benutzer, die zum ersten Mal mit einer Regression arbeiten, kann dies verwir-rend sein, da nicht alle eingegebenen Variablen im Ergebnis auftauchen. Ist keine „Feature Selec-tion“ erwünscht, muss der Benutzer sie im Exper-tenmodus explizit ausschalten.
Der Regressions-Operator hat insgesamt drei „Output-Ports“, über die Daten nach der Verarbei- tung folgende Daten weitergeben werden: den unveränderten Datensatz [siehe Abb. 33], das Re-gressionsmodell [siehe Abb. 34] und die Gewichte der Attribute. Die Ausführung der Regression dau-ert erwartungsgemäß kaum mehr als eine Sekun-de. Sind alle drei Ausgänge der Regression mit den „Output-Ports“ des Analyseprozesses verbunden, werden dem Analysten alle drei Ergebnisse auf se-paraten Reitern der „Results Perspective“ angezeigt.
[Abb. 32]: Aufbau einer linearen Regression und „Forward Selection“
mayato® GmbH | T +49 30.4174.8657 | F +49 30.4174.8658 | [email protected] | www.mayato.com
Data Mining Studie 2013 | Praxistest & Benchmarking
Seite 10
Das Regressionsmodell enthält wichtige Maß-zahlen wie z.B. die Regressionskoeffizienten. Die Bewertung der statistischen Signifikanz ein-zelner Variablen erleichtert RapidMiner, indem in einer Spalte „Coding“ zwischen null und fünf
Sternen pro Variable angegeben werden, wobei Variablen ohne Stern als nicht signifikant gelten. Alle drei Ausgaben lassen sich jedoch nicht nur in der „Results Perspective“ ausgeben, sondern auch innerhalb des Datenflusses weiterverarbeiten.
[ Obere Abb. 33 ]: Datenansicht auf der „Results Perspective“
[ Untere Abb. 34 ]: Ausgabe des Modells der Linearen Regression
mayato® GmbH | Am Borsigturm 9 | 13507 Berlin | T +49 30.4174.8658 | [email protected] | www.mayato.com