Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... ·...

15
Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev Hochschule für Angewandte Wissenschaften Hamburg Hamburg University of Applied Sciences Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science

Transcript of Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... ·...

Page 1: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

 

 

 

 

 

 

 

 

 

 

 

 

 

Data Mining

Ausarbeitung im Rahmen der Ringvorlesung „Next Media“

Xenia Sataev

Hochschule für Angewandte Wissenschaften Hamburg

Hamburg University of Applied Sciences

Fakultät Technik und Informatik Department Informatik

Faculty of Engineering and Computer Science Department of Computer Science

Page 2: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

Inhaltsverzeichnis

1   Einleitung .......................................................................................................... 1  

2   Begriffsbestimmung und Anwendungsgebiete .............................................. 2  

2.1   KDD-Prozess .............................................................................................. 3  

2.2   Datentypen und Anwendungsgebiete ......................................................... 4  

3   Methoden des Data Mining ............................................................................. 6  

3.1   Clusteranalyse ............................................................................................. 6  

3.2   Klassifikation .............................................................................................. 7  

3.3   Assoziationsanalyse .................................................................................... 7  

3.4   Ausreißeranalyse ......................................................................................... 7  

4   Verfahren für spezielle Datentypen ............................................................... 8  

4.1   Text Mining ................................................................................................ 9  

4.2   Web Mining ................................................................................................ 9  

5   Fazit und Ausblick ......................................................................................... 10  

Literaturverzeichnis ............................................................................................... 12  

Page 3: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

1 Einleitung

1

1 Einleitung

Im Zeitalter der Digitalisierung werden immer mehr Daten in den unterschied-

lichsten Lebensbereichen gespeichert. Kaufverhalten in Supermärkten oder Onli-

neshops, Kriminalitätsdaten, Muster im Telefonierverhalten oder die Nutzung

sozialer Medien sind nur einige Beispiele von Daten, die sich tagtäglich vervielfa-

chen. „,We are living in the information age’ is a popular saying; however, we are actually living in the data age. Terabytes or petabytes of data pour into our computer net-works, the World Wide Web (WWW), and various data storage devices every day from business“ (Han et al. 2012: 1).

Das Bewusstsein für das Potenzial der Erkenntnisse, die aus den Daten gewonnen

werden können und damit die Auseinandersetzung mit diesen, ist in den letzten

Jahren stark gestiegen. Neben großen Unternehmen haben mittlerweile auch ver-

mehrt kleine und mittelständische Unternehmen sowohl die Kapazität, die Daten

zu speichern, als auch vereinzelt Experten, die diese zu nützlichem Wissen verar-

beiten können. Auch staatliche Organisationen, Behörden, Polizei oder Kranken-

häuser machen sich Daten von Bürgern, Verbrechen oder Patienten zunutze.

Fayyad definiert Data Mining als „[...] one of the central activities associated with

understanding, navigating, and exploiting the new world of digital data“ (Fayyad

2001: 62). Im folgenden wird der Begriff Data Mining näher betrachtet und im Zusammen-

hang mit dem Knowledge Discovery Process (KDD) vorgestellt. Des Weiteren

werden unterschiedliche Datentypen und Anwendungsgebiete von Data Mining

behandelt. Kapitel 3 gibt einen Überblick über einige der zahlreichen Methoden

des Data Mining. Anschließend werden zwei Verfahren für spezielle Datentypen

betrachtet: Das Text und das Web Mining. Letztlich wird in Kapitel 5 die Arbeit

resümiert und Problemfelder des Data Mining thematisiert.

Page 4: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

2 Begriffsbestimmung und Anwendungsgebiete

2

2 Begriffsbestimmung und Anwendungsgebiete

Der Begriff Data Mining wurde in den 90er Jahren geprägt. „Während man im

Bergbau, zum Beispiel beim Coal Mining, die Kohle sucht, und abbaut, will man

im Data Mining nicht die Daten ,abbauen‘, sondern man sucht nach Schätzen, die

in den Daten verborgen sind“ (Cleve/ Lämmel 2014: 2).

Data Mining bezeichnet den Prozess, Korrelationen und Strukturen1 beziehungs-

weise Muster aus einer großen Datenmenge zu entdecken. Shi beschreibt diesen

Prozess als „extracting the unknown but potentially useful information and know-

ledge that is hidden inside mass, noisy, fuzzy, and random practical applied data“

(Shi 2014: 3). Um relevante und bisher unbekannte Informationen aufzudecken,

werden große Datenbestände mittels mathematischer Verfahren analysiert.

Für die Analyse greift die „Crossdisziplin“ Data Mining auf verschiedene Metho-

den aus der Statistik, der Künstlichen Intelligenz (maschinelles Lernen) und der

Informatik (Datenbanksysteme) zurück2 (vgl. Müller/ Lenz 2013: 75). Die analy-

sierten Daten sind elektronisch gespeichert und werden größtenteils automatisch

durch Computer verarbeitet (vgl. Witten et al. 2011: 4). Dennoch ist eine manuel-

le Bearbeitung der Daten sowie die Interpretation der Ergebnisse durch Menschen

notwendig: „Ultimately, defining which structures are ,interesting enough‘ to be

deemed ,knowledge‘ is up to the human user3“ (Fayyad 1998: 116).

In der wissenschaftlichen Auseinandersetzung mit dem Begriff Data Mining exis-

tieren zwei unterschiedliche Perspektiven. Auf der einen Seite wird Data Mining

als ein Schritt des Prozesses Knowledge Discovery in Databases (KDD) nach Fa-

yyad et al. (1996) gesehen (vgl. Fayyad et al. 1996; vgl. Gabriel et al. 2009). Auf

1 „Structure can be a simple set of patterns, a parameterized model, or a mixture of models“ (Fa-

yyad 1998: 116). 2 „Today’s data mining algorithms [...] draw on mathematical techniques from probability theory,

information theory, estimation, uncertainty, graph theory, and database techniques“ (Fayyad 2001: 64).

3 „Data mining is not about automating data analysis. Data mining is about making analysis more convenient, scaling analysis algortihms to large databases, and providing data owners with easy-to-use tools to help them navigate, visualize, summarize, and model data. It is not the “ro-bot” that is finding interesting patterns. The “robot” is merely enumerating, sifting, and filtering patterns. The human user is the ultimate judge of what is interesting or useful. [...]. Data mining tools serve their role in the KDD process as a step in an otherwise interative, and highly human-centric process“ (Fayyad 1998: 6).

Page 5: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

2 Begriffsbestimmung und Anwendungsgebiete

3

der anderen Seite wird dieses mit dem KDD-Prozess synonym verwendet und um-

fasst alle Prozessschritte (vgl. Müller/ Lenz 2013; vgl. Cleve/ Lämmel 2014).

Die vorliegende Arbeit betrachtet Data Mining als Synonym zum KDD, der im

folgenden dargestellt wird.

2.1 KDD-Prozess

Fayyad et al. definieren den KDD-Prozess als „the nontrivial process of identi-

fying valid, novel, potentially useful, and ultimately understandable patterns in

data“ (Fayyad et al. 1996: 30). In ihrem Modell (vgl. ebd. 30ff.) besteht Know-

ledge Discovery in Databases aus folgenden Schritten (vgl. Abb. 1):

§ Selektion der Daten

§ Datenvorverarbeitung

§ Transformation

§ Data Mining

§ Interpretation der Ergebnisse

(Abb. 1: KDD-Modell nach Fayyad et al. 1996: 29)

Im ersten Schritt werden die verfügbaren Daten gesichtet sowie daraus die zu ver-

arbeitenden, hinsichtlich der Fragestellung relevanten Daten ausgewählt (Selekti-

on). Der folgende Schritt dient der Beseitigung von Datenqualitätsproblemen. Die

ausgewählten Daten werden vorverarbeitet und bereinigt. Dabei werden bei-

spielsweise Ausreißer identifiziert und fehlerhafte Werte korrigiert (Datenvorver-

arbeitung). Im Prozessschritt Transformation werden die Daten in für das Data

Mining angemessene Datenformate umgewandelt. So werden zum Beispiel metri-

sche Werte in Intervalle gruppiert (vgl. Cleve/ Lämmel 2014: 5).

Der vierte Schritt Data Mining ist die eigentliche Datenanalyse, die Suche nach

Mustern. Somit wird zunächst eine geeignete Methode für die Analyse der Daten,

wie etwa Klassifikation oder Clustering (vgl. Kapitel 3), ausgewählt. Dabei wird

Page 6: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

2 Begriffsbestimmung und Anwendungsgebiete

4

zwischen zwei Aufgaben des Data Mining unterschieden: Die Beschreibung und

die Vorhersage. Ziel der Beschreibung ist es, die Realität abzubilden, indem die

Daten charakterisiert werden. So werden zum Beispiel typische Verhaltensregeln

(Muster) der analysierten Kundengruppe aufgedeckt. Bei der Prognose geht es um

die Aufstellung von Regeln auf Basis der analysierten Daten, mit deren Hilfe eine

Vorhersage für das zukünftige Verhalten anderer Kunden mit ähnlichen Eigen-

schaften getroffen werden kann.

Im letzten Prozessschritt Interpretation werden die entdeckten Muster und Re-

gelmäßigkeiten interpretiert und in verständlicher Form aufbereitet bzw. visuali-

siert. (Vgl. Fayyad et al. 1996: 29ff.)

Das von einem Konsortium entwickelte Modell CRISP wird aufgrund der Ähn-

lichkeit der Prozessschritte zum beschriebenen KDD-Modell in der vorliegenden

Arbeit vernachlässigt.

2.2 Datentypen und Anwendungsgebiete

Die Anwendungsbereiche von Data Mining sind sehr vielfältig und reichen von

Kreditwürdigkeits- über Warenkorbanalysen hin zu Verbrechensvorhersagen der

Polizei. Dabei geht es unter anderem darum, Risiken zu minimieren, Wettbe-

werbsvorteile herauszuarbeiten, eine Grundlage für Entscheidungen zu schaffen

oder dem Gegner einen Schritt voraus zu sein. „Data Mining ist besonders für Probleme geeignet,

§ die eine komplexe, wissensbasierte Entscheidung verlangen, § in der eine richtige Entscheidung einen Mehrwert erzeugt, § die momentan mit sub-optimalen Methoden gelöst werden und § in der genügend relevante Daten vorhanden sind“ (Müller/ Lenz 2013: 81).

Große Datenmengen existieren heutzutage in sehr vielen Bereichen. So wird Data

Mining unter anderem für die Optimierung von industriellen Fertigungsprozessen

eingesetzt, was der Steigerung der Wettbewerbsfähigkeit dienen soll.

Im Marketing werden Kunden- und Produktdaten in Form von den bereits er-

wähnten Warenkorbanalysen verarbeitet. Ausgewertet wird insbesondere, welche

Produkte im Supermarkt zusammen gekauft werden (zum Beispiel Windeln und

Bier), um die Preisgestaltung oder die Produktplatzierung zu optimieren. Durch

die Kundensegmentierung mit Hilfe von Data Mining können gezielte Kundenan-

gebote und Werbemaßnahmen entwickelt werden.

Page 7: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

2 Begriffsbestimmung und Anwendungsgebiete

5

In der Wissenschaft findet Data Mining zum Beispiel in der Erbgutanalyse der

biomedizinischen Informatik Verwendung. So können mithilfe von Datenbanken

mit Genomdaten Genfunktionen bestimmt werden.

Neben numerischen Daten werden Textdaten und strukturierte Daten betrachtet.

Die Analyse von Textdokumenten und internetbasierten Dokumenten trägt unter

anderem dazu bei, das Filtern oder die Suche nach Informationen zu verbessern.

Seit der Verbreitung von Digitalkameras ist auch die Menge an Bilddaten enorm.

Analyseverfahren werden für die Suche und Erkennung von Objekten, Analyse

und Klassifizierung von Szenen sowie der Inbeziehungsetzen der Bilddaten mit

anderen Informationen eingesetzt. (Vgl. Runkler 2010: 1 f.)

Müller und Lenz unterscheiden zehn verschiedene Datentypen. Strukturierte Da-

ten finden sich in Datenbanktabellen und können Buchhaltungsdaten in Unter-

nehmen sein. Produkte wie Milch, Brot und Bier werden in Warenkorbanalysen

als Menge bezeichnet. Der Klickpfad eines Besuchers einer Webseite wird als Se-

quenz abgespeichert. Wichtig dabei ist die Reihenfolge der Daten, die in einer Se-

quenz zusammengefasst werden.

Texte sind unstrukturierte Daten, die zum Beispiel auf Webseiten oder in E-Mails

zu finden sind. Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se-

mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra-

che wie HTML zugreift. Zeitreihen sind ebenfalls wie Sequenzen, zeitlich geord-

nete Folgen. Zusätzlich wird jedoch auch der Mess- oder Beobachtungszeitpunkt

mit erfasst. Auf diese Weise werden unter anderem Betriebsunfälle je Schicht

ausgewertet.

Die Verbindungen der einzelnen Mitglieder in sozialen Netzwerken können in

Graphen dargestellt werden. Diese bestehen aus Knoten, die mit gerichteten oder

ungerichteten Kanten miteinander verbunden sind. Räumliche Muster werden

durch die Analyse von Geodaten aufgedeckt. Mit Hilfe von Geodaten können un-

ter anderem Cluster der Adressdaten von Kunden gebildet werden. Bilder werden,

wie bereits beschrieben, für die Bildmustererkennung analysiert. Die Gesichtser-

kennung von Apple erfasst nach einer Lernphase automatisch Gesichter. Bei die-

sem Datentypen ist jedoch eine aufwändige Vorverarbeitung nötig.

Multimediale Daten wie Audio oder Video sind aufgrund des Speicherbedarfs und

des Laufzeitverhaltens ebenfalls nicht einfach in der Handhabung. Programme

wie der MusicMiner analysieren den Rhythmus, um eine Musiksammlung auf ei-

Page 8: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

3 Methoden des Data Mining

6

ner visuellen Landkarte darzustellen, auf der ähnliche Musikstücke näher beiei-

nander liegen. (Vgl. ebd.)

Die Verarbeitung der Daten erfolgt mit Hilfe von Data Mining Tools. Dabei gibt

es eine Vielzahl von bezahlter und kostenloser Software. Die umsatzstärksten

Programme sind SAP, Oracle, IBM und SAS (vgl. Müller/ Lenz 2013: 261). Open

Source Software bieten RapidMiner oder Weka für die Datenverarbeitung an.

3 Methoden des Data Mining

Im Data Mining können abhängig von Fragestellung, Datentyp und Anwendungs-

gebiet unterschiedliche Methoden angewendet werden. Im folgenden werden aus-

gewählte Methoden vorgestellt.

3.1 Clusteranalyse

Die Clusteranylse ist eine wichtige Methode im Data Mining. Sie kann genutzt

werden „to gain insight into the distribution of data, to observe the characteristics

of each cluster, and to focus on a particular set of clusters for further analysis“

(Han et al. 2012: 445).

Im Clustering geht es darum Strukturen in den Daten zu finden und die Daten

aufzuteilen. Datenobjekte werden automatisch durch Algorithmen in Gruppen

(Cluster) eingeteilt. Dabei werden Objekte mit ähnlichen Eigenschaften gruppiert,

die Objekte unterschiedlicher Cluster unterscheiden sich hingegen voneinander.

Somit sind sich die Objekte innerhalb eines Clusters so „nah“ wie möglich, wäh-

rend die verschiedenen Cluster sich so „fern“ wie möglich sind. Die Distanz be-

misst sich an allen verfügbaren Variablen. Das Clustern kann auch im Datenvor-

verarbeitungsschritt eingesetzt werden, um homogene Gruppen zu identifizieren.

(Vgl. Pastuchovöá/ Václavíková 2013: 128)

Neben Kundensegmentierung werden Clusterverfahren beispielsweise in der Geo-

logie eingesetzt. Erdbebenepizentren werden geclustert, um auf diese Weise ge-

fährliche Zonen zu bestimmen. In der Versicherung werden durch das Verfahren

Betrüger anhand von überdurchschnittlich hohen Schadenskosten identifiziert.

(Vgl. Dey 2012: 351f.)

Page 9: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

3 Methoden des Data Mining

7

3.2 Klassifikation

Klassifikation ist ebenfalls eine sehr verbreitete Methode. Ähnlich wie bei dem

Clustering zielt die Klassifikation darauf ab, Datenobjekte verschiedenen Gruppen

(Klassen) zuzuordnen. Der Unterschied zum Clustering ist, dass in der Cluster-

analyse die Gruppen automatisch gefunden werden, in der Klassifikation jedoch

bereits bekannt sind. Dabei werden in dem Prozess Regeln gesucht, um die Klasse

eines Objekts zu bestimmen.

Im Marketing werden für den Versand von Katalogen Neukunden in potenzielle

Käufer bzw. Nichtkäufer klassifiziert, um unnötige Kosten zu vermeiden. Des

Weiteren wird Klassifikation für die Insolvenzprognose eingesetzt, die Unterneh-

men in kreditwürdig bzw. nicht kreditwürdig klassifiziert. (Vgl. Müller/ Lenz

2013: 95f.)

3.3 Assoziationsanalyse

Auch in der Assoziationsanalyse geht es um das Finden von Regeln in den vor-

handenen Daten. Es werden Beziehungen herausgearbeitet, die zwischen Attribu-

ten bestehen und somit Zusammenhänge zwischen Objekten erkannt. Die Abhän-

gigkeiten werden in der Form A -> B („wenn A, dann wahrscheinlich auch B“)

dargestellt. Das Verfahren dient der Ableitung von Vorhersagen aus den vorhan-

denen Daten: „Die Assoziationsanalyse ist ein vorhersagendes Data-Mining-

Verfahren. Es analysiert die Daten, um Regelmäßigkeiten zu identifizieren und

das Verhalten neuer Datensätze vorherzusagen“ (Cleve/ Lämmel 2014: 64).

In der Praxis wird es unter anderem in der Warenkorbanalyse verwendet. Die Ab-

hängigkeit drückt sich in der Form: „Wer Produkt A kauft, kauft häufig auch Pro-

dukt B“ aus. Anhand der Ergebnisse kann ein Unternehmen seine Produktplatzie-

rung anpassen oder im Onlineshopping automatisch Produkt B vorschlagen, wenn

Produkt A in den Warenkorb gelegt wird. (Vgl. ebd. 63f.)

3.4 Ausreißeranalyse

Bei der Ausreißeranalyse werden Datensätze identifiziert, die im Vergleich zu

dem Gesamtdatensatz untypisch sind. Als Ausreißer werden Objekte bezeichnet,

die sich vom allgemeinen Verhalten bzw. Modell der restlichen Daten unterschei-

Page 10: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

4 Verfahren für spezielle Datentypen

8

den. „An outlier is a data object that deviates significally from the rest of the ob-

jects, as if it were generated by a different mechanism“ (Han et al. 2012: 327).

In vielen Methoden werden Ausreißer im Datenbereinigungsschritt (vgl. Kapitel

2.1) als Rauschen entfernt. In einigen Analysen, wie beispielsweise Betrugsidenti-

fizierung, können seltene Fälle jedoch interessanter sein als die regelmäßigen.

Ausreißer können unter anderem mit Hilfe von Distanzmessungen identifiziert

werden, in denen Objekte, die weit entfernt von allen Clustern liegen, als Ausrei-

ßer betrachtet werden.

Nützlich sind solche Verfahren in etwa in der Aufdeckung von Kreditkartenbe-

trug. Anhand dieser Analysen können außergewöhnlich hohe Abhebungssummen,

ungewöhnliche Orte oder eine besonders hohe Einkaufshäufigkeit bemerkt und

genauer geprüft werden. Um den Bankkunden jedoch nicht täglich mit einem fal-

schen Alarm zu stören, weil er ein etwas teureres Essen als gewöhnlich gekauft

hat oder sich vor dem Urlaub nicht abgemeldet hat, wird auch vor Ausreißerana-

lysen der Datenbereinigungsschritt durchgeführt und Rauschen beseitigt.

(Vgl. ebd. 20 ff.)

Weitere Methoden wie Entscheidungsbäume, Regression, Korrelation oder Neu-

ronale Netze werden aufgrund des Umfangs der Arbeit nicht thematisiert.

4 Verfahren für spezielle Datentypen

Spezielle Formen von Data Mining sind Text und Web Mining. Die Besonderhei-

ten sind zum einen die Struktur der Daten, zum anderen die Herkunft dieser. Der

zu untersuchende Datentyp ist un- bzw. semistrukturierter Text.

Die Analysen sollen neue Erkenntnisse liefern bzw. zur Entwicklung von Hypo-

thesen beitragen. Obwohl sich die beiden Verfahren aus methodischer Sicht sehr

ähneln, bedienen sie sich verschiedener Datenquellen und werden in unterschied-

lichen Anwendungsgebieten eingesetzt. (Vgl. Müller/ Lenz 2013: 110)

Page 11: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

4 Verfahren für spezielle Datentypen

9

4.1 Text Mining

Text Mining dient der Entdeckung neuer Informationen und Muster in Textdoku-

menten mittels spezifischer Algorithmen. Laut Schätzungen bilden Texte 80% der

Informationsbasis eines Unternehmens. (Vgl. Gabriel et al. 2009: 142ff.)

Sie besitzen zwar eine Semantik, sind jedoch unstrukturierte Daten, die sich von

den strukturierten Daten in Datenbanken unterscheiden.

Häufig soll ein Dokument mit Hilfe des Text Mining nach Themengebieten klas-

sifiziert werden. Da Texte unstrukturierte Daten sind, werden in einem ersten

wichtigen Schritt die relevanten Informationen aus dem Text herausgezogen. Dies

geschieht in etwa durch die Identifikation von Schlüsselwörtern oder der Häufig-

keitsverteilung von Begriffen.

Besondere Bedeutung haben auch der Datenbereinigungsschritt und der Daten-

vorverarbeitungsschritt im Text Mining-Verfahren. So müssen unter anderem

nicht relevante Wörter entfernt oder Abürzungen sowie Synonyme erkannt wer-

den. Die Groß- und Kleinschreibung wird meist ignoriert. Mit dem Stemming

werden Wörter auf ihren Wortstamm gekürzt, um Wörter mit unterschiedlicher

Schreibweise miteinander vergleichen zu können. Auch die Einteilung des Do-

kumentes in seine einzelnen Bestandteile, wie Kapitel, Absatz oder Satz, ist ein

gängiges Vorgehen.

Das Ergebnis der vorherigen Schritte ist „eine reduzierte Menge von Wörtern (bag

of words), die man zusätzlich noch gewichten kann. Auf der Basis dieser Wort-

mengen findet dann die eigentliche Datenanalyse statt“ (Cleve/ Lämmel 2014:

65). (Vgl. ebd.)

4.2 Web Mining

Bei dem Verfahren des Web Mining handelt es sich um die Analyse von Daten

aus dem World Wide Web.

Es werden drei Formen von Web Mining unterschieden: Das Web Content Mi-

ning, Web Structure Mining und Web Usage Mining (vgl. Gabriel et al. 2009:

143f.). Mit dem Web Content Mining werden ebenso wie mit dem Text Mining

neue Muster und neues Wissen aus textuellen und multimedialen Dokumenten

verschiedener Formate entdeckt. Das Web Structure Mining bezeichnet die Unter-

Page 12: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

5 Fazit und Ausblick

10

suchung und Auswertung von Linkstrukturen auf der Typologie von Hyperlinks.

Mit diesen Analysen lassen sich zum Beispiel Webseiten kategorisieren und ihre

Ähnlichkeiten und Unterschiede aufdecken. „Für die thematische und nutzer-

freundliche Gestaltung solcher Web-Ressourcen ist es für die Website-

Administratoren wichtig zu wissen, ob z. B. Seiten mehr Verweischarakter (sog.

hub pages) haben oder inhaltsbezogen (sog. content pages) sind“ (Müller/ Lenz

2013: 117f.). Die dritte Form des Web Mining, das Web Usage Mining, dient der

Untersuchung der Daten, die während der Nutzung einer Webseite innerhalb einer

oder mehrerer Sitzungen protokolliert werden. Interessant sind in diesem Zusam-

menhang vor allem Klickstatistiken, die zur Optimierung der Seiten bezüglich

Zugriffspfade oder indivualisierter Inhalte genutzt werden. (Vgl. ebd. 117f.)

5 Fazit und Ausblick

„Identifying interesting structure and useful patterns among the plethora of possi-

bilities is what a data mining algorithm must do, and it must do it quickly over

very large databases“ (Fayyad 2002: 29f.).

Angesichts der durch die Digitalisierung immer mehr steigenden Datenmassen4

sowie Speicherung dieser, reichen manuelle Auswertungsmethoden nicht aus, um

Erkenntnisse aus diesen zu ziehen. Demnach sind Data Mining Tools unabdingbar

geworden. Diese können dazu genutzt werden, von der Fragestellung abhängige

Methoden wie etwa Cluster- oder Ausreißeranalysen anzuwenden, um Kenntnisse

aus den Daten zu gewinnen. Für Daten aus Texten oder dem Internet wurden die

spezifischen Formen Text und Web Mining entwickelt, die auf ähnlichen Metho-

den basieren, jedoch speziell an die besonderen Datentypen angepasst sind. Doch

auch die computerbasierten Programme allein reichen nicht aus. Für die Wahl der

Methode oder die korrekte Interpretation der Ergebnisse werden Spezialisten be-

nötigt (vgl. Fayyad 1998: 6). Die gespeicherten Datenmengen steigen stetig und

viele Unternehmen und Organisationen haben erkannt, welcher Nutzen sich hinter

den Daten verbergen kann. Allerdings mangelt es an Experten, die in der Lage

4 „The capacity of digital data storage worldwide has doubled every nine months for at least a de-

cade, at twice the rate predicted by Moore’s Law for the growth of computing power during the same period“ (Fayyad 2002: 28).

Page 13: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

5 Fazit und Ausblick

11

sind mit diesen Daten umzugehen. „Our ability to capture and store data has far

outpaced our ability to process and utilize it“ (Fayyad 2002: 28). So sind Daten-

analysten eine gesuchte Berufsgruppe auf dem Arbeitsmarkt.

Trotz der Vorteile von Data Mining birgt dieses auch Nachteile und Probleme.

Das Wachstum neuer Datentypen und die Analyse dieser stellt die Analysten vor

eine Herausforderung: „Diverse applications generate a wide spectrum of new data types, from structured data such as relational and data warehouse data to semi-structured and unstructured data; from stable data repositories to dynamic data streams; from simple data objects to temporal data, biological sequences, sensor data, spatial data, hypertext data, mul-timedia data, software program code, Web data, and social network data“ (Han et al. 2012: 32).

Aufgrund dieser Vielfalt an Datentypen und auch der verschiedenen Ziele einer

Analyse werden unterschiedliche Data Mining Systeme benötigt.

Auch der Datenschutz ist ein Thema, das bei der Analyse der Daten zu beachten

ist. Oft werden Daten von Nutzern oder Käufern analysiert. Obwohl die Daten

überwiegend aggregiert werden, spielt die Nichtaufdeckung persönlicher Daten

einzelner Individuen eine wichtige Rolle beim Data Mining (vgl. ebd.). Data Mi-

ning kann neben positiven Zwecken auch gegen Konkurrenten oder Feinde einge-

setzt werden: „Moreover, data mining tools can work both ways—also helping individuals figure out when their space is being mined inappropriately. Since competition is part of our human nature, wars will be waged over this information. Data banks will be held hostage and robbed. Magnificent digital libraries will be destroyed“ (Fayyad 2001: 65).

Um valide Ergebnisse zu bekommen und nutzen zu können gilt es Probleme wie

schlechte Datenqualität, falsche Interpretation der Ergebnisse oder die Anwen-

dung statistischer Werte auf Einzelne zu vermeiden. Die auf die Situation abge-

stimmte Vorverarbeitung der Daten sowie die anderen vier Prozessschritte des

Knowledge Discovery (vgl. Kapitel 2.1) sind dafür von Bedeutung.

Trotz der Gefahren hat Data Mining ein großes Potenzial nützliches Wissen auf

vielen Gebieten zu generieren. Mit der Entwicklung immer besserer und schnelle-

rer Tools, werden die Möglichkeiten, Erkenntnisse aus der riesigen Datenflut zu

extrahieren, vergrößert. „In the same vein, my imagination fails to begin to visualize the wonders we will discover as data mining evolves into the effective cybernavigation science of tomor-row. I envy the early discovery expeditions into the new world of data. A wondrous journey awaits us all“ (ebd).

Page 14: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

Literaturverzeichnis 12

Literaturverzeichnis

Cleve, Jürgen/ Lämmel, Uwe (2014): Data Mining. München. Dey, Pabitra Kumar/ Chakraborty, Gangotri/ Ruj, Purnendu/ Sarkar, Suvobrata

(2012): A Data Mining Approach on Cluster Analysis of IPL. In: International Journal of Machine Learning and Computing, 2012, Vol. 2, Nr. 4: 351-354.

Fayyad, Usama/ Piatetsky-Shapiro, Gregory/ Smyth, Padhraic (1996): The

KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, Nov. 1996, Vol. 39, Nr. 11: 27-34.

Fayyad, Usama (1998): Editorial. In: Data Mining and Knowledge Discovery 2.

Kluwer Academic Publishers: 5-7; 115-119. Fayyad, Usama (2001): The Digital Physics of Data Mining. In: Communications

of the ACM, March 2001, Vol.44, Nr. 3: 62-65. Gabriel, Roland/ Gluchowski, Peter/ Pastwa, Alexander (2009): Data Wa-

rehouse & Data Mining. Herdecke/ Witten. Han, Jiawei/ Kamber, Micheline/ Pei, Jian (2012): Data mining: concepts and

techniques. Amsterdam. Müller, Roland M./ Lenz, Hans-Joachim (2013): Business Intelligence. Berlin/

Heidelberg. Pastuchovöá, Elena/ Václavíková, Stefánia (2013): Cluster Analysis – Data Mi-

ning Technique for Discovering Natural Groupings in the Data. In: Journal of Electrical Engineering, 2013, Vol. 64, Nr. 2: 128–131.

Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelli-

genter Datenanalyse. Wiesbaden. Sharafi, Armin (2013): Knowledge Discovery in Databases: Eine Analyse des

Änderungsmanagements in der Produktentwicklung. Wiesbaden. Shi, Guangren (2014): Data Mining and Knowledge Discovery for Geoscientists.

Amsterdam. Witten, Ian H./ Frank, Eibe/ Hall, Mark A. (2011): Data Mining: Practical Ma-

chine Learning Tools and Techniques. Amsterdam.

Page 15: Hausarbeit Data Mining Xenia Sataev - users.informatik.haw ...ubicomp/projekte/master-nm-rv... · Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev

Versicherung über Selbstständigkeit

Hiermit versichere ich, dass ich die vorliegende Arbeit im Sinne der Prüfungsord-

nung ohne fremde Hilfe selbstständig verfasst und nur die angegebenen Hilfsmit-

tel benutzt habe.

________________________

(Datum, Unterschrift)