Web Mining

116
Web Mining Web Mining

description

Web Mining. Inhaltsverzeichnis. Was ist Web Mining – Theoretische Einführung Tools Anwendungsbeispiele. Was ist Web Mining – Theoretische Einführung. Einleitung Web Mining Strategien Informationsbedarf im E-Business Informationsgewinnung durch Web Mining Richtungen des Web Mining - PowerPoint PPT Presentation

Transcript of Web Mining

Page 1: Web Mining

Web MiningWeb Mining

Page 2: Web Mining

22

InhaltsverzeichnisInhaltsverzeichnis

1. Was ist Web Mining – Theoretische Einführung

2. Tools3. Anwendungsbeispiele

Page 3: Web Mining

33

Was ist Web Mining – Theoretische Was ist Web Mining – Theoretische EinführungEinführung

1. Einleitung2. Web Mining Strategien3. Informationsbedarf im E-Business4. Informationsgewinnung durch Web

Mining5. Richtungen des Web Mining6. Web Mining Methoden7. Web Mining-Prozess

Page 4: Web Mining

44

EinleitungEinleitung

Web = Datenbank

StructureContent

Logs

Leider versteht das Internet kein SQL

Page 5: Web Mining

55

Einleitung (1)Einleitung (1)• Web Mining ist Anwendung von Data Mining Methoden auf

Datenstrukturen des Internet• Analyse von Online-Kundeninformationen hat wichtige

Bedeutung• Wissen über Kunden und deren Bedürfnisse• Erkenntnisse über Gestaltung von Internetauftritten• Personalisierung von Seiteninhalten• Kaufwahrscheinlichkeiten• Identifizierung von Bewegungspfaden und Kaufmuster

Page 6: Web Mining

66

Einleitung (2)Einleitung (2)

Page 7: Web Mining

77

Web Mining StrategienWeb Mining Strategien

• Verstehen, was die Besucher wollen• Vorhersagen, wie sie sich verhalten

sollen• In Echtzeit anwenden, was man über

die Kunden weiss

Page 8: Web Mining

88

Informationsbedarf im E-Business (1)Informationsbedarf im E-Business (1)

• Trotz riesigen Investitionen wurden Erwartungen nicht erfüllt• Viele gescheiterte Online Projekte• Zahl der Internetteilnehmer steigt noch immer an, aber nur

der Traffic bedeutet kein Erfolg massgebend ist eher die Intensität der Kundenbeziehung

• Nur Bruchteil der Kunden sind Wiederholungskäufer• Grosse Kosten für Neugewinnung von Kunden (150 – 300$)

Page 9: Web Mining

99

Informationsbedarf im E-Business (2)Informationsbedarf im E-Business (2)

• Unternehmen versuchen Kundenbeziehungen im Internet zu intensivieren CRM (Customer Relationship Management)

• Grundlage für erfolgreiches Management der Kundenbeziehung ist das Wissen über die Kunden und ihre Bedürfnisse

• Grundsätzlich haben Betreiber von Internetangeboten nur wenige Informationen über Online Besucher und die Wirkung ihres Internetauftrittes

• Es stellen sich aus diesen Gründen interessante Fragen:

Page 10: Web Mining

1010

Informationsbedarf im E-Business (3)Informationsbedarf im E-Business (3)Fragen über FragenFragen über Fragen

• Zusammensetzung der Besucher– Wie viele Besucher erhält meine Seite? Woher kommen sie? Wie

lange bleiben sie? – Wie sehen die typischen Bewegungspfade aus? Wie lassen sich

diese Verbessern? – An welcher Stelle verlassen die Besucher meine Seite und warum?

Welche Profile haben meine wichtigsten Kundensegmente

• Wirkung von Online Werbung– Welche Werbebanner erwecken das meiste Interesse bzw. führen zu

Käufen? – An welche Stelle sollen die Banner platziert werden? Welche Partner

generieren die meisten Besucher? – Wie lange bleiben die Besucher und wie viele kaufen etwas?

Page 11: Web Mining

1111

Informationsbedarf im E-Business (4)Informationsbedarf im E-Business (4) Fragen über Fragen Fragen über Fragen

• Bewertung der Seiteninhalte– Für welche Inhalte interessieren sich die einzelne

Kundensegmente?– Welche Inhalte werden weniger beachtet und warum?– Wie lässt sich eine Personalisierung der Inhalte

erreichen/verbessern?• Online-Kaufverhalten der Besucher

– Wie unterscheiden sich Besucher von Käufern? – Was machen die Besucher bevor sie etwas einkaufen?– Welches Verhalten auf der Site lässt auf Wiederholungskäufe

schliessen?

Page 12: Web Mining

1212

Informationsgewinnung durch Web Informationsgewinnung durch Web Mining (1)Mining (1)

Es gibt verschiedene Möglichkeiten Wissen über die Nutzung und die Nutzer der Webseiten zu generieren

• In erster Linie werden deskriptive Statistiken (Logfile-Analyse) erstellt.

• Diese liefern erste wichtige Anhaltspunkte zur Nutzung der Site – liefern aber keine Informationen zur individuellen Verhaltensweise und Interessen der Online-Nutzer.

• Insbesondere sind diese nicht in der Lage Muster in den Nutzungsdaten aufzufinden

• Aber gerade die Muster sind von hoher Bedeutung für die Informationsgewinnung!

Page 13: Web Mining

1313

Informationsgewinnung durch Web Informationsgewinnung durch Web Mining (2)Mining (2)

• Es müssen automatische Mustererkennungsverfahren (Data Mining) angewendet werden um aus den Daten Informationen über die Besucher einer Web Site zu gewinnen

• Zur Unterstützung derartiger Analysen gibt es verschiedenartige Softwarelösungen. Anfänglich waren diese nur für die deskriptive Analyse von Logdateien geeignet

• Heute existieren Datamining Toos die spezielle Funktionalitäten für Web-Mining besitzten.

Page 14: Web Mining

1414

Richtungen des Web Mining (1)Richtungen des Web Mining (1)

• Web Mining bezeichnet die allgemeine Anwendung von Verfahren des Data Mining auf Datenstrukturen des Internet

WebWeb MiningMining

Web Content Web Content MiningMining

Web Structure Web Structure MiningMining

Web UsageWeb Usage MiningMining

Web Log Web Log MiningMining

Integrated WebIntegrated Web Usage MiningUsage Mining

Page 15: Web Mining

1515

Richtungen des Web Mining (2) Richtungen des Web Mining (2) Web Content MiningWeb Content Mining

• Befasst sich mit der Analyse des Inhaltes von Webseiten und kann diese klassifizieren

• Seiten können damit für die weitere Analyse zu Gruppen zusammengefasst werden

• Zielsetzung: – Erleichterung der Suche nach Informationen im Netz

• Aufgabe: – Klassifizierung und Gruppierung von Online-Dokumenten– Auffindung von Dokumenten nach bestimmten Suchbegriffe

• Kommen insbesondere Verfahren des Text Mining zum Einsatz

Page 16: Web Mining

1616

Richtungen des Web Mining (3) Richtungen des Web Mining (3) Web Structure MiningWeb Structure Mining

• Untersucht die Anordnung einzelner Elemente innerhalb einer Webseite

• Untersucht die Anordnung verschiedener Seiten zueinander• Interessant sind Verweise von einer Webseite auf andere,

häufig inhaltlich verwandte Webseiten, mit Hilfe von Hyperlinks

• Hilft Überblick über Sitestruktur und die Anordnung der einzelnen Seiten zueinander zu gewinnen, um auf dieser Basis das Bewegungsverhalten der Nutzer im Netz nachvollziehen zu können

Page 17: Web Mining

1717

Richtungen des Web Mining (4) Richtungen des Web Mining (4) Web Usage MiningWeb Usage Mining

• Beschäftigt sich mit dem Verhalten von Internet-Nutzern• Es werden Data Mining Methoden auf die Logfiles des

Webservers angewendet.• Ergibt Aufschlüsse über Verhaltensmuster und Interessen von

Online Kunden• Web Log Mining Analyse beschränkt sich auf Analyse des

Logfiles• Integrated Web Usage Mining es werden noch weitere

Daten wie Registrierungsdaten, Kaufhistorie etc. verwendet

Page 18: Web Mining

1818

Richtungen des Web Mining (5) Richtungen des Web Mining (5) Probleme mit Web Server Logs / EreignisseProbleme mit Web Server Logs / Ereignisse

• Aktionen des Servers und nicht des Besuchers• IP Adressen sind (noch) nicht einzigartig• Seite besteht oft aus mehreren Objekten mehrere Zugriffe

Logs müssen bearbeitet werden

Wichtige Ereignisse die für Web Mining wichtig sind:• Erstbesuch• Anschauen von Produktinformationen• Registrierungen müssen clever gemacht sein• Downloads• Suchabfragen• Sachen in Einkaufswagen legen• Seite verlassen

Page 19: Web Mining

1919

Webminig Techniken (1)Webminig Techniken (1)

• Clustern / Segmentierung– Unterschiedliche Gruppe von Kunden und Besuchern

• Warenkorbanalyse– Assoziationen zwischen Produkten und Dienstleistungen

• Sequenzanalysen– Pfade, Muster über Zeit, Bestellung

• Klassifikation und Vorhersage– Spezielle Verhaltensmuster, Profile

Page 20: Web Mining

2020

Webminig Techniken (2)Webminig Techniken (2)Clustern / SegmentierungClustern / Segmentierung

Identifikation grundlegender Kundenbedürfnisse

• Clusteranalyse, Neuronale Netze• Identifikaton von Kunden mit ähnlichem Verhalten

– Modellierung der besten Kunden nach Lifetime, Value, Profitabilität und Kaufverhalten

– Wer kündigt bzw. kauft nicht mehr und warum

• Entwicklung von Key-Content• Effektivere Positionierung des Contents

Page 21: Web Mining

2121

Webminig Techniken (3)Webminig Techniken (3)WarenkorbanalyseWarenkorbanalyse

Effektiveres Cross-Selling

• Analyse spezieller Zusammenhänge zwischen Produkten und Dienstleistungen (zB. Notebook und Garantieverlängerung)

• Aufdecken von Trends und Beziehungen zwischen Webseiten und Produkten

• Empfehlung der Produkte, die am wahrscheinlichsten gekauft werden (zB. Bei Amazon)

Page 22: Web Mining

2222

Webminig Techniken (4)Webminig Techniken (4)SequenzanalysenSequenzanalysen

Den richtigen Content zur richtigen Zeit anbieten

• Eine der häufigsten Frage im Web Mining: Welche Seiten werden in welcher Reihenfolge besucht?

• Modellieren, in welche Produkte und Dienstleistungen in einer Sequenz erworben werden.

• Welche Sequenzen führen zum Kaufabbruch?• Welche Sequenzen sind typisch für Hacker oder für

betrügerisches Verhalten (Schwachstellen erkennen)

Page 23: Web Mining

2323

Webminig Techniken (5)Webminig Techniken (5)Klassifikation und VorhersageKlassifikation und Vorhersage

Profitabilität durch Personalisierung

• Entscheidungsbaum, künstliche Neuronale Netze• Erforschen komplexes Kaufverhalten• Wie wahrscheinlich ist es, dass eine Person:

– Antwortet– Kauft– Mehr ausgibt– Nicht mehr kauft

• Voraussagen von Verhalten proaktives Handeln!

Page 24: Web Mining

2424

Web Mining-Prozess (1)Web Mining-Prozess (1)

Aufgaben-Aufgaben-definitiondefinition

Daten-Daten-AuswahlAuswahl

Muster-Muster-SucheSuche

Interpretation undInterpretation undUmsetzungUmsetzung

Daten-Daten-AufbereitungAufbereitung

Daten-Daten-IntegrationIntegration

Page 25: Web Mining

2525

Web Mining-Prozess (2)Web Mining-Prozess (2)

• AufgabendefinitionAufgabendefinition– Wichtig ist, dass zuerst genau spezifiziert wirdWichtig ist, dass zuerst genau spezifiziert wird

• DatenauswahlDatenauswahl– Erhebung der InternetnutzungsdatenErhebung der Internetnutzungsdaten– Ev. weitere KundendatenEv. weitere Kundendaten– zB. Logfiles, Cookies, Server-, Networkmonitor/SnifferzB. Logfiles, Cookies, Server-, Networkmonitor/Sniffer– DatenschutzDatenschutz

• DatenaufbereitungDatenaufbereitung– PreprocessingPreprocessing– Identifikation von Seitenaufrufen (Frames)Identifikation von Seitenaufrufen (Frames)– Identifikation von BesuchernIdentifikation von Besuchern– Identifikation von SessionsIdentifikation von Sessions

Page 26: Web Mining

2626

Web Mining-Prozess (3)Web Mining-Prozess (3)

• DatenintegrationDatenintegration– Einbeziehen von Zusatzinformationen zB. Benutzerdaten, Einbeziehen von Zusatzinformationen zB. Benutzerdaten,

Kundenstammdaten, Transaktionsdaten etc.Kundenstammdaten, Transaktionsdaten etc.– Datenschutz!Datenschutz!

• MustersucheMustersuche– Anwendung der Data Mining MethodenAnwendung der Data Mining Methoden

• Interpretation und UmsetzungInterpretation und Umsetzung– Webcontrolling Webcontrolling Verschiedene Kennzahlen Verschiedene Kennzahlen– Website OptimierungWebsite Optimierung– Personalisierung von WebseitenPersonalisierung von Webseiten

Page 27: Web Mining

2727

Web Mining Software und Dienstleistungen im Vergleich

• Typische Fragestellungen der Betreiber• Produktekategorien• Analog• SAS

– WebHound– Enterprise Miner– Data Warehousing

• SPSS– Clementine

• Tools im Einsatz• Bewertung

Page 28: Web Mining

2828

Arten des Web Mining

Dieser Vergleich behandelt das Web Usage Mining. Also das Auswerten von Web Server Log Files, um Bewegungen der Benutzer, auf einer Web Site, zu analysieren.

WebWeb MiningMining

Web Content Web Content MiningMining

Web Structure Web Structure MiningMining

Web UsageWeb Usage MiningMining

Web Log Web Log MiningMining

Integrated WebIntegrated Web Usage MiningUsage Mining

Page 29: Web Mining

2929

Typische Fragestellungen der Web-Site Betreiber

• Log File Statistik• Erweiterung um einfache Analyse• Genaue Analyse der Benutzer

Page 30: Web Mining

3030

Log File StatistikLog File Statistik· Welche Seiten sind besonders beliebt/attraktiv? · Woher kommen die User (Länder/Regionen)? · Wann kommen die User? · Welcher Browser, welches Betriebssystem wird

verwendet? · Von welcher Web-Site kommen die User auf die Site

(Suchmaschine, Werbung, Konkurrenz)?· Wie gut ist die Performance meines Web-Servers? · Welche Suchwörter führen, über welche Suchmaschinen,

auf meine Seite?

Page 31: Web Mining

3131

Erweiterung um einfache AnalyseErweiterung um einfache Analyse

· Welche Seiten haben welche Verweildauer (stickiness)? · Welche Seiten führen zum Verlassen der Site (Exit-

Pages)? · Welche Seiten sind beliebt, welche sollten entfernt

werden? · Wer kommt auf meine Seite? · Wie ist die Wirtschaftlichkeit der Seite? · Welche meiner Banner sind die profitabelsten? · Wie wirken meine Kampagnen? (Z.B. Banner-Werbung

bei einem Web-Portal) · Wie wirken sich Veränderungen der Web-Site aus?

Page 32: Web Mining

3232

Genaue Analyse der BenutzerGenaue Analyse der Benutzer

· Was für ein Profil haben User die bei mir einkaufen?

· Welchen Pfad durch die Seiten nehmen Besucher, die zum Kauf kommen?

· Haben die Kunden Probleme beim Abschluss des Kaufs?

Page 33: Web Mining

3333

Produktkategorien

Unter dem Begriff Web Mining Software werden eine Reihe verschiedenartiger Produkte angeboten.

Grob lassen sie sich wie folgt unterteilen: · Web-Traffic Analyse-Programme · Programme mit zusätzlicher Data Mining

Funktionalität

Page 34: Web Mining

3434

ProdukteübersichtProdukteübersicht

Page 35: Web Mining

3535

AnalogAnalog

• Analog gehört zu den ältesten Log File Analysern.

• Das Programm erzeugt keine Besucher und Session Statistiken.

• Bedienung und Installation lassen sich mit guten IT Kenntnissen problemlos meistern.

• Analog ist frei erhältlich.

Page 36: Web Mining

3636

AnalogAnalog

Page 37: Web Mining

3737

SASSAS

• Besteht aus mehreren Komponenten:– WebHound– Enterprise Miner– Data Warehousing

Page 38: Web Mining

3838

SAS WebHoundSAS WebHound

• Der SAS WebHound ist der neueste Bestandteil von SAS eIntelligence.

• WebHound ist für das Einlesen von Web Log Files ins Data Warehouse verantwortlich.

• Er stellt außerdem eine umfangreiche Reporting-Funktion zur Verfügung.

• Für das eigentliche Data Mining wird der SAS Enterprise Miner benötigt.

• Der WebHound ist auch als stand alone Produkt erhältlich (mit SAS Base und anderen nötigen Paketen).

• Angesichts des Preises, ist er allerdings wohl nur in einer SAS Umgebung sinnvoll.

Page 39: Web Mining

3939

SAS WebHoundSAS WebHound

• Einlese Prozess der Log Dateien kann parallelisiert werden.

• Explizit für grosse Datenmengen ausgelegt.• Auf Wunsch können nur relevante Daten aus

den Log Dateien extrahiert werden.

Page 40: Web Mining

4040

SAS Enterprise MinerSAS Enterprise Miner

• Enterprise Miner ist das eigentliche Data Mining Tool der SAS

• Beinhaltet:– SEMMA, eigenes verfahren für die Data Mining

Anwendung– Nahtlose Integration von Data Warehousing und

Reporting Funktionalitäten– Daten Visualisierung, Untersuchung und

Bearbeitung.

Page 41: Web Mining

4141

SAS Data WarehousingSAS Data Warehousing

• Data Warehousing bietet:– Daten Gewinnung

• Transparenter Zugriff mittels ERP Systemen, hierarchischen oder relationalen Datenbanken.

– Daten Zugriff• Zugriff auf alle Funktionen per Programmiersprache

möglich (Java/C++)

– Daten Aufbewahrung• SAS Tabellen• Scalable Performance Data Server (SPDS)• hierarchische oder relationale Datenbanken.

Page 42: Web Mining

4242

Enterprise MinerEnterprise Miner

Page 43: Web Mining

4343

Clementine von SPSSClementine von SPSS

• Clementine stammt ursprünglich von der Firma ISL. Diese wurde 1998 von SPSS aufgekauft.

• Clementine ist neben SAS sicherlich eines der großen Standard Tools für Data Mining.

• Beide wurden um Web Mining Funktionen erweitert.

• Die Web Mining Funktionen werden durch das „Application Template Web Mining“ (WebCAT) zur Verfügung gestellt.

Page 44: Web Mining

4444

Clementine von SPSSClementine von SPSS

• Die Version 6 bedient sich immer noch der bewährten X-Window Umgebung unter Exceed kein Windows Client

• Bedienung geht nach einem Workflow Prinzip, ähnlich wie bei SAS

Page 45: Web Mining

4545

ClementineClementine

Page 46: Web Mining

4646

Bewertung Bewertung (Stand Ende 2001)(Stand Ende 2001)

Page 47: Web Mining

4747

Web Mining Tools Web Mining Tools im Einsatzim Einsatz

Page 48: Web Mining

4848

Web Mining mit WUMWeb Mining mit WUM

• Was ist WUM?

• Einsatz von WUM

• Demo

Page 49: Web Mining

4949

Web Utilization Mining - WUMWeb Utilization Mining - WUM

• Analyse der Web-Nutzung:– Aufbereitung des Web-Server-Logs– Einsetzen der Data-Mining-Software– Eine Methodik der Analyse– Erfolgskontrolle für kommerzielle Web-Sites die mit

WUM angewendet wird, um den Erfolg einer Web-Site zu messen und zu erhöhen

Page 50: Web Mining

5050

Web Utilization MiningWeb Utilization Mining

• Die Muster des Nutzerverhaltens werden anhand einer informationsreichen Graphstruktur dargestellt, die konventionelle Sequenzen generalisiert, aber nicht durch Sequenz-Mining zu ermitteln ist.

• Eine ausdrucksstarke Mining-Anfragesprache unterstützt die Spezifizierung von statistischen und strukturellen Einschränkungen, um den Prozess der Musterentdeckung zu steuern.

Page 51: Web Mining

5151

Was ist WUM? (1)Was ist WUM? (1)

• WUM : A Web Utilization Miner– „sequence miner“– analysiert das Verhalten von Besuchern einer

Website durch Sequenzanalyse• Analyse des Surfverhaltens anhand der Reihenfolge der

angegangenen Seiten

– auch für Sequence Pattern Discovery in jeglicher Art von Logfiles

Page 52: Web Mining

5252

Was ist WUM? (2)Was ist WUM? (2)

• Web Mining Tool zur Entdeckung von Navigationsmustern

• Report-Funktionalität

• Mining Sprache MINT V1.2

Page 53: Web Mining

5353

WUM ArchitekturWUM Architektur• Datenaufbereitung

• Aggregated Log

• „Sequence Miner“

• Visualiser

Page 54: Web Mining

5454

Einsatzgebiet von WUMEinsatzgebiet von WUMWebWeb

MiningMining

Web Content Web Content MiningMining

Web Structure Web Structure MiningMining

Web UsageWeb Usage MiningMining

Web Log Web Log MiningMining

Integrated WebIntegrated Web Usage MiningUsage MiningEinsatzgebiet von WUM:Einsatzgebiet von WUM:

Web Usage MiningWeb Usage Mining

Page 55: Web Mining

5555

Einsatz von WUM (1)Einsatz von WUM (1)

• Datenaufbereitung– Log-Analyse– Session-Analyse

• Analyse:– Verhaltensmuster („behaviour patterns“) bestimmen durch

Analyse von Sequenzdaten– Ad-hoc Analyse: Query Analyzer

• Datenintegration und -Darstellung– Aggregate Log, tree

• Resultatsausgabe– Auswertungen

Page 56: Web Mining

5656

Einsatz von WUM (2)Einsatz von WUM (2)

• Ausgangslage: Website– z.B. ein e-Shop

Aufgaben-Aufgaben-definitiondefinition

Page 57: Web Mining

5757

Einsatz von WUM (3)Einsatz von WUM (3)

• Access Log wird eingelesen

Daten-Daten-AuswahlAuswahl

Page 58: Web Mining

5858

Einsatz von WUM (4)Einsatz von WUM (4)

• Sessions werden definiert, innerhalb welcher das Surfverhalten nachvollziehbar sein soll

Daten-Daten-AufbereitungAufbereitung

Page 59: Web Mining

5959

Einsatz von WUM (5)Einsatz von WUM (5)• Das Log wird mit dem

„Aggregated Log“ in zusammenhängender Form gebracht.

Daten-Daten-IntegrationIntegration

Page 60: Web Mining

6060

Einsatz von WUM (6)Einsatz von WUM (6)Daten-Daten-

IntegrationIntegration

Page 61: Web Mining

6161

Einsatz von WUM (7)Einsatz von WUM (7)Daten-Daten-

IntegrationIntegration

Page 62: Web Mining

6262

Einsatz von WUM (8)Einsatz von WUM (8)• Besucherverhalten

identifizieren und veranschaulichen

Muster-Muster-SucheSuche

H.html = HomepageH.html = HomepageP.html = ProductsP.html = ProductsX.html = Product XX.html = Product XY.html = Product YY.html = Product YG.html = GameG.html = GameD.html = DiscountD.html = DiscountS.html = SearchS.html = SearchC.html = ContactC.html = ContactO.html = OrderO.html = Order

Page 63: Web Mining

6363

Einsatz von WUM (9)Einsatz von WUM (9)

• WUM benutzt die Mining Sprache MINT (Mining Query Language)– SQL-ähnliche Sprache– es können auch direkte Queries

eingegeben werden:

select t from node as a b, template a * b as t where a.url = "X.html" and b.url = "Y.html"

Muster-Muster-SucheSuche

Page 64: Web Mining

6464

Einsatz von WUM (10)Einsatz von WUM (10)Muster-Muster-SucheSuche

Page 65: Web Mining

6565

Einsatz von WUM (11)Einsatz von WUM (11)• Analyse +

Visualisierung der Query-Resultate

Muster-Muster-SucheSuche

Page 66: Web Mining

6666

Einsatz von WUM (12)Einsatz von WUM (12)• Reports: Datenauswertung

– Comprehensive Report– Web Site Pages Report

Interpretation undInterpretation undUmsetzungUmsetzung

Page 67: Web Mining

6767

Einsatz von WUM (13)Einsatz von WUM (13)

• DatenauswertungInterpretation undInterpretation und

UmsetzungUmsetzung

Page 68: Web Mining

6868

DemoDemo

It‘s showtime !!!It‘s showtime !!!

Page 69: Web Mining

6969

QuellenQuellen

• Handbuch Web Mining von Hajo Hippner, Melanie Merzenich, Klaus D. Wilde

• Scripts Prof. Dr. Nouri, FH Solothurn• Präsentation Dr. Daniel Schloeth SPSS (Schweiz) AG• Vorträge Prof. Dr. Quafafou, IAAI• Unterlagen der Firma SPSS und SAS• Script der Universität Karlsruhe (TH)• WUM-Website http://wum.wiwi.hu-berlin.de

Page 70: Web Mining

2 Version2 VersionWeb MiningWeb Mining

• Theoretisches KonzeptTheoretisches Konzept• Praktische AnwendungPraktische Anwendung• DiskussionDiskussion

Page 71: Web Mining

7171

InterviewInterview

• Interview mit einem Vertreter von Provantis

Page 72: Web Mining

7272

Theorethisches KonzeptTheorethisches Konzept

• Was ist Web-Mining?• Wofür braucht es Web-Mining?• Wie sieht Web-Mining für Surfer aus?• Wie sieht Web-Mining technisch aus?• Welche Strategien gibt es?• Welche Infos sammelt Web-Mining?

Page 73: Web Mining

7373

Was ist Web-Mining?Was ist Web-Mining?

• Sammeln von Kunden-Infos via WWW• Erfassen der Gewohnheiten und

Bedürfnisse der potenziellen Kunden• Ermittlen der Bewegungspfade der

Kunden• Erfassen der Interessen / Kaufbedürfnisse

des Kunden

Page 74: Web Mining

7474

Wofür braucht es Web-Mining?Wofür braucht es Web-Mining?

• Personifizierung des Auftritts– Begrüssung mit Namen– Speichern der letzten Einstellung usw.

• Angebot auf Kundenbedürfnisse ausrichten

• Kaufwahrscheinlichkeiten berechnen• Marketing-Anaylsen günstig durchführen

Page 75: Web Mining

7575

Wie sieht Web-Mining für Surfer Wie sieht Web-Mining für Surfer aus?aus?

• Begrüssung mit persönlicher Anrede

• Letzter Besuch• Anzahl Beträge

im Forum• usw.

Page 76: Web Mining

7676

Wie sieht Web-Mining technisch Wie sieht Web-Mining technisch aus?aus?

• 1000 ungefragte Küchlein

Page 77: Web Mining

7777

Wie sieht Web-Mining technisch Wie sieht Web-Mining technisch aus?aus?

• Web-Mining sammelt Informationen über den Surfer

• In ein Cookie kann man schreiben was man will !!

• Niemand weiss was hier gespeichert wird

Page 78: Web Mining

7878

Web-Mining StrategienWeb-Mining Strategien

• Welche Vorlieben hat der Surfer?• Den Kunden optimal durch die Webseiten

der Firma führen• Dem Kunden genau das Anbieten was er

möchte

Page 79: Web Mining

7979

Welche Infos sammelt Welche Infos sammelt Web-Mining? (1)Web-Mining? (1)

• Der Besucher– Wie viele Besucher erhält meine Seite?– Woher kommen sie?– Wie lange bleiben sie? – Wie sehen die typischen Bewegungspfade

aus?– Wie lassen sich die Bewegungspfade

verbessern?

Page 80: Web Mining

8080

Welche Infos sammelt Welche Infos sammelt Web-Mining? (2)Web-Mining? (2)

• Der Besucher– An welcher Stelle verlassen die Besucher

meine Seite?– Warum verlässt der Surfer meine Seite?– Welche Profile haben meine wichtigsten

Kundensegmente

Page 81: Web Mining

8181

Welche Infos sammelt Welche Infos sammelt Web-Mining? (3)Web-Mining? (3)

• Online Werbung– Welche Werbebanner erwecken das meiste

Interesse?– Welche Werbung führt zu Käufen? – An welche Stelle sollen die Banner platziert

werden?– Wieviele Besucher kaufen etwas?

Page 82: Web Mining

8282

Welche Infos sammelt Welche Infos sammelt Web-Mining? (4)Web-Mining? (4)

• Der Seiteninhalt– Für welche Inhalte interessiert sich der

Kunde?– Welche Inhalte werden weniger beachtet und

warum?– Wie lässt sich eine Personalisierung der

Inhalte erreichen/verbessern?

Page 83: Web Mining

8383

Welche Infos sammelt Welche Infos sammelt Web-Mining? (5)Web-Mining? (5)

• Das Kaufverhalten– Wie unterscheiden sich Besucher von

Käufern? – Was machen die Besucher bevor sie etwas

einkaufen?– Welches Verhalten auf der Seite lässt auf

Wiederholungskäufe schliessen?

Page 84: Web Mining

Web MiningWeb Mining• Web-Content-MiningWeb-Content-Mining• Web-Structure-MiningWeb-Structure-Mining• Web-Usage-MiningWeb-Usage-Mining

Page 85: Web Mining

8585

Übersicht der MethodenÜbersicht der Methoden

Web-Mining

Web-Content-Mining

Web-Structure-Mining

Web-Usage-Mining

Untersucht Inhalte /Klassifiziert Seiten

Untersucht Strukturdes Aufbaus der

Webseiten

Untersucht wie dieWebseiten gebraucht

werden

Page 86: Web Mining

8686

Web-Content-MiningWeb-Content-Mining

• Analysiert den Inhalt von Webseiten• Klassifiert diese Inhalte• Extrahiert die Dokumente und fügt diese in

neue Knowledge-Kataloge ein• Ermöglicht automatischen Tranfer /

Transformation von bestehender Information

Page 87: Web Mining

8787

Web-Content-MiningWeb-Content-Mining

• Beispiel:– Redaktionell gepflegte Datenbanken können

mit Web-Content-Mining automatisch erweitert werden

– Datenbanken können automatisch auf dem neuesten Stand gehalten werden

Page 88: Web Mining

8888

Web-Content-MiningWeb-Content-Mining

Seiten werdenin die Datenbank eingetragen

Page 89: Web Mining

8989

Web-Structure-MiningWeb-Structure-Mining

• Es werden die Zusammenhänge innerhalb der Seiten eines Web-Auftritts untersucht

• Es werden die Zusammenhänge innerhalb der Elemente einer Seite untersucht

Page 90: Web Mining

9090

Web-Structure-MiningWeb-Structure-Mining

• Beispiele für Web-Structure-Mining:– websom.hut.fi– www.kartoo.com– smartmoney.com– www.webbrain.com

• Technische Details von Web-Structure-Mining

Page 91: Web Mining

9191

Web-Structure-MiningWeb-Structure-Miningwebsom.hut.fiwebsom.hut.fi

• Die Worte charakterisieren bestimmte Bereiche

• Die Fraben bezeichnen die Clusters

• Die Blauen Punkte geben die gefundenen Dokumente an

Page 92: Web Mining

9292

Web-Structure-MiningWeb-Structure-Miningwebsom.hut.fiwebsom.hut.fi

• Graphische Übersicht über die gefundene Web-Seiten

• Zeigt Grün die Zusammen-hänge an

Page 93: Web Mining

9393

Web-Structure-MiningWeb-Structure-Miningsmartmoney.comsmartmoney.com

• Börsen-Daten von über 500 Firmen

• Die Grösse zeigt den Markanteil

• Die Farbe den Gewinn/ Verlust des Titels

Page 94: Web Mining

9494

Web-Structure-MiningWeb-Structure-Miningwww.webbrain.comwww.webbrain.com

• Zeigt eine nach Kategorien geordnete Übersicht des Suchresultats an

Page 95: Web Mining

9595

Technische Details Technische Details von Web-Structure-Mining (1)von Web-Structure-Mining (1)

• Untersuchungsgegenstand ist– Struktur des Webs – Hierarchien und Verknüpfungen– Struktur bzw.Schema eines Dokuments

• das links enthält und auf das links verweisen• das aus mehreren links besteht

– Ähnlichkeiten und Relationen helfen bei der

Page 96: Web Mining

9696

Technische Details Technische Details von Web-Structure-Mining (2)von Web-Structure-Mining (2)

• Das Web ist ein gerichteter Graph– Seiten und links entsprechen Knoten– In-Degree =Anzahl der links auf ein Dokument– Out-Degree =Anzahl der links aus einem

Dokument– Diameter =maximaler Wert des minimalen

Wegs von einem Dokument A zu einem Dokument B

Page 97: Web Mining

9797

Web-Usage-MiningWeb-Usage-Mining

• Untersucht das Verhalten von Surfern• Anwenden von Data-Mining-Methoden auf

das Server-Logfile• Daten können einem User zugeordnet

sein oder nicht

Page 98: Web Mining

9898

Web-Usage-MiningWeb-Usage-Mining

Web Usage Mining• Nutzeraktivitäten• Inhalt einer Site• Andere Daten

Personalisiert• Personenbezogene

Daten• Nutzerprofile

Anonym

Page 99: Web Mining

9999

Web-Usage-MiningWeb-Usage-Mining

• Grundlegende Vorgehensweise

Sammlungder Daten

Daten-aufbereitung Modellierung Auswertung

Page 100: Web Mining

100100

Web-Usage-MiningWeb-Usage-Mining

• Verfügbare Daten– Host– Datum / Uhrzeit– URL– Anzahl

gelesener Bytes– Browser– Referer-URL– Name und

Passwort des Nutzers

Page 101: Web Mining

Web MiningWeb Mining(allgemein)(allgemein)

• DatenaufbereitungDatenaufbereitung• Logfile-AnalyseLogfile-Analyse• Infomation TrackingInfomation Tracking• Fallbeispiel für WebMiningFallbeispiel für WebMining

Page 102: Web Mining

102102

DatenaufbereitungDatenaufbereitung

User RegistrationData

LogfileFormatted

Data

FormattedData

FormattedData

AssociationRules

SequentialPatterns

Cluster &Classification

Rules

CleanedLogfile

IntegratedData

Page 103: Web Mining

103103

DatenaufbereitungDatenaufbereitung

• Das Logfile wird bereinigt• Die Daten werden mit den Benutzerdaten

zusammengeführt• Die Daten werden formatiert• Die Daten werden nach Data-Mining-

Methoden ausgewertet

Page 104: Web Mining

104104

Auswertung der LogfilesAuswertung der Logfiles

Page 105: Web Mining

105105

Logfile-AnalyseLogfile-Analyse

• Probleme– Alle Benutzer welche von einer Firma aus

Surfen haben die gleiche IP-Adresse– Aufwendiges Preprozessing – Nicht alle

Informationen sind relevant– Beim Caching werden Seiten

zwischengespeichert und erscheinen danach nicht mehr im Logfile

Page 106: Web Mining

106106

Infomation TrackingInfomation Tracking

Page 107: Web Mining

107107

Fallbeispiel für WebMiningFallbeispiel für WebMining

Page 108: Web Mining

Web MiningWeb MiningMethodenMethoden

• Clustering / SegmentierungClustering / Segmentierung• WarenkorbanalyseWarenkorbanalyse• SequenzanalysenSequenzanalysen• KlassifikationKlassifikation• VorhersageVorhersage

Page 109: Web Mining

109109

Clustering / SegmentierungClustering / Segmentierung

• Angewandte Techniken – Clusteranalyse– Neuronale Netze– Indentifikation von Kunden mit

ähnlichem Verhalten

Page 110: Web Mining

110110

WarenkorbanalyseWarenkorbanalyse

• Ziel der Warenkorb-Analyse – Analyse der Zusammenhänge zwischen

Produkt und Dienstleistung– Erkennen von Trends– Empfehlungen abgeben – z.B. Most

popular product etc.

Page 111: Web Mining

111111

Sequenzanalysen (1)Sequenzanalysen (1)

• Ziel der Sequenzanalyse – Reihenfolge der besuchten Seiten

bestimmen– Produkte bestimme welche in EINER

Sequenz erworben wurden– Welche Sequenzen führen zum Kauf

Page 112: Web Mining

112112

Sequenzanalysen (2)Sequenzanalysen (2)

• Ziel der Sequenzanalyse – Welche Sequenzen führen zum Kauf-

Abbruch– Welche Sequenzen beinhalten

Schwachstellen

Page 113: Web Mining

113113

KlassifikationKlassifikation

• Klassifizierung durch– Entscheidungsbäume– Neuronale Netze

• Erforschen von komplexem Kaufverhalten

Page 114: Web Mining

114114

VorhersageVorhersage

• Verhalten des Kunden voraussagen = proaktives Handeln

• Wie wahrscheinlich ist es, dass eine Person:– Antwortet– Kauft– Mehr ausgibt– Nicht mehr kauft

Page 115: Web Mining

115115

QuellenQuellen• Skript Dr. Nouri• Präsentation Web-Mining (Vorgänger-Jahrgang)• Internet

– http://www.cometrics.de/know-web-mining.html– http://www.aifb.uni-karlsruhe.de/WBS/gst/diplomarbeiten/Seman

ticWeb_Structure_Mining.pdf– http://www.information-networking.net/Personalisierung_im_Inter

net_31-05-2001.pdf– http://www.uni-hildesheim.de/~rschneid/WebMiningSession2.pdf– notesweb.uni-wh.de/.../Web_Usage_Mining.ppt

Page 116: Web Mining

Vielen Dank für Eure AufmerksamkeitVielen Dank für Eure Aufmerksamkeit

Fragen?Fragen?