BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

10
BINGO! BINGO! Ein fokussierender Crawler Ein fokussierender Crawler zur Generierung zur Generierung personalisierter Ontologien personalisierter Ontologien Martin Theobald Martin Theobald Stefan Siersdorfer, Sergej Sizov Stefan Siersdorfer, Sergej Sizov Universität des Saarlandes Universität des Saarlandes Lehrstuhl für Datenbanken und Lehrstuhl für Datenbanken und Informationssysteme Informationssysteme Prof. Dr.-Ing. G. Weikum Prof. Dr.-Ing. G. Weikum 2. Oktober 2002 2. Oktober 2002

description

BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien. Martin Theobald Stefan Siersdorfer, Sergej Sizov Universität des Saarlandes Lehrstuhl für Datenbanken und Informationssysteme Prof. Dr.-Ing. G. Weikum 2. Oktober 2002. ROOT. Mountainbiking Garda-See. OTHERS. - PowerPoint PPT Presentation

Transcript of BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Page 1: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

BINGO!BINGO!Ein fokussierender Crawler Ein fokussierender Crawler

zur Generierung zur Generierung personalisierter Ontologienpersonalisierter Ontologien

Martin TheobaldMartin TheobaldStefan Siersdorfer, Sergej SizovStefan Siersdorfer, Sergej Sizov

Universität des SaarlandesUniversität des SaarlandesLehrstuhl für Datenbanken und InformationssystemeLehrstuhl für Datenbanken und Informationssysteme

Prof. Dr.-Ing. G. WeikumProf. Dr.-Ing. G. Weikum

2. Oktober 20022. Oktober 2002

Page 2: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Fokussierendes Crawling zur OntologiegenerierungFokussierendes Crawling zur Ontologiegenerierung Aufbau und Erweiterung benutzerdefinierter Ontologien Aufbau und Erweiterung benutzerdefinierter Ontologien

über spezifischen Themenhierarchien („über spezifischen Themenhierarchien („Yahoo-StyleYahoo-Style“) “) Automatisches AktualisierenAutomatisches Aktualisieren undund Filtern hierarchischer Filtern hierarchischer

Themenstrukturen unter Ausnutzung unterschiedlicher Themenstrukturen unter Ausnutzung unterschiedlicher Relevanzkriterien (Relevanzkriterien (SVM-Konfidenz, Autorität, Cosinus-MaßSVM-Konfidenz, Autorität, Cosinus-Maß))

Automatisierte Bearbeitung von Expertenqueries bzw. Automatisierte Bearbeitung von Expertenqueries bzw. Vervollständigung vorhandener Ergebnismengen Vervollständigung vorhandener Ergebnismengen („Nadel im Heuhaufen“) („Nadel im Heuhaufen“)

BINGO! BINGO! „„BBookmark-ookmark-InInduced duced GGathering athering oof f !!nformation“nformation“

ROOT

MountainbikingGarda-See

OTHERS

Virtuelles Bookmark-Dokument mit Virtuelles Bookmark-Dokument mit spezifischen Keywordsspezifischen Keywords

Query-Ergebnisse externer Suchmaschine Query-Ergebnisse externer Suchmaschine als Startdokumente als Startdokumente z.B. 10 beste Google-Ergebnisse zu z.B. 10 beste Google-Ergebnisse zu „Mountainbike Garda See Tour Panorama „Mountainbike Garda See Tour Panorama Trails“ Trails“

Page 3: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Überblick über den System-AufbauÜberblick über den System-Aufbau

WWW......................

Crawler Dokument-Analysator

Feature-Selektion

Klassifikator Link-analyse

AdaptivesTraining

URLQueue

Doks Trainings-Doks

Hubs &Authorities

Book-marks

Ontologie-index

Feature-Vektoren

Fokussierendes Crawling mit adaptivem Neu-Training auf „Archetypen“

?

Page 4: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Klassifikation mit Support-Vector-Machines Klassifikation mit Support-Vector-Machines (SVM)(SVM)

Training:Training: Berechne trennende Hyperebene , die die Positiv- von Berechne trennende Hyperebene , die die Positiv- von

den Negativbeispielen mit maximalem Abstand trennt.den Negativbeispielen mit maximalem Abstand trennt.

Löse quadratisches OptimierungsproblemLöse quadratisches Optimierungsproblem

Klassifikation:Klassifikation: Teste unbeschrifteten Vektor Teste unbeschrifteten Vektor y y auf Lage zur Hyperebeneauf Lage zur Hyperebene

Skalarprodukt (SVM-Klassifikations-Skalarprodukt (SVM-Klassifikations-

Konfidenz)Konfidenz)

Sehr effiziente Laufzeit Sehr effiziente Laufzeit O(m)O(m) linear zur Anzahl linear zur Anzahl mm der Terme in der Terme in XXii

n Trainingsvektoren mit

Komponenten (x1, ..., xm, C)

und C = +1 oder C = -1

x1

x2

0bxw

C C

?

0bxw

0)(1

bywbywm

iii

Page 5: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Hierarchische Klassifikation undHierarchische Klassifikation und Feature-Selektion Feature-Selektion

][][

][log][:),( 2

ji

jijiji

cPXP

cXPcXPcXMI

XMLWeb IRData Mining

S.DataDB

Core

ROOT

-0.3 0.4

0.2 0.6 -0.2

Rekursive Klassifikation entlang der HierarchieRekursive Klassifikation entlang der HierarchieEnscheidung basiert auf klassenspezifischen Enscheidung basiert auf klassenspezifischen Feature-RäumenFeature-RäumenBeispiel: Beispiel:

deadlock, recovery, pattern, hypertextdeadlock, recovery, pattern, hypertext gut gut für für DB CoreDB Core gegen gegen Semistructured DataSemistructured Data schlecht schlecht für für Data MiningData Mining gegen gegen XMLXML

Knotenspezifische Bereinigung der Feature-Vektoren durch Bestimmung Knotenspezifische Bereinigung der Feature-Vektoren durch Bestimmung der der mm besten Diskriminatoren nach besten Diskriminatoren nach MI MI (Mutual Information bzw. Kullback-(Mutual Information bzw. Kullback-Leibler-Distanz) Leibler-Distanz)

Beste Diskriminatoren für Beste Diskriminatoren für Data MiningData Mining gegen gegen Web IRWeb IR und und XMLXML ( (m = 200m = 200): ): mine, mine,

knowledge, OLAP, pattern, discover, cluster, dataset …knowledge, OLAP, pattern, discover, cluster, dataset …

Termgewichtung nach TF/IDF Termgewichtung nach TF/IDF

Page 6: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Link-Analyse nach Kleinberg‘s HITS AlgorithmusLink-Analyse nach Kleinberg‘s HITS Algorithmus

Für einen Webgraphen G=(V,E) und eine themenspezifische Basis B V

finde gute Authorities mit Gewichtung

und gute Hubs mit Gewichtung

Epqqqp yx

),(:

Eqpqqp xy

),(:Iterative Approximation des dominanten Eigenvektors:

xAA:yA:x TT

yAA:xA:y T yAx T

xAy

Page 7: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Adaptives Neu-Trainieren auf ArchetypenAdaptives Neu-Trainieren auf Archetypen

Wachtumsphase:Wachtumsphase: Iteratives Neutrainieren des Klassifikators ausgehend von Iteratives Neutrainieren des Klassifikators ausgehend von

Bookmarks und hochwertigen NachbardokumentenBookmarks und hochwertigen Nachbardokumenten Identifikation von Archetypen:Identifikation von Archetypen:

beste Doks nach SVM-Konfidenz beste Authoritiesbeste Doks nach SVM-Konfidenz beste Authorities

SVM-Konfidenz > mittlere Konfidenz der BookmarksSVM-Konfidenz > mittlere Konfidenz der Bookmarks

Verhindere „Topic-Drift“!Verhindere „Topic-Drift“! Harte Fokussierung des Crawlers: Harte Fokussierung des Crawlers:

Akzeptiere nur solche Links (p,q) mit class(p) = class(q)Akzeptiere nur solche Links (p,q) mit class(p) = class(q)

Erntephase:Erntephase: Massencrawl nach erweiterter TrainingsbasisMassencrawl nach erweiterter Trainingsbasis Schwache Fokussierung mit erhöhter Ausbeute & PräzisionSchwache Fokussierung mit erhöhter Ausbeute & Präzision

Akzeptiere Links (p,q) mit class( q ) != ROOT/OTHERS/Akzeptiere Links (p,q) mit class( q ) != ROOT/OTHERS/

Page 8: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Experimentelle Evaluation (I)Experimentelle Evaluation (I)Portalgenerieung für ein EinzelthemaPortalgenerieung für ein Einzelthema:: Finde möglichst viele Webseiten zu „Database Research“Finde möglichst viele Webseiten zu „Database Research“ Einzige Quellen: Homepages von Einzige Quellen: Homepages von David DeWittDavid DeWitt & & Jim GrayJim Gray

gegen 400 Negativbeispiele aus Yahoo Top-Level-gegen 400 Negativbeispiele aus Yahoo Top-Level-Kategorien als initiales SVM-ModellKategorien als initiales SVM-Modell

Wachstumsphase mit Crawlingtiefe 4 beschränkt auf den Wachstumsphase mit Crawlingtiefe 4 beschränkt auf den Ausgangshost liefert 1002 Archetypen (inkl. PDF, Word)Ausgangshost liefert 1002 Archetypen (inkl. PDF, Word)

AusbeuteAusbeute der Erntephase im Vergleich zur DBLP-Trier: der Erntephase im Vergleich zur DBLP-Trier:

ca. 72% Überlappung unter Homepages der Top 1000 ca. 72% Überlappung unter Homepages der Top 1000 Autoren nach 12 Stunden (ohne DBLP selbst zu crawlen!)Autoren nach 12 Stunden (ohne DBLP selbst zu crawlen!)

Präzision:Präzision: ca. 27% der 1000 besten DBLP-Autoren unter ca. 27% der 1000 besten DBLP-Autoren unter 1000 besten nach SVM-Konfidenz1000 besten nach SVM-Konfidenz

ROOT

Database Research

OTHERS

Page 9: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Experimentelle Evaluation (II)Experimentelle Evaluation (II)ExpertensucheExpertensuche Suche: „Suche: „public domain open source implementations of the public domain open source implementations of the

ARIES recovery algorithmARIES recovery algorithm“ (Shore, MiniBase & Exodus)“ (Shore, MiniBase & Exodus) Keine brauchbaren Ergebnisse unter den Top 10 Google Keine brauchbaren Ergebnisse unter den Top 10 Google

Ergebnissen oder Open-Source Portalen wie Ergebnissen oder Open-Source Portalen wie sourceforge.netsourceforge.net

Manuelle Auswahl von 10 Startdokumenten aus Google-Manuelle Auswahl von 10 Startdokumenten aus Google-Queries zu „Queries zu „aries recovery algorithmaries recovery algorithm“ und „“ und „aries recovery aries recovery methodmethod“ gegen zufällig gewählte Yahoo Top-Level-“ gegen zufällig gewählte Yahoo Top-Level-KategorienKategorien

Massencrawl liefert 17.000 URLs mit 2.167 Dokumenten in Massencrawl liefert 17.000 URLs mit 2.167 Dokumenten in Bereich „ARIES“ innerhalb von 10 min.Bereich „ARIES“ innerhalb von 10 min.

Schlüsselwortsuche nach Cosinus-Maß für „Schlüsselwortsuche nach Cosinus-Maß für „source code source code releaserelease“ liefert Links zu den Open-Source Projekten „Shore“ “ liefert Links zu den Open-Source Projekten „Shore“ und „MiniBase“ unter den Top 10, „Exodus“ wird direkt auf und „MiniBase“ unter den Top 10, „Exodus“ wird direkt auf der Shore-Homepage referenziertder Shore-Homepage referenziert

Page 10: BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

ZusammenfassungZusammenfassungBINGO! integriert unterschiedliche Techniken des BINGO! integriert unterschiedliche Techniken des

Web-IR wie SVM, MI, HITS mit der Identifikation von Web-IR wie SVM, MI, HITS mit der Identifikation von

Archetypen und adaptivem Neu-TrainingArchetypen und adaptivem Neu-Training

Umfassendes und vielseitiges Werkzeug auf dem Umfassendes und vielseitiges Werkzeug auf dem

Weg zu einer neuen Generation der individualisierten Weg zu einer neuen Generation der individualisierten

Web-Suche / Information-MiningWeb-Suche / Information-Mining

Erweiterung um einen auf Web-Services basierenden Erweiterung um einen auf Web-Services basierenden

Portal-Explorer mit semantisch reicherem Ontologie-Portal-Explorer mit semantisch reicherem Ontologie-

ServiceService

XML: Feature-Generierung, Klassifikation, XPath-XML: Feature-Generierung, Klassifikation, XPath-

Queries…Queries…