BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

BINGO!BINGO!Ein fokussierender Crawler Ein fokussierender Crawler

zur Generierung zur Generierung personalisierter Ontologienpersonalisierter Ontologien

Martin TheobaldMartin TheobaldStefan Siersdorfer, Sergej SizovStefan Siersdorfer, Sergej Sizov

Universität des SaarlandesUniversität des SaarlandesLehrstuhl für Datenbanken und InformationssystemeLehrstuhl für Datenbanken und Informationssysteme

Prof. Dr.-Ing. G. WeikumProf. Dr.-Ing. G. Weikum

2. Oktober 20022. Oktober 2002

Fokussierendes Crawling zur OntologiegenerierungFokussierendes Crawling zur Ontologiegenerierung Aufbau und Erweiterung benutzerdefinierter Ontologien Aufbau und Erweiterung benutzerdefinierter Ontologien

über spezifischen Themenhierarchien („über spezifischen Themenhierarchien („Yahoo-StyleYahoo-Style“) “) Automatisches AktualisierenAutomatisches Aktualisieren undund Filtern hierarchischer Filtern hierarchischer

Themenstrukturen unter Ausnutzung unterschiedlicher Themenstrukturen unter Ausnutzung unterschiedlicher Relevanzkriterien (Relevanzkriterien (SVM-Konfidenz, Autorität, Cosinus-MaßSVM-Konfidenz, Autorität, Cosinus-Maß))

Automatisierte Bearbeitung von Expertenqueries bzw. Automatisierte Bearbeitung von Expertenqueries bzw. Vervollständigung vorhandener Ergebnismengen Vervollständigung vorhandener Ergebnismengen („Nadel im Heuhaufen“) („Nadel im Heuhaufen“)

BINGO! BINGO! „„BBookmark-ookmark-InInduced duced GGathering athering oof f !!nformation“nformation“

ROOT

MountainbikingGarda-See

OTHERS

Virtuelles Bookmark-Dokument mit Virtuelles Bookmark-Dokument mit spezifischen Keywordsspezifischen Keywords

Query-Ergebnisse externer Suchmaschine Query-Ergebnisse externer Suchmaschine als Startdokumente als Startdokumente z.B. 10 beste Google-Ergebnisse zu z.B. 10 beste Google-Ergebnisse zu „Mountainbike Garda See Tour Panorama „Mountainbike Garda See Tour Panorama Trails“ Trails“

Überblick über den System-AufbauÜberblick über den System-Aufbau

WWW......................

Crawler Dokument-Analysator

Feature-Selektion

Klassifikator Link-analyse

AdaptivesTraining

URLQueue

Doks Trainings-Doks

Hubs &Authorities

Book-marks

Ontologie-index

Feature-Vektoren

Fokussierendes Crawling mit adaptivem Neu-Training auf „Archetypen“

?

Klassifikation mit Support-Vector-Machines Klassifikation mit Support-Vector-Machines (SVM)(SVM)

Training:Training: Berechne trennende Hyperebene , die die Positiv- von Berechne trennende Hyperebene , die die Positiv- von

den Negativbeispielen mit maximalem Abstand trennt.den Negativbeispielen mit maximalem Abstand trennt.

Löse quadratisches OptimierungsproblemLöse quadratisches Optimierungsproblem

Klassifikation:Klassifikation: Teste unbeschrifteten Vektor Teste unbeschrifteten Vektor y y auf Lage zur Hyperebeneauf Lage zur Hyperebene

Skalarprodukt (SVM-Klassifikations-Skalarprodukt (SVM-Klassifikations-

Konfidenz)Konfidenz)

Sehr effiziente Laufzeit Sehr effiziente Laufzeit O(m)O(m) linear zur Anzahl linear zur Anzahl mm der Terme in der Terme in XXii

n Trainingsvektoren mit

Komponenten (x1, ..., xm, C)

und C = +1 oder C = -1

x1

x2

0bxw

C C

?

0bxw

0)(1

bywbywm

iii

Hierarchische Klassifikation undHierarchische Klassifikation und Feature-Selektion Feature-Selektion

][][

][log][:),( 2

ji

jijiji

cPXP

cXPcXPcXMI

XMLWeb IRData Mining

S.DataDB

Core

ROOT

-0.3 0.4

0.2 0.6 -0.2

Rekursive Klassifikation entlang der HierarchieRekursive Klassifikation entlang der HierarchieEnscheidung basiert auf klassenspezifischen Enscheidung basiert auf klassenspezifischen Feature-RäumenFeature-RäumenBeispiel: Beispiel:

deadlock, recovery, pattern, hypertextdeadlock, recovery, pattern, hypertext gut gut für für DB CoreDB Core gegen gegen Semistructured DataSemistructured Data schlecht schlecht für für Data MiningData Mining gegen gegen XMLXML

Knotenspezifische Bereinigung der Feature-Vektoren durch Bestimmung Knotenspezifische Bereinigung der Feature-Vektoren durch Bestimmung der der mm besten Diskriminatoren nach besten Diskriminatoren nach MI MI (Mutual Information bzw. Kullback-(Mutual Information bzw. Kullback-Leibler-Distanz) Leibler-Distanz)

Beste Diskriminatoren für Beste Diskriminatoren für Data MiningData Mining gegen gegen Web IRWeb IR und und XMLXML ( (m = 200m = 200): ): mine, mine,

knowledge, OLAP, pattern, discover, cluster, dataset …knowledge, OLAP, pattern, discover, cluster, dataset …

Termgewichtung nach TF/IDF Termgewichtung nach TF/IDF

Link-Analyse nach Kleinberg‘s HITS AlgorithmusLink-Analyse nach Kleinberg‘s HITS Algorithmus

Für einen Webgraphen G=(V,E) und eine themenspezifische Basis B V

finde gute Authorities mit Gewichtung

und gute Hubs mit Gewichtung

Epqqqp yx

),(:

Eqpqqp xy

),(:Iterative Approximation des dominanten Eigenvektors:

xAA:yA:x TT

yAA:xA:y T yAx T

xAy

Adaptives Neu-Trainieren auf ArchetypenAdaptives Neu-Trainieren auf Archetypen

Wachtumsphase:Wachtumsphase: Iteratives Neutrainieren des Klassifikators ausgehend von Iteratives Neutrainieren des Klassifikators ausgehend von

Bookmarks und hochwertigen NachbardokumentenBookmarks und hochwertigen Nachbardokumenten Identifikation von Archetypen:Identifikation von Archetypen:

beste Doks nach SVM-Konfidenz beste Authoritiesbeste Doks nach SVM-Konfidenz beste Authorities

SVM-Konfidenz > mittlere Konfidenz der BookmarksSVM-Konfidenz > mittlere Konfidenz der Bookmarks

Verhindere „Topic-Drift“!Verhindere „Topic-Drift“! Harte Fokussierung des Crawlers: Harte Fokussierung des Crawlers:

Akzeptiere nur solche Links (p,q) mit class(p) = class(q)Akzeptiere nur solche Links (p,q) mit class(p) = class(q)

Erntephase:Erntephase: Massencrawl nach erweiterter TrainingsbasisMassencrawl nach erweiterter Trainingsbasis Schwache Fokussierung mit erhöhter Ausbeute & PräzisionSchwache Fokussierung mit erhöhter Ausbeute & Präzision

Akzeptiere Links (p,q) mit class( q ) != ROOT/OTHERS/Akzeptiere Links (p,q) mit class( q ) != ROOT/OTHERS/

Experimentelle Evaluation (I)Experimentelle Evaluation (I)Portalgenerieung für ein EinzelthemaPortalgenerieung für ein Einzelthema:: Finde möglichst viele Webseiten zu „Database Research“Finde möglichst viele Webseiten zu „Database Research“ Einzige Quellen: Homepages von Einzige Quellen: Homepages von David DeWittDavid DeWitt & & Jim GrayJim Gray

gegen 400 Negativbeispiele aus Yahoo Top-Level-gegen 400 Negativbeispiele aus Yahoo Top-Level-Kategorien als initiales SVM-ModellKategorien als initiales SVM-Modell

Wachstumsphase mit Crawlingtiefe 4 beschränkt auf den Wachstumsphase mit Crawlingtiefe 4 beschränkt auf den Ausgangshost liefert 1002 Archetypen (inkl. PDF, Word)Ausgangshost liefert 1002 Archetypen (inkl. PDF, Word)

AusbeuteAusbeute der Erntephase im Vergleich zur DBLP-Trier: der Erntephase im Vergleich zur DBLP-Trier:

ca. 72% Überlappung unter Homepages der Top 1000 ca. 72% Überlappung unter Homepages der Top 1000 Autoren nach 12 Stunden (ohne DBLP selbst zu crawlen!)Autoren nach 12 Stunden (ohne DBLP selbst zu crawlen!)

Präzision:Präzision: ca. 27% der 1000 besten DBLP-Autoren unter ca. 27% der 1000 besten DBLP-Autoren unter 1000 besten nach SVM-Konfidenz1000 besten nach SVM-Konfidenz

ROOT

Database Research

OTHERS

Experimentelle Evaluation (II)Experimentelle Evaluation (II)ExpertensucheExpertensuche Suche: „Suche: „public domain open source implementations of the public domain open source implementations of the

ARIES recovery algorithmARIES recovery algorithm“ (Shore, MiniBase & Exodus)“ (Shore, MiniBase & Exodus) Keine brauchbaren Ergebnisse unter den Top 10 Google Keine brauchbaren Ergebnisse unter den Top 10 Google

Ergebnissen oder Open-Source Portalen wie Ergebnissen oder Open-Source Portalen wie sourceforge.netsourceforge.net

Manuelle Auswahl von 10 Startdokumenten aus Google-Manuelle Auswahl von 10 Startdokumenten aus Google-Queries zu „Queries zu „aries recovery algorithmaries recovery algorithm“ und „“ und „aries recovery aries recovery methodmethod“ gegen zufällig gewählte Yahoo Top-Level-“ gegen zufällig gewählte Yahoo Top-Level-KategorienKategorien

Massencrawl liefert 17.000 URLs mit 2.167 Dokumenten in Massencrawl liefert 17.000 URLs mit 2.167 Dokumenten in Bereich „ARIES“ innerhalb von 10 min.Bereich „ARIES“ innerhalb von 10 min.

Schlüsselwortsuche nach Cosinus-Maß für „Schlüsselwortsuche nach Cosinus-Maß für „source code source code releaserelease“ liefert Links zu den Open-Source Projekten „Shore“ “ liefert Links zu den Open-Source Projekten „Shore“ und „MiniBase“ unter den Top 10, „Exodus“ wird direkt auf und „MiniBase“ unter den Top 10, „Exodus“ wird direkt auf der Shore-Homepage referenziertder Shore-Homepage referenziert

ZusammenfassungZusammenfassungBINGO! integriert unterschiedliche Techniken des BINGO! integriert unterschiedliche Techniken des

Web-IR wie SVM, MI, HITS mit der Identifikation von Web-IR wie SVM, MI, HITS mit der Identifikation von

Archetypen und adaptivem Neu-TrainingArchetypen und adaptivem Neu-Training

Umfassendes und vielseitiges Werkzeug auf dem Umfassendes und vielseitiges Werkzeug auf dem

Weg zu einer neuen Generation der individualisierten Weg zu einer neuen Generation der individualisierten

Web-Suche / Information-MiningWeb-Suche / Information-Mining

Erweiterung um einen auf Web-Services basierenden Erweiterung um einen auf Web-Services basierenden

Portal-Explorer mit semantisch reicherem Ontologie-Portal-Explorer mit semantisch reicherem Ontologie-

ServiceService

XML: Feature-Generierung, Klassifikation, XPath-XML: Feature-Generierung, Klassifikation, XPath-

Queries…Queries…

BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Documents

Transcript of BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien