BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien
description
Transcript of BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien
BINGO!BINGO!Ein fokussierender Crawler Ein fokussierender Crawler
zur Generierung zur Generierung personalisierter Ontologienpersonalisierter Ontologien
Martin TheobaldMartin TheobaldStefan Siersdorfer, Sergej SizovStefan Siersdorfer, Sergej Sizov
Universität des SaarlandesUniversität des SaarlandesLehrstuhl für Datenbanken und InformationssystemeLehrstuhl für Datenbanken und Informationssysteme
Prof. Dr.-Ing. G. WeikumProf. Dr.-Ing. G. Weikum
2. Oktober 20022. Oktober 2002
Fokussierendes Crawling zur OntologiegenerierungFokussierendes Crawling zur Ontologiegenerierung Aufbau und Erweiterung benutzerdefinierter Ontologien Aufbau und Erweiterung benutzerdefinierter Ontologien
über spezifischen Themenhierarchien („über spezifischen Themenhierarchien („Yahoo-StyleYahoo-Style“) “) Automatisches AktualisierenAutomatisches Aktualisieren undund Filtern hierarchischer Filtern hierarchischer
Themenstrukturen unter Ausnutzung unterschiedlicher Themenstrukturen unter Ausnutzung unterschiedlicher Relevanzkriterien (Relevanzkriterien (SVM-Konfidenz, Autorität, Cosinus-MaßSVM-Konfidenz, Autorität, Cosinus-Maß))
Automatisierte Bearbeitung von Expertenqueries bzw. Automatisierte Bearbeitung von Expertenqueries bzw. Vervollständigung vorhandener Ergebnismengen Vervollständigung vorhandener Ergebnismengen („Nadel im Heuhaufen“) („Nadel im Heuhaufen“)
BINGO! BINGO! „„BBookmark-ookmark-InInduced duced GGathering athering oof f !!nformation“nformation“
ROOT
MountainbikingGarda-See
OTHERS
Virtuelles Bookmark-Dokument mit Virtuelles Bookmark-Dokument mit spezifischen Keywordsspezifischen Keywords
Query-Ergebnisse externer Suchmaschine Query-Ergebnisse externer Suchmaschine als Startdokumente als Startdokumente z.B. 10 beste Google-Ergebnisse zu z.B. 10 beste Google-Ergebnisse zu „Mountainbike Garda See Tour Panorama „Mountainbike Garda See Tour Panorama Trails“ Trails“
Überblick über den System-AufbauÜberblick über den System-Aufbau
WWW......................
Crawler Dokument-Analysator
Feature-Selektion
Klassifikator Link-analyse
AdaptivesTraining
URLQueue
Doks Trainings-Doks
Hubs &Authorities
Book-marks
Ontologie-index
Feature-Vektoren
Fokussierendes Crawling mit adaptivem Neu-Training auf „Archetypen“
?
Klassifikation mit Support-Vector-Machines Klassifikation mit Support-Vector-Machines (SVM)(SVM)
Training:Training: Berechne trennende Hyperebene , die die Positiv- von Berechne trennende Hyperebene , die die Positiv- von
den Negativbeispielen mit maximalem Abstand trennt.den Negativbeispielen mit maximalem Abstand trennt.
Löse quadratisches OptimierungsproblemLöse quadratisches Optimierungsproblem
Klassifikation:Klassifikation: Teste unbeschrifteten Vektor Teste unbeschrifteten Vektor y y auf Lage zur Hyperebeneauf Lage zur Hyperebene
Skalarprodukt (SVM-Klassifikations-Skalarprodukt (SVM-Klassifikations-
Konfidenz)Konfidenz)
Sehr effiziente Laufzeit Sehr effiziente Laufzeit O(m)O(m) linear zur Anzahl linear zur Anzahl mm der Terme in der Terme in XXii
n Trainingsvektoren mit
Komponenten (x1, ..., xm, C)
und C = +1 oder C = -1
x1
x2
0bxw
C C
?
0bxw
0)(1
bywbywm
iii
Hierarchische Klassifikation undHierarchische Klassifikation und Feature-Selektion Feature-Selektion
][][
][log][:),( 2
ji
jijiji
cPXP
cXPcXPcXMI
XMLWeb IRData Mining
S.DataDB
Core
ROOT
-0.3 0.4
0.2 0.6 -0.2
Rekursive Klassifikation entlang der HierarchieRekursive Klassifikation entlang der HierarchieEnscheidung basiert auf klassenspezifischen Enscheidung basiert auf klassenspezifischen Feature-RäumenFeature-RäumenBeispiel: Beispiel:
deadlock, recovery, pattern, hypertextdeadlock, recovery, pattern, hypertext gut gut für für DB CoreDB Core gegen gegen Semistructured DataSemistructured Data schlecht schlecht für für Data MiningData Mining gegen gegen XMLXML
Knotenspezifische Bereinigung der Feature-Vektoren durch Bestimmung Knotenspezifische Bereinigung der Feature-Vektoren durch Bestimmung der der mm besten Diskriminatoren nach besten Diskriminatoren nach MI MI (Mutual Information bzw. Kullback-(Mutual Information bzw. Kullback-Leibler-Distanz) Leibler-Distanz)
Beste Diskriminatoren für Beste Diskriminatoren für Data MiningData Mining gegen gegen Web IRWeb IR und und XMLXML ( (m = 200m = 200): ): mine, mine,
knowledge, OLAP, pattern, discover, cluster, dataset …knowledge, OLAP, pattern, discover, cluster, dataset …
Termgewichtung nach TF/IDF Termgewichtung nach TF/IDF
Link-Analyse nach Kleinberg‘s HITS AlgorithmusLink-Analyse nach Kleinberg‘s HITS Algorithmus
Für einen Webgraphen G=(V,E) und eine themenspezifische Basis B V
finde gute Authorities mit Gewichtung
und gute Hubs mit Gewichtung
Epqqqp yx
),(:
Eqpqqp xy
),(:Iterative Approximation des dominanten Eigenvektors:
xAA:yA:x TT
yAA:xA:y T yAx T
xAy
Adaptives Neu-Trainieren auf ArchetypenAdaptives Neu-Trainieren auf Archetypen
Wachtumsphase:Wachtumsphase: Iteratives Neutrainieren des Klassifikators ausgehend von Iteratives Neutrainieren des Klassifikators ausgehend von
Bookmarks und hochwertigen NachbardokumentenBookmarks und hochwertigen Nachbardokumenten Identifikation von Archetypen:Identifikation von Archetypen:
beste Doks nach SVM-Konfidenz beste Authoritiesbeste Doks nach SVM-Konfidenz beste Authorities
SVM-Konfidenz > mittlere Konfidenz der BookmarksSVM-Konfidenz > mittlere Konfidenz der Bookmarks
Verhindere „Topic-Drift“!Verhindere „Topic-Drift“! Harte Fokussierung des Crawlers: Harte Fokussierung des Crawlers:
Akzeptiere nur solche Links (p,q) mit class(p) = class(q)Akzeptiere nur solche Links (p,q) mit class(p) = class(q)
Erntephase:Erntephase: Massencrawl nach erweiterter TrainingsbasisMassencrawl nach erweiterter Trainingsbasis Schwache Fokussierung mit erhöhter Ausbeute & PräzisionSchwache Fokussierung mit erhöhter Ausbeute & Präzision
Akzeptiere Links (p,q) mit class( q ) != ROOT/OTHERS/Akzeptiere Links (p,q) mit class( q ) != ROOT/OTHERS/
Experimentelle Evaluation (I)Experimentelle Evaluation (I)Portalgenerieung für ein EinzelthemaPortalgenerieung für ein Einzelthema:: Finde möglichst viele Webseiten zu „Database Research“Finde möglichst viele Webseiten zu „Database Research“ Einzige Quellen: Homepages von Einzige Quellen: Homepages von David DeWittDavid DeWitt & & Jim GrayJim Gray
gegen 400 Negativbeispiele aus Yahoo Top-Level-gegen 400 Negativbeispiele aus Yahoo Top-Level-Kategorien als initiales SVM-ModellKategorien als initiales SVM-Modell
Wachstumsphase mit Crawlingtiefe 4 beschränkt auf den Wachstumsphase mit Crawlingtiefe 4 beschränkt auf den Ausgangshost liefert 1002 Archetypen (inkl. PDF, Word)Ausgangshost liefert 1002 Archetypen (inkl. PDF, Word)
AusbeuteAusbeute der Erntephase im Vergleich zur DBLP-Trier: der Erntephase im Vergleich zur DBLP-Trier:
ca. 72% Überlappung unter Homepages der Top 1000 ca. 72% Überlappung unter Homepages der Top 1000 Autoren nach 12 Stunden (ohne DBLP selbst zu crawlen!)Autoren nach 12 Stunden (ohne DBLP selbst zu crawlen!)
Präzision:Präzision: ca. 27% der 1000 besten DBLP-Autoren unter ca. 27% der 1000 besten DBLP-Autoren unter 1000 besten nach SVM-Konfidenz1000 besten nach SVM-Konfidenz
ROOT
Database Research
OTHERS
Experimentelle Evaluation (II)Experimentelle Evaluation (II)ExpertensucheExpertensuche Suche: „Suche: „public domain open source implementations of the public domain open source implementations of the
ARIES recovery algorithmARIES recovery algorithm“ (Shore, MiniBase & Exodus)“ (Shore, MiniBase & Exodus) Keine brauchbaren Ergebnisse unter den Top 10 Google Keine brauchbaren Ergebnisse unter den Top 10 Google
Ergebnissen oder Open-Source Portalen wie Ergebnissen oder Open-Source Portalen wie sourceforge.netsourceforge.net
Manuelle Auswahl von 10 Startdokumenten aus Google-Manuelle Auswahl von 10 Startdokumenten aus Google-Queries zu „Queries zu „aries recovery algorithmaries recovery algorithm“ und „“ und „aries recovery aries recovery methodmethod“ gegen zufällig gewählte Yahoo Top-Level-“ gegen zufällig gewählte Yahoo Top-Level-KategorienKategorien
Massencrawl liefert 17.000 URLs mit 2.167 Dokumenten in Massencrawl liefert 17.000 URLs mit 2.167 Dokumenten in Bereich „ARIES“ innerhalb von 10 min.Bereich „ARIES“ innerhalb von 10 min.
Schlüsselwortsuche nach Cosinus-Maß für „Schlüsselwortsuche nach Cosinus-Maß für „source code source code releaserelease“ liefert Links zu den Open-Source Projekten „Shore“ “ liefert Links zu den Open-Source Projekten „Shore“ und „MiniBase“ unter den Top 10, „Exodus“ wird direkt auf und „MiniBase“ unter den Top 10, „Exodus“ wird direkt auf der Shore-Homepage referenziertder Shore-Homepage referenziert
ZusammenfassungZusammenfassungBINGO! integriert unterschiedliche Techniken des BINGO! integriert unterschiedliche Techniken des
Web-IR wie SVM, MI, HITS mit der Identifikation von Web-IR wie SVM, MI, HITS mit der Identifikation von
Archetypen und adaptivem Neu-TrainingArchetypen und adaptivem Neu-Training
Umfassendes und vielseitiges Werkzeug auf dem Umfassendes und vielseitiges Werkzeug auf dem
Weg zu einer neuen Generation der individualisierten Weg zu einer neuen Generation der individualisierten
Web-Suche / Information-MiningWeb-Suche / Information-Mining
Erweiterung um einen auf Web-Services basierenden Erweiterung um einen auf Web-Services basierenden
Portal-Explorer mit semantisch reicherem Ontologie-Portal-Explorer mit semantisch reicherem Ontologie-
ServiceService
XML: Feature-Generierung, Klassifikation, XPath-XML: Feature-Generierung, Klassifikation, XPath-
Queries…Queries…