PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

40
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissen sextraktion 1 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion WS2001/2002 Klaus Unterstein

description

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion. WS2001/2002 Klaus Unterstein. Verlauf. Begriffsklärung Ontologiebasierte Wissensextraktion Methoden Vor- und Nachteile im Vergleich Bewertung der Ansätze Praxis/Trends Schlußwort. Begriffsklärung. Ontologie(n) - PowerPoint PPT Presentation

Transcript of PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Page 1: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

1

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

WS2001/2002

Klaus Unterstein

Page 2: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

2

Verlauf

• Begriffsklärung• Ontologiebasierte Wissensextraktion• Methoden• Vor- und Nachteile im Vergleich• Bewertung der Ansätze• Praxis/Trends• Schlußwort

Page 3: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

3

Begriffsklärung

• Ontologie(n)

• (Wissens-) Extraktion

• Ontologiebasierte Wissensextraktion (OWE)

Page 4: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

4

Ontologie(n)

1. Definition

2. Motivation

3. Zweck

4. Beschreibung

5. Einsatz

6. Bewertung

Page 5: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

5

Ontologie(n) - Definition

Was ist eine Ontologie ?

Definition (Gruber):„An ontology is a formal, explicit specification of a shared conceptualization.“ [1993]

Eine Ontologie beschreibt explizit eine formale, verteilte Konzeptualisierung eines bestimmten, uns interessierenden Bereichs.

Page 6: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

6

Ontologie(n) – Motivation (1)(allgemein)

Warum benutzen wir Ontologien ?

• Anzahl gespeicherter Informationsquellen wachsen

• Zugriff, Finden und Zusammenfassen von Informationen immer schwieriger

• Große Lücke zwischen Konzeptualisierung der Informationen und gespeicherte Form

Page 7: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

7

Ontologie(n) - Motivation (2)(spezieller Zweck)

Warum benutzen wir Ontologien ? (Fortsetzung)• Kommunikationshilfe zwischen Mensch und Maschine, was

den Austausch von Semantik UND Syntax unterstützen soll• Knowledge sharing und Wiederverwendung• Zur Festlegung bestimmter Begriffe (Eindeutigkeit)• Sie erzwingen eine wohldefinierte Semantik auf solche

Konzeptualisierungen• Sie sollen Hintergrund-Wissen zur Verfügung stellen, um die

Leistung von Informations-Extraktions-Systemen zu erhöhen• Formalisierung von implizit vorhandenem Wissen

Page 8: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

8

Ontologie(n) - Motivation (3)

Symbol Dingsteht für

erweckt bezieht sich auf

Begriff

Semiotisches Dreieck

[Odgen, Richards, 1923]

Page 9: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

9

Ontologie(n) - Motivation (4)

Symbol Dingsteht für

erweckt bezieht sich auf

Begriff

Semiotisches Dreieck

Ontologie legt fest

[nach: S. Staab, 2001]

Page 10: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

10

Ontologie(n) – Beschreibung (1)

Eine Ontologie wird beschrieben durch:

• Eine Menge von Zeichenketten, die die lexikalen Einträge L für Konzepte und Relationen beschreiben

• Eine Menge von Konzepten C

• Eine Taxonomie von Konzepten (bei einigen Definitionen Heterarchie) HC

Page 11: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

11

Ontologie(n) – Beschreibung (2) (Fortsetzung)

• Ein Satz an nicht-taxonomischen Relationen R (beschrieben durch ihre Domain)

• Relationen F und G, die Konzepte und Relationen verknüpfen

• Die Taxonomie der Relationen (bzw. Heterarchie HR) (optional)

• Axiome A, die weitere Constraints der Ontologie beschreiben und es erlauben, implizite Fakten explizit zu machen (optional)

Page 12: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

12

Ontologie(n) - Zweck

Ontologien beschreiben:

• Domain-relevante Konzepte

• Beziehungen zwischen den Konzepten

• Axiome für die Konzepte und Beziehungen

Page 13: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

13

Ontologie(n) - Einsatz

Einsatz von Ontologien in Informations-Extraktions-Systemen zur:

• Integration von Informationen aus heterogenen Quellen

• Extraktion weiterer Fakten durch „Schliessen“ (Inferenz)

• Generierung verschiedener Ziel-Strukturen zur Informationsspeicherung

• Einfache Anpassung/Änderung während der Laufzeit

Page 14: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

14

Ontologie(n) – Bewertung

Vorteile:• Einfaches Prinzip• Betrachtung relevanter

Bereiche (Fokussierung)• Vorteile durch Nutzung

von Semantik und Hintergrundwissen

• Dynamische Entwicklung (siehe Such-Maschine)

• Semi-automatische Ansätze

Nachteile:

• (bisher) manuelle Erstellung

• Zeitliche Erstellung

• Problematik: Vollständigkeit vs. Minimalität

Page 15: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

15

(Wissens-) Extraktion

• Definition• Extraktion von Informationen• Verschiedene Quellen (DB, WWW, Mail...)• Verschiedene Datenformate (HTML, XML,

unstrukturierter Text,...)• Verschiedene Extraktions-Methoden

(Anwendung abhängig vom Datenformat)

Page 16: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

16

Wissensextraktion

Eine mögliche Definition:

Der Prozeß, in dem Information automatisch aus textuellen Dokumenten in eine zur Speicherung in Datenbanken geeignete Form generiert wird. [J. M. Lawler, 1998]

Page 17: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

17

Ontologiebasierte Wissensextraktion:

Was ist ontologiebasierte Wissensextraktion (kurz: OWE) ?

Die Verwendung von Ontologien zur Unterstützung des Wissensextraktionsprozesses auf verschiedene Weisen.

Page 18: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

18

OWE

1. Allgemein

2. Informationsextraktion und Integration mittels Ontologien

3. Klassifikationskriterien

4. Verfahren

Page 19: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

19

OWE - Allgemein

• Verwendung von Ontologien im Extraktionsprozeß

• Wahl der Ontologie abhängig vom Anwendungsbereich

• Flexible Extraktion abhängig von Ontologie• Extraktionsprozeß liefert Informationen für die

semantische Annotation der Texte• Annotation liefert als Nebenprodukt die

Klassifikation der Daten, die dadurch direkt integriert werden können

Page 20: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20

Informationsextraktion & Integration mittels Ontologien

DB

QUELLEN

DB`s

XMLHTML

Doku-mente

Strukturiert:

Semi-strukturiert:

Unstruk-turiert: Ontologie(n)

[nach S. Staab, 1999]

Page 21: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

21

OWE - Klassifikationskriterien• Autonomie-Grad

- manuell (durchführbar, aber zeit-intensiv)

- semi-automatisch (aktueller Stand)

- automatisch (Zukunftsvision)

• Verwendete Methoden

• Verschiedene Verfahren- Bottom-up

- Top-down

- Merging & Mapping

• Eingabedaten (Strukturiertheit)

• Extraktion on-demand vs. Vorab-Extraktion

Page 22: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

22

Semi-automatischer Ontologie-Aneignungs-Prozeß (allgemein)

Quellen-wahl*

KonzeptLernen

DomainFokussierung

Evaluation

RelationenLernen

*=mögliche Quellen wären: Ontologien,Texte, semi-strukturierte Informationen= Startzustand

[J. Kietz,2000]

Page 23: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

23

Methoden

• NLP: (z.B. SMES): - morphologische Analyse (Stamm)*- Semantik-Analyse- Erkennung benannter Entitäten*- Nutzung domain-spezifischer Informationen

• Text-Clustering:- Reduktion der Text-Dimension durch NLP- Clusterbildung (iterativ)- Klassifikation anhand der Cluster

Page 24: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

24

Methoden

• Muster-Abgleich• Induktive Verfahren

- Erkennung/Klassifikation unbekannter Konzepte

- Erkennung von Relationen zwischen Konzepten

• Inferenz (mit Description Logic)• Statistik

Page 25: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

25

KDT - Beispiel-ArchitekturQuellen

(HTML, Text,...) Preprocessing (z.B. NLP)

Postprocessing

Clustering

XML-DTDXML-

Dokumente

[H. Graubitz, 2001]

Page 26: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

26

Vor- und Nachteile im Vergleich

• NLP+ orientiert sich an Sprache, Lexika- viele Heuristiken, manuelle Regelerstellung

• Text-Clustering+ iterative automatisierte Variante- Einschränkung auf eine Domain, Erklärbarkeit

• Muster-Abgleich+ allgemein anwendbar- viele Heuristiken, manuelle Regelerstellung

Page 27: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

27

Vor- und Nachteile im Vergleich

• Induktive Verfahren+ Automatisierung- Erlernen der Regeln kompliziert

• Inferenz (mittels Description Logic)+ Ableitung von weiteren Regeln durch Inferenz & unvollständige/fehlerhafte Daten sind nutzbar- verschiedene Standards

• Statistik+ schnell, zuverlässig, bereits bekannt- manchmal absurde Ergebnisse, Verständlichkeit

Page 28: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

28

Bewertung der Ansätze

Einzelne Anwendung einer Methode ist nicht optimal. Kombination mehrer Methoden, um die Stärken zu kombinieren und Nachteile einzelner Verfahren zu mildern.

Kombination von Text-Clustering und NLP hat sich in einigen Situationen bewährt.

Page 29: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

29

OWE - Verfahren

Prozeß-Schritte (allgemein):

• Import/Wiederverwendung/Konvertierung von Ontologien (optional)

• Extraktion von Daten (bottom-up; top-down)

• Pruning (Beschneidung)

• Refining (Veredelung)

• Verifikation/Evaluation

Page 30: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

30

Ontologie-Lernen: Prozeß-Schritte

OntologyLearning

Prune

RefineImport &Reuse

Extract

Application data

Tools

Apply

= Beginn[A. Mädche, 2001]

Page 31: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

31

OWE – Verfahren (Bottom-up)

Angefangen wird mit einem Datensatz, aus dem eine Ontologie erstellt wird, die die Daten strukturiert.

Genauer:1. Verwendung von zwei Text-Sammlungen

(domain-spezifische vs. allgemeine)2. Statistische Erfassung (Wörter,

Häufigkeit,...)

Page 32: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

32

OWE – Verfahren (Bottom-up)

3. Dimensionsreduktion (NLP, Stammbildung, ...)

4. Erstellung eines domain-spezifischen Lexikons (Konzepte)

5. Anwendung heuristischer Verfahren zur Relationserstellung (semantische Analyse)

6. Pruning7. Refining

Page 33: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

33

OWE – Verfahren (Top-down)

Anfangs hat man bereits eine allgemeine Ontologie, die dann im Verlauf durch bereichsbezogene Daten an den interessierenden Bereich angepaßt wird. (Domain-Fokussierung)

Genauer:

1. Wahl einer (allgemeinen) Ontologie und domain-spezifischen Quellen (Import)

Page 34: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

34

OWE – Verfahren (Top-down)

2. Anwendung heuristischer Verfahren zur Konzept- und Relationsextraktion.

3. Erweiterung der bestehenden Ontologie durch gefundene Konzepte und Relationen (Fokussierung)

4. Pruning

5. Refining

Wahl der Kern-Ontologie hat starke Auswirkungen

Page 35: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

35

Wissensextraktion – „Top Down“-Beispiel (allgemein)

DomainLexikon

Kern-ontologie Domain

Lexikon

erweiterteOntologie

StatistikMaschinelles Lernen

SMESIE System

Domaintexte

annotierte Domain Texte

Aneignungs-Algorithmen

[A. Mädche, 1999]

Page 36: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

36

Architektur für Ontologie – Lernen

Text & ProcessingManagement

Ontology Learning &Pruning Algorithms

Tools

Text ProcessingServer

Stemming

POS tagging

Chunk parsing

Information Extraction

Domainlexicon

LexicalDB

Multi StrategyLearning Result SetDomain

Ontology

[J. U. Kietz, 2000]

Page 37: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

37

OWE - Verfahren

Merging:Zusammenführung von Ontologien zur Konstruktion einer neuen Ontologie.

Mapping:Erstellung von Regeln, die Entsprechungen aus den Ontologien zuordnen.

Page 38: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

38

Praxis und Trends

• Vereinfachung in der Entwicklung fördert Verbreitung

• Verbesserung der Extraktionsfähigkeiten• Automatisierung des kompletten Prozesses• Steigende Integration und Verwendung von

Ontologien in vielen Bereichen• Semantic Web und Knowledge-Portale sind

wichtige Gebiete

Page 39: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

39

Schlußwort• Hilfreiche Technik, die auf spezielle Bereiche

zugeschnitten wird

• Anpassung an Aufgabenstellung durch Änderung der Ontologie

• Unterschiedliche Ansätze zur Extraktion

• Verschiedene Methoden aus vielen Bereichen (Maschinelles Lernen, Assoziationsregeln, Clustering,...). Profitiert aus Erfolgen aus jedem dieser Bereiche

• Mißbrauch

• Verkettung vieler Verfahren, Komplexität, Aufwand

Page 40: PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

40

Danke!

Literaturangaben[OBE98] D. W. Embley, D. M. Campbell, S. W. Liddle, R. D. Smith. Ontology-Based Extraction and Structuring of Information from Data-Rich Unstructured Documents in CIKM'98.[OBI'99] A. Mädche, S. Staab, R. Studer. Ontology-based Information Extraction and

Integration in DGfS/CL'99.[SOAC] J.-U. Kietz, A. Mädche, R. Volz. A Method for semi-automatic Ontology Acquisition from a corporate Intranet in EKAW‘2000.[STDS] H. Graubitz, K. Winkler, M. Spiliopoulou. Semantic Tagging of Domain-Specific Text Documents with DIAsDEM in DBFusion 2001.[OBTC] A. Hotho, S. Staab, A. Mädche.Ontology-based Text-Clustering in IJCAI‘2000.[LOSW] A. Mädche, S. Staab.Learning Ontologies for the Semantic Web in ECML/PKDD2001.[DLOE] A. Todirascu. Using Description Logics for Ontology Extraction in Ontology Learning 2000 at ECAI2000.