Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information-...

52
Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information-Filtering und –Retrieval mit relationalen Datenbanken Referat zum Hauptseminar: Nichrelationale Datenbanken Rositsa Fidanova

Transcript of Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information-...

Page 1: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Modelle zur Repräsentation natürlichsprachlicher Dokumente

Ontologie-basiertes Information-Filtering und –Retrieval mit relationalen

Datenbanken

Referat zum Hauptseminar: Nichrelationale DatenbankenRositsa Fidanova

Page 2: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Problemstellung Informationsüberflutung Einer Studie zu Folge enthält das WWW im Jahre 2000 ca.

2,5 Milliarden statische und ca. 550 Milliarden dynamische Webseiten, die zu 95% öffentlich zugänglich sind. Ähnlich hohe Anzahlen von Dokumenten können auch für andere Bereiche der computergestützten Kommunikation, wie z.B. E-Mail, aufgestellt werden. Heutzutage stehen jeder Person in den Industrieländern quantitativ sehr viele Informationen für die Problemlösung und die Entscheidungsfindung zur Verfügung, ein Großteil dieser Informationen kann aber aufgrund der beschränkten Verarbeitungskapazität nicht adäquat verarbeitet werden. Somit können die relevanten Informationen nicht mehr in einem ausreichenden Ausmaß gefunden werden. Manchmal behindert sogar diese „Flut von Informationen“ die Arbeit.

Page 3: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Problemstellung

Information- Retrieval und Information- Filtering Man bemüht sich um die Entwicklung von geeigneten Methoden

und Werkzeugen für die Suche und die Filterung von natürlichsprachlichen Informationen (z.B. Werkzeuge zum Filtern oder zielgruppengerechtes Verteilen von digitalen Dokumenten und insbesondere von E-Mails).

Hohe Komplexität der natürlichen Sprachen und noch nicht ausreichende Rechenkapazität von Rechnern

Bis heute können lediglich Heuristiken zur Lösung des Problems eingesetzt werden (Grundlage ist dabei immer ein (formales) Modell)). Bei den meisten in der Praxis eingesetzten Heuristiken werden natürlichsprachliche Dokumente als eine Menge von voneinander unabhängigen Wörtern modelliert. Die komplexe Realität der natürlichen Sprachen wird durch ein stark vereinfachtes Modell abgebildet.

Page 4: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Problemstellung

Solche Heuristiken scheitern dann, wenn das gesuchte Dokument anstatt der angegebenen Wortkombination eine andere, äquivalente oder bedeutungsähnliche Wortkombination enthält.

Im Unterschied zu den formalen Sprachen zeichnen sich natürliche Sprachen, die von Information- Retrieval und –Filtering Werkzeugen verarbeitet werden müssen, u.a. durch Redundanzen und Ambiguitäten aus. Die Wahrscheinlichkeit dafür, dass zwei Personen denselben Begriff zur Beschreibung der selben Sache verwenden, ist kleiner als 20 Prozent.

Page 5: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Ziel

Im Modell zur Repräsentation von Dokumenten sollen verschiedene linguistische Phänomene und Zusammenhänge zwischen Wörtern hinreichend abgebildet werden. Näher geht es um die Redundanz und die Ambiguitäten der natürlichen Sprachen.

Das im Buch dargestellte Modell ist in der Lage thematische Zusammenhänge zwischen verschiedenen Wörtern zu berücksichtigen. Da einfache statistische Verfahren zur Erkennung derartiger Zusammenhänge nicht funktionieren, enthält weder das Modell noch die auf dem Modell aufbauende Heuristik keine solchen Verfahren. Das Modell bietet eine Art Schnittstelle an, mit der thematische Zusammenhänge zwischen Wörtern von außen vorgegeben werden können (z.B. durch von Linguisten erstellte Ontologien, die Wissen über die linguistischen und thematischen Zusammenhänge zwischen Wörtern enthalten). Auf dieser Weise sehen das Information- Filtering und - Retrieval viel „inteligenter“ aus.

Page 6: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Information- Filtering und - Retrieval

Information- Retrieval Die Aufgabe von IR- Systemen ist es, den Benutzer zu

denjenigen Dokumenten zu führen, die seinen Bedarf an Informationen befriedigen.

IR- Systeme verarbeiten ausschließlich in Textform vorliegende

Schriftdokumente. Im Gegensatz dazu verarbeiten die gängigen Datenbanksysteme Daten, die üblicherweise bis ins Detail über Datentypen, Attribute und Relationen strukturiert, bzw. gültige Sätze einer formalen Sprache sind.

Page 7: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Allgemeines Modell zum Information- RetrievalAutoren Anwender mit Zielen, Aufgaben erstellen habenDokumente Informationsbedarfe werden repräsentiert werden formuliert durch alsDokumenten- Modell der AnfragenRepräsentationen basieren auf Repräsentation basieren auf Abgleich

gefundene Dokumente Anwendung und Bewertung

Bewertungen zu den Dokumenten

ggf. Modifikationen ggf. Modifikationen

Modell der Interaktion basierend auf

Page 8: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Allgemeines Modell zum Information- FilteringAutoren Anwender mit Interessen erstellen verbreiten habenDokumente langfristige Infobedarfe werden repräsentiert werden formuliert durch alsDokumenten- Modell der ProfileRepräsentationen basieren auf Repräsentation basieren auf Abgleich

gefundene Dokumente lesen und bewerten

Bewertungen zu ggf. Modifikationen vornehmen den Dokumenten

basierend auf Modell der Interaktion

IF- Systeme verarbeitenebenso ausschließlich inTextform vorliegende digitale Schriftdokumente. Es liegteine große strukturelle Ähnlichkeit zwischen den beiden Aufgaben (IR und IF).

Page 9: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Unterschiede zwischen IF und IR• IR- Systeme dienen zur Befriedigung eines kurzfristigen

Informationsbedarfs, meistens mit dem Ziel eine akute Aufgabe zu lösen. IF- Systeme werden hingegen eingesetzt um ein langfristiges Ziel zu erreichen.

• Aus Sicht der vom Benutzer formulierten Anfrage ist der Dokumentenbestand bei einem IR- System statisch- der Dokumentenbestand ändert sich zum Zeitpunkt der Anfrage normalerweise nicht. Aus Sicht des Profils ist der Dokumentenbestand bei einem IF- System dynamisch- es kommen laufend neue Dokumente dazu.

• Die zeitnahe Weitergabe von Dokumenten an den Benutzer ist wichtig für ein IF- System. Neue Dokumente werden möglichst zeitnah evaluiert und an den Benutzer weiterleitet. Bei IR- Systemen ist das nicht der Fall.

• IR- Systeme- weniger Wert auf Vertraulichkeit zumal die Anfragen häufig relativ anonym gestellt werden können.

IF- Systeme- über die langfristige Profilbildung stark an einen Anwender oder eine Anwendergruppe gebunden, lässt sich nur schwer anonymisieren. Zusätzlich enthalten die Anwenderprofile Informationen über die Anwender, weshalb die Profildaten vor unberechtigtem Zugriff geschützt werden müssen.

Page 10: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Computerlinguistik• MorphologieFlexion, Komposition und DerivationStemming (Normalisierung) Definition: Das Zurückführen einer Wortform auf einen Wortstamm

(Strong- Stemming) oder das Zurückführen der Wortform auf das jeweilige Wort in Grundform (Lemmatisierung oder Weak- Stemming). Es gibt drei Möglichkeiten, ein Verfahren für die Normalisierung zu konzipieren: Lexikon- basiert, Algorithmen- basiert und kombiniert.

- Lexikon- basiert= eine Tabelle wird angelegt, die in jeder Zeile einer Wortform das passende Wort bzw. den passenden Wortstamm zuordnet. Sehr einfach, aber manuell zu pflegen, was sehr aufwändig ist.

- Algorithmen- basiert= Ersetzungsregeln werden definiert, die (ggf. in mehreren Durchläufen) auf einer Wortform angewandt werden. Die Regeln sind sprachabhängig zu definieren und bei Sprachen mit anspruchsvoller Morphologie schwer aufzustellen (z.B. Häuser). Ausserdem führen solche Regeln in Sprachen, wo Worte unregelmäßig gebeugt werden, zu einem Over- Stemming bzw. Under- Stemming (die zu normalisierende Wortform hat gegenüber dem eigentlichen Wort entweder zu viele oder zu wenige Buchstaben).

Page 11: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

- kombiniertes Verfahren= zuerst wird überprüft, ob ein passender Eintrag im Lexikon vorhanden ist. Wenn nicht, dann wird die Wortform unter Anwendung von Regeln normalisiert. Unregelmäßig gebeugte Wörter werden im Lexikon erfasst, und die regelmäßig gebeugten werden über das Regelwerk normalisiert. Ein bekanntes kombiniertes Lemmatisierungsverfahren für die deutsche Sprache ist Morphy.

Syntax Die Syntax von Sätzen wird bei gängigen IF- und IR- Systemen nicht

berücksichtigt. Unter Syntax wird in diesem Zusammenhang ein System von Regeln verstanden, die beschreiben, wie aus einem Inventar von Grundelementen durch spezifische (syntaktische) Mittel alle wohlgeformten Sätze einer Sprache abgeleitet werden können.

Syntax- Parsing- automatische Analyse sprachlicher Ausdrücke im Bezug auf ihre Syntax, z.B. die Ableitung eines Syntax- Baumes basierend auf einer kontextfreien Grammatik.

Bei dem Syntax- Parsing von natürlichen Sprachen treten drei Probleme auf:

- Ambiguität= Time flies like an arrow Interpretationen: Zeit fliegt wie ein Pfeil./ Zeitfliegen mögen einen Pfeil./ Bestimme die Geschwindigkeit von Fliegen so, wie es ein Pfeil tut.

- Abdeckung= Abdeckungsgrad der in Syntax- Parsern verwendeten Grammatiken.

- Effizienz= Das Parsing eines kurzen Artikels nimmt mehrere Minuten in Anspruch.

Page 12: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Semantik Teildisziplin der Sprachwissenschaft, die sich mit der

Analyse und Beschreibung der „wörtlichen“ Bedeutung von sprachlichen Ausdrücken beschäftigt.

Satzsemantik- versucht die Bedeutung von natürlichsprachlichen Sätzen zu erfassen.

Diskurssemantik- beschäftigt sich mit der Bedeutung von ganzen Dokumenten (Diskursen)

Satz- und Diskurssemantik werden aus der syntaktischen Analyse abgeleitet. Die Anwendung von Syntax- Parsern im Bereich des IF und IR ist aber, wie gerade festgestellt, nicht praktikabel.

Lexikalische Semantik- welche Bedeutung liegt einzelne Wörtern zu Grunde. Für einzelne Interpretationen (Bedeutungen) kann es mehrere Wörter (Synonymie) geben und für einzelne Wörter mehrere Interpretationen (Polysemie, Homonymie, Metonymie).

Page 13: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Verhältnis von Wörtern und Interpretationen in ERM- Notation.

(0,n) (0,n)

- Es gibt Wörter, die keine explizite lexikalische Bedeutung haben, z.B. die bestimmten Artikel im Deutschen (der, die, das). Sie werden in vielen IR- und IF- Systemen bei der Verarbeitung ignoriert. Mit Hilfe von Stoppwortlisten werden sie identifiziert und aus den Dokumenten entfernt.

- Umgekehrt ist es möglich, dass zu einer Interpretation noch kein Wort existiert. Solche Objekte müssen umschrieben werden.

Wort Zuordn. Interpretation

Page 14: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

- Folgende semantische Phänomene können in Ontologien abgebildet und mit ihrer Hilfe erkannt werden. Dadurch können solche Phänomene von IF- und IR- Systemen verarbeitet werden.

Synonymie= mehrere Wörter haben dieselbe Interpretation (Bedeutung), z.B. Auto, Automobil, Wagen. Ein Problem für IR- und IF- Systeme. Bei IR wird die Anfrage ‚suche Dokumente zum Thema Auto‘ nicht korrekt beantwortet, weil z.B. Dokumente, in denen nur von ‚Wagen‘ gesprochen wird, dem Benutzer nicht zurückgeliefert werden.

Polysemie und Homonymie= Unter Polysemie wird die Eigenschaft von Wörtern bezeichnet, auf verschiedene Entitäten zu referenzieren, die aber semantisch zueinander in Bezug stehen (z.B. Schule als Institution, Schule als Gebäude).

Unter Homonymie versteht man Wörter, die sich hinsichtlich ihrer Orthographie (Homographe) und Aussprache (Homophone) gleichen und die mehrere unterschiedliche Interpretationen haben, die in keinem semantischen Zusammenhang zueinander stehen (Bank, Maus).

Page 15: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Für IR- und IF- Systeme ist lediglich die Orthographie wichtig. Der Begriff Homographie wird folgendermaßen definiert: Homographie liegt dann vor, wenn einem Wort mehr als eine Interpretation zugeordnet ist. Ein Homograph hat demnach mindestens zwei verschiedene Interpretationen. Eine Unterscheidung zwischen Polysemen und Homographen wird nicht vorgenommen. Disambiguierung nennt man ein Verfahren, das unterscheiden kann, welche der verschiedenen Interpretationen eines Homographen im jeweiligen Kontext gemeint ist.

Metonymie= eine nicht wörtliche Verschiebung der begrifflichen Interpretation (Teil- Ganzes und Verursacher- Effekt Relationen).

Beispiele:Das Institut hat mich angerufen. (Institut anstelle des

Namen derkonkreten Person)Peter hört gerne Bach. (Verursacher- Effekt Relation)

- Homographie und Metonymie bereiten ebenfalls Probleme für

IR-und IF- Systeme.

Page 16: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Antonymie Hyponymie und Meronymie= Als Antonymie bezeichnet man die semantische Gegensatzrelation(z.B. heiß-kalt). Als Hyponymie wird die semantische Relation der Unterordnung (Subordination) bezeichnet (‚Apfel‘ und ‚Birne‘ sind Hyponym zum Oberbegriff ‚Frucht‘). Meronymie bezieht sich auf die semantische Teil- Ganzes Relation (‚Reifen‘ und ‚Motor‘ sind Meronyme von ‚Auto‘).

• Pragmatik= der Bereich der Linguistik, der sich mit dem sprachlichen Handeln beschäftigt. Im Unterschied zur Semantik betrachtet die Pragmatik die Bedeutungsaspekte, die über reine Wahrheitsbedingungen hinausgehen.

Benutzermodellierung= ein Nebenbereich der Pragmatik, wichtig für IF und IR. Dadurch werden interaktive Software-Systeme in die Lage versetzt, ihr Verhalten an ihren jeweiligen Benutzer anzupassen.Dabei wird ein Benutzermodell erstellt, das die Eigenschaften des Benutzers beinhaltet. Insbesondere beim IF spielt die Benutzermodellierung eine große Rolle: das Benutzerprofil, anhand dessen ein IF- System die Relevanz von Nachrichten bewertet, ist ein Benutzermodell. Eine schnelle Erstellbarkeit und eine hohe Robustheit von Benutzerprofilen bei IF- Systemen ist sehr wichtig.

Fazit Moderne IF- und IR- Systeme sollten folgende Aspekte der

Linguistik berücksichtigen: Morphologie (Flexion, Komposition, Derivation), lexikalische Semantik (Synonymie, Homographie, Metonymie, Hyponymie und Meronymie) und Pragmatik (Benutzermodellierung).

Page 17: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Ontologien Definition- ursprünglich in der Philosophie entstanden- Wird in vielen Teilbereichen der Informatik benutzt, z.B.

Wissensverarbeitung, Wissensmanagement, Verarbeitung natürlicher Sprache usw.

Eine Ontologie ist ein Modell von sprachlichen Ausdrucksmitteln, auf die sich mehrere Akteure (Subjekte) geeinigt haben und die für eine Kommunikation zwischen den Akteuren benutzt werden.

Ontologie- Modellierungssprachen Zur Formulierung einer Ontologie bedarf es einer

Modellierungssprache. Sie legt über eine Syntax fest, wie die verschiedenen Elemente miteinander verbunden werden können und welche Bedeutung diese Verbindung hat. Es handelt sich dabei immer um eine formale Sprache., deswegen sind natürlichsprachliche Modelle, z.B. Enzyklopädien, keine Ontologien im Sinne der Informatik.

Page 18: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Taxonomien, Klassifikationen und Systematiken Insbesondere in den Naturwissenschaften zur Klassifikation von

Objekten zu verwenden. Dabei geht es um eine strikt hierarchische Klassifikation. Das heißt: zu jeder Subklasse gibt es maximal eine Superklasse (oder umgekehrt).

Thesauren und Wortnetze Keine strikt hierarchische Klassifikation von Objekten und somit

eine höhere Ausdruckskraft und Komplexität. Solche Modellierungssprachen erlauben zwischen Objekten beliebige Beziehungen, wobei auch unterschiedliche Beziehungstypen verwendet werden können. Zu den konkreten Ontologien, die mit den genannten Sprachen entwickelt wurden, gehört z.B. das WordNet. Dieses Netz bildet die Bedeutungen und Beziehungen (Synonyme, Homographen,…) zwischen Wörtern der englischen Sprache ab. Zwei deutsche Projekte mit ähnlichem Ziel sind GermaNet der Universität Tübingen und das Wortschatzlexikon der Universität Leipzig.

Logisch-mathematische Repräsentationen und semiotischeThesauren Notationsformen der Logik oder Mathematik, Formalismen.

Bekannte

Page 19: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Modellierungssprachen in dieser Klasse sind u.a. KIF, GOL, OIL, RDF und Ontolingua. Bekannte Ontologien- FIPA Agent Management Ontology, die als Kommunikationsstandart eine wichtige Rolle bei der Inter- Agentenkommunikation spielt.

Ein Beispiel für eine logisch-mathematische Repräsentation einerOntologie:

ist_ein(Auto, Fahrzeug); synonym(Auto, Wagen); ist_ein(Motorrad, Fahrzeug); synonym(Wagen, Automobil);ist_ein(BMW, Firma);ist_ein(Audi, Firma); synonym(x, y) := synonym(y, x);

produziert(BMW, Auto);produtziert(Audi, Auto); Wenn X ein Synonym zu Y

ist, dann ist auch Y ein Synonym zu X.hat_ mindestens(Auto, 4, Räder);hat_genau(Motorrad, 2, Räder); synonym(x, z) := synonym(x, y) UND synonym(y, z); ist_ein(x, y) := ist_ein(y, Auto) UND ist_ein(x, Firma) UND produziert(x, Auto); Transitivität: Wenn X ein Synonym

zu Y und Y ein Synonym zu Z ist, dannX ist ein Auto, wenn X eine Firma ist, ist X auch ein Synonym zu Z.

DarausDie Autos produziert. Daraus folgt z.B.: folgt z.B.: Auto ist ein Synonym

zu Audi ist ein Auto. Automobil.

Page 20: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Zwei Probleme, die einer Integration von Ontologien in IF und IRSysteme im Wege stehen können: der Aufwand einer Ontologie- Erstellung und der Rechenaufwand bei der Ontologie-

Anwendung.Deswegen verwendet man möglichst vorhandene Ontologien undversucht sie fachspezifisch zu erweitern (GermaNet undWortschatzlexikon für deutschsprachige Dokumente und

WordNetfür englischsprachige Dokumente). Aufgrund ihres hohenRechenaufwands erscheinen logisch- mathematische Ontologiennur bedingt geeignet für IR- und IF- Systeme.

Page 21: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Gängige IF/IR- Modelle

Drei verschiedene Modellkategorien bezüglich ihresmathematischen Fundamentes:1. Mengentheoretische Modelle- natürlichsprachliche

Dokumente werden auf Mengen abgebildet und die Ähnlichkeitsbestimmungen von Dokumenten (in erster Linie) auf die Anwendung von Mengenoperationen zurückgeführt.

2. Algebraische Modelle- stellen Dokumente und Anfragen als Vektoren, Matrizen oder Tupel dar. Sie werden zur Berechnung von paarweisen Ähnlichkeiten über eine endliche Anzahl algebraischer Rechenoperationen in ein eindimensionales Ähnlichkeitsmaß überführt.

3. Probabilistische Modelle- das Verarbeiten von Dokumenten wird als ein Zufallsexperiment angesehen. Zur Abbildung von Dokumentenähnlichkeiten wird daher auf Wahrscheinlichkeiten und probabilistische Theoreme zurückgegriffen.

Page 22: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Klassifikation der Modelle bezüglich ihrer modellinhärentenEigenschaften der Terminterdependenzen:1. Modelle ohne Terminterdependenzen.2. Modelle mit Terminterdependenzen: - mit immanenten Terminterdependenzen - mit transzendenten Terminterdependenzen

Fundamentale KonzepteAlle Verfahren zur Verarbeitung von natürlichsprachlicherDokumente zerstückeln diese Dokumente in einzelne Terme alsatomare Bestandteile eines Dokuments: ein Parser untersucht dieZeichenkette des Dokuments systematisch Zeichen für Zeichen,entfernt alle evtl. vorhandene Formatierungen(HTML- Befehle)und Sonderzeichen (z.B.: .;!?:) und ersetzt diese durchLeerzeichen. So entsteht eine Vielzahl von durch Leerstellengetrennten Wörtern, die als Terme bezeichnet werden. Wirunterscheiden so folgende Variablen:- D= die Menge aller Dokumente- T= die Menge aller Terme, die in den Dokumenten aus D

vorkommen- αd,t ∈ z≥0 ist die Anzahl des Vorkommens des Terms t ∈ T in

dem Dokument d ∈ D. Sollte der Term t im Dokument d nicht vorkommen, dann ist αd,t = 0.

Page 23: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Anwendung von Stoppwortlisten Zur Anwendung einer Stoppwortliste Tø ist folgendes

Vorgehen erforderlich: Allen Vorkommen von Termen in Dokumenten, die Stoppwörter betreffen, wird vor der weiteren Verarbeitung der Wert Null zugewiesen (wodurch der alte Wert überschrieben wird).

αd,t := 0 für jedes d ∈ D, t ∈ Tø

Zusätzlich ist es sinnvoll, alle Stoppwörter aus der Menge der Terme T zu löschen, um die Verarbeitungsgeschwindigkeit zu erhöhen:

T := T\TøDurchführen des Stemming (der Normalisierung) Wörter werden auf ihre Stammform zurückgeführt. Man

definiert eine Stemming- Funktion ⊥(t) = t ⊥,die zu jedem beliebigen Term t ∈ T den dazugehörigen Wortstamm t ⊥ ∈ T⊥ aus der Menge aller Wortstämme T⊥ ⊆ T liefert. Zusätzlich liefert die Funktion zu einem Wortstamm den eingegebenen Wortstamm zurück:

⊥(t ⊥) = t ⊥ für jedes t⊥∈ T⊥

Page 24: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Beim Aufstellen der Stemmingfunktion kann es (in Abhängigkeitvon der Sprache der Dokumente) vorkommen, dass ein Term zumehreren Wortstämmen gehört. Da dieser Fall bei den meistenSprachen selten ist, wird dieses Problem in der Praxis ignoriert.Man trifft willkürlich eine Entscheidung, so dass die Funktion

⊥()eindeutig ist.Das Stemming wird umgesetzt, indem alle Terme, die keineWortstämme sind, durch ihren Wortstamm ersetzt werden und

alleNicht- Wortstämme aus der Menge der Terme gelöscht werden.

Anwendung von SynonymersetzungenSeltener angewandt als die anderen Verfahren. Ersetzen vonsynonymen Begriffen durch einen führenden Begriff. Daüblicherweise eine totale Synonymie unterstellt wird, ist diesesVorgehen analog zu dem Vorgehen beim Stemming. Man

definierteine Funktion S(t) = ts , die zu jedem Term t ∈ T (z.B. Auto,Automobil, Wagen) den dazu passenden, synonymen undführenden Term ts aus der Menge der führenden Terme Ts ⊆ TLiefert (z.B. Wagen). Dann gilt: S(ts) = ts für jedes ts ∈ Ts

Page 25: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Eine gängige Methode zur Implementierung derSynonymersetzungsfunktion ist die Verwendung einer

Tabelle, wodie einzelnen Tabelleneinträge Term und führender Term

sind.

Bestimmung von Ähnlichkeiten Bei IR gibt der Anwender eine Anfrage q vor. Es ist

erforderlich für alle Dokumente d ∈ D, die Ähnlichkeit sim(d, q) zwischen den Dokumenten und der Anfrage zu berechnen, um die Dokumente gemäß dieser Ähnlichkeit zu ordnen und dem Benutzer zu präsentieren.

Bei IF ist ein anderes Vorgehen erforderlich: neue Dokumente werden vom System in verschiedene Klassen eingeordnet (z.B. ‚relevant‘ und ‚nicht relevant‘). Dazu ist es erforderlich, ein neues Dokument d ∈ D mit den Profilen der einzelnen Klassen zu vergleichen.

Page 26: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Modelle ohne Terminterdependenzen

- zeichnen sich dadurch aus, dass jeweils zwei verschiedeneTerme als vollkommen unterschiedlich und in keiner Weisemiteinander verbunden angesehen werden. Dieser Sachverhaltnennt man Orthogonalität von Termen- bei einer grafischenInterpretation wie bei den algebraischen Modellen- bzw. Unabhängigkeit von Termen.- eine starke Vereinfachung gegenüber der Realität dernatürlichen Sprachen. Morphologische und lexikalisch-

semantischeZusammenhänge zwischen Termen können nicht erfasst werden(z.B. Derivationsbeziehungen, Komposita- Beziehungen, sowieMetonymie, Hyponymie und Meronymie).- Beispiele für solche Modelle sind: Standart Boolean Model (SBM),Vector Space Model (VSM), Binary Independence Retrieval (BIR)(die drei Klassiker), Inference Network Model (INM), Belief NetworkModel (BNM) und Extended Boolean Model (EBM).

Page 27: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Vector Space Model (VSM)

- das VSM ist 1968 vorgestellt worden und gehört zu den Klassikern

unter den algebraischen IF/IR- Modelle, das sich bis heute einergroßen Beliebtheit in der Praxis erfreut. - Abgestufte Ähnlichkeitswerte und eine geometrischeInterpretation von Dokumenten, die leicht zu vermitteln und anzuwenden ist.- das Modell repräsentiert alle Dokumente d ∈ D über einenDokumentenvektor d ∈ R #T. Jede Dimension des Vektorsentspricht dabei einem Term t i ∈ T. Da alle Dimensionenzueinander orthogonal sind, werden die Terme beim VSM somit

alsfrei von Interdependenzen modelliert. Die Ausprägung einer jedenDimension eines Dokumentenvektors ist über das Gewichtfestgelegt: d = (wd,t1, wd,t2, …, wd,t #T) mit t i ∈ T

Zur Berechnung von Gewichten gibt es viele Verfahren, darunterdie tf- idf (term frequency-inverse document frequency)

Verfahren.

Page 28: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Gewichtungsschema: siehe auf den Kopien!- die Ähnlichkeit zwischen zwei Dokumenten di, dj ∈ D wird beimVSM üblicherweise unter Anwendung des normiertenSkalaproduktes als der Kosinus des Winkels zwischen den Vektorendi und dj der beiden Dokumente berechnet: siehe auf den Kopien!- die Berechnung der Ähnlichkeit zwischen einem Dokument undeiner Anfrage q verläuft analog zur Berechnung der ÄhnlichkeitZwischen zwei Dokumenten. Eine Anfrage wird beim VSM alsvirtuelles Dokument aufgefasst, das lediglich die in der Anfrageenthaltenen Terme hat, und bei dem die Gewichte analog zu denrealen Dokumenten bestimmt werden. Dieses Modell erlaubt keineVerknüpfungsoperationen zwischen den Termen bei Anfragen. Dadas VSM sowohl die Berechnung von Ähnlichkeiten zwischenDokumenten als auch die Berechnung von Ähnlichkeiten zwischenDokumenten und Anfragen unterstützt, kann das VSM problemlos für IF und IR verwendet werden.- bei der Berechnung von Ähnlichkeiten werden alle Terme derbetroffenen Dokumente einbezogen. Daher ist die Anwendung von Stoppwortlisten und Stemming unumgänglich. Zur Behandlung vonSynonymen sollte eine Synonymersetzung Verwendung finden, oder essollten alternativ für das IF Query- Expansion- Methoden benutzt werden.Dabei werden Anfragen vor oder während der Verarbeitung um zusätzlichesynonyme Terme erweitert.

Page 29: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Modelle mit immanentenTerminterdependenzen

- solche Modelle berücksichtigen vorhandene Interdependenzenzwischen Termen, d.h. Terme werden hier nicht als orthogonalbzw. unabhängig voneinander behandelt. Im Unterschied zu denModellen mit transzendenten Terminterdependenzen, wird beidiesen Modellen das Ausmaß einer Interdependenz zwischen zweiTermen aus dem Dokumentenbestand, in einer vom Modellbestimmten Weise, abgeleitet (also dem Modell immanent).

- die Interdependenz zwischen zwei Termen wird direkt oderindirekt aus der Co- Occurrenz der beiden Terme abgeleitet.Darunter versteht man das gemeinsame Auftreten zweier Terme

ineinem Dokument. D.h. zwei Terme sind zueinander

interdependentwenn sie häufig gemeinsam in Dokumenten vorkommen. Bei denlinguistischen Phänomenen der Flexion, Synonymie, Komposition,Hyponymie und Meronymie tendieren die Co- Occurrenz-

basiertenÄhnlichkeitsmaße dazu, die Ähnlichkeiten zwischen zwei Termenstark zu unterschätzen. Bei Wortgruppen wird hingegen dieÄhnlichkeit überschätzt. (s. Co- Occurrenzen einiger Terme in

WWW)

Page 30: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Gründe dafür:

1. Flexion: Verschiedene Flexionsformen eines Nomens (Auto, Autos) sollten dem linguistischen Verständnis nach eine sehr große Ähnlichkeit haben. In der Praxis findet man aber gerade in kürzeren Dokumenten nur eines der beiden Wörter. Deswegen wird eine Ähnlichkeit erkannt, diese liegt aber deutlich unter dem aus linguistischer Sicht zu erwartenden Wert. Aus diesem Grund sollte man bei Modellen mit immanenten Terminterdependenzen nicht auf die gängigen

Stemming- Verfahren verzichten.

2. Synonymie: Aus linguistischer Sicht erwartet man eine sehr hohe Termähnlichkeit. In der Praxis ist die Erkennung von Synonymen mit Hilfe von Co- Occurrenz- Maßen stark von der Art der Dokumente abhängig. Wenn in einem Text Synonyme häufig vorkommen, ist die Chance sehr gut sie unter Verwendung von Co- Occurrenz- Maßen zu erkennen. Anderseits ist die unbegründete Verwendung von Synonymen in wissenschaftlichen Texten eher weniger gerne gesehen. Besteht der Dokumentenkorpus überwiegend aus solchen Dokumenten, dann ist die Erkennung von Synonymen auf Basis von Co- Occurrenz- Maßen stark gefährdet.

Page 31: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

3. Komposition: Aus linguistischer Sicht muss der Begriff ‚Gartenzwerg‘ (ein Kompositum) eine Ähnlichkeit zu dem Begriff ‚Zwerg‘ aufweisen (als Spezialfall). Ebenfalls eine thematische Ähnlichkeit zu ‚Garten‘. Zudem sollte ‚Gartenzwerg‘ bedeutungsidentisch mit der Wortfolge ‚ein Zwerg für den Garten‘ sein und somit eine hohe Ähnlichkeit zu der Wortfolge haben. Autoren von Dokumenten geben dem kürzeren Kompositum häufig den Vorzug gegenüber der längeren Wortfolge. Dadurch ist die Wahrscheinlichkeit, dass in kürzeren Texten sowohl das Kompositum als auch die Wortfolge vorkommt, relativ gering. Das hat zur Folge, dass die Ähnlichkeit zwischen den drei genannten Worten mit Co- Occurrenz- Verfahren systematisch unterschätzt wird.

4. Hyponymie und Meronymie: In Dokumenten werden normalerweise nicht alle Bestandteile oder Über- und Unterbegriffe eines Wortes aufgezählt. Dementsprechend ist die Co- Occurrenz zweier Worte, die über Hyponymie oder Meronymie miteinander verbunden sind, eher gering und entspricht nicht der linguistisch motivierten Erwartung.

5. Wortgruppen: Wortgruppen, die sehr bekannte Eigennamen repräsentiren, z.B. New York, kommen in vielen Dokumenten vor. Somit ergibt sich gemäß der Co- Occurrenz eine hohe Ähnlichkeit zwischen den beiden Worten, die aus linguistischer Sicht nicht existiert.

Page 32: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Fazit: Einfache auf Co- Occurrenz basierende statistischeVerfahren sind nicht immer in der Lage,

Terminterdependenzengemäß dem linguistischen Verständnis korrekt abzuleiten.

Insofernkann die erwartete Qualitätssteigerung von Modellen mitimmanenten Terminterdependenzen gegenüber den Modellen

ohneTerminterdependenzen trotz des höheren Rechenaufwands

nichtbeobachtet werden.

- Beispiele für Modelle mit immanenten Terminterdependenzen:

Generalized Vector Space Modell (GVSM), Modell des LatentSemantic Index (LSI) und Spreading Activation Neuronal

Network(SANN).

Page 33: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Modelle mit transzendentenTerminterdependenzen

- keine Annahme über die Orthogonalität oder Unabhängigkeitvon Termen. Im Unterschied zu den Modellen mit immanentenTerminterdependenzen können die Interdependenzen bei diesenModellen nicht ausschließlich aus dem Dokumentenbestand unddem Modell abgeleitet werden. D.h., dass die denTerminterdependenzen zugrunde liegende Logik als über dasModell hinausgehend (transzendent), modelliert wird.Das Vorhandensein von Terminterdependenzen wird explizitmodelliert, die konkrete Ausprägung einer Terminterdependenz wird aber direkt oder indirekt von außerhalb (z.B. von einemMenschen) vorgegeben.- direkt bei dem Topic-based Vector SpaceModel (TVSM), bei der in diesem Buch vorgestellten Erweiterungsowie das Retrieval by Logical Imaging (RbLI). Dabei werden diekonkreten Ausprägungen der Terminterdependenzen direkt, z.B.

inForm einer Tabelle, Matrix oder einer Ontologie von außenvorgegeben.

Page 34: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

- indirekt- Modelle, bei denen die Interdependenzen indirekt vorgegeben werden, greifen auf Lernverfahren der künstlichen Intelligenz, um die indirekten Interdependenzinformationen in eine nutzbare Form umzuwandeln. Das Backpropagation Neuronal Network (BNN) z.B. erlernt die Interdependenzen anhand von Trainingsdaten. Bei dem Fuzzy Set Model handelt es sich um ein Mischverfahren: zuerst direkte Vorgabe für Terminterdependenzen, die später mit Trainingsdaten (indirekte Vorgaben) verfeinert wird.

- diese Modelle können durch die externe Vorgabe von Terminterdependenzen die linguistischen Phänomene besser erfassen, sofern die Vorgabe geeignet ist. Im Extremfall können die Terminterdependenzen von menschlichen Experten vorgegeben bzw. geprüft werden, um eine hohe Qualität der Vorgabe sicher zu stellen.

- Nachteil- höherer Aufwand bei der Generierung der Terminterdependenzen und der für die explizite Speicherung der Terminterdependenzen notwendige Speicherplatzbedarf.

Page 35: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Bewertung der gängigen Modelle (s. Kopie)

-- Kriterien für die Bewertung sind:1. morphologische Kriterien

2. lexikalisch-semantische Kriterien

3. Wortgewichte- in wie weit ist ein Modell in der Lage, einzelnen

Termen ein Gewicht zuzuweisen. Worte ohne Themenbezug (wiez.B. Präpositionen) sind beim IF und IR hinderlich. Sie werdenüblicherweise über Stoppwortlisten entfernt. In einem IF/IR-Modell sollten idealerweise einzelnen Termen individuelleTermgewichte zugewiesen werden

4. Wortgruppen (New York, Windows XP) können spezielleBedeutungen haben, die sich nicht alleine aus den einzelnenWorten ableiten lassen. Deswegen sollten Wortgruppen in

einemIF/IR- Modell explizit berücksichtigt werden.

Page 36: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Topic-based Vector Space Model (TVSM)-- das Modell wurde 2003 zum ersten Mal vorgestellt. Es ist ein Vektor-

basiertes Modell, das eine Erweiterung und Verallgemeinerung des VSM und des GVSM ist.

-- dem TVSM liegen zwei Ideen zugrunde: 1. Alle Terme werden mit einem Gewicht versehen, welche die Eignung

eines Terms widerspiegeln, den thematischen Bezug eines Dokuments zu erschließen.

2. Verschiedene linguistische Phänomene können durch Ähnlichkeiten von Termen in Bezug auf das ihnen zugrunde liegende Thema abgebildet werden. Es handelt sich konkret um folgende Phänomene:

- Flexion: verschiedene Flexionsformen eines Wortes haben maximale Termähnlichkeit

- Komposition: das Kompositum weist ein gewisses Maß an Ähnlichkeit mit den Einzelworten des Kompositums auf

- Derivation: zwischen dem Derivat und dem ursprünglichen Wort liegt hohe Ähnlichkeit vor

- Synonymie: maximale Termähnlichkeit zwischen den Synonymen - Hyponymie und Metonymie: alle Wortbeziehungen vom Typ ist-ein,

besteht-aus, etc. lassen sich durch Termähnlichkeiten ausdrücken (Term BMW soll eine sehr hohe Ähnlichkeit mit dem Term Auto haben).

Page 37: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Veranschaulichung der Interpretation des TVSM- Vektorraums (s. Kopie). Fundamentale Annahme.

Existenz eines Vektorraums, der in jeder Dimension nur positiveAchsenabschnitte aufweist. Jede Dimension bzw. jederAchsenabschnitt repräsentiert ein elementares Themengebiet.Diese Gebiete sind zueinander orthogonal. Jeder Term wird imVektorraum durch einen Termvektor repräsentiert, wobei die Länge(der Betrag) des Termvektors auf einen maximalen Wert von einsbeschränkt ist. Ein Term wird somit über den Termvektor einemoder mehreren Themengebieten zugeordnet. Die drei Stoppwörterder, die, das haben einen Betrag von Null, weil sie keinenThemenbezug haben. Als Maß für Ähnlichkeit zwischen zweiTermen ist bei TVSM der Kosinus des Winkels zwischen den beidenTermen definiert. Da der Vektorraum auf positive Achsenabschnitteeingeschränkt ist, sind Winkel von 0° bis 90° möglich,Termähnlichkeiten (Kosinus) von 0 bis 1 einschließlich.

Page 38: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Implementierung mit einer relationalen Datenbank

(0,n)

(1,n) (0,n)

(0,n)

Dokument DT_ZO Term

Anzahl

ID, Text, Betrag ID, Text

Skalarpr

Wert

Page 39: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Die Dokumentenmenge wird bei der Umsetzung im ERM durch denEntitytyp Dokument und die Termmenge durch Term repräsentiert.Die Vorkommenshäufigkeit eines bestimmten Terms in einemDokument ist beim Einfügen eines jeden Dokuments, für jedenTerm einmalig, im Attribut Anzahl des Relationshiptyps DT_ZO zuspeichern. Dieser Relationshiptyp sollte nur diejenigen Dokument-Term- Kombinationen beinhalten, bei denen ein Term mindestenseinmal im Dokument vorkommt (das Attribut Anzahl größer als Nullist).Die Termvektorlängen und der Winkel zwischen jeweils zweiverschiedenen Termvektoren werden lediglich durch dieTermskalaprodukte repräsentiert. Die Berechnung derDokumentähnlichkeiten basiert auf den Skalaprodukten und den inden Dokumenten vorkommenden Termen (Skalaprodukten werdendurch den Relationshiptyp Skalaprodukt repräsentiert). Diegespeicherten Termskalaprodukte sollten größer als Null sein.

Page 40: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Beim Einfügen eines neuen Dokuments in die Datenbank ist derBetrag des dazugehörigen Dokumentenvektors im Attribut Betragdes Entitytypen Dokument zu hinterlegen. Der einmal berechneteBetrag eines Dokuments braucht nicht erneut berechnet zuwerden, solange nicht ein Termskalaprodukt eines im Dokumententhaltenen Terms zu einem beliebigen anderen im Dokumententhaltenen Term geändert wird. Die Termskalaprodukte sind alsRelativ stabil anzusehen, deswegen ist eine nachträglicheAnpassung der Beträge der Dokumentenvektoren als eher seltenanzunehmen.Der folgende in SQL formulierte Quelltextauszug zeigt die für dieImplementierung des TVSM in einer relationalen Datenbanknotwendigen Tabellen:

Page 41: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

CREATE TABLE Dokument (

ID INTEGER,

Text TEXT NOT NULL,

Betrag DOUBLE PRECISION,

PRIMARY KEY (ID));

CREATE TABLE Term (

ID INTEGER,

Text TEXT UNIQUE NOT NULL,

PRIMARY KEY (ID));

CREATE TABLE DT_ZO (

DokID INTEGER NOT NULL REFERENCES Dokument (ID),

TermID INTEGER NOT NULL REFERENCES Term (ID),

Anzahl INTEGER NOT NULL,

PRIMARY KEY (DokID, TermID));

CREATE TABLE Skalaprodukt (

Term1 INTEGER NOT NULL REFERENCES Term (ID),

Term2 INTEGER NOT NULL REFERENCES term (ID),

Wert DOUBLE PRECISION NOT NULL,

PRIMARY KEY (Term1, Term2));

Page 42: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Einstellen neuer Dokumente/ Durchführen von Anfragen

-- das TVSM integriert Stoppwörter und Flexionsformen, indem der Termvektorbetrag für Stoppwörter gleich Null gesetzt wird und der Winkel zwischen den Termvektoren verschiedener Flexionsformen eines Wortes als 0° definiert wird. Dementsprechend kommt das TVSM ohne externe Stoppwortlisten und Stemmingverfahren aus. Bei Implementierung des TVSM mit einer relationalen Datenbank muss ein Parser folgende Aufgaben durchführen, um neue Dokumente in das Modell einzustellen:

1. Neue Dokumente in einzelne Terme zerlegen. Vorhandene Formatierungen, Sonderzeichen etc. entfernen.

2. In der Tabelle Dokument ist ein neuer Eintrag zu erstellen. Die Anzahlen der verschiedenen Terme in dem neuen Dokument sind zu zählen und unter Verwendung von SQL- Befehlen in die Tabelle DT_ZO einzutragen. Wenn ein Term vorkommen sollte, der noch nicht in der Tabelle Term vorhanden ist, dann ist dieser Term anzulegen.

3. Dann ist der Betrag des Dokuments zu berechnen und im Attribut Betrag der Tabelle Dokument zu dem neuen Dokument zu hinterlegen.

Page 43: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

-- beim Einsatz des TVSM für IR- Aufgaben werden Anfragen als virtuelle Dokumente aufgefasst:

1. Eine Anfrage ist in einzelne Terme zu zerlegen.2. Es ist ein neues Dokument in Tabelle Dokument zu

erstellen, das die Anfrage repräsentiert. Zu jedem Term der Anfrage sind passende Einträge in DT_ZO zu erstellen. Die Terme der Anfrage, die nicht in der Tabelle Term vorhanden sind, werden ignoriert, wenn sie zu allen anderen Termen orthogonal sind (unabhängig von ihnen).

3. Der Verktorbetrag der Anfrage wird berechnet und in der Tabelle Dokument gespeichert.

4. Das Anfrage- Dokument wird mit den restlichen Dokumenten verglichen und das Ergebnis wird dem Benutzer präsentiert.

Stoppwortlemma Die gängige Vorgehensweise in der Praxis,

Stoppwörter in Dokumenten zu ignorieren. Der Betrag des Termvektors eines jeden Stoppworts hat den Wert Null. Die Termskalaprodukte zwischen zwei Termen sind dann genau Null, wenn einer der beiden involvierten Terme ein Stoppwort ist.

Page 44: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Stemming- Lemma Vorgehensweise, Terme auf ihre Stammformen oder Worte

in Grundform zurückzuführen und im späteren Verlauf nur mit den Stammformen bzw. Worten in Grundform weiter zu arbeiten. Der Winkel zwischen dem Termvektor eines Wortes und dem Termvektor seines Wortstamms ist Null Grad.

Synonym- Lemma Vorgehensweise, synonyme Wörter auf einen führenden

Begriff vor der weiteren Verarbeitung durch das IR/IF- System zurückzuführen, um die Zahl der zu betarchtenden Wörter zu reduzieren. Zwischen dem Termvektor eines Terms und dem Termvektor des passenden führenden Terms ist der Winkel Null Grad. Es wird angenommen, dass Terme und führende Terme gleich gut geeignet sind, den Themenbezug eines Dokuments festzustellen, d.h. der Betrag der beiden Termvektoren ist gleich (beide Trmvektoren sind identisch, was Richtung und Länge angeht). Für die Berechnung des Dokumentenbetrages sind lediglich die führenden Terme und die aggregierte Anzahl des jeweiligen Vorkommens aller führenden Terme im Dokument notwendig.

Page 45: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Fazit

-- Das TVSM ist ein algebraisches, Vektor- basiertes Modell mittranszendenten Terminterdependenzen. Das Modell legt seine denTermähnlichkeiten zugrunde liegenden Annahmen explizit dar. Fürdie Flexion und die Synonymie wird die Ähnlichkeit genauvorgegeben (ein Termwinkel von Null Grad). Für die Komposition,die Derivation, Hyponymie und Meronymie wird nur eine Angabegemacht, dass eine gewisse Ähnlichkeit zwischen Termen, die übereines dieser Phänomene miteinander verknüpft sind, bestehenmuss-- Fehlen einer Repräsentation von Homographie und Metonymie-- Wortgruppen werden von TVSM nicht explizit berücksichtigt

Page 46: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Enhanced TVSM (eTVSM)

Die Entitäten und die Beziehungen des Modells und ihreInterpretationen bzw. ihre Aufgaben sind hochgradig

interdependetzueinander und zu dem zugrunde liegenden mathematischenModell. Somit ist eine Entität oder Beziehung zwischen zweiEntitäten in einigen Fällen für sich, ohne Verweis auf die

anderenStrukturen nicht nachvollziehbar. Dem eTVSM liegen folgendeGedanken zugrunde:1. Speichere Dokumente derart ab, dass die Berechnung von

Dokumentenähnlichkeiten mit einem geringen rechnerischen Aufwand durchgeführt werden kann.

2. Versuche möglichst viele linguistische Phänomene zu erfassen.

3. Verwende vorgegebene Themenstrukturen zur Ableitung von Ähnlichkeiten.

Page 47: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Während bei den anderen Modellen ein Dokument aus einergewichteten Menge von Termen besteht und Terme mit Wortenbzw. Wortstämmen gleichgesetzt werden, haben diese Begriffe (dieim Datenmodell durch jeweils eigene Entitytypen repräsentiertwerden, s. Kopie) beim eTVSM eine unterschiedliche und genau

definierteBedeutung:- Dokument: Liste von Worten, bei der jedem Wort eine eindeutige

Position im Dokument zugewiesen wird.- Wort: Die direkten Bestandteile eines Dokuments, die nach dem

Entfernen von Formatierungen, Abbildungen sowie Satz- und Sonderzeichen übrig bleiben.

- Wortstamm: Zu jedem Wort ist ein Wortstamm definiert, der je nach verwendetem Stemming- Verfahren entweder der Grundform des Wortes oder dem Stamm eines Wortes entspricht.

- Term: Besteht entweder aus einem einzelnen Wortstamm oder aus einer Gruppe von mehreren Wortstämmen (New York).

- Interpretation: Eine mögliche Bedeutung eines Terms. Zwei Terme können sich eine Interpretation teilen (Rechner und Computer). Andererseits kann ein Term wie Maus mehrere Interpretationen haben. In diesem Fall handelt es sich um einen Homographen.

Page 48: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

- Thema: höchste Abstraktionsstufe und thematischer Bezug für Interpretationen. Themen sind strukturiert und die ihnen zugrunde liegende Struktur (s. Kopie) wird zur Ableitung von Ähnlichkeiten zwischen Interpretationen verwendet. Interpretationen müssen mindestens einem Thema zugeordnet werden. Es ist sinnvoll, einigen speziellen Interpretationen (z.B. Homographen) mehrere Themen zuzuordnen.

Konstrukte des eTVSM und ihr Bezug zulinguistischen Phänomenen (s. Kopie)-- einige linguistische Phänomene benötigen zur Abbildung

mehrere Zuordnungen und einige Zuordnungen werden zur Repräsentation mehrerer linguistischer Phänomene verwendet. Insbesondere die Homographie und die Metonymie erweisen sich als kompliziert.

Transaktionen und ihre Ein-/Ausgabedaten (s. Kopie)-- die zeitlich- sachlogischen Zusammenhänge der verschiedenen

Zuordnungen und Entitäten. Zuerst werden ontologiebezogene linguistische Daten (Themenstruktur) durch eine Vorbereitungstransaktion zu Interpretations- Skalaprodukten verarbeitet (entspricht dem dritten Gedanken des eTVSM). Diese Transaktion dient der Ableitung von Ähnlichkeiten aus vorgegebenen Themenstrukturen. Aufbauend auf diesen Ähnlichkeiten können die Skalaprodukte für die verschiedenen Interpretationen abgeleitet werden. Die Skalaprodukte bilden neben den Dokument- Interpretation- Zuordnungen die Basis zur Berechnung von Dokumentähnlichkeiten. Die Skalaprodukte sind streng genommen redundant, was für eine hohe Performanz des Systems notwendig ist. Die Vorbereitungstransaktion wird idealerweise nur einmal ausgeführt.

Page 49: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

-- Über die Dokument- Einstellungstransaktionen werden möglichst viele linguistische Phänomene beim Einlesen von neuen Dokumenten erfasst. Diese Transaktionen verwenden linguistisches „Wissen“, das in den verschiedenen Zuordnungen erfasst ist, um die Dokumente derart aufzubereiten, dass diese in Form einer Dokument- Interpretation- Zuordnung repräsentiert werden. Diese Zuordnung ist streng genommen redundant. Die Dokument- Einstellungstransaktionen berechnen zusätzlich die Dokumentenbeträge analog zum TVSM.

-- Die Berechnung der Dokumentenähnlichkeiten beim eTVSM erfolgt basierend auf den (redundanten) Dokument- Interpretation- Zuordnungen, den Dokumentenbeträgen und den (redundanten) Interpretations- Skalaprodukten. Interpretationen und Skalaprodukte dienen sla Basis für die Berechnung wegen der gewählten Umsetzung des Synonym- Lemmas und die Erweiterung des Modells um die Phänomene der Homographie und Metonymie. Nach eTVSM ist das Konzept des Synonym- Lemmas ‚unschön‘, weil die Wahl des führenden Terms willkürlich ist und weil diese Art der Umsetzung nicht den realen Umständen entspricht. Es ist sinnvoll, das Kkonstrukt der Interpretation einzuführen und synonymen Termen dieselbe Interpretation zuzuordnen. Somit übernimmt die Interpretation die Aufgabe eines führenden Begriffs. Homographie und Metonymie können so auch berücksichtigt werden, indem einem Term mehrere Interpretationen zugeordnet werden

Page 50: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Vergleich mit anderen Modellen/ Kritik

-- das eTVSM baut sichtbar auf dem TVSM auf und versucht die Kritikpunkte an ihm zu beseitigen. Dieses geschieht dadurch, dass das eTVSM die Termähnlichkeiten durch die Einführung von Themen und Themenstrukturen operationalisiert und dadurch, dass Stoppwortliste und Stemming explizit in einem eigenen Konzept im Datenmodell berücksichtigt werden. Zusätzlich gibt es Konzepte, durch die Wortgruppen bzw. zusammengesetzte Terme, Homographen und Metonymie berücksichtigt werden.

-- Modell mit transzendenten Terminterdependenzen mit direkt in Form einer Ontologie vorgegebenen Terminterdependenzen. Der Aufwand für das Aufstellen einer expliziten Ontologie ist geringer als der Aufwand Millionen von unterschiedlichen Einzelbeispielen zu erstellen, die die Ontologie indirekt beschreiben.

Page 51: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Fazit1. Das eTVSM bringt das Potential IF- und IR- Aufgaben

besser zu lösen als die bisherigen Ansätze, weil es Wortzusammenhänge unter Verwendung von Ontologien berücksichtigt.

2. Das Modell kann entweder schrittweise um Wortzusammenhänge erweitert werden oder an bereits vorhandene Ontologien (z.B. WordNet oder GermaNet) angebunden werden.

3. Das eTVSM kann unter Verwendung von relationalen Datenbanken implementiert werden, wodurch eine Massendaten- taugliche Implementierung des Verfahrens mit einem relativ geringen Programmieraufwand möglich wird. Zusätzlich kann es über die SQL- Schnittstelle der Datenbank relativ leicht an andere Anwendungen angeschlossen werden.

4. Eine ausführliche Evaluation des eTVSM mit aufwändigen und praxisnahen Tests steht noch aus. Versuche mit einfachen Beispielen unter idealisierten Bedingungen sind jedoch vielversprechend.

Page 52: Modelle zur Repräsentation natürlichsprachlicher Dokumente Ontologie-basiertes Information- Filtering und –Retrieval mit relationalen Datenbanken Referat.

Ende

Literatur:

Kuropka, Dominik: Modelle zur Repräsentationnatürlichsprachlicher Dokumente. Ontologie-

basiertesInformation- Filtering und –Retrieval mit

relationalenDatenbanken, Berlin, 2004.