4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne...

76
4. Wissensrepräsentation für Texte Norbert Fuhr

Transcript of 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne...

Page 1: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

4. Wissensrepräsentation für Texte

Norbert Fuhr

Page 2: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

ProblemstellungRepräsentation von Textinhalten:

Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden

Lösungsansätzesemantischer Ansatz Zuordnung von Deskriptionen zu Texten →

DokumentationssprachenFreitextsuche

informatischer Ansatz: Textretrieval alsZeichenkettensuche

computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen

Page 3: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Allgemeine Eigenschaften

formulierungsunabhängige Repräsentation von Textinhaltendurch Verwendung eines speziellen Vokabulars

I KlassifikationenI ThesauriI RDF

Page 4: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Klassifikationen

Strukturierung eines Wissensgebietes nach einem vorgegebenenformalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10

Ein Dokument wird in der Regel einer oder wenigen Klassenzugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buch kann nur aneinem Platz stehen!)

Page 5: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Beispiele für Klassifikationen

I Web-Kataloge (z.B. Yahoo!)I Klassifikationen in bestimmten

Fachgebieten/Anwendungsbereiche:LCC Library of Congress ClassificationDDC Dewey Decimal ClassificationUDC Universal Decimal ClassificationMSc Mathematics Subject ClassificationCCS ACM Computing Classification system

Page 6: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Eigenschaften von KlassifikationssystemenMonohierarchie — Polyhierarchie

Monohierarchie:

Steinobstbaum

Kirschbaum Pfirsichbaum

Kernobstbaum

BirnbaumApfelbaum

Obstbaum

Polyhierarchie:

Birnbaum

NutzholzbaumObstbaum

Kernobstbaum

Page 7: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Monodimensionalität — Polydimensionalität

Problem: auf einer Stufe gibt es mehrere Kriterien, nach denen eineweitere Aufteilung in Unterklassen vorgenommen werden kann

Polydimensionalität

Steinobstbaum

Obstbaum

Kernobstbaum niederstämmiger Obstbaum

hochstämmiger Obstbaum

halbstämmiger Obstbaum

aufgelöstObstbaum

nach Stammbildungnach Fruchart

Obstbaum

halbst.

niederst.

ObstbaumObstbaum

hochst.

obstbaum

Kern−

obstbaum

Stein−

Page 8: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Analytische vs. synthetische Klassifikation

analytische Klassifikation: top-down Vorgehensweise(wie oben)

synthetische Klassifikation: bottom-up1. Erhebung der Merkmale der zu klassifizierenden Objekte und

Zusammenstellung im Klassifikationssystem2. Bildung der Klassen durch Kombination der Merkmale

Page 9: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Facettenklassifikation

Beispiel: Facettenklassifikation Obstbäume

Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochstämmig C1 frühA2 Birne B2 halbstämmig C2 mittelA3 Kirsche B3 niederstämmig C3 spätA4 PfirsischA5 Pflaume

A1B3C1 = niederstämmiger Frühapfelbaum

Regeln:I Facetten müssen disjunkt seinI monodimensionale Unterteilung innerhalb einer Facette

Page 10: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Yahoo! – main categories

Arts & HumanitiesLiterature, Photography...Business & EconomyB2B, Finance, Shopping, Jobs...Computers & InternetInternet, WWW, Software, Ga-mes...EducationCollege and University, K-12...EntertainmentCool Links, Movies, Humor, Mu-sic...GovernmentElections, Military, Law, Taxes...HealthMedicine, Diseases, Drugs, Fit-ness...

News & MediaFull Coverage, Newspapers, TV...Recreation & SportsSports, Travel, Autos, Outdoors...ReferenceLibraries, Dictionaries, Quotati-ons...RegionalCountries, Regions, US States...ScienceAnimals, Astronomy, Engineering...Social ScienceArchaeology, Economics, Langua-ges...Society & CulturePeople, Environment, Religion...

Page 11: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Yahoo! – Computers & Internet

Art@Bibliographies (6)Communications andNetworking (1146)Computer Science@Contests (26)Conventions andConferences@Countries, Cultures, andGroups (38)Cyberculture@Data Formats (485)Desktop Customization@Desktop Publishing (53)Dictionaries (24)

Employment@Ethics (18)Games@Graphics (316)Hardware (2355)History (106)Humor@Industry Information@Internet (6066)Magazines@Mobile Computing (65)Multimedia (690)Music@News and Media (205)...

Page 12: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Yahoo!

I PolyhierarchieI Tiefe der Hierarchie variiertI Dokumente können beliebigen Klassen zugeordnet werden

Page 13: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

ACM Computing Classification System

Ursprünglich Klassifikation in der Zeitschrift ACM ComputingReviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.

Elemente:I general terms: vorgegebene Menge von allgemeinen BegriffenI classification codes: dreistufige monohierarchische

KlassifikationI subject headings: vorgegebene Menge von

natürlichsprachlichen Bezeichnungen für jede einzelne Klasse,die diese weiter differenzieren; außerdem alle Eigennamen

I free terms: zusätzliche, frei wählbare Stichwörter

Page 14: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

General terms:

These apply to any elements of the tree that are relevant

ALGORITHMS MANAGEMENTDESIGN MEASUREMENTDOCUMENTATION PERFORMANCEECONOMICS RELIABILITYEXPERIMENTATION SECURITYHUMAN FACTORS STANDARDIZATIONLANGUAGES THEORYLEGAL ASPECTS VERIFICATION

Page 15: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Übersicht über die Hauptklassen

A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX

Page 16: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

H.3 INFORMATION STORAGE AND RETRIEVALH.3.0 GeneralH.3.1 Content Analysis and Indexing

Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses

H.3.2 Information StorageFile organizationRecord classification

H.3.3 Information Search and RetrievalClusteringQuery formulationRetrieval modelsSearch processSelection process

H.3.4 System and Software...

Page 17: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Eigenschaften der ACM-CCS

I MonohierarchieI feste Tiefe (vier Ebenen)

I Buchstaben/Ziffern-Code für Ebene 1–3I “subject heading” auf Ebene 4

I Dokumente können nur der 4. Ebene zugeordnet werden

Page 18: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Dezimalklassifikation

Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen

Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)

Grundelemente der DK:I Hierarchisch gegliederten Klassen (130000)I Anhängezahlen zur FacettierungI Sonderzeichen zur Verknüpfung mehrerer DK-Zahlen

Page 19: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Hauptklassen

Die DK-Haupttafeln umfassen die Hauptabteilungen:0 Allgemeines1 Philosophie2 Religion, Theologie3 Sozialwissenschaften, Recht, Verwaltung4 (zur Zeit nicht belegt)5 Mathematik, Naturwissenschaften6 Angewandte Wissenschaften, Medizin, Technik7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport8 Sprachwissenschaft, Philologie, Schöne Literatur,

Literaturwissenschaft9 Heimatkunde, Geographie, Biographien, Geschichte

Page 20: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Beispiel für die Untergliederung einer Hauptklasse

Beispiel:3 Sozialwissenschaften, Recht, Verwaltung33 Volkswirtschaft336 Finanzen. Bank- und Geldwesen336.7 Geldwesen. Bankwesen. Börsenwesen336.76 Börsenwesen. Geldmarkt. Kapitalmarkt336.763 Wertpapiere. Effekten336.763.3 Obligationen. Schuldverschreibungen336.763.31 Allgemeines336.763.311 Verzinsliche Schuldbriefe336.763.311.1 Langfristig verzinsliche Schuldbriefe

Page 21: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Facettierende Elemente

Anhängezahlen: durch spezielle Zeichen eingeleitetallgemeine Anhängezahlen: Facetten, die überall in der DKverwendet werden dürfenZeichenfolgen/Facetten:

= Sprache(0...) Form(...) Ort

(=...) Rassen und Völker„...“ Zeit.00 Gesichtspunkt-05 Personspezielle Anhängezahlen: nur für bestimmte Klassen innerhalb derDK erlaubt

Page 22: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Verknüpfung von DK-Zahlen

spezielle Sonderzeichen zur Verknüpfung von DK-Zahlen:+ Aufzählung mehrerer Sachverhalte: symmetrische Beziehung zwischen zwei Sachverhalten

(umkehrbar):: asymmetrische Beziehung zwischen zwei Sachverhalten/ Erstreckungszeichen (zur Zusammenfassung mehrerer

nebeneinanderstehender DK-Zahlen)’ Zusamenfassungszeichen zur Bildung neuer Sachverhalte aus

der Kombination einzelner DK-Komponenten

Page 23: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Thesauri

DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.

Merkmale eines Thesaurus:a) terminologische Kontrolle durch

I Erfassung von SynonymenI Kennzeichnung von Homonymen und PolysemenI Festlegung von Vorzugsbenennungen

b) Darstellung von Beziehungen zwischen Begriffen“

Page 24: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Terminologische Kontrolle

Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen

Arten von Synonymie:I Schreibweisenvarianten

Friseur — FrisörUN — UNO — Vereinte Nationen

I unterschiedlichen Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — Kurzsichtigkeit

I Quasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk

Page 25: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Synonymkontrolle

Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:

I unterschiedliche SpezifitätSprachwissenschaft — Linguistik

I AntonymeHärte — Weichheit

I zu spezieller UnterbegriffWeizen — Winterweizen

I Gleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung

Page 26: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Polysemkontrolle

Aufteilung von einer (mehrdeutigen) Bezeichnung auf mehrereÄquivalenzklassen

I Homonyme (Bs. Tenor, Vollzug, modern, Hochzeit)I Polyseme (Bs. Bank, Deckung)

Page 27: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Zerlegungskontrolle

Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“

Nachteile zu spezieller Begriffe:I Thesaurus zu umfangreich / unübersichtlichI nur wenige Dokumente zu einer Äquivalenzklasse

UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)

Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromiß zwischen beiden Ansätzen

Page 28: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Äquivalenzklasse — Deskriptor

Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen

Darstellung dieser Äquivalenzklassen:I Thesaurus ohne Vorzugsbenennung:

Gleichbehandlung aller Elemente der ÄquivalenzklasseI Thesaurus mit Vorzugsbenennung:

Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)

Page 29: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Beziehungsgefüge des ThesaurusÄquivalenzrelation

zwischen Nicht-Deskriptoren und DeskriptorenBezeichnungen:BS Benutze Synonym (use)BF Benutzt für (used for, UF)Fernsprecher BS TelefonTelefon BF Fernsprecher

Page 30: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Hierarchische Relation

zwischen DeskriptorenBezeichnungen:UB Unterbegriff (narrower term, NT)OB Oberbegriff (broader term, BT)Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum

Page 31: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Assoziationsrelation

zwischen begriffsverwandten Deskriptoren, symmetrischBezeichnung: VB verwandter Begriff (see also, SEE)Obstbaum VB ObstObst VB Obstbaum

Page 32: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Darstellung des ThesaurusDeskriptor-Einträge

I BegriffsnummerI Notation / Deskriptor-KlassifikationI Scope note / DefinitionI SynonymeI Oberbegriffe / UnterbegriffeI Verwandte BegriffeI Einführungs-/Streichungsdatum

Page 33: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Gesamtstruktur des Thesaurus

(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet

zusätzliche Register mit Verweisen auf die Deskriptor-EinträgeI systematisch / alphabetisch (komplementär zum Hauptteil)I Index für Komponenten mehrgliedriger Bezeichnungen

KWIC — keyword in contextKWOC — keyword out of context

Page 34: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Beispiel: INSPEC-Thesaurus

Information retrievalUF CD-ROM searching

Data accessDocument retrievalOnline literature searchingRetrieval, information

BT Information scienceNT Query formulation

Query processingRelevance feedback

RT Bibliographic systemsInformation analysisInformation storageQuery languages

Query processingUF Data querying

Database queryingQuery optimisation

BT Information retrievalRT Database management systems

Database theoryDATALOGQuery languages

Query formulationUF Search strategiesBT Information retrieval

Relevance feedbackBT Information retrieval

Page 35: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Beispiel-Thesaurus

0.0058 Magnetismus (Forts.)Magnetband BF HalleffektVB Magnetbandlaufwerk BF Induktion

OB ElektrodynamikUB Magnetfeld

0,0045 BIK GeophysikMagnetbandgerät BFK ErdmagnetismusBS Magnetbandlaufwerk NE7 BIK Optik

BFK Faraday-Effekt0. 0046Magnetbandkassette 0.0070NO NE83 MagnetkarteBF Kassette NO NE87BF MB-Kassette BF TelefonkärtchenOB Datenträger OB DatenträgerVB Magnetbandkassettenlaufwerk VB Kartensystem

0.0051 0.0073Magnetbandkassettengerät MagnetkartensystemBS Magnetbandkassettenlaufwerk NE7 NO ECS

OB Kartensystem

Page 36: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

0.0050Magnetbandkassettenlaufwerk 0.0074NO NE7 MagnetkartentelefonBF Magnetbandkassettengerät NO GK72BF MB-Kassettengerät BF MakatelOB Datenausgabegrät OB KartentelefonOB DateneingabegerätOB DatenspeichertechnikVB Magnetbandkassette 0 0077

MagnetplatteNO NE82

0.0044 OB DatenspeicherMagnetbandlaufwerk OB DatenträgerNO NE7 VB MagnetplattenlaufwerkBF Magnetbandgerät BIK DatenspeicherOB Bandgerät BFK PlattenspeicherOB DatenausgabegerätOB DateneingabegerätOB Datenspeichertechnik 0.0081VB Magnetband Magnetplattengerät

BS Magnetplattenlaufwerk0.0059Magnetfeld 0.0079NO WD2 MagnetplattenlaufwerkOB Magnetismus NO NE7

BF MagnetplattengerätOB Datenausgabegerät

0.0060 OB DateneingabegerätMagnetismus OB DatenspeichertechnikNO WD2 VB MagnetplatteBF Barkhausen-EffektBF Ferromagnetismus

Page 37: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Thesauruspflege

Anpassung des Thesaurus an Veränderungen in der Anwendungnotwendig aufgrund von

I Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimediale Systeme

I Entwicklung der FachspracheI Indexierungsverhalten / IndexierungsergebnisseI BenutzerverhaltenI Rechercheergebnisse

Problem: Überwachung der Konsistenz des Thesaurus

Page 38: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

RDF

(Resource Description Framework)vom W3C im Rahmen der ‘Semantic Web’-Initiative geförderteBeschreibungssprache

Idee: ausdrucksstärkere BeschreibungsspracheI Instanzen zu KonzeptenI beliebige Beziehungen zwischen Instanzen ausdrückenI Statements der Art Subjekt-Prädikat-Objekt

Page 39: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

RDF: basic concepts

Resource object on the WWW, e.g. Web page, databasenaming of resources: Uniform Resource Identifier(URI)

Literal special type of resource, with string value, no explicitURI

Property aspect / attribute / characteristics / relationStatement resource + named property + value of property

(subject, predicate, object)

Norbert Pisavisits

Page 40: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

RDF example

IR−Course

"Introduction to IR"

ISSDL

isPartOf

N.Fuhr

teaches

Name

Email

"Norbert Fuhr"

"[email protected]−..."

title

organized−byM.Agosti

"Maristella Agosti" "agosti@..."

Name Email

Page 41: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

RDF schemas

similar to semantic networks / description logicsdescribes relationships between types of resources and/or properties

I fundamental conceptsI rdfs:ResourceI rdf:PropertyI rdfs:Class

I schema definition conceptsI rdf:typeI rdfs:subClassOfI rdfs:subPropertyOfI rdfs:seeAlsoI rdfs:isDefinedBy

Page 42: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

RDFS example: resource hierarchy

rdf:Typerdfs:subClassOf

xyz:MotorVehicle

xyz:Truck

xyz:PassengerVehicle

xyz:Van

xyz:MiniVan

rdfs:Class

rdfs:Resource

Page 43: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

RDFS example: resource and property hierarchies

rdfs:Class

tourist−visit business−visit

Person Placevisits

rdfs:subClassOf

business−visit

visits

Conf.−Loc.ISSDL−Tutor

N. Fuhr Pisabusiness−visit

rdfs:subClassOf

rdf:Property

rdf:type

rdf:type rdf:type

rdf:type

rdfs:subPropertyOf

rdf:type

Page 44: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Freitextsuche

Voraussetzungen:I Zerlegung von Texten in WörterI (Stopworteliminierung)I (Satzendeerkennung)

Page 45: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Probleme bei der Freitextsuche:

I HomographenTenor: Sänger / Ausdrucksweise

I PolysemeBank: Sitzgelegenheit / Geldinstitut

I FlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschrieben

I DerivationsformenFormatierung – Format – formatieren

I Komposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl

I Nominalphrasen (aus mehreren Nomen zusammengesetzteBegriffe)Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved

Das Problem der Wortwahl bleibt ungelöst!

Page 46: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Informatischer Ansatz

Zeichenketten-Operatoren für die FreitextsucheI Truncation

Front-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben

I (Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben

Page 47: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführen(auch für Komposita geeignet)

Vorteil: weniger Schreibarbeit als beim expliziten AufzählenNachteil: möglicherweise unerwünschte Wörter dabei

Page 48: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Kontextoperatoren

zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!

I genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation loss

I maximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrieval

I Wortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformation

I gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Page 49: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Computerlinguistischer Ansatz

Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen

basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)

lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken

syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken

Page 50: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Graphematische Verfahren

(für die englische Sprache)I Grundformreduktion

Zurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv

I lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → apply

I formale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit

I StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput

Page 51: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Lexikographische Grundformreduktion

(nach Kuhlen 77)

% alle Vokale (einschließlich Y)∗ alle Konsonanten/ ,oder’6B Leerzeichen→ ,zu’← ,aus’¬ ,nicht’

Page 52: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

1) IES → Y2) ES → 6B wenn ∗O / CH / SH / SS / ZZ / X

vorangehen3) S → 6B wenn ∗ / E / %Y / %O / OA / EA vorangehen4) S’ → 6B

IES’ → YES’ → 6B

5) ’S → 6B’ → 6B

6) ING → 6B wenn ∗∗ / % / X vorausgehenING → E wenn %∗ vorausgehen

7) IED → Y8) ED → 6B wenn ∗∗ / % / X vorausgehen

ED → E wenn %∗ vorausgehen

Page 53: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Regel 1 IES → Y

Beispiele zu 1:APPLIES → APPLYIDENTIFIES → IDENTIFYACTIVITIES → ACTIVITY

Page 54: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Regel 2 ES → 6B, wenn ∗O / CH / SH / SS / ZZ /X vorangehen

Beispiele zu 2:BREACHES → BREACHPROCESSES → PROCESSFISHES → FISHCOMPLEXES → COMPLEXTANGOES → TANGOBUZZES → BUZZ

Page 55: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Regel 3 S → 6B, wenn ∗ / E / %Y / %O / OA /EA vorangehen

Beispiele zu 3:METHODS → METHODHOUSES → HOUSEBOYS → BOYRADIOS → RADIOCOCOAS → COCOAFLEAS → FLEA

Page 56: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Regel 4 S’ → 6BIES’ → YES’ → 6B

Beispiele zu 4:MOTHERS’ → MOTHERLADIES’ → LADYFLAMINGOES → FLAMINGO

Page 57: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Regel 5 ’S → 6B’ → 6B

Beispiele zu 5:MOTHER’S → MOTHERCHILDREN’S → CHILDRENPETRUS’ → PETRUS

Page 58: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Regel 6 ING → 6B, wenn ∗∗ / % / X vorausgehenING → E, wenn %∗ vorausgehen

Beispiele zu 6:DISGUSTING → DISGUSTGOING → GOMIXING → MIXLOOSING → LOOSERETRIEVING → RETRIEVE

Page 59: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Regel 7 IED → Y

Beispiel zu 7:SATISFIED → SATISFY

Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehenED → E, wenn %∗ vorausgehen

Beispiel zu 8:DISGUSTED → DISGUSTOBEYED → OBEYMIXED → MIXBELIEVED → BELIEVE

Page 60: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Lexikalische Verfahren

besonders für stark flektierte Sprachen (z.B. deutsch) geeignet

Relationen im Wörterbuch:I Flexionsform (Vollformen) — zugehörige Grundform

Hauses - Haus, ging - gehenI Derivationsform — zugehörige Grundformen

Lieblosigkeit — lieblos, Berechnung — rechnenI Komposita — zugehörige Dekomposition

Haustür — Tür, Armbanduhr — Uhr.

Page 61: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Syntaktische Verfahren

(zur Behandlung von Nominalphrasen)

1. Wortklassenbestimmung2. Parsing3. Identifikation von Nominalphrasen4. Head-Modifier-Strukturen5. Matching

Page 62: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Wortklassenbestimmung

typische Wortklassen:

AT article PN personal pronounBEZ “is” RB adverbCONJ conjunction RBR comparative adverbIN preposition TO “to”JJ adjective VB verb, base formJJR comparative adjective VBD verb, past tenseMD modal (can, have, may,...) VBG verb, present participle, gerundNN singular or mass noun VBN verb, past participleNNP singular proper noun VBP verb, non 3rd singular presentNNS plural noun VBZ verb, 3rd singular presentPERIOD .:?! WDT wh-determiner (what, which)

Page 63: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Datenquellen für die Wortklassenbestimmung

I (Vollformen-)WörterbuchI graphematische Verfahren

(insbesondere für nicht im Wörterbuch enthaltene Wörter)

Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play

→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN

Page 64: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Beispiel:Wortklassenbestimmung basierend auf dem Kuhlen-AlgorithmusNr. Regel Klasse1 IES → Y NNS/VBP2 ES → 6B NNS/VBP3 S → 6B NNS/VBP4 S’ → 6B, IES’ → Y , ES’ → 6B NNS5 ’S → 6B, ’ → 6B NN6 ING → 6B, ING → E VBG7 IED → Y VBD/VBN/JJ8 ED → 6B , ED → E VBD/VBN/JJ

Page 65: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Kombination von graphematischem Verfahren und Vollformen-WB

(Rückführung unbekannter Wörter auf WB-Einträge mittelsgraphematischer Verfahren) [Mikheev 98]

Präfix WB-Klassen Wortklassenre JJ NN VBG JJ NN VBGex NN NNself- NN NNinter JJ JJnon JJ JJun RB RBdis JJ JJanti- NN JJde JJ VBD VBN JJ VBD VBNin RB RB

Page 66: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Postfix WB-Klassen Wortklassenment NN VB VBP NNing NN VB VBP JJ NN VBGed NN VB VBP JJ VBD VBNs NN VB VBP NNS VBZly JJ NN RB RBness JJ NNship NN NNable NN VB VBP JJs NN NNS

Page 67: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Wortklassenbestimmung mit deterministischem Tagger

nur 70 % korrekte Zuordungen! [Greene & Rubin 77]

aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report

→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]

Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

Page 68: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Parsing

eine einfache Grammatik:S → NP VPNP → AT? JJ* NNS+

→ AT? JJ* NN+→ NP PP

VP → VB PP→ VBZ→ VBZ NP

PP → IN NP

Beispiele:The analysis of 25 indexing algorithms shows consistent retrievalperformance.AT NN IN JJ NN NNS VBZ JJ NN NNA good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NN NN VBZ JJ NN

Page 69: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Identifikation von Nominalphrasen

nur bestimmte syntaktische Strukturen relevant→ partielles parsingeinfache Muster (ohne Unterscheidung (NN/NNP/NNS):phrase → NN NN+

→ NN+ IN JJ* NN+Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents

Page 70: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Head-Modifier-Strukturen

basierend auf der Transformation der Nominalphrasen inhead-modifier-Strukturen:

head: Nomen, das die wesentliche BedeutungdeNominalphrase ausdrückt:information retrieval, indexing algorithm

modifier: modifiziert/spezialisiert die Bedeutung des Heads

head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume

(((multimedia,document),retrieval),system)

Page 71: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

the domain of possible categories of linguistic expressions

possible

domain

linguistic

categories

expressions

Page 72: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Matching-Prozess

1. Nominalphrase in Head-Modifier-Struktur überführen(Transformationsregeln basierend auf der syntaktischenStruktur, ggfs. auch mit lexikalischen Angaben)

2. Vergleich: Head- bzw. Modifier-Rolle (bzgl. der gemeinsamenWurzel) müssen übereinstimmen(einzelnes Nomen = Head)

Beispiel:(((semistructured,data), retrieval) system) wird gematcht von

I (retrieval, system)I (semistructured, data)I (data, retrieval)

aber nicht vonI (retrieval, data)

Page 73: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Beurteilung der Verfahren zur Repräsentation vonTextinhalten

I Dokumentationssprachen bieten prinzipiell Vorteile gegenüberder Freitextsucheaber: dieser Vorteil ist bislang experimentell nicht belegt, esgibt sogar gegenteilige Ergebnisse

I Erfahrungen aus TREC:halb-formale Konzepte (wie geographische undDatumsangaben) sind durch Freitextsuche nicht abzudecken

I wissensbasiertes IR:benötigt zunächst große Wissensbasen, die bislang nichtverfügbar sind (CYC-Project, semantic Web)

I syntaktische Verfahren:für Nominalphrasen

I maschinenlesbare Wörterbücher:für Nominalphrasen und zur Disambiguierung

Page 74: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz

Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents knownStammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document

Page 75: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

„semantische“ Sicht

I Multimenge von TermsI Formen des Vorkommens

(Ort, Sicherheit)

Modell:I Abbildung auf AttributeI Semantik durch Statistik!

Page 76: 4. Wissensrepräsentation für Texte · 2006. 4. 27. · A1 Apfel B1 hochstämmig C1 früh A2 Birne B2 halbstämmig C2 mittel A3 Kirsche B3 niederstämmig C3 spät A4 Pfirsisch A5

Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatzaber:alle Verfahren sind mit Fehlern behaftet!