Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses...

22
http:// www.hytex.info/ .............. H y Tex Hypertextualisierung auf textgrammatischer Grundlage . . . . . . . Text Technological M od e llin g of In fo rm a tion Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten Eva Anna Lenz Michael Beißwenger Angelika Storrer Universität Dortmund

Transcript of Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses...

Page 1: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Hypertextualisierung mit Topic MapsEin Ansatz zur Unterstützung des Textverständnisses bei der

selektiven Rezeption von Fachtexten

Eva Anna LenzMichael Beißwenger

Angelika Storrer

Universität Dortmund

Page 2: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

AnwendungsszenarioEin Textrezipient

sucht in großen Dokumentenmengen benötigt schnellen Überblick über Inhalte

muss selektiv lesen

ist ein Semi-Experte der Domäne

z.B. im Kontext interdisziplinärer Forschung, Studium und Ausbildung, Journalismus, Fachlexikographie.

Fokus des Vortrags: terminologiebedingte Probleme

Wurde ein Fachterminus vom Autor eingeführt?

nicht alle Termini bekannt / erkennbar

Page 3: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Linking nach Wissensvoraussetzungen

Mögliche Lösung:

beim Lesen werden genau die notwendigen Wissensvoraussetzungen angeboten

hier: durch Links in einem Hypertext

Linking nach Wissensvoraussetzungen

Bei terminologiebedingten Wissensvoraussetzungen:

Kennzeichnung eines Terminus als solcher

Informationen über den Terminus z.B. Links zu Definitionen bei einschlägigen Autoren

Darstellung der Beziehungen des Terminus zu anderen Termini

Page 4: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Vortragsüberblick

1. : Projektrahmen, Ziel, Architektur

2. Modellierung terminologischen Wissens mit WordNet

3. Implementierung durch Topic Maps

4. Nutzung terminologischen Wissens zum Linking

HHyyTTeexx

Page 5: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Projektrahmen, Ziel, Architektur

Page 6: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Projektrahmen

: Hypertextualisierung auf textgrammatischer Grundlage

gefördert seit November 2001 von der DFG im Rahmen der Forschergruppe „Texttechnologische Informationsmodellierung“

interdisziplinäres Projekt mit linguistischem Schwerpunkt

Kontext des Semantic Web

- Nutzung und Erprobung von Techniken(XML, Topic Maps, XSLT)

- Ziel: mit konzeptionellen Ansätzen das Semantic Web für die menschliche Informationsverarbeitung besser erschließbar zu machen

zunächst abgeschlossenes Textkorpus

HHyyTTeexx

Page 7: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Ziel und Ansatz

Ziel: Erforschung von konzeptionellen Strategien zur Hypertextualisierung eines Fachtextkorpus

Domäne: Texttechnologie und Hypermedia

Hypertextualisierungsstrategien basierend auf

- textgrammatischem Markupu.a. Koreferenz-Relationen, thematische Verweise, Definitionen und Gebrauch von Fachausdrücken

- domänenspezifischem terminologischem Wissen(Schwerpunkt des Vortrags)

Ergänzung zu statistischen und KI-basierten Methoden

Hypertext-Sichten: Erhaltung der ursprünglichen linearen Struktur

Page 8: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Transformation

alle Komponenten: XML

Transformationsregeln werden automatischin XSLT-Code übersetzt

Fachtextkorpus

Modell Fachtextdomäne (Topic Map)

Nutzermodellierung

Tra

nsf

orm

atio

nsr

egel

n

Hypertextualisiertes Korpus

beschreiben Hypertext-

Generierung

Page 9: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Modellierung terminologischen Wissens mit WordNet

Page 10: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

WordNet für terminologisches Wissen

lexikalische Datenbank

ursprünglich für englische Sprache (Version 1.6: 138,838 Wörter),

inzwischen auch für viele andere Sprachen (u.a. EuroWordNet)

verschiedene Anwendungen im Bereich Language Engineering und Information Retrieval

ursprünglich Allgemeinsprache, nicht Fachsprache

nicht als Ontologie konzipiert, inzwischen aber in einigen Bereichen als Ontologie genutzt (mit Anpassungen)

Page 11: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Organisation von WordNet

Grundeinheit: Konzept (Begriff), repräsentiert durch ein „Synset“

Synset besteht aus lexikalischen Einheiten (Wörtern), die das Konzept lexikalisieren

semantisch-konzeptionelle Relationen zwischen Synsets, z.B. Hyponymie, Meronymie

lexikalische Relationen zwischen lexikalischen Einheiten

Hyperlink Link

Synset

lexikalischeEinheit

Hyperlink Link

typisierter Link

ist_hyponym _von

Hyperlink Link

ist_Abkürzung_für

Page 12: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

TermNet

wir nutzen nicht die Datenbank als solche, sondern übernehmen Organisation von WordNet für ein eigenes „TermNet“ der Domäne

Erweiterungen

- in Richtung Ontologie (z.B. class-instance)XTM ist ein XML-Standard

- neue domänenspezifische und lexikalische Relationen:XTM ist eine Abkürzung für XML Topic Maps (Akronymrelation)Auszeichnungssprache ist der deutsche Ausdruckfür Markup Language(sprachkontaktbedingte Lexemkonkurrenz)

- Klassifizierung der Termini, u.a. nach Varietäten:Fachhochsprache (annotieren) vs. Werkstattsprache (taggen)

Page 13: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Implementierung durch Topic Maps

Page 14: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Synsets und lexikalische Einheiten

für jeden terminologisierten Ausdruck (lexikalische Einheit) ein Topic mit dem Ausdruck als Basisnamen: Wort-Topic

für jedes Synset ein Topic: Konzept-Topic

jedes Wort-Topic wird mit zugehörigem Konzept-Topic durch eine Assoziation vom Typ lexikalisiert verbunden

Hyperlink Link

Konzept-Topic

Wort-Topic mitBasisnamen „Link“

lexikalisiert

Assoziation vom Typ„lexikalisiert“lexikalisiert

Page 15: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Semantische und lexikalische Relationen

für jede semantische Relation eine Assoziation des entsprechenden Typs

dieser Typ ist wiederum ein Topic vom Typ semantische_Relation

für jede lexikalische Relation eine Assoziation des entsprechenden Typs

dieser Typ ist wiederum ein Topic vom Typ lexikalische_Relation

Hyperlink Link

typisierter Link

ist_hyponym _von

Hyperlink Link

ist_Abkürzung_für

Page 16: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Verbindungen zu Ressourcen

Verbindungen von Wort-Topics zu Ressourcen durch Topic-Anker (occurrences):

- zu jedem Vorkommen des Terminus

- zu Erklärungen, Definitionen usw.

eingebettete Ressourcen enthalten eine allgemeine Definition

Hyperlink Link

bekannte_Definition

Link

Def.: Link

Termverwendung

eingebettete Ressource

Page 17: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Skopi

thematische Skopi auf der Ebene der Synsets:Hypertext, Texttechnologie, WordNet

Skopi zur Unterscheidung von Sprachen:deutsch, englisch

Skopi zur Unterscheidung zwischen Varietäten:Fachhochsprache, Werkstattsprache

annotieren

SkopusHypertext

annotieren taggen

SkopusTexttechnologie

Skopusenglisch

Skopusdeutsch

Skopus Werk-stattsprache

Skopus Fach-hochsprache

Page 18: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Nutzung terminologischen Wissens zum Linking

Page 19: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Erweitertes Glossar

G

LINK

Definitionen und Erklärungen

allgemeine DefinitionDefinition von KuhlenFAQVerwendung in der KI

Verwandte Begriffe

andere Bezeichnung: HyperlinkGegenteil: – Oberbegriffe: –Unterbegriffe: Typisierter Linkist Teil von: Hypertexthat als Bestandteile: –implementierbar durch: HTML-Linking- Elementsiehe auch: Anker

Die Spezifikation des Anker-Konzepts von Tochtermann (1995) erweitert die einfache Unterscheidung von globalen und lokalen Ankern um eine gestufte Definition von Ankerbereichen auf den Präzisionsstufen Modul – Kompo-nente – Bereich. Weiterhin unterscheidet er nach der Anzahl der in einem Link involvierten Anker in 1:1-Links, in denen ein Ausgangs-Anker mit genau einem Zielanker verknüpft ist; 1:n-Links, in denen ein Ausgangs-Anker mit mehreren Zielankern verbunden ist, und n:m-Links, in denen mehrere Anker unabhängig von der Traversierungsrichtung miteinander zu einem Linking-Muster kombiniert sind. Im Linking-Element von HTML sind nur 1:1-Links vorgesehen; die obige Spezifikation und das Konzept des „Extended Link“ (im Sinne der Xlink-Spezifikation) sehen auch Links mit mehreren Ankern vor.

in der Community bekannte Definition

Links zu verschie-denen Textsorten

homographe Termini anderer Fachbereiche

Synonym(e)

Hyponym(e)

Hyperonym

Antonym

Holonym

Meronym(e)

domänenspezifische Relationen

Termini, die Wissens-voraussetzung sind

Page 20: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Verwendung der Skopi

Filter

- thematische Filter (Hypertext, Texttechnologie)

- Varietätenfilter (Werkstattsprache, Fachhochsprache)

- Sprachenfilter

Generierung von Anmerkungen

- z.B. taggen: Werkstattsprache für annotieren

Page 21: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

Erweitertes Glossar

G

LINK

Definitionen und Erklärungen

allgemeine DefinitionDefinition von KuhlenFAQVerwendung in der KI

Verwandte Begriffe

andere Bezeichnung: HyperlinkGegenteil: – Oberbegriffe: –Unterbegriffe: Typisierter Linkist Teil von: Hypertexthat als Bestandteile: –implementierbar durch: HTML-Linking- Elementsiehe auch: Anker

Die Spezifikation des Anker-Konzepts von Tochtermann (1995) erweitert die einfache Unterscheidung von globalen und lokalen Ankern um eine gestufte Definition von Ankerbereichen auf den Präzisionsstufen Modul – Kompo-nente – Bereich. Weiterhin unterscheidet er nach der Anzahl der in einem Link involvierten Anker in 1:1-Links, in denen ein Ausgangs-Anker mit genau einem Zielanker verknüpft ist; 1:n-Links, in denen ein Ausgangs-Anker mit mehreren Zielankern verbunden ist, und n:m-Links, in denen mehrere Anker unabhängig von der Traversierungsrichtung miteinander zu einem Linking-Muster kombiniert sind. Im Linking-Element von HTML sind nur 1:1-Links vorgesehen; die obige Spezifikation und das Konzept des „Extended Link“ (im Sinne der Xlink-Spezifikation) sehen auch Links mit mehreren Ankern vor.

in der Community bekannte Definition

Links zu verschie-denen Textsorten

homographe Termini anderer Fachbereiche

Synonym(e)

Hyponym(e)

Hyperonym

Antonym

Holonym

Meronym(e)

domänenspezifische Relationen

Termini, die Wissens-voraussetzung sind

Page 22: Http:// Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..

Text TechnologicalModel ling of Information

http://www.hytex.info/

............................ HHyyTTeexx

Hypertextualisierung auf textgrammatischer Grundlage

.. .. .. ..

.. ..

..