Post on 18-Dec-2014
description
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 1/26!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und
sprachtechnologische Anwendungen!
Georg Rehm!
!!
georg.rehm@gmail.com!http://georg-re.hm!
Universität Zürich, 27. November 2006!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!
Ausgangssituation!
• Menschen beherrschen den Umgang mit Dutzenden von Textsorten "(z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).!
• In der Sprachtechnologie spielen Textsorten bislang praktisch keine Rolle:!
- Aspekte einer Textsorte werden implizit in den Algorithmus oder die Prozesslogik einer Anwendung integriert, z.B. in!
! CiteSeer (Giles et al. 1998): ! !Publikationsliste!
! DataRover (Davulcu et al. 2003): !Produktkatalog/Produktinformationen!
- Explizites Wissen über Textsorten wird nicht zur Parametrisierung sprachtechnologischer Anwendungen eingesetzt.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 3/26!
Wissen über!Textsorte X!
Wissen über!Textsorte Y!
Wissen über!Textsorte Z!
Profitierende Anwendungen!
Vorverarbeitung!
Algorithmen!
Visualisierung!
Output!
Input (Texte)! Textsorte Y!
Textsorte X!
Textsorte Z!
• Tagging und Parsing!
• Maschinelles Textzusammenfassen!
• Informations-/Metadatenextraktion!
• Information Retrieval!
• Textkategorisierung!
• Question Answering !
• Mobile Device Adaptation!
• Korpuslinguistische Analysen!
• E-Learning-Tools (Essay Grading)!
• Lernen von Ontologien!
• ...!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 4/26!
Textsorten und Texttechnologie!
• Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative Funktion, thematische Markierung, spezifische Kommunikationspartner "(siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).!
• Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:!
!Linguistisch motivierte Informationsanreicherung und Verarbeitung digitaler Texte mit standardisierten Auszeichnungssprachen.!
• Repräsentation z.B. mittels XML Schema oder DTD:!
• Es existieren viele flankierende W3C XML-Standards, aber auch Lücken (z.B. Verfahren zur Repräsentation von Texttypologien).!
<!ELEMENT article (date, body)> <!ELEMENT date (month, day, year, time)> <!ELEMENT body (headline, paragraph+)> ...
article!
date! body!
headline! paragraph!month! day! year! time!
08! 08! 2003! 12:00! Der ...! Die ...!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 5/26!
Gliederung!
• Ausgangssituation und konzeptionelle Ausrichtung!
• Ein Hypertextsortenmodell und die Hypertextsortenontologie!
• Exemplarische Anwendung!
• Schlussfolgerungen – Ausblick – Perspektiven!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 6/26!
Ein Hypertextsortenmodell!
• Kontext: Anwendung zur Informationsrecherche und Web as Corpus!
- Hypertext macht Erweiterung des Textsortenbegriffs notwendig.!
- Diskrepanz: Web as Corpus Community vs. Hypertextsorten!
• Hypertextsorten: Stand der Forschung!
!Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika (z.B. ihre Granularität; kanonisches Inventar).!
• Das Hypertextsortenmodell ist Grundlage für!
- (text)linguistische Analysen von Hypertextexemplaren,!
- eine Systemarchitektur, die die Integration von Wissen über Text- und Hypertextsorten in sprachtechnologische Anwendungen ermöglicht.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 7/26!
Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!Hypertextsorte:!Webauftritt"einer Universität!
Eingebettete Hypertextsorten:!Webauftritt einer Fakultät!
Eingebettete Hypertextsorte:!Webauftritt eines Instituts bzw. Seminars!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 8/26!
Ebene der Konstituenz II: Hypertextsortenmodul!
!Publikationsliste!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 9/26!
Ebene der Konstituenz III: Hypertextknotensorte!
!Berufliche Homepage eines Wissenschaftlers!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 10/26!
Generischer Aufbau einer Hypertextsorte!
Hypertextsorte i!
Hypertextsortenmodul 1...n!Hypertextknotensorte 1...n!Hypertextsorte 0...n!
besteht aus!
Optionale Hyper-!textsortenmodule 0...n!
Obligatorische Hyper-!textsortenmodule 1...n!
Optionale Hyper-!textsorten 0...n!
Obligatorische Hyper-!textsorten 0...n!
kann fungieren als!besitzt identischen Aufbau!
umfasst konventiona-!lisierte Vorbelegung!
wird eingebettet in oder!kann fungieren als!
Merkmale:!• Kommunikative Funktion!• Kontextuelle Faktoren!• Inhalt/Thema!• Interaktion!• Strukturierung!• Kommunikation!• Dekoration!
besitzt!
Merkmale:!• Positionierung!• Kommunikative Funktion!• Dekoration!
besitzt!
Typen:!• Inhalt/Thema!• Interaktion!• Kommunikation!• Navigation!• Metainformation!• Dekoration!• Textstrukturmuster!
prägen aus!
kann fungieren als!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 11/26!
Tool chain zur Sammlung eines Korpus!
!
*.unizh.ch!
Web-Crawler (Pavuk)!
Korpus:!UNIX-!
Filesystem!
DB!(MySQL)!
Webserver (Apache)!
Sprachenidentifizierer (Perl)!
PHP!
HTTP Header!(Perl)!
Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 12/26!
Repräsentation von Hypertextsorten durch Ontologien!
• Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und Hypertextsorten als Ressource für sprachtechnologische Anwendungen.!
!Alternative Vorschläge (nicht implementiert):!
- Repräsentation durch „facets“ (Crowston und Kwasnik 2004).!
- Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).!
• Web as Corpus-Vorgehensweise:!
- Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von 100 universitären Webauftritten (ca. 41 GB).!
- Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.!
- Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.!
- Zusätzlich: Domänen-Ontologie und Themen-Ontologie.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 13/26!
Die Hypertextsortenontologie!
das Hypertext-!sortenmodell!
in abstrakter Form!
das Hypertext-!sortenmodell!
als OWL-Ontologie!(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL, Visualisierung mittels OntoViz/GraphViz!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 14/26!
Die Hypertextsortenontologie (Ausschnitt)!
Hypertexttyp Software-Dokumentation:!
• Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).!
• Definitionen als Subklassen der Klasse Hypertexttyp. • Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 15/26!
Die Hypertextsortenontologie (Ausschnitt)!
Typologie des Hypertexttyps!
Homepage einer Person!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 16/26!
Gliederung!
• Ausgangssituation und konzeptionelle Ausrichtung!
• Ein Hypertextsortenmodell und die Hypertextsortenontologie!
• Exemplarische Anwendung!• Schlussfolgerungen – Ausblick – Perspektiven!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 17/26!
Maschinelle Identifizierung von Hypertextsorten!
• Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich (vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).!
• Es existieren mehrere ungelöste Probleme, z.B.:!
1. Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist weder textlinguistisch reflektiert noch empirisch motiviert.!
2. Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 Web-Genres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?!
3. Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).!
4. Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).!
• Entwurf einer Architektur, um diesen Problemen zu begegnen.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 18/26!
Systemarchitektur (partiell implementiert)!
Korpus: "HTML-!Dateien!
XML-!Dateien!
Textparser!
Korpusdatenbank!
Erkennung von!Hypertextknotensorten!
Erkennung von!Hypertextsorten!
externe!Ressource!
externe!Ressource!
externe!Ressource!
externe!Ressource!
externe!Ressource!
POS-Tagger!
Tokenisierer!
Visualisierung!mittels XSLT!
annotiertes!Trainings-!korpus!
Erkennung der Grenzen!eines Hypertextes!
Hypertextsortenontologie!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 19/26!
Textparsing zur Erkennung der Textstruktur!
• Funktionen des Textparsers:!
- Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse), "d.h. Identifizierung der Bausteine der Textoberfläche.!
- Reduktion des HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen.!
- Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).!
• Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur: Analyse der struktur- und layoutorientierten Elemente und Attribute.!
• Multi-Ebenen-Annotation.!
• Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code (vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 20/26!
Textparser mit interaktiver Analyseoberfläche: Beispiel!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 21/26!
Textparser mit interaktiver Analyseoberfläche: Beispiel!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 22/26!
Exemplarische Anwendung: Informationsextraktion!
<Identifikation> <Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/> <Name> <Vorname>Claudia</Vorname> <Nachname>Kinitz</Nachname> </Name> <Affiliation>Institut für ...</Affiliation> </Identifikation>
<Kontaktinformationen> <Strassenadresse> <Strasse>Endenicher ...</Strasse> <Hausnummer>11-13</Hausnummer> <PLZ>53115</PLZ> <Stadt>Bonn</Stadt> <Land>Deutschland</Land> </Strassenadresse> <Telefon>+49 (0)228 ...</Telefon> <Fax>+49 (0)228 ...</Fax> <E-Mail>c.kinitz@...</E-Mail> </Kontaktinformationen>
<DatumDerLetztenAenderung> <Tag no="29"/> <Monat no="8" name="August"/> <Jahr>2001</Jahr> </DatumDerLetztenAenderung>
<Lebenslauf> <Eintrag>geboren am 20. Juni ...</Eintrag> <Eintrag>WS 1994 – SS 1999 ...</Eintrag> <Eintrag>November 1999 – ...</Eintrag> <Eintrag>Lebensmittelchemikerin</Eintrag> <Eintrag>seit Januar 2001 ...</Eintrag> </Lebenslauf>
<WissenschaftlichesProfil> <Forschungsinteressen> <Eintrag>Identifizierung und ...</Eintrag> <Eintrag>Betreuung von ...</Eintrag> </Forschungsinteressen> <Publikationsliste> <LitEintrag>A Mellen ...</LitEintrag> <LitEintrag>A Mellen ...</LitEintrag> </Publikationsliste> </WissenschaftlichesProfil>
Lebenslauf, biografische Angaben!
Datum der letzten Änderung! Wissenschaftliches Profil! Publikationsliste! Forschungsinteressen!
Identifikation! Foto! Name! Affiliation!
Kontaktinformationen! Straßenadresse! Telefon! Fax! E-Mail!
WrapperL!
WrapperP!WrapperD!
WrapperI!
WrapperK!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 23/26!
Gliederung!
• Ausgangssituation und konzeptionelle Ausrichtung!
• Ein Hypertextsortenmodell und die Hypertextsortenontologie!
• Exemplarische Anwendung!
• Schlussfolgerungen – Ausblick – Perspektiven!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 24/26!
Zusammenfassung und Schlussfolgerungen!
• Wissen über Text- und Hypertextsorten kann gewinnbringend in sprachtechnologischen Systemen eingesetzt werden.!
• Es existiert kein Standard zur Repräsentation von Textsortenwissen.!
• Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und Hypertextsorten kann diese Aufgabe übernehmen.!
- Konstituenten von und Relationen zwischen Hypertextsorten.!
- Verknüpfung externer Ressourcen für maschinelle Verarbeitung.!
• Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste Implementierung der Architektur scheint derzeit nicht realistisch.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 25/26!
Ausblick und Perspektiven!
• Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!
• Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!
• Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!
• Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
• Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 26/26!
Ausblick und Perspektiven!
• Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!
• Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!
• Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!
• Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
• Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!
- „Zimt und Koriander“ in Kochrezept!
- „Zimt und Koriander“ in Rezension!
- „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel!