Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und...

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 1/26!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und

sprachtechnologische Anwendungen!

Georg Rehm!

georg.rehm@gmail.com!http://georg-re.hm!

Universität Zürich, 27. November 2006!

Ausgangssituation!

•  Menschen beherrschen den Umgang mit Dutzenden von Textsorten "(z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).!

•  In der Sprachtechnologie spielen Textsorten bislang praktisch keine Rolle:!

-  Aspekte einer Textsorte werden implizit in den Algorithmus oder die Prozesslogik einer Anwendung integriert, z.B. in!

!  CiteSeer (Giles et al. 1998): ! !Publikationsliste!

!  DataRover (Davulcu et al. 2003): !Produktkatalog/Produktinformationen!

-  Explizites Wissen über Textsorten wird nicht zur Parametrisierung sprachtechnologischer Anwendungen eingesetzt.!

Wissen über!Textsorte X!

Wissen über!Textsorte Y!

Wissen über!Textsorte Z!

Profitierende Anwendungen!

Vorverarbeitung!

Algorithmen!

Visualisierung!

Output!

Input (Texte)! Textsorte Y!

Textsorte X!

Textsorte Z!

•  Tagging und Parsing!

•  Maschinelles Textzusammenfassen!

•  Informations-/Metadatenextraktion!

•  Information Retrieval!

•  Textkategorisierung!

•  Question Answering !

•  Mobile Device Adaptation!

•  Korpuslinguistische Analysen!

•  E-Learning-Tools (Essay Grading)!

•  Lernen von Ontologien!

•  ...!

Textsorten und Texttechnologie!

•  Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative Funktion, thematische Markierung, spezifische Kommunikationspartner "(siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).!

•  Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:!

!Linguistisch motivierte Informationsanreicherung und Verarbeitung digitaler Texte mit standardisierten Auszeichnungssprachen.!

•  Repräsentation z.B. mittels XML Schema oder DTD:!

•  Es existieren viele flankierende W3C XML-Standards, aber auch Lücken (z.B. Verfahren zur Repräsentation von Texttypologien).!

<!ELEMENT article (date, body)> <!ELEMENT date (month, day, year, time)> <!ELEMENT body (headline, paragraph+)> ...

article!

date! body!

headline! paragraph!month! day! year! time!

08! 08! 2003! 12:00! Der ...! Die ...!

Gliederung!

•  Ausgangssituation und konzeptionelle Ausrichtung!

•  Ein Hypertextsortenmodell und die Hypertextsortenontologie!

•  Exemplarische Anwendung!

•  Schlussfolgerungen – Ausblick – Perspektiven!

Ein Hypertextsortenmodell!

•  Kontext: Anwendung zur Informationsrecherche und Web as Corpus!

-  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.!

-  Diskrepanz: Web as Corpus Community vs. Hypertextsorten!

•  Hypertextsorten: Stand der Forschung!

!Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika (z.B. ihre Granularität; kanonisches Inventar).!

•  Das Hypertextsortenmodell ist Grundlage für!

-  (text)linguistische Analysen von Hypertextexemplaren,!

-  eine Systemarchitektur, die die Integration von Wissen über Text- und Hypertextsorten in sprachtechnologische Anwendungen ermöglicht.!

Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!Hypertextsorte:!Webauftritt"einer Universität!

Eingebettete Hypertextsorten:!Webauftritt einer Fakultät!

Eingebettete Hypertextsorte:!Webauftritt eines Instituts bzw. Seminars!

Ebene der Konstituenz II: Hypertextsortenmodul!

!Publikationsliste!

Ebene der Konstituenz III: Hypertextknotensorte!

!Berufliche Homepage eines Wissenschaftlers!

Generischer Aufbau einer Hypertextsorte!

Hypertextsorte i!

Hypertextsortenmodul 1...n!Hypertextknotensorte 1...n!Hypertextsorte 0...n!

besteht aus!

Optionale Hyper-!textsortenmodule 0...n!

Obligatorische Hyper-!textsortenmodule 1...n!

Optionale Hyper-!textsorten 0...n!

Obligatorische Hyper-!textsorten 0...n!

kann fungieren als!besitzt identischen Aufbau!

umfasst konventiona-!lisierte Vorbelegung!

wird eingebettet in oder!kann fungieren als!

Merkmale:!•  Kommunikative Funktion!•  Kontextuelle Faktoren!•  Inhalt/Thema!•  Interaktion!•  Strukturierung!•  Kommunikation!•  Dekoration!

besitzt!

Merkmale:!•  Positionierung!•  Kommunikative Funktion!•  Dekoration!

besitzt!

Typen:!•  Inhalt/Thema!•  Interaktion!•  Kommunikation!•  Navigation!•  Metainformation!•  Dekoration!•  Textstrukturmuster!

prägen aus!

kann fungieren als!

Tool chain zur Sammlung eines Korpus!

*.unizh.ch!

Web-Crawler (Pavuk)!

Korpus:!UNIX-!

Filesystem!

DB!(MySQL)!

Webserver (Apache)!

Sprachenidentifizierer (Perl)!

HTTP Header!(Perl)!

Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting!

Repräsentation von Hypertextsorten durch Ontologien!

•  Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und Hypertextsorten als Ressource für sprachtechnologische Anwendungen.!

!Alternative Vorschläge (nicht implementiert):!

-  Repräsentation durch „facets“ (Crowston und Kwasnik 2004).!

-  Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).!

•  Web as Corpus-Vorgehensweise:!

-  Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von 100 universitären Webauftritten (ca. 41 GB).!

-  Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.!

-  Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.!

-  Zusätzlich: Domänen-Ontologie und Themen-Ontologie.!

Die Hypertextsortenontologie!

das Hypertext-!sortenmodell!

in abstrakter Form!

das Hypertext-!sortenmodell!

als OWL-Ontologie!(Ausschnitt)!

Ontologie angefertigt mittels Protégé-OWL, Visualisierung mittels OntoViz/GraphViz!

Die Hypertextsortenontologie (Ausschnitt)!

Hypertexttyp Software-Dokumentation:!

•  Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).!

•  Definitionen als Subklassen der Klasse Hypertexttyp. •  Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.!

Die Hypertextsortenontologie (Ausschnitt)!

Typologie des Hypertexttyps!

Homepage einer Person!

Gliederung!

•  Exemplarische Anwendung!•  Schlussfolgerungen – Ausblick – Perspektiven!

Maschinelle Identifizierung von Hypertextsorten!

•  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich (vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).!

•  Es existieren mehrere ungelöste Probleme, z.B.:!

1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist weder textlinguistisch reflektiert noch empirisch motiviert.!

2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 Web-Genres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?!

3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).!

4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).!

•  Entwurf einer Architektur, um diesen Problemen zu begegnen.!

Systemarchitektur (partiell implementiert)!

Korpus: "HTML-!Dateien!

XML-!Dateien!

Textparser!

Korpusdatenbank!

Erkennung von!Hypertextknotensorten!

Erkennung von!Hypertextsorten!

externe!Ressource!

POS-Tagger!

Tokenisierer!

Visualisierung!mittels XSLT!

annotiertes!Trainings-!korpus!

Erkennung der Grenzen!eines Hypertextes!

Hypertextsortenontologie!

Textparsing zur Erkennung der Textstruktur!

•  Funktionen des Textparsers:!

-  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse), "d.h. Identifizierung der Bausteine der Textoberfläche.!

-  Reduktion des HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen.!

-  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).!

•  Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur: Analyse der struktur- und layoutorientierten Elemente und Attribute.!

•  Multi-Ebenen-Annotation.!

•  Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code (vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).!

Textparser mit interaktiver Analyseoberfläche: Beispiel!

Exemplarische Anwendung: Informationsextraktion!

<Identifikation> <Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/> <Name> <Vorname>Claudia</Vorname> <Nachname>Kinitz</Nachname> </Name> <Affiliation>Institut für ...</Affiliation> </Identifikation>

<Kontaktinformationen> <Strassenadresse> <Strasse>Endenicher ...</Strasse> <Hausnummer>11-13</Hausnummer> <PLZ>53115</PLZ> <Stadt>Bonn</Stadt> <Land>Deutschland</Land> </Strassenadresse> <Telefon>+49 (0)228 ...</Telefon> <Fax>+49 (0)228 ...</Fax> <E-Mail>c.kinitz@...</E-Mail> </Kontaktinformationen>

<Lebenslauf> <Eintrag>geboren am 20. Juni ...</Eintrag> <Eintrag>WS 1994 – SS 1999 ...</Eintrag> <Eintrag>November 1999 – ...</Eintrag> <Eintrag>Lebensmittelchemikerin</Eintrag> <Eintrag>seit Januar 2001 ...</Eintrag> </Lebenslauf>

<WissenschaftlichesProfil> <Forschungsinteressen> <Eintrag>Identifizierung und ...</Eintrag> <Eintrag>Betreuung von ...</Eintrag> </Forschungsinteressen> <Publikationsliste> <LitEintrag>A Mellen ...</LitEintrag> <LitEintrag>A Mellen ...</LitEintrag> </Publikationsliste> </WissenschaftlichesProfil>

Lebenslauf, biografische Angaben!

Datum der letzten Änderung! Wissenschaftliches Profil! Publikationsliste! Forschungsinteressen!

Identifikation! Foto! Name! Affiliation!

Kontaktinformationen! Straßenadresse! Telefon! Fax! E-Mail!

WrapperL!

WrapperP!WrapperD!

WrapperI!

WrapperK!

Gliederung!

•  Exemplarische Anwendung!

•  Schlussfolgerungen – Ausblick – Perspektiven!

Zusammenfassung und Schlussfolgerungen!

•  Wissen über Text- und Hypertextsorten kann gewinnbringend in sprachtechnologischen Systemen eingesetzt werden.!

•  Es existiert kein Standard zur Repräsentation von Textsortenwissen.!

•  Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und Hypertextsorten kann diese Aufgabe übernehmen.!

-  Konstituenten von und Relationen zwischen Hypertextsorten.!

-  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.!

•  Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste Implementierung der Architektur scheint derzeit nicht realistisch.!

Ausblick und Perspektiven!

•  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!

•  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

•  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

•  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!

•  Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!

Ausblick und Perspektiven!

•  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!

•  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

•  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

•  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!

•  Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!

-  „Zimt und Koriander“ in Kochrezept!

-  „Zimt und Koriander“ in Rezension!

-  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und...

Technology

Transcript of Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und...

Migration von Oracle auf - doag.org · neuenReleases auf HANA TiefeSAP Integration, z.B. Cubes SQL basierte Anwendungen optimiertund getunedfürSAP BW ... eine sehr ähnliche Syntax

Continuous Integration für Eclipse 4 RCP-Anwendungen mit ... · PDF fileAtlassian Crucible. Die Datenbank-Spezialisten. Sonar

1 Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik Computerlinguistische Grundlagen f ü r die Verarbeitung.

Integration von Datenbanken mit JDBC fileJava Database Connectivity - Ermöglicht Kommunikation zwischen Java-Anwendungen und Datenbanken - Aktuelle Version: JDBC 4.2 (Java 1.8) -

Interaktive Multimedia-Anwendungen I MM-Anwendungen.… · Autorensysteme VIII (1) 29. Interaktive Multimedia-Anwendungen I FHTW Berlin • »Studiengang Internationale Medieninformatik«

WS 4 Weiterführende Anwendungen im Educanet. Welche Anwendungen werden behandelt? WikiCourseletsForum.

Netzwerk Integration · 2018. 11. 13. · Netzwerk Integration

Integration bestehender Line of Business Anwendungen in …download.microsoft.com/download/7/7/7/7773A056-4A34-4BFD... · 2018-10-15 · Integration bestehender Line of Business Anwendungen

Philippe Blanchard Hans-Jürgen Eikmeyer Barbara Job Alexander Mehler Sprachliche Netzwerke texttechnologische Repräsentation computerlinguistische Synthese.

Semantik und Semiotik - Uni Trier: Willkommen · Die computerlinguistische Semantik bedient sich dieser Analysen und Modelle, nicht als (mehr oder weniger plausible) symbolische Repräsentationen

Holographisch-optische Elemente. Anwendungen in ...Anwendungen in Photovoltaik und Architektur Abb. 1: Anwendungen holographisch-optischer Elemente: a) Muster eines Fensteroberlichts

Multivariate numerische Integration und Anwendungen in der ...emmrich/studenten/henrik-diplom.pdf · der Richtigkeit der Methode und verfasste ein Buch Nova stereometria doliorum

Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Integration Cloud- basierter Anwendungen - avato · PDF file3.1.3 RFC Calls ... Neben Cast Iron ist die Informatica Lösung ein ... SAP Netweaver Architektur ist Teil des Solution

T1 03 ATAGE2017 Weitkamp Streamworks Roadmap · 2017-06-23 · Anwendungen: SAP, Java, avaloq, Micro Focus, ... Ausbau der SAP-Integration (Wertehilfen) Gateway Processing Server

Anwendungen - Danfoss...Anwendungen Diese Verflüssigungssatzreihe eignet sich perfekt für folgende Anwendungen: • Kühllager und Tiefkühlräume • Bier- und Weinkeller • Kleine

Webbasierte Anwendungen - storage.googleapis.com · > Webbasierte Anwendungen > haben das alltägliche Leben durchdrungen und > verdrängen zum Teil bereits Desktop-Anwendungen (z.B.

Die Nutzung von Oracle Integration Cloud als iPaaS ... · den vergangenen Jahren kontinuierlich gestiegen. Hybride IT-Umgebungen mit Cloud- und On-Premise Anwendungen werden von den

Einsatz von Single-Sign-On Technologien im Rahmen der Integration von E-Learning Anwendungen

GeoPortal.Landau - Anwendungen