HS 2016: Einführung in die Computerlinguistik I · Kapitel1 Organisatorisches 1.1...

HS 2016: Einführung in die Computerlinguistik I

Simon [email protected]

Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftext-skript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezüglich Layout und Formulie-rungen nicht für Fliesstext optimiert.

Version von 2. November 2017PDF-Skript: http://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdfOLAT-Seite: https://lms.uzh.ch/url/RepositoryEntry/16112484562

Universität ZürichInstitut für ComputerlinguistikBinzmühlestr. 148050 Zürich

1

mailto:[email protected]://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdfhttps://lms.uzh.ch/url/RepositoryEntry/16112484562http://www.uzh.chhttp://www.cl.uzh.ch

Inhaltsverzeichnis

1 Organisatorisches 51.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Leistungsnachweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.2 Lernen und Lehren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Was ist CL? 82.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Fachrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2.1 Computerlinguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.2 Sprachtechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.3 Weitere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.4 Anliegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Nachbardisziplinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3.1 Linguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3.2 Kognitionswissenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 Krux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Tokenisierung 193.1 Tokenisierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1.1 Grundproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.2 Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.3 Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Tokenisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3.1 Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Punktdisambiguierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.3.3 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.4 NER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4 Multilingualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4 Linguistisches Propädeutikum I 344.1 Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.1.1 Token . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.1.2 Wortform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.1.3 synt. Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.1.4 Lexem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1

4.2 Wortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2.1 5 Hauptwortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2.2 UD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2.3 STTS/PTTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.3 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.1 Genus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.3.2 Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.3 Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.4 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.5 Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.6 Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.7 Grad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.8 Flexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.5 Morphologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.5.1 Lemmatisierung/Morphologieanalyse . . . . . . . . . . . . . . . . . . . . . 484.5.2 Morphologiegenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.6 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5 Linguistisches Propädeutikum II 525.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.1.1 Weglassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.1.2 Verschieben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.1.3 Umformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.2 Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2.1 Satzglieder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2.2 Köpfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3 Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3.1 Konstituenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3.2 Dependenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.3.3 UD-DE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.3.4 Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.4 Ambiguität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6 Endliche Automaten 656.1 Formale Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6.1.1 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.1.2 Zeichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.1.3 Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.2 EA und reguläre Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.2.1 Konkatenation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.2.2 Reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.3 Transduktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

2

7 Flache Satzverarbeitung 777.1 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7.1.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 797.1.2 Fallstudie TnT-Tagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

7.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 837.2.1 Zweck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847.2.2 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847.2.3 Lernkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.2.4 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.2.5 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.2.6 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7.3 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 877.3.1 Abney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.3.2 IOB-Chunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.3.3 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

7.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.5 Exkurs: Evaluation binärer Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . 90

7.5.1 TP:FP:FN:TN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 907.5.2 Fehlerparadoxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917.5.3 Unterschiede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917.5.4 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3

Abbildungsverzeichnis

2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 Navigationselemente der Web-Site der Olympischen Spiele 2008 . . . . . . . . . . 203.2 Schematische Darstellung der Verschachtelung der XML-Tags . . . . . . . . . . . 253.3 Demo von Standford Temporal Tagger: Eingabeformular . . . . . . . . . . . . . . 313.4 Demo von Standford Temporal Tagger: Resultatsdarstellung in XML . . . . . . . 313.5 N-Gramm-Profile nach [Cavnar und Trenkle 1994] . . . . . . . . . . . . . . . 32

4.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2 Deutsche UD-Baumbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3 CoNLL-U und CoNLL-X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4 Hauptkategorien von STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5 Hauptkategorien des PTTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1 Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . . . . . . . . . 565.3 Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . . . . . . . . . . 575.4 Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . . . . . . . . . . 585.5 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) . . . . . . . . 595.6 Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . . . . . . . . . . 63

6.1 Sprache mit 3 Wörtern/Zeichenketten . . . . . . . . . . . . . . . . . . . . . . . . 696.2 Deterministischer EA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706.3 Formale Sprachen, reguläre Ausdrücke und endliche Automaten . . . . . . . . . . 74

7.1 Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . . . . . . . . . . . . 807.2 Training, Tagging und Evaluation mit dem TnT-Tagger . . . . . . . . . . . . . . 827.3 Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . . . . . . . . . . . 867.4 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . . . . . . . . . . . 877.5 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 887.6 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 887.7 F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . . . . . . . . . . . 937.8 Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . 94

4

Kapitel 1

Organisatorisches

1.1 OrganisatorischesInhalt der Vorlesung ECL I

• „Einführung in die Computerlinguistik I (+ II)“ geben eine Übersicht über die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik.

• Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestim-mung, Syntaxanalyse) und wichtige Anwendungen (Maschinelle Übersetzung, Sprachsyn-these, Spracherkennung Textsuche, Informationsextraktion)

• Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieftwird.

• Keine Programmiersprachenkenntnisse vorausgesetzt!

Kurs-Leitseite im WWW und Lehrmaterialien

OLAT-Campus-Kurs “16HS 520001.0 CL EV: Einführung in die Computerlinguis-tik I”1

• Wer belegt diese Vorlesung via Modul “Introduction to Computational Linguistics, PartI”?

• Folien als PDF-Dokumente unter “Materialien” (4up-Format zum Ausdrucken für VL-Teilvon Clematide) nach der Vorlesung verfügbar

• Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergänzungen für Prü-fungsvorbereitung2

Kursbuch (3. Auflage): [Carstensen et al. 2009]3Computerlinguistik und Sprachtechnologie: Eine Einführung.→ Pflichtlektüren stehen auf OLAT als PDF zur Verfügung.

1https://lms.uzh.ch/url/RepositoryEntry/161124845622 http://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdf3http://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html

5

https://lms.uzh.ch/url/RepositoryEntry/16112484562http://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdfhttp://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html

1.1.1 Leistungsnachweis

6 obligatorische schriftliche Übungen (SU)

Bewertungprinzip: Punkte SU = Note SU = 25% der Modulnote

Punktzahl pro ÜbungBestanden 1 Punkt

Halb bestanden 0.5 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Übungen

• Übungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

• Lösungsabgabe spätestens mittwochs 18h

• Einige Übungen werden Sie stark fordern. Sie dürfen maximal zu zweit arbeiten! Lern-partnerschaft muss deklariert sein bei der Abgabe!

• Keine Musterlösungen! Dafür Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Übungsstunde oder im Forum auf OLAT

• Freiwilliges Tutorat freitags 12.15-13.45h im Raum AND AND-3-02

• Start in 2. Semesterwoche (PCL-I-Tutorat bereits in 1. Semesterwoche)

Schriftliche Prüfung

• Zeit: Donnerstag, 19. Januar 2017, von 16.15 - 18.00h

• Dauer: 90 Minuten

• Stoff: Skript, Übungen, Pflichtlektüren

1.1.2 Lernen und Lehren

E-Learning und Übungen

CLab http://clab.cl.uzh.chFür einige Übungen benutzen wir Lerneinheiten aus unserem interaktiven, web-basierten Computerlinguistik-Laboratorium (CLab).

Applikationen auf CL-Linux-Server r2d2.cl.uzh.chEinzelne Übungsteile nutzen CL-Tools auf unserem Studierenden-Server, der über SSH (SecureShell bzw. Putty (Win)) zugänglich ist. Installationshilfe für Win dazu im Tutorat zu „Pro-grammiertechniken der CL“ diesen Freitag 14-15.45h.

Virtuelle Linux-Maschine (2.5GB) http://kitt.cl.uzh.ch/CLHS16.ovaIm PCL-I-Tutorat der 1. Woche wird auch die VM (virtuelle Maschine) mit Linux erklärt,welche die wichtigste Software für PCL/ECL vorinstalliert enthält und auf allen Plattformen(Win, MacOS) frei benutzbar ist (virtualbox.org). Für SSH benutzbar. (Link ab Freitag gültig!)

6

http://clab.cl.uzh.chhttp://kitt.cl.uzh.ch/CLHS16.ovavirtualbox.org

Anforderungen und Rückmeldungen

• Nutzen Sie die Übungsstunden!

• Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)!

• Wenden Sie sich an die Übungsverantwortlichen!

• Geben Sie den Dozierenden Rückmeldungen zu Unklarheiten und Problemen im Kurs!Direkt nach der Stunde oder via Mail. Wir machen diese Veranstaltung nur für Sie!

Hochrechnung zum Workload für 6 ECTS-Punkte

“Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berück-sichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14,Abs. 2)

“Ein ECTS-Punkt entspricht einer Studienleistung von 30 Stunden.” (§13, Abs. 2)

[Universitätsrat 2004]

• Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung:

2× 15× 2h = 60h

• Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvor-bereitung:

180h− 60h15 = 8h

1.2 KontrollfragenKontrollfragen

• Welche Buchungsfristen für Sie relevant? Bis wann können Sie sich noch einschreiben,bzw. das Modul stornieren?

• Wie viele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch aufeine 5 aufgerundet wird?

• Wieso sollten Sie die Übungsstunde besuchen?

• Welche Hauptthemen werden in dieser Vorlesung besprochen?

7

Kapitel 2

Was ist CL?

Lernziele

• Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie undLinguistik

• Kenntnis der zentralen Anliegen der modernen Computerlinguistik

• Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welchemit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind

• Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte(Pflichtlektüre)

• Kenntnis der Krux der Sprachverarbeitung

2.1 MotivationCL-haltige Produkte im (Computer-)Alltag

Partneraufgabe: Diskutieren Sie mit SitznachbarIn (2 Minuten)Was ist für Sie die wichtigste (a) bereits alltägliche bzw. (b) noch zukünftige Anwendungen vonSprachtechnologie?

• Auskunftssysteme (z.B. [Kassensturz 2006])

• Digitale Assistenten mit Sprachschnittstellen

• Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)

• Elektronische Wörterbücher (Thesauri)

• Automatische Übersetzung

• Recherchen im WWW

• . . .

8

Anwendungsfall: Texttechnologie

2.2 Fachrichtungen

2.2.1 Computerlinguistik

Was ist CL?

Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) isteine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sichmit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt.

Frage IIst das Kopieren einer MS-Word-Datei mit schweizerdeutschem Text von einer CDROM auf dieFestplatte eine Anwendung von CL?

Frage IIIst die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)eine frühe Anwendung von CL?

Sprachsynthese nach NKempelen

2.2.2 Sprachtechnologie

Was ist Sprachtechnologie?

Definition 2.2.2. Sprachtechnologie (NLE, engl. Natural Language Engineering) beschäftigtsich mit der praxis- und anwendungsbezogenen, ingenieursmässig konzipierten Entwicklung vonSprachsoftware.

9

http://www2.ling.su.se/staff/hartmut/kempln.htm

Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibungeiner sprechenden Maschine” (1791) [Traunmüller 1997]

2.2.3 Weitere

Verwandte/Alternative FachbezeichnungenDeutsch Englisch

Linguistische Datenverarbeitung (LDV) Linguistic and Literary Computing (LLC)Maschinelle Sprachverarbeitung Natural Language Processing (NLP)

Automatische Sprachverarbeitung (ASV) Natural Language Engineering (NLE)Sprachtechnologie Speech ProcessingSprachtechnologie Human Language Technology (HLT)Texttechnologie Text Technology

Computerphilologie Computational PhilologyDigitale Geisteswissenschaften Digital Humanities

Korpuslinguistik Corpus LinguisticsMedieninformatik

Linguistische InformatikInformationslinguistik

Schwerpunkte der verwandten Disziplinengesprochene vs. verschriftlichte Sprache (Text)

Hilfswissenschaft vs. eigenständige Forschungtheorieorientiert vs. anwendungsorientiert

Algorithmisierung als Machbarkeitsnachweis (Proof Of Concept) vs. effiziente Industrie-Softwarekognitive Plausibilität vs. ingenieurmässige Lösung

symbolische, logikbasierte und theoriegetriebene Ansätze vs. statistische, probabilistische und datengetriebene Methoden

10

2.2.4 Moderne Computerlinguistik

4 zentrale Anliegen der modernen Computerlinguistik

• Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf demComputer (oft mittels maschineller Lernverfahren)

• Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grund-formen, syntaktische und semantische Strukturen) von grossen Textsammlungen (Korpo-ra) und strukturierter Ressourcen (Lexika, annotiertes Textmaterial)

• Entwicklung technologisch fortschrittlicher Anwendungen

• Systematische empirische Evaluation von Verfahren, Komponenten und sprachverarbei-tenden Systemen

Google-Books Wort-N-Gramm-Suche

Suchphrasen: phone , mobile phone , sms , telegram , faxWelche der 4 zentralen Anliegen der CL sind hier realisiert?

Syntax-Analyse

11

https://books.google.com/ngrams

Welche der 4 zentralen Anliegen der CL sind hier realisiert?

2.3 Nachbardisziplinen

Nachbardisziplinen in Übersicht

• Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpus-linguistik für empirische Basis

• Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Forma-lismus wie effizient berechnen?); Künstliche Intelligenz

• Mathematik: Mengenlehre (Funktionen, Relationen, Bäume, Graphen) und Statistik/Ma-schinelle Lernverfahren (engl. Machine Learning)

• Kognitionswissenschaft und Psychologie

• Logik und Sprachphilosophie

QUIZ: Was ist was? [Weisser 2005]

Frage 1: Welche Fachrichtung wird hier beschrieben?

The use and possibly also compilation of computer-based text materials to investi-gate linguistic phenomena and ways of teaching about language.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering

12

http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-hunpos-maltparser/html/

� Corpus Linguistics


The compilation, annotation and use of written and spoken corpora for the investi-gation of linguistic phenomena, mainly by means of easy to use software.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics


The automated analysis and modelling of language by means of sophisticated pro-gramming techniques.



The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.



The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.


13

2.3.1 Linguistik

Linguistik

Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). DieLinguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen derSprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Se-mantik und Pragmatik.Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitätenund hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest.

Lautlehre: Phonetik und Phonologie

Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasstdie artikulatorische, akustische und auditive Ebene.

Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist dieLehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaftenEigenschaften und Beziehungen.

Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung).

1. Dieb /di:p/

2. Diebe /di:b@/

Exkurs: Internationales Phonetisches Alphabet (IPA)

Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schrift-liches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. DieIPA-Notationen für die Laute des Standarddeutschen sind in Carstensen:2009 erklärt.Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alleSchriftsysteme der Welt wiedergeben können will.Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- undKleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute undandere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin:di:b@.

Wortlehre: Morphologie

Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Funktion undStruktur der Wörter und deren Bildung.

Beispiel 2.3.6 (Flexion).

1. Dieb-e DIEB-NOMEN-PLURALNOM/AKK/GEN “Mehr als ein Dieb”

2. Dieb-e DIEB-NOMEN-SINGULARDAT IV “dem Dieb”

14

http://wwww.unicode.org

Satzlehre: Syntax

Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Auf-bau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen.

Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit).

1. Der gewitzte Dieb stahl den Diamanten.

2. *Der Dieb gewitzte stahl den Diamanten.

3. *Den gewitzten Dieb stahl den Diamanten.

Bedeutungslehre: Semantik

Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter(lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten(Diskurssemantik).

Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).

1. Die Polizei beschlagnahmte das Diebesgut gestern.

2. Das Diebesgut beschlagnahmte die Polizei gestern.

3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt.

4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern.

5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut.

Lehre von der Sprachverwendung: Pragmatik

Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungenvon Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation (Dialoge)in der Welt.

Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleichheit).

1. Ist das Fenster auf?

2. Bitte schliessen Sie das Fenster!

2.3.2 Kognitionswissenschaft

Kognitionswissenschaft1

Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäreErforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguis-tik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Ler-nen, Motorik und Sprache gezählt.

1https://de.wikipedia.org/wiki/Kognitionswissenschaft

15

https://de.wikipedia.org/wiki/Kognitionswissenschaft

Quelle: Wikipedia

Turing-Test: Können Maschinen denken?

Turing-Test im Original [Turing 1950]The new form of the problem can be described in terms of a game which we call the ’imitationgame’. It is played with three people, a man (A), a woman (B), and an interrogator (C) whomay be of either sex. The interrogator stays in a room apart front the other two. The object ofthe game for the interrogator is to determine which of the other two is the man and which isthe woman. He knows them by labels X and Y, and at the end of the game he says either “Xis A and Y is B” or “X is B and Y is A”. [. . . ]We now ask the question, “What will happen when a machine takes the part of A in this game?”Will the interrogator decide wrongly as often when the game is played like this as he does whenthe game is played between a man and a woman? These questions replace our original, “Canmachines think?”

Turing-Test: Antwortet Mensch oder Maschine?Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welcheden Turing-Test bestehen wollen2. Preisträgersysteme lassen sich imWWW direkt ausprobieren.

2http://www.loebner.net/Prizef/loebner-prize.html

16

https://commons.wikimedia.org/wiki/File:Kognitionswissenschaft.svghttp://www.elbot.de/http://www.loebner.net/Prizef/loebner-prize.html

Das Ziel dieser Test lautet: Kann eine Maschine so antworten in einem Dialog, dass man sienicht mehr von einem Menschen unterscheiden kann?

2.4 Die Krux der Mehrdeutigkeit

Mehrdeutigkeit [Jurafsky und Martin 2008]Beispiel 2.4.1.I made her duck.

Welche Lesarten sind denkbar?

• Welche Wörter sind alleine betrachtet eigentlich mehrdeutig?

• Schreiben Sie Paraphrasen auf, welche die denkbaren Lesarten eindeutig machen (desam-biguieren)!

• Auf welchen linguistischen Ebenen unterscheiden sich die Lesarten?

1. I cooked waterfowl for her.

2. I cooked waterfowl belonging to her.

3. I created the (plaster?) duck she owns.

4. I caused her to quickly lower her head or body.

5. I waved my magic wand and turned her into undifferentiated waterfowl.

Zusammenfassung

• Die Computerlinguistik ist ein interdisziplinär vielfältig verflochtenes Fach mit einer star-ken Anwendungsorientierung.

• Moderne empirische CL umfasst Erstellen von sprachlichen Ressourcen, Algorithmisie-rung, Maschinelles Lernen und systematische Evaluation.

• Die Mehrdeutigkeit von natürlicher Sprache ist die grösste Herausforderung für CL.

2.5 Vertiefung• Pflichtlektüre [Carstensen et al. 2009, 1–23] http://www.linguistics.rub.de/CLBuch/kapitel1A3.

pdf

• Konversation mit einem deutschsprachigen Chat-Bot wie etwa http://www.elbot.de (Ge-winner des Chatterbox Contests 2003)

• Turing-Text mit dem Gewinnersystem des Loebner-Preises 2013 http://www.mitsuku.com

17

http://www.linguistics.rub.de/CLBuch/kapitel1A3.pdfhttp://www.linguistics.rub.de/CLBuch/kapitel1A3.pdfhttp://www.elbot.dehttp://www.mitsuku.com

Kontrollfragen

• Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht siein enger Nachbarschaft?

• Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischenTeildisziplinen illustriert.

• Was ist der Unterschied zwischen Computerlinguistik und Sprachtechnologie?

• Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfol-gen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausge-macht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.)

• Was ist von der modernen Computerlinguistik gefordert?

18

Kapitel 3

Tokenisierung: Automatische Satz-und Wortsegmentierung

Lernziele

• Kenntnis über die Kodierung sprachlicher Zeichen

• Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicherSprache: Text-Segmentierung und Text-Normalisierung

• Kenntnis über XML zur Repräsentation von Text und Segmentstruktur

• Kenntnis über Methoden der Punktdisambiguierung und Satzendeerkennung

• Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (NamedEntity Recognition)

• Kenntnis und Umgang mit regulären Ausdrücken

3.1 Tokenisierer

3.1.1 Grundproblem

Wörter aus linguistischer Sicht

Definition 3.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind.

Was ist ein Wort?

1. Z.B. nahm sie am Text Mining Workshop teil.

2. Das gibt’s doch nicht! “Joop!” ist pleite.

3. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit.

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

19

Abbildung 3.1: Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht: Welt der Bytes

$ hexdump datei.txt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben, d.h. jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl.)Beispiel 3.1.2 (Folge von Zeichenkodes in Hexadezimalnotation).Wie viele und welche Wörter enthält der folgende Datei-Inhalt?57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

3.1.2 Zeichenkodierung

Was ist ein Zeichen auf dem Computer?

• Traditionell ein Byte, d.h. eine Folge von 8 Bits.Was ist ein Bit? Binäre Entscheidung (0 oder 1)

• Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle imBinärsystem aufgefasst wird: 0100’0001

• Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskon-vention aufgestellt wird: Z.B. ’A’=65, ’@’=64, ’1’=49

• Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch),iso-latin-1 (256 Zeichen für westeuropäische Sprachen)

• Typische Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte

Binäres und Hexadezimales Stellensystem

1 Byte als binäre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b* * * * * * * * s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b* * * * s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kästchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump datei.txt

20

__ __ __ __ __ __ __ __ 3b* * * * * * * * s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b* * * * s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kästchen = 1 Byte

Die 128 ASCII-Kodes

Die 128’172 Unicode-Kodes

Moderne universale Kodierungskonvention: http://www.unicode.orgUNICODE(ISO/IEC 10646) Version 9.0: Kodes für 128’172 Zeichen in fast allen Schriftsystemender Welthttp://www.unicode.org/standard/WhatIsUnicode.html

GRINNING FACE:

• Kode 128512 (Hexadezimal: 1F600)

• UTF-8 Byte-Repräsentation F0 9F 98 80

•~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binärzahl-Repräsentationgespeichert!

21

http://www.unicode.orghttp://www.unicode.org/standard/WhatIsUnicode.html

Was ist ein Zeichen auf dem Computer? UTF-8-Format

• Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibtMethoden, einen Unicode-Kode auf eine Folge von Bytes abzubilden.

• UTF-8: (Abk. für 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unter-stützt bis zu 4 Byte pro Zeichen.

• Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien mussman es wissen.

• Jede ASCII-Datei ist auch eine UTF-8-Datei (Rückwärtskompatibilität)

• Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damitdas Betriebssystem die Kodes fürs Auge darstellen kann.

• Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 < INPUT > OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text-Normalisierung durch “Transliteration”2 durchführen.

$ echo "Klößchen" | iconv -f UTF-8 -t ASCII//TRANSLITKl"osschen

Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:

$ echo "Klößchen" | iconv -f UTF-8 -t ASCII//IGNOREKlchen

3.1.3 Programme

Grundproblem: Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge vonkodierten Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.

Token: Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syn-taktische Analyse.

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhängig sein.22

• Konsumieren der Zeichenfolge (Eingabe)

• Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung)

• Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele für Tokenisierer: Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text, d.h. 1 Token pro Zeile. Sätzesind durch Leerzeilen voneinander abgetrennt.

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei(ger-abbrev).

$ cat file.txt"Bach’sche Musikmag Dr. Fritz. Ja."

$ cat ger-abbrevDr.usw.

$ utf8-tokenize.perl -a ger-abbrev file.txt"Bach’scheMusikmagDr.Fritz.

Ja."

Typische Beispiele für Tokenisierer: Reguläre AusdrückeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie Python,PERL oder Finite-State Tools, welche einen einfachen Umgang mit regulären Ausdrücken er-lauben.

Definition 3.1.3 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck isteine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zubeschreiben.Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchen-und-Ersetzen und Segmentieren von Zeichenketten.

Einführung in reguläre AusdrückeZ.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex

23

http://www.cl.uzh.ch/clab/regex

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulären Ausdrücken

• Jeder Computerlinguistik-Studierende im 2. Semester kann mit regulären Ausdrücken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben!

• Einfach anpassbar auf die Textsorte

• Für überschaubare Textmengen empfohlen!

• Vorteil: Machen dieselben Fehler konsequent!

• Gute Abkürzungslisten erlauben 99% korrekte Satzgrenzenerkennung.

Typische Beispiele für Tokenisierer: XMLTokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.markup language).Beispiel 3.1.4 (Der LT-TTT2 Tokenizer [Grover 2008]).

1. Rohtext

This is an example. There are two sentences.

2. XML-Input für Tokenisierer (Vortokenisierung)

This is an example. There are two sentences.

3. XML-Tokenisat

This isan example

24

.

There aretwo sentences.

Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.

Verschachtelung im XML-Stil

This is an example .

There are two sentences .

Abbildung 3.2: Schematische Darstellung der Verschachtelung der XML-Tags

3.2 Exkurs: XMLOnline-Video zu XML und Textrepräsentation

• Bitte den 1. Teil “Einführung in XML” (10 Minuten) unseres Online-Videos “Strukturierteund nachhaltige Repräsentation von Korpusdaten: XML-Standards zur Textrepräsentati-on” aus unserem MOOC-Kurs schauen. (Der 2. Teil “Einführung in TEI P5” ist nicht Teildes Stoffs.

• https://tube.switch.ch/videos/60fc01f1

XML (eXtensible Markup Language)

Definition 3.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformteXML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann.

25

https://tube.switch.ch/videos/60fc01f1http://www.w3.org/XML/

XML in der Texttechnologie

• Textbasiertes Format, das geeignet ist, Texte und dazugehörigeMetainformation programm-unabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI für Lexika, Kor-pora und digitale Editionen)

• Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellenzum Einlesen, Erstellen, Modifizieren von XML-Dokumenten

• Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

• Elemente sind von Start-Tags (“

”) und End-Tags (“

”) begrenzt.

• Leere Elemente können aus einem Tag bestehen (“
”)

• Elemente dürfen hierarchisch ineinander verschachtelt werden:

...

• Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: ...

• Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag:

• Elemente können Zeichendaten (d.h. normalen Text) enthalten: are

Zeichenreferenzen und Entity-Referenzen

Entitäten und Referenzen

• Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet, welche zwischen & und ; notiert werden

• Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens: nnn ;n=Dezimal, hhh ; h=Hexadezimal

• Zeichenreferenzen sind nur notwendig, wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entität Referenz< < <> > >" " >’ ' '& & &

Newline Σ Σ

26

http://www.tei-c.org

3.3 Tokenisierung: Segmentieren von Wörtern und Sätzen

3.3.1 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen und/oder Interpunktionbegrenzt.

• Wort-Zeichen: [a-zA-Z0-9]

• Einzel-Zeichen: [.,:;?!)("’$@-]

• Leerraum-Zeichen (white space): [\s], entspricht [ \t\n\r\v]

ProblemTokens können sowohl Einzel- wie Leerraum-Zeichen enthalten:“Joop!”, “usw.”, “1 000 000”, “«Ich bin Borat»-Kit”

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

• Anführungszeichen: «Naturfreunde»-Bergheim

• Apostrophe: geht’s → geht + ’s , l’eau → l’ + eau , aujourd’hui, don’t → ???

• Bindestriche: semble-t-il → semble + -t-il

• Punkte: S.A.C.

• Masseinheiten: 30% → 30 + %, 28◦ → 28 + ◦

• Leerraumzeichen: Mehrtokenwörter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

• Umgang mit Markup (HTML-Tags, Formatierungszeichen)

• Erkennung der “normalen” Tokengrenzen

• Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen bein-halten (aujourd’hui), oder aufgetrennt werden sollen (semble-t-il)

• Erkennung von Interpunktion (Disambiguierung von Punkten, Erkennung von Satzenden)

• Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)

• Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)

27

3.3.2 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Werjeden Punkt als Satzende interpretiert, liegt in 8-45% der Fälle daneben.

Verschärfend: Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.

Verschmelzung

• It was due Friday by 5 p.m. Saturday would be too late.

• Ich kenne die U.S.A. Frankreich kenne ich nicht.

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig.

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text, das auf einen Punkt endet.Der Punkt ist ein Abkürzungspunkt, falls

• das Token in einer Abkürzungsliste steht.

• nach dem Token eines der Zeichen aus [,;a-z] folgt.

• das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht in einem Lexikon steht.

• das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punktvorkommt.

Nach [Grefenstette und Tapanainen 1994]

LeistungsfähigkeitMit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.

Interessante Merkmale für statistische AnsätzeTOKEN . NEXTTOKEN

1. Wie viele Zeichen umfasst TOKEN?

2. Besteht TOKEN nur aus Ziffern? Enthält es keine Vokale?

3. Wie oft kommt TOKEN ohne Punkt vor?

4. Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor?

5. Wie oft kommt NEXTTOKEN kleingeschrieben vor?

28

Satzsegmentierung mit maschinellen Lernverfahren

• Für grosse Textmengen empfohlen!

• Nachteil: Unsystematische Fehler können auftreten!

Statistisches System PUNKT ([Kiss und Strunk 2006])

• benötigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkür-zungslisten

• klassifiziert für Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 99,3% der Satz-punkte und 97,5% der Abkürzungspunkte korrekt.

iSentenizer ([Wong et al. 2014])Ebenfalls multilingual wie PUNKT. Lernt von perfekt segmentierten Trainingsdaten. Bestehen-de Modelle sind anpassbar auf neue Texte.

3.3.3 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen.

Normalisierung bei Suchmaschinen und anderen Anwendungen

• Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . .

• 4.8.97, 4-8-97, 4/8/97, 8/4/97

• 19000, 19’000, 19 000, 19,000

• Louisa, Luise, Louise, Luisa . . .

• doesn’t, does not

Rückgängig machen von Worttrennung am ZeilenendeBeispiel 3.3.1 (Graphematische Modifikationen bei Worttrennung).

• Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt

• Holländisch: chocola-tje → chocolaatje

Definition 3.3.2. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In eini-gen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen.

29

Zeilen in % Typ101’860 100% Zeilen total12’473 12% mit Silbentrennung

Rückbau in % Typ11’858 95% Rückbau in existierende Tokens

615 5% Rückbau in neue Tokens

Tabelle 3.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus

Rückgängig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach Trennstriche entfernt.Vergleich mit den manuell kontrollierten originalen Tokens:

Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.

3.3.4 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs- und Zeitangabenoder weitere textsortenspezifische interessierende Grössen.

Einheitliche (kanonische) Repräsentation (auch als Linked Data)Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grös-sen in ein einheitliches und eindeutiges Format zu bringen.

Kanonische Formen und Entity Linking

• XXXX-XX-XXT13:20: “13:20h”, “1.20 pm”, “Zwanzig nach Eins”

• https://viaf.org/viaf/130168302: “U.S.A.”,“United States of America”, “U.S. of America”

Demo: Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo: Time Expression Recognition (TIMEX task)

3.4 MultilingualitätMultilinguale Dokumente und Systeme

Herausforderung Multilingualität

• Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3http://nlp.stanford.edu:8080/sutime/process

30

http://cogcomp.cs.illinois.edu/page/demo_view/nerhttps://viaf.org/viaf/130168302http://nlp.stanford.edu:8080/sutime/process

Abbildung 3.3: Demo von Standford Temporal Tagger: Eingabeformular

Abbildung 3.4: Demo von Standford Temporal Tagger: Resultatsdarstellung in XML

• Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkürzungslexika), Re-geln oder gelernte Modelle notwendig

• Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament, auf dem alle Textanalyse aufbaut.

• Traditionelles linguistisches Wissen ist für Sprachidentifikation nicht geeignet.

• Einfache Verfahren, welche auf Häufigkeiten von Buchstabenkombinationen aufbauen,funktionieren gut.

Ansatz von [Cavnar und Trenkle 1994]

31

1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenenSprachen über Trainingsdaten.

2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-Gramm-Profil).

3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil.

4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm.

5. Wähle für D die Sprache mit dem kleinsten Profilabstand.

N-Gramm-Profile und Profilabstand

Quelle: [Cavnar und Trenkle 1994]

Abbildung 3.5: N-Gramm-Profile nach [Cavnar und Trenkle 1994]

3.5 VertiefungZum Thema “Tokenisierung”:

• Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition: https://tube.switch.ch/videos/6ce37e28

• Pflichtlektüre: [Carstensen et al. 2009, 3.4.1]

• Guter Übersichtsartikel für Interessierte: [Palmer 2000]

Zum Thema “Reguläre Ausdrücke” (für Nicht-PCL-1-Teilnehmende empfohlen):

• http://www.cl.uzh.ch/clab/regex/

Zum Thema “XML”:

32

https://tube.switch.ch/videos/6ce37e28https://tube.switch.ch/videos/6ce37e28http://www.cl.uzh.ch/clab/regex/

• Pflichtvideo aus unserem DH-MOOC: Strukturierte und nachhaltige Repräsentation vonKorpusdaten: XML-Standards zur Textrepräsentation: https://tube.switch.ch/videos/60fc01f1

• Freiwillig: Kapitel 2.5.2 Texttechnologische Grundlagen in [Carstensen et al. 2009]

Zusammenfassung

• Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zulösen.

• Sie lässt sich für Texte mit normierter Orthographie im Allgemeinen sehr gut lösen mitbestehenden oder selbst erstellten Programmen.

• Aber es gibt immer Restfehler, welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen.

• Regelbasierte oder statistische Lösungen erreichen bis 99% Genauigkeit bei der Satzseg-mentierung.

• Abkürzungslexika, welche auf die Textsorte zugeschnitten sind, stellen ein wertvolles Hilfs-mittel dar.

• Statistische Ansätze können bei genügend grossen Korpora ohne Abkürzungslisten ver-gleichbare Leistung erbringen.

• Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden.

Kontrollfragen

• Was ist ein Bit, ein Byte und eine Zeichenkodierungskonvention?

• Welche Probleme stellen sich bei der Tokenisierung?

• Schildern Sie zwei unterschiedliche Ansätze zur Punktdisambiguierung.

• Was sind die wesentlichen Eigenschaften von XML-Dokumenten?

• Was versteht man unter NER?

• Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle?

33

https://tube.switch.ch/videos/60fc01f1

Kapitel 4

Linguistisches Propädeutikum I

Lernziele

• Unterscheidung zwischen Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma,Lexemverband kennen

• Kenntnis der Wortartenlehre für Deutsch und der “universalen” Wortartenklassen vonUniversalDependencies.org

• Kenntnis der morphologischen Kategorien für Deutsch und Englisch

• Kenntnis und Anwendung des UD-Tagsets für Deutsch mit Hilfe der Referenzkarte

• Kenntnis und Anwendung linguistischer Proben

• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von Morphologie und Wortarten

• Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Ana-lyse und Generierung

4.1 WörterPräzisierungsversuche des Wort-Begriffs

Definition 4.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind.

Präzisierungsversuche des Wort-Begriffs

• Phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

• Orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit

• Morphologisch: Grundeinheit, welche flektierbar ist

• Lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist

• Syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes

34

http://universaldependencies.org

Gängige Auffassungen des Worts Wort [Linke et al. 2001]Wie viele verschiedene Wörter hat dieser Satz?Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.

Antworten� 4� 5� 6� 9� __

4.1.1 Token

Antwort 9: Wort als Vorkommen einer WortformWieviele verschiedene Wörter hat dieser Satz?Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen6 Fliegen7 Fliegen8 nach9 .

Definition 4.1.2 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText.

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet. Die Antwortlautet dann . . .

4.1.2 Wortform

Antwort 5: Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

Definition 4.1.3 (Wortform). EineWortform ist eine rein graphematische Einheit eines Textes.

Identische Wortformen mit unterschiedlicher Bedeutung

• Die Fliege war tot.

• Er trug eine samtene Fliege.

• Fliege nicht so schnell!

4.1.3 Syntaktisches Wort

Antwort 6: Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen5 Fliegen4 Fliegen3 nach6.

Definition 4.1.4 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen Merkmalen.Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normaler-weise zusammengefasst.

Wortform vs. syntaktisches WortDie Wortform “Fliegen” kann mindestens 4 syntaktische Wörter repräsentieren: “Fliege” inNominativ, Akkusativ, Dativ oder Genitiv Plural.

35

4.1.4 Lexem

Antwort 5: Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

Definition 4.1.5 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,Numerus, Tempus usw.) unterscheiden.

Definition 4.1.6 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikogra-phische Standard-Notation für ein Lexem.

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in Deutschen/Latein aus?

Antwort 4: Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3, fliegen3 Fliegen3 Fliegen3 nach4.

Definition 4.1.7 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eineMenge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert.

Beispiel 4.1.8 (Derivationen von “fliegen” in Canoo).Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wort-bildungsinformation in http://www.canoo.net illustriert dies schön.

Stufen der Abstraktion: Vom Text zum Lexemverband

• Jedes Token ist eine Zeichenfolge, welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence).

• Jede Wortform ist eine Menge von Tokens, welche aus der identischen Zeichenfolge beste-hen (sog. Type).

• Jedes syntaktisches Wort ist eine Menge von Tokens, welche identische morphosyntaktischeund semantische Eigenschaften aufweisen.

• Jedes Lexem ist eine Menge syntaktischer Wörter, welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden.

• Jeder Lexemverband ist eine Menge der Lexeme, für die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird.

36

http://www.canoo.net

4.2 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 4.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis derKlassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder se-mantischen Kriterien.

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahr-hundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemässAdelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Artikel, Konjunktion, Interjektion, Nu-merale, Pronomen, Präposition, Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwen-det.

4.2.1 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 4.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFür Studierende der UZH frei verfügbar unter http://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web

37

http://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0webhttp://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web

UniversalAnnota.on

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

4.2.2 UD

Übersicht zu Annotationsebenen in der NUDDie Kürzel für die Wortarten nennt man “Tags” (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten für viele Sprachen [Petrov et al. 2012]Für Baumbanken in 22 Sprachen angewendet! Arabic, Basque, Bulgarian, Catalan, Chinese,Czech, Danish, Dutch, English, French, German, Greek, Hungarian, Italian, Japanese, Korean,Portuguese, Russian, Slovene, Spanish, Swedish, Turkish

“Our universal POS tagset unifies this previous work and extends it to 22 lan-guages, defining the following twelve POS tags: NOUN (nouns), VERB (verbs),ADJ (adjectives), ADV (adverbs), PRON (pronouns), DET (determiners and artic-les), ADP (prepositions and postpositions), NUM (numerals), CONJ (conjunctions),PRT (particles), ‘.’ (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words).”

Universal Part-of-Speech Tagset (Version 2): UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher .)

Baumbanken sind für 51 Sprachen verfügbar!

38

http://universaldependencies.org/

Abbildung 4.2: Deutsche UD-Baumbank

UD V1.3 für Deutsch

NDurchsuchen

• Suche nach Wort: später

• Nach Wort+Wortart: später&ADV

UD V1.3 für Deutsch: Schwierigkeiten der Annotation...http://universaldependencies.org/de/pos/ADJ.html

Mehrdeutigkeiten, Unklarheiten, Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten, morphologischen Merkmalen, Grundfor-men, syntaktischen Beziehungen etc. in digitaler Form

Möglichkeiten der Annotationserstellung1https://github.com/slavpetrov/universal-pos-tags2http://universaldependencies.org/u/pos/index.html

39

http://bionlp-www.utu.fi/dep_search/query?search=Linguistik&db=UD_German-v13http://universaldependencies.org/de/pos/ADJ.htmlhttps://github.com/slavpetrov/universal-pos-tagshttp://universaldependencies.org/u/pos/index.html

• Manuell: zeitaufwändig, teuer, genau (wenn unabhängige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

• Vollautomatisch: Schnell, billig, fehlerbehaftet

• Halbautomatisch: Zuerst automatisch annotieren, dann Fehler korrigieren: Vorteile? Nach-teile?

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttp://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-hunpos-maltparser/html/

N CoNLL-Format: Spaltenformat für Annotationen3

• Vertikalisierter Text

• 1 Token pro Zeile

• Sätze mit Leerzeile getrennt

• 10 tabulatorgetrennte Spalten für die Annotationsinformation

• Für nicht-verfügbare Information wird “_” verwendet

Bedeutung relevanter Spalten

1. Tokennummer (1-basierte Zählung) pro Satz

2. Wortform (Token)

3. Lemma

4. Grobe Wortklasse (coarse-grained part-of-speech tag)

5. Feine Wortklasse (fine-grained part-of-speech tag)

6. Morphosyntaktische Merkmale

7. Syntaktischer Kopf als Tokennummer

8. Dependenztyp

CoNLL-U: Aufgetrennte TokensDie NUD-Tokenisierung löst gewisse verschmolzene Wörter auf in 2 Token: au = à le, dámelo= da me lo

Präposition und Artikel im Deutschen “beim = bei der” .Abweichung vom UD: Wir lassen es in den Übungen als ein Token!

3http://universaldependencies.org/format.html

40

http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-hunpos-maltparser/html/http://ilk.uvt.nl/conll/#dataformathttp://universaldependencies.org/u/overview/tokenization.html

Abbildung 4.3: CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

• WebAnno:Graphische Benutzerschnittstelle für die manuelle Annotation/Korrektur (DE-MO)

• Automatische Generierung des korrekten CoNLL-Datenformats

• Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenüber unsermGoldstandard: http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-malteval/html/

4.2.3 Feine Tagsets

Verfeinertes Stuttgart/Tübingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis:

• Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al. 1999] mit 54Tags

• Eine Notationsvariante von STTS wurde als europäischer Standard für Deutsch (EAGLESELM-DE) [Teufel und Stöckert 1996] spezifiziert.

• Vergleichbar mit dem Tagset der Penn-Treebank für Englisch

• Alternativen: Münsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig?

• Wichtige linguistisch annotierte Korpora (sog. Baumbanken) verwenden für die WortartenSTTS (nach Entstehungszeit geordnet):

– (20’000 Sätze) NNEGRA-Korpus NBeispiel– (50’000 Sätze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispiel,– (90’000 Sätze) NTüBa-D/Z– (160’000 Sätze) NHamburg Dependency Treebank NBeispiel

• Es gibt verfügbare Programme, welche Wörter im Lauftext automatisch mit ihren STTS-Tags etikettieren. Solche Programme (z.B. TreeTagger) nennt man “Tagger” und denProzess “Tagging”.

41

http://localhost:8080http://localhost:8080http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-malteval/html/http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.htmlhttps://files.ifi.uzh.ch/cl/siclemat/lehre/negra/s1.htmlhttp://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.htmlhttp://www.cl.uzh.ch/siclemat/lehre/tiger/s1.htmlhttp://www.sfs.uni-tuebingen.de/ascl/ressourcen/corpora/tueba-dz.htmlhttps://corpora.uni-hamburg.de/drupal/de/islandora/object/treebank:hdthttps://weblicht.sfs.uni-tuebingen.de/visual-4_0/index.zul?dataFile=https://corpora.uni-hamburg.de:8443/hdt-tuendra/A/1/tcf.xml

Abbildung 4.4: Die Hauptkategorien von STTS:http://www.cl.uzh.ch/clab/hilfe/stts/

Penn-Treebank-Tagset II: Ein wichtiges Tagset für EnglischFür die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken.

4.3 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 4.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologi-schen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Nu-merus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung)realisiert werden.

Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

• Konjugation von Verben

• Deklination von Nomen, Adjektiven, Artikeln und Pronomen

• Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?

Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilungnicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einigeAdverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten”. . . ).Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektiveals Flexion betrachtet.

42

http://www.cl.uzh.ch/clab/hilfe/stts/

Abbildung 4.5: Die Hauptkategorien des PTTS: http://www.cl.uzh.ch/clab/hilfe/ptts/

Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, istdie Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus undkomparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann musses wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein.Welche denn?

4.3.1 Genus

Das Genus (UD: Gender): Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum männlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum sächlich neuter Neut HuhnUnterspezifiziert n/a n/a Ferien

Tabelle 4.1: Übersicht: Genera

BemerkungDer Plural von Genus lautet Genera.

Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwähnungKategorie soll ganz weggelassen werden, wenn alle Werte möglich sind.

Deutsch

43

http://www.cl.uzh.ch/clab/hilfe/ptts/

Wir hatten schöne/Case=Acc|Degree=Pos|Number=Plur Ferien/Case=Acc|Number=Plur .

AufzählungUntermenge an möglichen Werten wird komma-separiert aufgezählt.SpanischEl ordenador que compré aqui me/Case=Acc,Dat|Number=Sing|Person=1 dió problemas

4.3.2 Numerus

Der Numerus (UD: Number): Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Hühner

Tabelle 4.2: Übersicht: Numeri

BemerkungDer Plural von Numerus lautet Numeri.

Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?

4.3.3 Kasus

Der Kasus (UD: Case): FallUD-Kategorie: Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 4.3: Übersicht: Kasus

BemerkungDer Plural von Kasus lautet Kasus.

4.3.4 Modus

Der Modus (engl. mode, mood, UD: Mood): Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Möglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh!

Tabelle 4.4: Übersicht: Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschieden.BemerkungenDer Plural von Modus lautet Modi.

44

4.3.5 Tempus

Das Tempus (UD: Tense): grammatische Zeit, Zeitform

Fachbegriff Deutsch Englisch UD BeispielPräsens Gegenwart present tense Pres er gehtPräteritum Vergangenheit past tense Past er ging

Tabelle 4.5: Übersicht: Tempora

BemerkungenDer Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien fürTempus im Deutschen? Es gibt doch viel mehr Zeiten.

4.3.6 Person

Die Person (UD: Person)

Fachbegriff Deutsch Englisch UD Beispiel1. Person Sprecher first person 1 ich gehe2. Person Angesprochene second person 2 du gehst3. Person Person, Sachverhalt third person 3 er geht

Tabelle 4.6: Übersicht: Personen

BemerkungenDer Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich.Bei welchen Wortarten ist die Kategorie Person ausgeprägt?

4.3.7 Grad

Der Grad (UD: Degree): Steigerung, Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Höchststufe superlative Sup schlauste

Tabelle 4.7: Übersicht: Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgeprägt?

4.3.8 Adjektiv-Flexion

Die Adjektiv-Flexion (engl. adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafür definiert. Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven?

Beispiel 4.3.2 (Flexion von “schlau”).Darstellung bei www.canoo.net

45

http://www.canoo.net/services/Controller?dispatch=inflection&lang=de&view=split&input=schlau

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best. Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein, kein,. . . mixed Mix keine schlauen FüchseStarke Flexion ohne Artikel strong St schlaue Füchse

Tabelle 4.8: Übersicht: Adjektiv-Flexion

Weitere morphologische KategorienIn der UD können morphologische Kategorien auch benutzt werden, um die groben UPOS-Tagszu verfeinern.

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmod:poss_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 . . PUNCT . _ 9 punct _ _

4.4 Linguistische ProbenLinguistische Testverfahren

Definition 4.4.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, umgrammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können.

4.4.1 Ersatzprobe

Ersatzprobe

Definition 4.4.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestesmuss dabei unverändert bleiben.

46

Beispiel 4.4.3 (Bestimmung des Kasus).

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.

Bestimmung der Wortart von “das”: DET oder PRON (Demonstrativ-/Relativpronomen)

• Das ist das Angebot, das uns überzeugt hat.

• Dieses ist das Angebot, welches uns überzeugt hat.

• * Welches ist das Angebot, dieses uns überzeugt hat.

• ? Das ist dieses Angebot, welches uns überzeugt hat.

Probleme der Interpretation

• Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Inter-pretation des Satzes.

• Ob sich der Sinn des Satzrests ändert durch den Ersatz, ist nicht immer ganz eindeutig.

4.4.2 Einsetzprobe

Einsetzprobe

Definition 4.4.4. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt, der ihn grammatisch eindeutig interpretiert.

Beispiel 4.4.5 (Bestimmung der Wortart).

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis *Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfür Verben oder Steigerung für Adjektive.

4.5 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie? Wortstruktur und Wortbildung

• Flexion (Wortbeugung): such+en, such+e, such+test, such+ten, ge+such+t, such+end. . . Frucht,Frücht+e

47

• Derivation (Wortableitung): suchen, Suche Frucht, frucht+en, frucht+bar, un+frucht+bar,Un+frucht+bar+keit

• Komposition (Wortzusammensetzung): Such+ergebnis4, Text+zusammenfassung+s+system

4.5.1 Lemmatisierung/Morphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 4.5.1 (Lemmatisierung). Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas, welche einer Wortform zugrunde liegen.

Definition 4.5.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma.

Beispiel 4.5.3 (Analyse von “eine”).Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform “eine”?

Analysen von GERTWOL5

eine"ein" ART INDEF SG NOM FEM"ein" ART INDEF SG AKK FEM"einer" PRON INDEF SG NOM FEM"einer" PRON INDEF SG AKK FEM"ein~en" V IND PRÄS SG1"ein~en" V KONJ PRÄS SG1"ein~en" V KONJ PRÄS SG3"ein~en" V IMP PRÄS SG2

Probleme morphologischer Analysen: Mehrdeutigkeit

eine"ein" ART INDEF SG NOM FEM"ein" ART INDEF SG AKK FEM"einer" PRON INDEF SG NOM FEM"einer" PRON INDEF SG AKK FEM"ein~en" V IND PRÄS SG1"ein~en" V KONJ PRÄS SG1"ein~en" V KONJ PRÄS SG3"ein~en" V IMP PRÄS SG2

Müller"*müller" S EIGEN Famname SG NOM"*müller" S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo: www.canoo.net/wordformation/suchergebnis:N:N5http://www2.lingsoft.fi/cgi-bin/gertwol

48

http://www.canoo.net/wordformation/suchergebnis:N:Nhttp://www2.lingsoft.fi/cgi-bin/gertwol

• “eine” als . . .

• “Müller” als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus!

Verbrechen"*verb#rechen" S MASK SG NOM"*verb#rech~en" S NEUTR SG NOM"*ver|brech~en" S NEUTR PL DAT"ver|brech~en" * V INF"ver|brech~en" * V IND PRÄS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw. unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollständigkeitNeubildungen, Spontanbildungen, Fremdwörter

Abchase"*abchas~e" S MASK SG NOM"*abc#hase" S MASK SG NOM

ZielkonfliktJe umfassender und vollständiger, umso mehrdeutiger das Resultat!

Lieblingsbeere"*lieb~ling\s#beere" S FEM SG NOM...

Erdbeere"*erd#beere" S FEM SG NOM...

Fingerbeeren"*finger#beere" S FEM PL NOM...

ÜberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung!

49

Morphologieanalyse mit dem RFTaggerBestimmt für Lauftext die bestmögliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas.

Output des RFTaggers für Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRO.Dem.Subst.Nom.Sg.Neut dieist VFIN.Aux.3.Sg.Pres.Ind seinein ART.Indef.Nom.Sg.Masc eineschwacher ADJA.Pos.Nom.Sg.Masc schwachTrost N.Reg.Nom.Sg.Masc Trost. SYM.Pun.Sent .

4.5.2 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 4.5.4 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation.

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

???

4.6 Vertiefung• Referenzkarte zum Annotieren liegt in OLAT

• http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminolo-gie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.

• Die CDROM zum “Studienbuch Linguistik” enthält viel interaktiv aufbereitetes Lernma-terial6

• Die Website universaldependencies.org hat einige Dokumentation.

Zusammenfassung

• Unter “Wort” werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

• Linguistische Annotation benötigt festgelegte und dokumentierte Kategorien und Werte

• Für Wortarten gibt es grobe (sprachübergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

• AutomatischeWortartenbestimmung, morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6http://www.ds.uzh.ch/studien-cd

50

http://www.canoo.nethttp://universaldependencies.orghttp://www.ds.uzh.ch/studien-cd

Kontrollfragen

• Welche verschiedenen Auffassungen verbergen sich hinter dem Wort “Wort”?

• Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2.

• Worin besteht Morphologieanalyse und -generierung?

• Welche Vorteile und Nachteile hat automatische Annotation gegenüber manueller?

• Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt?

• Was ist der Unterschied zwischen Lemma und Lexem?

51

Kapitel 5

Linguistisches Propädeutikum II

Lernziele

• Anwendung der klassischen syntaktischen Proben

• Kenntnis der Begriffe Satz, Konstituenz, Satzglied, Dependenz, Konstituente, Phrase,Kern/Kopf

• Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

• Bewusstsein über die hohe Ambiguität syntaktischer Strukturen

• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von syntaktischen Strukturen

• Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation: 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

!"#

$$%&

'($)(*(+,-

.#/#0

1123+

'($)($4#5(306

.#78.9#

:;"06?0.#0

++

2#-(:==($)(*

?06

@A+

!!

&"5"=#0

++

+#?9(:==($)(*

#"0

$B@1C

!!

D

ED

!!

F#45?G/#0

1123+

'($)($4#5(306

"/4#

$$A!:B

*(:==($)

HI.)"G/=#"9#0

++

2#-(:==($)(*

8?5J?4#"J#0

113CK

!!

(

E(

!!

+@ +@ +@ +@

+$

L< L; L<

+$

A: M;

!N M;

L+$

A: !1$ M;

1$

AL

!

L<

!

L<

O P Q ' R S T U V W PO PP PQ

SOO SOP

SOQ SO'

SOR SOS

SOT

L!

Dependenz

52

Hierarchische Verschachtelungsstruktur von PhrasenBinäre Abhängigkeitsverknüpfung zwischen WörternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden.

(NGoogles SyntaxNet)

5.1 Syntaktische ProbenKonstituentenproben

Definition 5.1.1 (Konstituententests). Ein Konstituententest ist eine linguistische Probe, umfestzustellen, ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt.

Hintergrund- und Übungsmaterial auf Studien-CD-Linguistik[Stocker et al. 2004] enthält eine ausführliche interaktive Einführung in Konstituenten undKonstituententests.Für Studierende der UZH frei verfügbar unter http://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web

5.1.1 Weglassprobe

Weglassprobe

Definition 5.1.2. In der Weglassprobe wird von einem grösseren unübersichtlichen Ausdrucksoviel Material wie möglich entfernt, um einen einfacheren Ausdruck zu erhalten.

Bestimmung eines Satzglieds

1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.




FrageWarum nicht Variante 4?

53

https://research.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.htmlhttp://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0webhttp://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web

5.1.2 Verschiebeprobe

Verschiebeprobe

Definition 5.1.3. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt,so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert.Damit lassen sich Anfang und Ende von Satzgliedern erkennen.

Bestimmung von Satzgliedern

1. Die Sitzung mit dem Chef bereite ich morgen vor.

2. Morgen bereite ich die Sitzung mit dem Chef vor.

3. Ich bereite die Sitzung mit dem Chef morgen vor.

Tipp: Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb.

Verschiebeprobe

Unzulässiges Verschieben

1. Die Sitzung mit dem Chef bereite ich morgen vor.

2. *Morgen ich bereite die Sitzung mit dem Chef vor.

3. #Die Sitzung bereite ich morgen mit dem Chef vor.

5.1.3 Umformungsproben

Umformungsprobe

Definition 5.1.4. In der Umformungsprobe werden Sätze umfassend umgebaut.

Funktion von Nebensätzen

1. Es würde mich freuen, wenn du mitkämest.

2. Dein Mitkommen würde mich freuen.

Der Nebensatz mit "‘wenn"’ erfüllt eine analoge Funktion wie "‘Es"’.

Infinitivumformung zur Subjekterkennung

1. Die Lärche ist ein Nadelbaum.

2. ein Nadelbaum sein / die Lärche

54

Abbildung 5.1: Moderne Satzgliedlehre nach [Stocker et al. 2004]

5.2 SatzSatz

Definition 5.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprach"-spezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, diehinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängigist.

Definition 5.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satzzusätzliche Angaben enthalten.

5.2.1 Satzglieder

Moderne Satzgliedlehre

5.2.2 Köpfe (oder Kerne) von Konstituenten

Syntaktische Köpfe (engl. head) / Kern (engl. kernel)

Definition 5.2.3. Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituente,welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar.

Beispiel 5.2.4 (Welches ist der Kern der geklammerten Konstituenten?).

1. Er [hält ihm den Ausweis unter die geschwollene Nase].

2. Sie rennt [mit dem Mobile hantierend] zum Kiosk.

3. Es wird [viel zu oft] telefoniert.

55

4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt.

5. Sie fühlte sich [wie in einem schlechten Film].

6. Aber sie war auch [in einem ziemlich schlechten Film].

5.3 Syntaxanalyse

5.3.1 Konstituenz

Konstituenten und Konstituenz

Definition 5.3.1 (Konstituente nach [Bussmann 2002]). Konstituente. In der strukturellenSatzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wort-gruppe) die Teil einer grösseren sprachlichen Einheit ist.

Definition 5.3.2 (Konstituentenanalyse nach [Bussmann 2002]). Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten.

Definition 5.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Präzedenz zwischen Konstituenten.

Konstituenten in der TIGERSearch-Darstellung

!"#

$$%&

'($)(*(+,-

.#/#0

1123+

'($)($4#5(306

.#78.9#

:;"06?0.#0

++

2#-(:==($)(*

?06

@A+

!!

&"5"=#0

++

+#?9(:==($)(*

#"0

$B@1C

!!

D

ED

!!

F#45?G/#0

1123+

'($)($4#5(306

"/4#

$$A!:B

*(:==($)

HI.)"G/=#"9#0

++

2#-(:==($)(*

8?5J?4#"J#0

113CK

!!

(

E(

!!

+@ +@ +@ +@

+$

L< L; L<

+$

A: M;

!N M;

L+$

A: !1$ M;

1$

AL

!

L<

!

L<

O P Q ' R S T U V W PO PP PQ

SOO SOP

SOQ SO'

SOR SOS

SOT

L!

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Präzedenz auf Wortebene

Präzedenz zwischen Tochterkonstituenten

Abbildung 5.2: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repräsentiert eine Konstituente.

Konstituententypen

Typen von Konstituenten in TIGER/NEGRA

1. (Teil-)Sätze (S): Konstituente mit finiten Verbalkernen.

56

2. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern.

HS 2016: Einführung in die Computerlinguistik I · Kapitel1 Organisatorisches 1.1...

Documents

Transcript of HS 2016: Einführung in die Computerlinguistik I · Kapitel1 Organisatorisches 1.1...