HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik...

106
Universität Zürich Institut für Computerlinguistik Binzmühlestr. 14 8050 Zürich Vorlesungsskript * HS 2013: Einführung in die Computerlinguistik I Simon [email protected] Version von 31. Oktober 2013 * PDF: http://www.cl.uzh.ch/siclemat/lehre/hs13/ecl1/script/script.pdf OLAT: https://www.olat.uzh.ch/olat/url/RepositoryEntry/5090148357 Hinweis: Dieses Lauftextskript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezüglich Layout und Formulierungen nicht für Fliesstext optimiert. 1

Transcript of HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik...

Page 1: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Universität ZürichInstitut für ComputerlinguistikBinzmühlestr. 148050 Zürich

Vorlesungsskript∗

HS 2013: Einführung in die ComputerlinguistikI

Simon [email protected]

Version von 31. Oktober 2013

∗PDF: http://www.cl.uzh.ch/siclemat/lehre/hs13/ecl1/script/script.pdf

OLAT: https://www.olat.uzh.ch/olat/url/RepositoryEntry/5090148357Hinweis: Dieses Lauftextskript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalbbezüglich Layout und Formulierungen nicht für Fliesstext optimiert.

1

Page 2: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Inhaltsverzeichnis

1 Organisatorisches 81.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.1 Leistungsnachweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.2 Lernen und Lehren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Was ist CL? 112.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Fachrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 Computerlinguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.2 Sprachtechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.3 Weiteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.4 Anliegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Nachbardisziplinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3.1 Linguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.2 Kognitionswissenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4 Krux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Tokenisierung 193.1 Tokenisierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1.1 Grundproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.2 Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.3 Markup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.1.4 Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3 Tokenisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3.1 Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.2 Punktdisambiguierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.3 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3.4 NER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 Multilingualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Endliche Automaten (Intensiv-Wochenende) 314.1 Formale Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1.1 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.1.2 Zeichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.1.3 Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2

Page 3: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

4.2 EA und reguläre Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.1 Konkatenation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2.2 Reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 Chunk-Parsing (Intensiv-Wochenende) 425.1 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.2 NLTK-Chunkparser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.2.1 Aufstarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.2.2 Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.3 Evaluationsmasse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3.1 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3.3 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.4 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.4.1 Flache Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.4.2 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6 Linguistisches Propädeutikum I 506.1 Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506.1.2 Token . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.1.3 Wortform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.1.4 synt. Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.1.5 Lexem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.2 Wortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . 536.2.2 STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.3 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.1 Genus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.3.2 Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.3.3 Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.3.4 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.3.5 Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.3.6 Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.3.7 Grad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.3.8 Flexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6.4 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.4.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.4.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.5 Comp. Morph. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.5.1 Lemmatisierung/Morphologieanalyse . . . . . . . . . . . . . . . . . . . . . 596.5.2 Morphologiegenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6.6 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606.6.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

7 Linguistisches Propädeutikum II 627.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3

Page 4: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

7.1.1 Weglassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627.1.2 Verschieben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.1.3 Umformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7.2 Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647.2.1 Satzglieder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647.2.2 Köpfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

7.3 Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657.3.1 Konstituenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657.3.2 Dependenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.3.3 Koordination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.4 Baumbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737.4.1 NEGRA/TIGER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737.4.2 TIGERSearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

7.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

8 Flache Satzverarbeitung 758.1 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

8.1.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.1.2 Fallstudie TnT-Tagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

8.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 808.2.1 Zweck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 818.2.2 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 818.2.3 Lernkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828.2.4 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828.2.5 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 838.2.6 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

8.3 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 848.3.1 Abney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858.3.2 IOB-Chunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858.3.3 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 868.4.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8.5 Exkurs: Evaluation binärer Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . 878.5.1 TP:FP:FN:TN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878.5.2 Fehlerparadoxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878.5.3 Unterschiede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888.5.4 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

9 Sprachsynthese und Spracherkennung 919.1 Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

9.1.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 929.1.2 Analyseebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 929.1.3 Sprachsignalproduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

9.2 Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 979.2.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 989.2.2 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 999.2.3 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4

Page 5: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

9.3 Dialogsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1009.3.1 Typen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

9.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

10 Literaturverzeichnis 101

Index 105

5

Page 6: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildungsverzeichnis

2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1 Navigationselemente der Web-Site der Olympischen Spiele 2008 . . . . . . . . . . 193.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1 Sprache aus 3 Verben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Deterministischer EA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3 Formale Sprachen, reguläre Ausdrücke und endliche Automaten . . . . . . . . . . 39

5.1 Volle Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.2 Partielle Syntaxanalyse (CONLL 2000) . . . . . . . . . . . . . . . . . . . . . . . . 435.3 Informationsextraktion über gechunktem Text . . . . . . . . . . . . . . . . . . . . 445.4 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 445.5 Resultate der Chunking-Shared-Task der CoNLL 2000 . . . . . . . . . . . . . . . 47

6.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.2 Hauptkategorien von STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

7.1 Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647.2 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . . . . . . . . . 657.3 Konstituenz, Dominanz und Präzedenz in Balken-Darstellung . . . . . . . . . . . 667.4 Beispielsatz mit allen zu annotierenden Nominalphrasen (NP) . . . . . . . . . . . 667.5 Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PPs) . . . . . . . . 667.6 Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten . . . . . . . . . . . 677.7 Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten . . . . . . . . . . . 677.8 Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . . . . . . . . . . 687.9 Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . . . . . . . . . . 697.10 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) . . . . . . . . 697.11 Beispielsatz mit NP-internen Funktionen . . . . . . . . . . . . . . . . . . . . . . . 707.12 Beispielsatz mit PP-internen Funktionen . . . . . . . . . . . . . . . . . . . . . . . 707.13 Beispielsatz mit allen AP- und AVP-internen Funktionen . . . . . . . . . . . . . 707.14 Beispielsatz mit allen S- und VP-internen Funktionen . . . . . . . . . . . . . . . 717.15 Relativsatz mit allen internen Funktionen . . . . . . . . . . . . . . . . . . . . . . 717.16 Beispielsatz mit koordinierten Strukturen . . . . . . . . . . . . . . . . . . . . . . 73

8.1 Kontextmodell des Trigramm-Taggers tnt . . . . . . . . . . . . . . . . . . . . . . 778.2 Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . . . . . . . . . . . . 788.3 Training, Tagging und Evaluation mit dem TnT-Tagger . . . . . . . . . . . . . . 798.4 Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . . . . . . . . . . . 828.5 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . . . . . . . . . . . 838.6 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 848.7 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 85

6

Page 7: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

8.8 F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . . . . . . . . . . . 898.9 Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . 90

9.1 Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . . . . . . . . 939.2 IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 949.3 Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a]) . . . . . . 969.4 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 999.5 Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7

Page 8: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

1 Organisatorisches

1.1 OrganisatorischesKonzept und Inhalt der Vorlesung

• „Einführung in die Computerlinguistik I (+ II)“ vermittelt die wichtigsten praktischenund theoretischen Ziele der Computerlinguistik in Übersicht.

• Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestim-mung, (flache) Syntaxanalyse), wichtige Anwendungen (Maschinelle Übersetzung, Text-suche, Informationsextraktion, Sprachsynthese, Spracherkennung, ) sowie Methoden undProbleme der automatischen Syntaxanalyse.

• Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieftwird.

Kurs-Leitseite im WWW und LehrmaterialienOLAT-Kurs namens “13HS CL EV Einführung in die Computerlinguistik I”:

• https://www.olat.uzh.ch/olat/url/RepositoryEntry/8746991618/

• VL-Teil von S. Clematide: Folienskript im 4-up-Format (farbige und SW-Version) alsPDF-Dokument unter “Materialien”

• Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergänzungen http://www.cl.uzh.ch/siclemat/lehre/hs13/ecl1/script/script.pdf

• Merkblatt zum Einstieg in OLAT http://www.olat.org/documentation/

Unser Kursbuch (3. Auflage):• Carstensen, K.-U. et al. (Hgg.): Computerlinguistik und Sprachtechnologie: Eine Einführung. Spek-

trum Akademischer Verlag, 3. Auflage 2009, ISBN:3-8274-2023-7. Für Beispielkapitel als PDF sieheauch http://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html

E-LearningCLabTeile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, web-basierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab

Applikationen auf CL-UNIX-ServernFür einige Übungen oder zur Vertiefung stehen CL-Applikationen auf unseren Servern zur Ver-fügung. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar.Wer die Übungsstunde nicht besuchen kann bzw. von Zuhause aus arbeitet, braucht dazu VPN(Virtual Private Network), SSH (Secure Shell bzw. Putty) und ein X11-Programm. Anleitungendazu im Kurs „Programmiertechniken der CL“ oder via Anleitungen.

8

Page 9: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

1.1.1 Leistungsnachweis6 schriftliche Übungen (SU)25% der Schlussnote für

• Bachelor-Studierende, Informatik-Studierende

Bestanden (1 Punkt), Halb bestanden (0.5 Punkte), Nicht-Bestanden (0 Punkte) pro SU

• Benotung: Gesamtzahl Punkte = Note

• Keine Musterlösungen, dafür Nachbesprechung in Übungsstunde, Frage- und Diskussions-gelegenheit und auf OLAT

Betreutes Tutorat

• Übungsstunden bei Laura Bondini und Tharshiga Tharmadevan freitags 12.15-13.45h imRaum BIN 0.B.06: Start in 2. Semesterwoche

• Lösungsabgabe jeweils spätestens am Mittwoch 18h

• Übungsausgabe spätestens am Donnerstag 20h

Schriftliche Prüfung

• Zeit: Donnerstag, 16. Januar 2014, von 16.15 - 18.00h

• Dauer: 90 Minuten

• Stoff: Skript, Übungen, Pflichtlektüren

• Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2011]

1.1.2 Lernen und LehrenAnforderungen und Rückmeldungen

• Einige Übungen werden Sie stark fordern. Sie dürfen zu zweit arbeiten!

• Nutzen Sie die Übungsstunden!

• Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)!

• Wenden Sie sich an die Übungsverantwortlichen!

• Geben Sie den Dozierenden Rückmeldungen zu Unklarheiten und Problemen im Kurs!Wir machen diese Veranstaltung nur für Sie!

• Kleine kurze twitterartige Rückmeldungen per E-Mail sind ok.

9

Page 10: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Hochrechnung zum Workload für 6 ECTS-Punkte

“Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berück-sichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14,Abs. 2)

“Ein ECTS-Punkt entspricht einer Studienleistung von 30 Stunden.” (§13, Abs. 2)

[Universitätsrat 2004]

• Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung:

2× 15× 2h = 60h

• Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvor-bereitung:

180h− 60h15 = 8h

1.2 KontrollfragenKontrollfragen

• Sind Buchungsfristen für Sie relevant? Wenn ja, bis wann können Sie sich noch einschrei-ben, bzw. das Modul stornieren?

• Wie viele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch aufeine 5 aufgerundet wird?

• Wieso sollten Sie die Übungsstunde besuchen?

• Welche Hauptthemen werden in dieser Vorlesung besprochen?

10

Page 11: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

2 Was ist CL?Lernziele

• Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie undLinguistik

• Kenntnis der zentralen Anliegen der modernen Computerlinguistik

• Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welchemit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind

• Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte(Pflichtlektüre)

• Kenntnis der Krux der Sprachverarbeitung

2.1 MotivationCL-haltige Produkte im (Computer-)Alltag

• Auskunftssysteme (z.B. [Kassensturz 2006])

• Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)

• Elektronische Wörterbücher (Thesauri)

• Automatische Übersetzung

• Recherchen im WWW

• . . .

2.2 Fachrichtungen

2.2.1 ComputerlinguistikWas ist CL?Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) isteine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sichmit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt.

FrageIst das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendungvon CL?

FrageIst die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)eine frühe Anwendung von CL?

11

Page 12: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Sprachsynthese nach Kempelen

Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibungeiner sprechenden Maschine” (1791) [Traunmüller 1997]

2.2.2 SprachtechnologieWas ist Sprachtechnologie?

Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezoge-nen, ingenieursmässig konzipierten Entwicklung von Sprachsoftware.

2.2.3 WeiteresVerwandte/Alternative Fachbezeichnungen

Deutsch EnglischLinguistische Datenverarbeitung (LDV) Linguistic and Literary Computing (LLC)Maschinelle Sprachverarbeitung Natural Language Processing (NLP)Automatische Sprachverarbeitung (ASV) (Natural) Language Engineering (NLE)Computerphilologie Computational PhilologyDigital HumanitiesSprachtechnologie Speech Processing

Human Language Technology (HLT)Texttechnologie Text TechnologyKorpuslinguistik Corpus LinguisticsMedieninformatikLinguistische InformatikInformationslinguistik

12

Page 13: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Schwerpunkte der verwandten Disziplinen

• Symbolische, logikbasierte vs. statistische, probabilistische Methoden

• Anwendungs- vs. Theorieorientierung

• Algorithmisierung als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente(kommerziell einsetzbare) Systeme

• Hilfswissenschaft vs. eigenständige Forschung

• Gesprochene vs. verschriftlichte Sprache (Text)

• Psychologische/Kognitive Plausibilität vs. ingenieurmässige Lösung

2.2.4 Moderne Computerlinguistik4 zentrale Anliegen der modernen Computerlinguistik

• Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf demComputer

• Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grund-formen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikali-schen Ressourcen (Lexika)

• Entwicklung realistischer und technologisch fortschrittlicher Anwendungen

• Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Kom-ponenten

2.3 Nachbardisziplinen

Nachbardisziplinen in Übersicht

• Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpus-linguistik für empirische Basis

• Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Forma-lismus wie effizient berechnen?); Künstliche Intelligenz

• Mathematik: Mengenlehre (Funktionen, Relationen, Bäume, Graphen) und Statistik (Ma-schinelle Lernverfahren)

• Kognitionswissenschaft und Psychologie

• Logik und Sprachphilosophie

13

Page 14: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

QUIZ: Was ist was? [Weisser 2005]

Frage 1: Welche Fachrichtung wird hier beschrieben?

The use and possibly also compilation of computer-based text materials to investi-gate linguistic phenomena and ways of teaching about language.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 2: Welche Fachrichtung wird hier beschrieben?

The compilation, annotation and use of written and spoken corpora for the investi-gation of linguistic phenomena, mainly by means of easy to use software.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 3: Welche Fachrichtung wird hier beschrieben?

The automated analysis and modelling of language by means of sophisticated pro-gramming techniques.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 4: Welche Fachrichtung wird hier beschrieben?

The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 4: Welche Fachrichtung wird hier beschrieben?

14

Page 15: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

2.3.1 LinguistikLinguistik

Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). DieLinguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen derSprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Se-mantik und Pragmatik.Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitätenund hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest.

Lautlehre: Phonetik und Phonologie

Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasstdie artikulatorische, akustische und auditive Ebene.

Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist dieLehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaftenEigenschaften und Beziehungen.

Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung).

1. Dieb /di:p/

2. Diebe /di:b@/

Exkurs: Internationales Phonetisches Alphabet (IPA)

Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schrift-liches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. DieIPA-Notationen für die Laute des Standarddeutschen sind in Carstensen:2009 erklärt.Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alleSchriftsysteme der Welt wiedergeben können will.Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- undKleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute undandere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin:di:b@.

15

Page 16: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Wortlehre: Morphologie

Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wör-ter und ihrer Bildung.

Beispiel 2.3.6 (Flexion).

1. Dieb#e Dieb-Plural “Mehr als ein Dieb”.

2. Dieb#e Dieb-Dativ “dem Dieb”

Satzlehre: Syntax

Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Auf-bau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen.

Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit).

1. Der gewitzte Dieb stahl den Diamanten.

2. *Der Dieb gewitzte stahl den Diamanten.

3. *Den gewitzten Dieb stahl den Diamanten.

Bedeutungslehre: Semantik

Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter(lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten(Diskurssemantik).

Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).

1. Die Polizei beschlagnahmte das Diebesgut gestern.

2. Das Diebesgut beschlagnahmte die Polizei gestern.

3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt.

4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern.

5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut.

Lehre von der Sprachverwendung: Pragmatik

Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungenvon Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in derWelt.

Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit).

1. Ist das Fenster auf?

2. Bitte schliessen Sie das Fenster!

16

Page 17: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

2.3.2 KognitionswissenschaftKognitionswissenschaft

Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäreErforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguis-tik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Ler-nen, Motorik und Sprache gezählt.

Geschichte der KognitionswissenschaftExzellenter Artikel in [Wikipedia 2009]

Turing-Test: Können Maschinen denken?

Turing-Test im Original [Turing 1950]The new form of the problem can be described in terms of a game which we call the ’imitationgame’. It is played with three people, a man (A), a woman (B), and an interrogator (C) whomay be of either sex. The interrogator stays in a room apart front the other two. The object ofthe game for the interrogator is to determine which of the other two is the man and which isthe woman. He knows them by labels X and Y, and at the end of the game he says either “Xis A and Y is B” or “X is B and Y is A”. [. . . ]We now ask the question, “What will happen when a machine takes the part of A in this game?”Will the interrogator decide wrongly as often when the game is played like this as he does whenthe game is played between a man and a woman? These questions replace our original, “Canmachines think?”

Reale Turing-TestsSeit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, wel-che den Turing-Test bestehen wollen (http://www.loebner.net/Prizef/loebner-prize.html). Preis-trägersysteme lassen sich teilweise im WWW direkt ausprobieren. Das Ziel dieser Test lautet:Kann eine Maschine so antworten in einem Dialog, dass man sie nicht mehr von einem Menschenunterscheiden kann?

2.4 Die Krux der Mehrdeutigkeit

Mehrdeutigkeit [Jurafsky und Martin 2008]Beispiel 2.4.1.I made her duck.

Einige Paraphrasen, d.h. Lesarten

1. I cooked waterfowl for her.

2. I cooked waterfowl belonging to her.

3. I created the (plaster?) duck she owns.

4. I caused her to quickly lower her head or body.

5. I waved my magic wand and turned her into undifferentiated waterfowl.

17

Page 18: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

FragenWelche Einheiten sind mehrdeutig? Auf welcher Ebene der linguistischen Analyse werden dieMehrdeutigkeiten aufgelöst (desambiguiert) in den Paraphrasen?

2.5 Vertiefung• Pflichtlektüre [Carstensen et al. 2009, 1–23] http://www.linguistics.rub.de/CLBuch/kapitel1A3.pdf

• Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatter-box Contests 2003)

2.5.1 Kontrollfragen

• Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht siein enger Nachbarschaft?

• Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischenTeildisziplinen illustriert.

• Was ist der Unterschied von Computerlinguistik und Sprachtechnologie?

• Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfol-gen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausge-macht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.)

• Was ist von der modernen Computerlinguistik gefordert?

18

Page 19: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

3 Tokenisierung

Lernziele

• Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicherSprache: Text-Segmentierung und Text-Normalisierung

• Kenntnis über Methoden der Punktdisambiguierung und Satzendeerkennung

• Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (NamedEntity Recognition)

• Kenntnis über die Kodierung sprachlicher Zeichen

• Kenntnis und Umgang mit regulären Ausdrücken

3.1 Tokenisierer3.1.1 GrundproblemWort

Definition 3.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind.

Beispiel 3.1.2 (Was ist ein Wort?).

1. Trotzdem nahm sie vor allem am Text Mining Workshop teil.

2. Das gibts doch nicht! “Joop!” ist pleite.

3. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit.

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

Abbildung 3.1: Navigationselemente der Web-Site der Olympischen Spiele 2008

19

Page 20: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Datei-Inhalte aus ComputersichtBeispiel 3.1.3 (Folge von Zeichenkodes).

Wieviele und welcheWörter enthält der folgende Datei-Inhalt? 57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

(Der Dateiinhalt ist als Dump im Hexadezimalformat wiedergegeben, d.h. jedes Zeichen in Formseines Zeichenkodes als Hexadezimalzahl.)

Grundproblem: Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge vonkodierten Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.

Token: Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syn-taktische Analyse.

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

• Konsumieren der Zeichenfolge (Eingabe)

• Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung)

• Produzieren einer Folge von Tokens (Ausgabe)

3.1.2 ZeichenkodierungWas ist ein Zeichen auf dem Computer?

• Traditionell ein Byte, d.h. eine Folge von 8 BitsWas ist ein Bit? Binäre Entscheidung (0 oder 1)

• Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle imBinärsystem aufgefasst wird: 0010’0000

• Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskon-vention aufgestellt wird: Z.B. A=65, @=64, 1=49

• Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch),iso-latin-1 (256 Zeichen für westeuropäische Sprachen)

• Typische Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte

• Moderne universale Koderungskonvention: UNICODE(ISO/IEC 10646) (110’181 Zeichenin Version 6.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode.org)

20

Page 21: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Was ist ein Zeichen auf dem Computer?

• Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibtMethoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden.

• UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeicheneine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Bytepro Zeichen.

• Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien mussman es wissen.

• Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damitdas Betriebssystem die Kodes fürs Auge darstellen kann.

• Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text-Normalisierung durch “Transliteration” durchführen.

$ echo "Klößchen" | iconv -f ISO_8859-1 -t ASCII//TRANSLITKl"osschen

Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:

$ echo "Klößchen" | iconv -f ISO_8859-1 -t ASCII//IGNOREKlchen

3.1.3 Markup

3.1.4 ProgrammeTypische Beispiele für Tokenisierer

Vertikalisierter TextTokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus

• vertikalisierten Text, d.h. ein Token pro Zeile, oder

• ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt.

Beispiel 3.1.4 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]).Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei

$ cat file.txt "Bach’sche Musik mag Dr. Fritz. Ja."

$ cat ger-abbrevDr.usw.

21

Page 22: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

$ separate-punctuation +1 +s +l ger-abbrev file.txt"Bach’scheMusikmagDr.Fritz.

Ja. "

Typische Beispiele für TokenisiererTokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Pro-grammierspracheBeispiel 3.1.5 (Tokenizer für Englisch).Tokenisierer in Python aus nltk.org: Konsumiere eine Textdatei oder Benutzereingabe und pro-duziere daraus eine Python-Liste.

$ pythonPython 2.6.5 (r265:79063, Apr 16 2010, 13:57:41)>>> import nltk>>> nltk.word_tokenize("Joe’s brother doesn’t owe us $4,567.89.")[’Joe’, "’s", ’brother’, ’does’, "n’t", ’owe’, ’us’, ’$’, ’4,567.89’, ’.’]>>>

Typische Beispiele für TokenisiererAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL,Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrückenerlauben.

Definition 3.1.6 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck isteine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zubeschreiben.Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchen-und-Ersetzen und Segmentieren von Zeichenketten.

Einführung in reguläre AusdrückeZ.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex

Typische Beispiele für TokenisiererTokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.markup language).Beispiel 3.1.7 (Der LT-TTT2 Tokenizer [Grover 2008]).

1. Rohtext

22

Page 23: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

This is an example. There are two sentences.

2. XML-Input für Tokenisierer (Vortokenisierung)

<document><text>

<p>This is an example. There are two sentences.

</p></text>

</document>

3. XML-Tokenisat

<document><text><p><s id="s1"><w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w><w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w><w id="w21" pws="no" sb="true" c=".">.</w></s><s id="s2"><w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w><w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w><w id="w46" pws="no" sb="true" c=".">.</w></s></p></text></document>

Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.

3.2 Exkurs: XMLXML (eXtensible Markup Language)

Definition 3.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformteXML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann.

XML in der Texttechnologie

• Textbasiertes Format, das geeignet ist, Texte und dazugehörigeMetainformation programm-unabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI für Lexika, Kor-pora und digitale Editionen)

• Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellenzum Einlesen, Erstellen, Modifizieren von XML-Dokumenten

• Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

23

Page 24: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

• Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt.

• Leere Elemente können aus einem Tag bestehen (“<br/>”)

• Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p>

• Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document>

• Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag:<s id="s2">

• Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w>

Zeichenreferenzen und Entity-Referenzen

Entitäten und Referenzen

• Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet, welche zwischen & und ; notiert werden

• Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens (#n=Hexadezimal)

Zeichen Entität< &lt;" &quot;& &amp;

Newline &#9;

3.3 Tokenisierung: Segmentieren von Wörtern und Sätzen3.3.1 ProblemNaive Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen oder Interpunktion be-grenzt.

• Wort-Zeichen: /[a-zA-Z0-9]/

• Einzel-Zeichen: /[.,:;?!)(" ?-]/

• Leerraum-Zeichen (white space): /\s/

ProblemTokens können sowohl Einzel- wie Leerraum-Zeichen enthalten:“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”

24

Page 25: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Teilprobleme der Tokenisierung im weiten Sinn

• Umgang mit Markup (HTML-Tags, Formatierungszeichen)

• Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie demChinesischen anspruchsvoll)

• Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen bein-halten

• Erkennung von Interpunktion (Disambiguierung von Punkten, Erkennung von Satzenden)

• Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)

• Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)

3.3.2 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punktals Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.

Verschärfend: Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.Beispiel 3.3.1 (Verschmelzung).

• It was due Friday by 5 p.m. Saturday would be too late.

• Ich kenne die U.S.A. Frankreich kenne ich nicht.

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig.

Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.Der Punkt ist ein Abkürzungspunkt, falls

• das Token in einer Abkürzungsliste steht.

• nach dem Token [,;a-z] folgt.

• das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht.

• das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punktvorkommt.

Nach [Grefenstette und Tapanainen 1994]

LeistungsfähigkeitMit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.

25

Page 26: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Statistische Verfahren zur Punktdisambiguierung

PrinzipVerwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.

Interessante Merkmale für statistische AnsätzeTOKEN . NEXTTOKEN

1. Wieviele Zeichen umfasst TOKEN?

2. Besteht TOKEN nur aus Ziffern? Enthält es keine Vokale?

3. Wie oft kommt TOKEN ohne Punkt vor?

4. Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor?

5. Wie oft kommt NEXTTOKEN kleingeschrieben vor?

6. Welche Wortart haben die umgebenden Tokens?

3.3.3 Zeichen- und Token-NormalisierungText-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen.Beispiel 3.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).

• Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . .

• 4.8.97, 4-8-97, 4/8/97, 8/4/97

• 19000, 19’000, 19 000, 19,000

• Louisa, Luise, Louise, Luisa . . .

• doesn’t, does not

Rückgängig machen von Worttrennung am ZeilenendeBeispiel 3.3.3 (Graphematische Modifikationen bei Worttrennung).

• Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt

• Holländisch: chocola-tje → chocolaatje

Definition 3.3.4. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In eini-gen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen.

26

Page 27: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Zeilen in % Typ101’860 100% Zeilen total12’473 12% mit Silbentrennung

Rückbau in % Typ11’858 95% Rückbau in existierende Tokens

615 5% Rückbau in neue Tokens

Tabelle 3.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus

Rückgängig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Ver-gleich mit den manuell kontrollierten originalen Tokens:

Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.

3.3.4 Named Entity RecognitionNamed Entity Recognition

Definition 3.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung vonNamen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs-und Zeitangaben oder weitere textsortenspezifische interessierende Grössen.

Einheitliche (kanonische) RepräsentationFür die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grös-sen in ein einheitliches und eindeutiges Format zu bringen.

Beispiel 3.3.6 (Kanonische Formen).

• USA: “U.S.A.”,“United States of America”, “U.S. of America”

• time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins”

Demo: Time Expression Recognition (TIMEX task)

27

Page 28: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Stanford Temporal Tagger SUTime)

Demo: Time Expression Recognition (TIMEX task)

3.4 MultilingualitätMultilinguale Dokumente und Systeme

Herausforderung Multilingualität

• Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation

• Bereits auf Tokensierungsstufe sind sprachspezifische Ressourcen (Abkürzungslexika) undRegeln notwendig

• Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament, auf dem alle Textanalyse aufbaut.

• Traditionelles linguistisches Wissen ist für Sprachidentifikation nicht geeignet.

28

Page 29: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

• Einfache Verfahren, welche auf Häufigkeiten von Buchstabenkombinationen aufbauen,funktionieren gut.

Ansatz von [Cavnar und Trenkle 1994]

1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenenSprachen über Trainingsdaten.

2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-Gramm-Profil).

3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil.

4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm.

5. Wähle für D die Sprache mit dem kleinsten Profilabstand.

N-Gramm-Profile und Profilabstand

Quelle: [Cavnar und Trenkle 1994]

Abbildung 3.2:

3.5 VertiefungZum Thema “Tokenisierung”:

• Pflichtlektüre: [Carstensen et al. 2009, 3.4.1]

• Guter Übersichtsartikel für Interessierte: [Palmer 2000]

29

Page 30: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

• Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994]

Zum Thema “Reguläre Ausdrücke”:

• http://www.cl.uzh.ch/clab/regex/

Zum Thema “XML”:

• Kapitel 2.5.2 Texttechnologische Grundlagen in [Carstensen et al. 2009]

3.5.1 KontrollfragenKontrollfragen

• Was ist ein Bit, ein Byte und eine Zeichenkodierungskonvention?

• Welche Probleme stellen sich bei der Tokenisierung?

• Schildern Sie zwei unterschiedliche Ansätze zur Punktdisambiguierung.

• Was sind die wesentlichen Eigenschaften von XML-Dokumenten?

• Was versteht man unter NER?

• Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle?

30

Page 31: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

4 Endliche Automaten (Intensiv-Wochenende)

Lernziele

• Was ist eine formale Sprache?

• Welche wichtigen Operationen über formalen Sprachen gibt es? Mengenoperationen undKonkatenation.

• Was sind reguläre Sprachen? Was ist ihr Bezug zu regulären Ausdrücken und endlichenAutomaten?

• Wie zeichnet man Zustandsdiagramme für endliche Automaten? Wie interpretiert mansie?

• Wann ist ein endlicher Automat deterministisch ist und wann nicht?

• Sanfter Einstieg in die Formalisierung von Konzepten

• Umgang mit dem Simulationswerkzeug JFLAP für formale Sprachen, Grammatiken undAutomaten

4.1 Formale Sprachen4.1.1 Mengen

A Quick Review of Set Theory

A set is a collection of objects.

A B

D E

We can enumerate the “members” or “elements” of finite sets: { A, D, B, E }.

There is no significant order in a set, so { A, D, B, E } is the same set as { E, A, D, B }, etc.

31

Page 32: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Quelle: B04

Cardinality of Sets

 The Empty Set:

 A Finite Set:

 An Infinite Set: e.g. The Set of all Positive Integers

Norway Denmark Sweden

Quelle: B04

4.1.2 ZeichenDas Alphabet (Sigma): Menge von Zeichen

Definition 4.1.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole). Eswird mit Σ (Sigma) notiert.

Beispiel 4.1.2 (Zeichen des Englischen).ΣEnglisch = {a, b, c, . . . , x, y, z}Beispiel 4.1.3 (Zeichen der binären Zahlen).Σbin = {0, 1}

Zeichenketten (strings)

Definition 4.1.4. Eine Zeichenkette (formales Wort, string) der Länge n ist eine endliche Folgeaus n Zeichen über Σ.

Beispiel 4.1.5 (Zeichenketten über englischen Symbolen ΣEnglisch).a, we, work, and, talk, walk, krwrk,. . .

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Länge 0.

Sigma SternΣ∗ ist die Menge aller Zeichenketten, welche aus dem Alphabet Σ gebildet werden können.Σ∗

bin = {ε, 0, 1, 00, 01, 10, 11, 001, . . .}

32

Page 33: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

4.1.3 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory:

A Language is just a Set of Words.

•  We use the terms “word” and “string” interchangeably.

•  A Language can be empty, have finite cardinality, or be infinite in size.

•  You can union, intersect and subtract languages, just like any other sets.

Quelle: B04

Formale Sprachen als Teilmenge von Sigma Stern

L ⊆ Σ∗

{walk, talk, work} ⊆ {a, b, . . . , z}∗

{0, 1, 01, 10, 001, 010, 100, 0001, . . .} ⊆ {0, 1}∗

Wie lautet ein regulärer Ausdruck, der exakt alle Zeichenketten der obigen Sprachen matchen

33

Page 34: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

kann und nichts anderes?

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle: B04

Intersection of Languages (Sets)

dog cat rat rat mouse

Language 1 Language 2

Intersection of Language 1 and Language 2

rat

Quelle: B04

Ist eine Zeichenkette in einer Sprache drin oder nicht?Beispiel 4.1.6.Ist „talk“ ein Element der Sprache? Wahr oder falsch?

talk ∈ {work, talk, walk}

34

Page 35: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language.

0 or ! denotes the empty string

Abbildung 4.1: Sprache aus 3 Verben

Endliche Automaten (EA) (engl. Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage.

4.2 Endliche Automaten und reguläre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Wörterneiner regulären Sprache.Beim Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im sogenanntenStartzustand.Ein DEA ist nach jedem Verarbeitungsschritt in genau einem Zustand.Bei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und demLesezeichen in einen Nachfolgezustand gewechselt. Wenn kein Zeichen mehr zu lesen ist unddie Maschine in einem Endzustand ist, gilt die gelesene Zeichenkette als akzeptiert.Wenn kein Übergang mit dem gelesenen Symbol möglich ist, gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert.

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 4.2: Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg.

35

Page 36: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante.

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat lässt sich in einen deterministischen verwan-deln.

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈Φ,Σ, δ, S, F 〉 besteht aus

1. einer endlichen Menge Zustände Φ

2. einem endlichen Eingabealphabet Σ

3. einer (partiellen) Zustandsübergangsfunktion δ : Φ× Σ→ Φ

4. einem Startzustand S ∈ Φ

5. einer Menge von Endzuständen F ⊆ Φ

Deterministische vs. nicht-deterministische ÜbergangsfunktionDie Übergangsfunktion δ bestimmt bei DEA den Folgezustand, der beim Lesen eines einzelnenZeichens erreicht wird. Bei nicht-deterministischen EA sind die Folgezustände eine beliebigeTeilmenge der Zustände (Potenzmenge).

δ : Φ× (Σ ∪ {ε})→ ℘(Φ)

4.2.1 KonkatenationKonkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu • v = uv

„work“ • „ed“ = „worked“

Konkatenation von SprachenU • V = {u • v | u ∈ U und v ∈ V }

{„work“} • {„ed“, „s“} = {„work“•„ed“, „work“•„s“}= {„worked“, „works“}

36

Page 37: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language.

0 or ε denotes the empty string

Quelle: B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language, Root language, and the Suffix language.

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

37

Page 38: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Quelle: B04

Languages and Networks

w a l k

o r

t

Network/Language 2 Network/Language 3

s

o r The concatenation of Networks 1, 2 and 3, in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

Network/Language 1

s

u t

e

0

o

r s

t

e

0 u

Quelle: B04

4.2.2 Reguläre AusdrückeReguläre Sprachen und reguläre Ausdrücke (RA)

Definition 4.2.1. Eine Sprache über Σ = {a1, a2, ..., an} heisst regulär, wenn sie durch folgendereguläre Mengenausdrücke beschrieben werden kann:

• Die leere Menge {} und die Menge {ε} ist regulär. Als regulärer Ausdruck (RA) in JFLAPwird {ε} geschrieben als !

• Die Mengen {a1},{a2},...,{an} sind regulär. RA: a oder b

• Wenn L1 und L2 regulär sind, dann auch (L1 ∪ L2). RA: (A|B) (in JFLAP (A+B))

• Wenn L1 und L2 regulär sind, dann auch (L1 • L2). RA: (AB)

• Ist L regulär, dann auch L∗. RA: (A)*

Wie kann man Optionalität ausdrücken?

Graphischer Algorithmus: Konversion von RA zu EA

JFLAP: Reguläre Ausdrücke in EA verwandelnJFLAP unterstützt die systematische Verwandlung von beliebigen regulären Ausdrücke in nicht-deterministische Automaten.

Idee

38

Page 39: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

encodes

{"a"}

LANGUAGE / RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 4.3: Beziehung zwischen formalen Sprachen, regulären Ausdrücken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

1. Schreibe den regulären Ausdruck als Kantenbeschriftung zwischen 2 Zustände!

2. Löse den äussersten Operator des regulären Ausdrucks auf und schreibe die Teilausdrückeauf eigene Kanten!

3. Verknüpfe die richtigen Zustände mit ε-Kanten miteinander!

4. Wiederhole Schritt 2, bis nur noch einzelne Zeichen an den Kanten stehen!

Beziehung zwischen RA, DEA und formalen SprachenZu jedem regulären Ausdruck RA existiert mindestens ein EA, der die vom RA bezeichnetereguläre Sprache akzeptiert.

Zusammenfassung

• Mit regulären Ausdrücken lassen sich alle regulären Sprachen beschreiben.

• Mit endlichen Automaten lassen sich alle regulären Sprachen erkennen.

• Jeder reguläre Ausdruck kann in einen endlichen Automaten verwandelt/kompiliert wer-den.

39

Page 40: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

4.3 Ausblick

The Big Picture of Low-Level NLP

A running text in your favorite language

Tokenizer A tokenized text (divided into “words”)

Morphological Analyzer

Tokens with their analyses (often ambiguous)

•  Future steps

•  Disambiguator (“tagger”)

•  Shallow parser (“chunker”)

•  Syntactic parser

•  Semantic analysis, information extraction

•  Ultimate applications

•  Spelling checking, indexing, aid to corpus analysis, lexicography

•  Dictionary lookup aids, language teaching, spelling correction

•  Text-to-speech systems

•  Question answering, machine translation, etc.

Quelle: B04

Linguistic Transducer Machines

mesas

Generator

“Apply Down” : mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

“Apply Up” : mesa+Noun+Fem+Pl mesas

Quelle: B04

Vertiefung

• Carstensen Abschnitt 2.2.3: „Endliche Automaten, einseitig-lineare Grammatiken und re-

40

Page 41: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

guläre Sprachen“

• Carstensen Abschnitt 3.3.4: „Morphologie mit endlichen Automaten“

• JFLAP: http://www.jlap.org

41

Page 42: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

5 Chunk-Parsing (Intensiv-Wochenende)

5.1 ChunkingVolle syntaktische Analyse

Definition 5.1.1. Eine volle syntaktische Analyse (engl. deep parsing) berechnet für einen Satzdie Konstituenz und Dependenz.

Abbildung 5.1: Volle Syntaxanalyse

Partielle syntaktische Analyse

Definition 5.1.2. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz.Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.

5.1.1 MotivationChunks (Teilstrukturen) nach [Abney 1991]Beispiel 5.1.3 (Chunks nach Abney).[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].

Motivationen

• Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung

42

Page 43: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 5.2: Partielle Syntaxanalyse (CONLL 2000)

Volle Analyse Partielle AnalyseExakte Strukturierung Grobe GruppierungBenötigt für genaue Bedeutungsberech-nung

Ausreichend für gängige sprachtechnologi-sche Anwendungen

Aufwendiger zu berechnen (besonders beilangen Sätzen)

Extrem schnelle Verfahren (Endliche Auto-maten)

„All grammars leak“ (Sapir) (gibt nicht im-mer eine Lösung)

Robuste Verfahren (gibt immer eine Lö-sung)

Je grösser die Abdeckung einer Gramma-tik, umso höher die Mehrdeutigkeit

Weniger Mehrdeutigkeit

• Effizienz: Teilstrukturen lassen sich effizienter berechnen.

• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktischeAnalyse.

• Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichereAnalysemethoden.

Volle vs. Partielle Analyse

Verwendung von ChunkingChunking wird normalerweise auf part-of-speech-getaggten Sätzen gemacht.

• Vorstufe für vollständige syntaktische Analyse

• Text-To-Speech-Systeme: Gruppierung für Pausenberechnung

• Automatisches Extrahieren von Verwendungs-Mustern von Verben für die Lexikographie

• Informationextraktion

43

Page 44: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 5.3: Informationsextraktion über gechunktem Text

5.2 NLTK-Chunkparser5.2.1 AufstartenAufstarten des NLTK ChunkParsers

NLTK-Chunkparser (nur für NPs!)Einfache Entwicklungsumgebung, um Chunk-Grammatiken zu schreiben und zu evaluieren an-hand von NP-Chunks aus der CONLL-Shared-Task. http://www.cnts.ua.ac.be/conll20001

Aufstarten

$ python>>> import nltk>>> nltk.app.chunkparser()

Chunking-Regeln schreiben für NLTK-NP-ChunkParser

Abbildung 5.4: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

Wie kann man die zulässigen NP Chunks beschreiben?{<NN> <NN> <NNS>}

• NP : Ein NP (Nominalchunk)

• {...}: besteht aus

• <NN>: aus einem Wort der Wortart NN (Nomen)1In unserer TIGERSearch-Distribution als Korpus CONLL-TRAIN verfügbar.

44

Page 45: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

• <NN>: gefolgt von einem weiteren Wort der Wortart NN (Nomen)

• <NNS>: gefolgt von einem Wort der Wortart NNS (Nomen im Plural)

Chunks werden hier nur auf der Ebene der Wortarten (PoS-Tags) der Wörter spezifiziert. Darumheissen sie PoS-Tag-Patterns.

5.2.2 StrategienMehrere Tag-Patterns nacheinander anwenden

• Zuerst lange Patterns anwenden

• danach kurze (Teil)-Patterns

{<DT> <JJ> <NN>} # ... ist ein NP-Chunk{<NN>} # Ein einzelnes Nomen ist ein NP-Chunk,

# falls nicht bereits Teil eines Chunks.

Achtung: Nicht zu lange Zeilen machen! Chunker kann sonst abstürzen!

Reguläre Operatoren in Tag-Patterns

Übliche Matching-Strategien

• Eifrig: Von links nach rechts

• Gierig: Longest Matches

{<DT>? <JJ>+ <NN> } # Was beschreibt das?

Zeichen mit SpezialbedeutungAchtung: Schütze Zeichen mit Sonderbedeutung in regulären Ausdrücken, um das normale Zei-chen zu bezeichnen: z.B. <PRP\$>

Tag-Patterns mit Kontext

Chunk-Gruppierung nur in bestimmten KontextenDie Anwendung einer Gruppierung lässt sich auf bestimmte Kontext einschränken. Links un-d/oder rechts von den geschweiften Klammern können Tag-Patterns stehen.“But analysts reckon underlying support for sterling.”

<VBP> {<VBG><NN>} # Gruppiere VBG NN nur zu NP,# wenn vorher ein VBP steht.

45

Page 46: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Chinking

IdeeManchmal ist es einfacher zu sagen, was nicht im Chunk sein soll, nämlich die Chinks. Chink-Regeln brechen Stücke aus bestehenden Chunks heraus.

Reguläre Ausdrücke innerhalb einer Tag-Angabe

{ <.*>+ } # Chunke alles im Satz zusammen# . steht für einen Buchstaben ausser >

} <VBD | IN>+ { # Chinke Folgen von VBD oder IN

Semantik der Chinking-Regel

>>> cp = nltk.RegexpParser('CHUNK: {<V.*> <TO> <V.*>}')>>> brown = nltk.corpus.brown>>> for sent in brown.tagged_sents():... tree = cp.parse(sent)... for subtree in tree.subtrees():... if subtree.node == 'CHUNK': print subtree...(CHUNK combined/VBN to/TO achieve/VB)(CHUNK continue/VB to/TO place/VB)(CHUNK serve/VB to/TO protect/VB)(CHUNK wanted/VBD to/TO wait/VB)(CHUNK allowed/VBN to/TO place/VB)(CHUNK expected/VBN to/TO become/VB)...(CHUNK seems/VBZ to/TO overtake/VB)(CHUNK want/VB to/TO buy/VB)

find_chunks() "CHUNK: {<V.*> <TO><V.*>}"

"NOUNS:{<N.*>{4,}}"

Chinking

barked/VBD at/IN

[ the/DT little/JJ yellow/JJ dog/NN ] barked/VBD at/IN [ the/DT cat/NN ]

Entire chunk Middle of a chunk End of a chunk

Input [a/DT little/JJ dog/NN] [a/DT little/JJ dog/NN] [a/DT little/JJ dog/NN]

Operation Chink “DT JJ NN” Chink “JJ” Chink “NN”

Pattern }DT JJ NN{ }JJ{ }NN{

Output a/DT little/JJ dog/NN [a/DT] little/JJ [dog/NN] [a/DT little/JJ] dog/NN

268 | Chapter 7: Extracting Information from Text

5.3 Evaluationsmasse5.3.1 RecallRecall (Ausbeute, Abdeckung, Vollständigkeit)

Definition 5.3.1. Recall gibt den Anteil der korrekt gefundenen Chunks gemessen an allenmöglichen korrekten Chunks an.

R = | Gefundene korrekte Chunks || Alle korrekten Chunks |

Beispiel 5.3.2 (Recall eines Chunkers).Ein Chunker hat von 800 vorhandenen NPs in einem Testkorpus 600 korrekt als NP klassifiziert.At = 600 und Nt = 800. Der Recall berechnet sich als: R = 600

800 = 75%

5.3.2 PrecisionPrecision (Genauigkeit, Präzision)

46

Page 47: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Definition 5.3.3. Precision gibt den Anteil der korrekt gefundenen Chunks gemessen an allengefundenen Chunks.

P = | Gefundene korrekte Chunks || Alle gefundenen Chunks |

Beispiel 5.3.4 (Precision eines Chunkers).Ein Chunker hat in einem Testkorpus 1’000 Chunks als NP klassifiziert, aber nur 600 davonwaren tatsächlich NP.At = 600 und A = 1000. Die Precision berechnet sich als: P = 600

1000 = 60%

5.3.3 F-MeasureF-Score oder F-Measure (F-Mass)

Definition 5.3.5 (F1-Measure). Das F-Measure verrechnet Precision und Recall gleichgewich-tet zum harmonischen Mittelwert.Formal: Sei P die Precision und R der Recall eines Systems:

F = 2× P ×RP +R

Beispiel 5.3.6 (F-Mass eines Chunkers).Ein Chunker hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für NPs.Das F-Measure berechnet sich somit: F = 2×0.6×0.75

0.6+0.75 = 66.6%

Resultate der Chunking-Shared-Task der CoNLL 2000

Abbildung 5.5: Resultate der Chunking-Shared-Task der CoNLL 2000[Tjong Kim Sang und Buchholz 2000, 131]

Übung

• Kleine Intensivwochenende-Shared-Task NP-Chunking in 1-2er-Teams

• Ziel: Bestes F-Mass über dem Developmentset mit 500 Sätzen

47

Page 48: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

• Im TIGERSearch findet ihr das Trainingskorpus der CONLL-Shared-Task (nicht identischmit Entwicklungskorpus).

• Achtung fertig los: Gutes Chunking und Chinking!

5.4 Fazit5.4.1 Flache ChunksFlache Chunks im IOB-Format

Definition 5.4.1 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht überdie getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.

• B-K : Anfang einer Chunk-Konstituente K

• I-K : Fortsetzung der Chunk-Konstituente K

• 0: Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

5.4.2 Verschachtelte ChunksVerschachtelte Chunks

Definition 5.4.2 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk inner-halb eines Nominal-Chunks, ist normalerweise nicht möglich.

Beispiel 5.4.3 (Chunk Parsing Output mit Verschachtelungstiefe 3).

[PX [APPR für][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.

48

Page 49: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Vertiefung

• NLTK-Buch S. 264ff.

• Carstensen Abschnitt 3.4.3: „Chunk-Parsing“

• Penn-Treebank-Tagset im CLab: http://www.cl.uzh.ch/clab/hilfe/ptts

• Information zum Sprachmodell des CONLL-Goldstandards und zu den Resultaten derShared-Task enthält [Tjong Kim Sang und Buchholz 2000]

49

Page 50: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

6 Linguistisches Propädeutikum I

Lernziele

• Kenntnis der Begriffe Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma, Le-xemverband

• Kenntnis der Wortartenlehre für Deutsch

• Kenntnis der morphologischen Kategorien für Deutsch und Englisch

• Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Refe-renzkarte

• Kenntnis und Anwendung linguistischer Proben

• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von Morphologie und Wortarten

• Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Ana-lyse und Generierung

6.1 Wort6.1.1 DefinitionPräzisierungsversuche des Wort-Begriffs

Definition 6.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind.

Präzisierungsversuche des Wort-Begriffs

• Phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

• Orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit

• Morphologisch: Grundeinheit, welche flektierbar ist

• Lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist

• Syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes

50

Page 51: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Gängige Auffassungen des Worts Wort [Linke et al. 2001]Wieviele verschiedene Wörter hat dieser Satz?Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.

Antworten� 4� 5� 6� 9� __

6.1.2 TokenAntwort 9: Wort als Vorkommen einer WortformWieviele verschiedene Wörter hat dieser Satz?Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen6 Fliegen7 Fliegen8 nach9 .

Definition 6.1.2 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText.

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwortlautet dann . . .

6.1.3 WortformAntwort 5: Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

Definition 6.1.3 (Wortform). EineWortform ist eine rein graphematische Einheit eines Textes.

Beispiel 6.1.4 (Identische Wortformen mit unterschiedlicher Bedeutung).

• Die Fliege war tot.

• Er trug eine samtene Fliege.

• Fliege nicht so schnell!

6.1.4 Syntaktisches WortAntwort 6: Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen5 Fliegen4 Fliegen3 nach6.

Definition 6.1.5 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen Merkmalen.Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normaler-weise zusammengefasst.

Beispiel 6.1.6 (Wortform vs. syntaktisches Wort).Die Wortform „Fliegen“ kann mindestens 4 syntaktische Wörter repräsentieren: „Fliege“ inNominativ, Akkusativ, Dativ oder Genitiv Plural.

51

Page 52: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

6.1.5 LexemAntwort 5: Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

Definition 6.1.7 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,Numerus, Tempus usw.) unterscheiden.

Definition 6.1.8 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikogra-phische Standard-Notation für ein Lexem.

Beispiel 6.1.9 (Lexikographische Notationskonventionen im Deutschen).Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert.Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert?

Antwort 4: Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3, fliegen3 Fliegen3 Fliegen3 nach4.

Definition 6.1.10 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eineMenge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert.

Beispiel 6.1.11 (Derivationen von „fliegen“ in Canoo).Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wort-bildungsinformation in http://www.canoo.net illustriert dies schön.

Stufen der Abstraktion: Vom Text zum Lexemverband

• Jedes Token ist eine Zeichenfolge, welche in einem Text an einer bestimmten Stelle beginnt.

• JedeWortform ist eine Menge von Token, welche aus der identischen Zeichenfolge bestehen(sog. Type).

• Jedes syntaktisches Wort ist eine Menge von Token, welche identische morphosyntaktischeund semantische Eigenschaften aufweisen.

• Jedes Lexem ist eine Menge syntaktischer Wörter, welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden.

• Jeder Lexemverband ist eine Menge der Lexeme, für die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird.

6.2 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 6.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis derKlassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder se-mantischen Kriterien.

52

Page 53: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahr-hundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemässAdelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Präposition, Konjunktion, Interjektion,Numerale, Pronomen, Artikel, Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwen-det.

6.2.1 5 Hauptwortarten nach GlinzKlassifikationskriterien

Abbildung 6.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]

Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung?

6.2.2 STTSStuttgart/Tübingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis:

• Die Kürzel für die Wortarten nennt man „Tag“ (engl. Etikette)

• Wichtigstes Tagset des Deutschen [Schiller et al. 1999] mit 54 Tags

• Vergleichbar mit dem Tagset der Penn-Treebank für Englisch

• Eine Notationsvariante von STTS wurde als europäischer Standard für Deutsch (EAGLESELM-DE) [Teufel und Stöckert 1996] spezifiziert.

53

Page 54: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 6.2: Die Hauptkategorien von STTS:http://www.cl.uzh.ch/clab/hilfe/stts/

• Alternativen: Münsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig in der CL?

• Wichtige linguistisch annotierte Korpora (sog. Baumbanken) verwenden auf der Wortarte-nebene STTS: NEGRA-Korpus III(20’000 Sätze), TüBa-D/Z (65’524) TIGER-Korpus(50’000) (leicht adaptiertes STTS) III

• Es gibt frei verfügbare Programme, welche Wörter im Lauftext automatisch mit ihrenSTTS-Tags ergänzen. Solche Programme (z.B. TreeTagger) nennt man „Tagger“ und denProzess „Tagging“.

STTS vs. 5-Wortartenlehre

• Eigennamen (NE) sind eine semantisch definierte Klasse.

• Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativ-pronomen (PDS) usw.

• Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Prono-men): “Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.”

• Feine Aufgliederung bei Glinzschen Partikeln: Konjunktionen, Adverbien, Antwortpartikel(PTKANT), Negationspartikel „nicht“ (PTKNEG) usw.

• Als Adverbien zählen nur Lexeme, welche keine adjektivische Verwendung erlauben.

• ‘Wortarten’ für satzinterne ($,) und -finale Interpunktion ($.)

• Kategorie für fremdsprachliches Material (FM)

54

Page 55: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Probleme der Wortartenbestimmung

Was sind die Schwierigkeiten?

Er kannte ihn schon als kleines Kind.Die Wissenschaft selbst ist ein kompliziertes System.Ich habe noch nie solch eine Geschichte gehört.Er ist erkrankt.Auf der einen Seite ist es so, aber ...Der Mann, von dessen Vater das Buch handelt, ist ...Er kam plötzlich und ohne anzuklopfen herein.Er wartete bis um 5 Uhr.

6.3 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 6.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologi-schen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Nu-merus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung)realisiert werden.

Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

• Konjugation von Verben

• Deklination von Nomen, Adjektiven, Artikeln und Pronomen

• Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?

Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilungnicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einigeAdverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten”. . . ).Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektiveals Flexion betrachtet.Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, istdie Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus undkomparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann musses wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein.Welche denn?

55

Page 56: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Fachbegriff Deutsch Englisch STTS BeispielMaskulinum männlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum sächlich neuter Neut HuhnUnterspezifiziert n/a n/a * Ferien

Tabelle 6.1: Übersicht: Genera

6.3.1 GenusDas Genus (engl. gender): Grammatisches Geschlecht

BemerkungDer Plural von Genus lautet Genera.

Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?

6.3.2 NumerusDer Numerus (engl. number): Grammatische Zahl

Fachbegriff Deutsch Englisch STTS BeispielSingular Einzahl singular Sg HuhnPlural Mehrzahl plural Pl Hühner

Tabelle 6.2: Übersicht: Numeri

BemerkungDer Plural von Numerus lautet Numeri.

Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?

6.3.3 KasusDer Kasus (engl. case): Fall

Fachbegriff Deutsch Englisch STTS BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Akk den Baum

Tabelle 6.3: Übersicht: Kasus

BemerkungDer Plural von Kasus lautet Kasus. Im STTS steht eigentlich für Akkusativ das Kürzel Akk.Acc ist eine Modifikation im TIGER-Modell.

56

Page 57: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Möglichkeitsform subjunctive mood Subj er gehe

Tabelle 6.4: Übersicht: Modi

6.3.4 ModusDer Modus (engl. mode, mood): AussageweiseIm STTS steht eigentlich für Konjunktiv das Kürzel Konj. Subj ist eine Modifikation im TIGER-Modell.

BemerkungenDer Plural von Modus lautet Modi.Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist diesdurch das V.IMP ausgedrückt.

6.3.5 TempusDas Tempus (engl. tense): grammatische Zeit, Zeitform

Fachbegriff Deutsch Englisch STTS BeispielPräsens Gegenwart present tense Pres er gehtPräteritum Vergangenheit past tense Past er ging

Tabelle 6.5: Übersicht: Tempora

BemerkungenDer Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien fürTempus? Im Deutschen gibt’s doch viel mehr Zeiten.

6.3.6 PersonDie Person (engl. person)

Fachbegriff Deutsch Englisch STTS Beispiel1. Person Sprecher first person 1 ich gehe2. Person Angesprochene second person 2 du gehst3. Person Person, Sachverhalt third person 3 er geht

Tabelle 6.6: Übersicht: Personen

BemerkungenDer Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich.Bei welchen Wortarten ist die Kategorie Person ausgeprägt?

6.3.7 GradDer Grad (engl. degree): Steigerung, Komparation

57

Page 58: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Fachbegriff Deutsch Englisch STTS BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Höchststufe superlative Sup schlauste

Tabelle 6.7: Übersicht: Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgeprägt?

6.3.8 Adjektiv-FlexionDie Adjektiv-Flexion (engl. adjective inflection)

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best. Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein, kein,. . . mixed Mix keine schlauen FüchseStarke Flexion ohne Artikel strong St schlaue Füchse

Tabelle 6.8: Übersicht: Adjektiv-Flexion

BemerkungGibts die Unterscheidung von schwacher und starker Flexion nur bei Adjektiven?

Beispiel 6.3.2 (Flexion von “schlau”).Darstellung bei www.canoo.net

6.4 Linguistische ProbenLinguistische Testverfahren

Definition 6.4.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, umgrammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können.

6.4.1 ErsatzprobeErsatzprobe

Definition 6.4.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestesmuss dabei unverändert bleiben.

Beispiel 6.4.3 (Bestimmung des Kasus).

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

58

Page 59: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.Beispiel 6.4.4 (Bestimmung der Wortart von “das”).

• Das ist das Angebot, das uns überzeugt hat.

• Dieses ist das Angebot, welches uns überzeugt hat.

• * Welches ist das Angebot, dieses uns überzeugt hat.

• ? Das ist dieses Angebot, welches uns überzeugt hat.

Probleme der Interpretation

• Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Inter-pretation des Satzes.

• Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leichtzu beurteilen.

6.4.2 EinsetzprobeEinsetzprobe

Definition 6.4.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt, der ihn grammatisch eindeutig interpretiert.

Beispiel 6.4.6 (Bestimmung der Wortart).

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis *Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfür Verben oder Steigerung für Adjektive.

6.5 Computermorphologie6.5.1 Lemmatisierung/MorphologieanalyseLemmatisierung und Morphologieanalyse

Definition 6.5.1 (Grundformbestimmung). Die Lemmatisierung ist die Bestimmung der Lem-mas, welche einer Wortform zugrunde liegen.

Definition 6.5.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lexem.

Lemmatisierung und Morphologieanalyse mit GERTWOLhttp://www2.lingsoft.fi/cgi-bin/gertwol

59

Page 60: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Verbrechens"Verb#rechen" S MASK SG GEN"Verb#rech~en" S NEUTR SG GEN"Ver|brech~en" S NEUTR SG GEN

eine"ein" ART INDEF SG NOM FEM"ein" ART INDEF SG AKK FEM"einer" PRON INDEF SG NOM FEM"einer" PRON INDEF SG AKK FEM"ein~en" V IND PRÄS SG1"ein~en" V KONJ PRÄS SG1"ein~en" V KONJ PRÄS SG3"ein~en" V IMP PRÄS SG2

6.5.2 MorphologiegenerierungGenerierung von syntaktischen Wortformen

Definition 6.5.3 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation.

Beispiel 6.5.4 (Generieren mit STTS-Tags).gehen + VVFIN:2.Sg.Past.Ind → gingst

6.6 Vertiefung

• Quiz Stuttgart-Tübingen-Tagset

• Quiz Wortarten nach STTS bestimmen

• Referenzkarte zum Annotieren von STTS und dem TIGER-Sprachmodell (in OLAT)

• Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998]

• http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminolo-gie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.

• Die CDROM zum „Studienbuch Linguistik“ enthält viel interaktiv aufbereitetes Lernma-terial http://www.ds.uzh.ch/studien-cd

6.6.1 KontrollfragenKontrollfragen

• Welche verschiedenen Auffassungen verbergen sich hinter dem Wort „Wort“?

• Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien.

• Worin besteht Morphologieanalyse und -generierung?

60

Page 61: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

• Welche STTS-Tags (inklusive Morphologie) müssten bei den Wörtern der 1. Kontrollfragezugeordnet werden?

• Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt?

• Was ist der Unterschied zwischen Lemma und Lexem?

61

Page 62: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

7 Linguistisches Propädeutikum II

Lernziele

• Anwendung der klassischen syntaktischen Proben

• Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied,Phrase

• Kenntnis der wichtigsten syntaktischen Funktionen

• Kenntnis und Anwendung des TIGER/NEGRA-Annotationsschemas mit Hilfe der Refe-renzkarte

• Kenntnis über die flach annotierten NP und PP

• Kenntnis über die verschachtelt annotierten infiniten VP

• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von syntaktischen Strukturen

• Erfahrungen mit einfacher Suche von syntaktischen Strukturen in einer Baumbank mitTIGERSearch

7.1 Syntaktische Proben7.1.1 WeglassprobeWeglassprobe

Definition 7.1.1. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck sovielMaterial wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten.

Beispiel 7.1.2 (Bestimmung eines Satzglieds).

1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

FrageWarum nicht Variante 4?

62

Page 63: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

7.1.2 VerschiebeprobeVerschiebeprobe

Definition 7.1.3. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt,so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert.Damit lassen sich Anfang und Ende von Satzgliedern erkennen.

Beispiel 7.1.4 (Bestimmung von Satzgliedern).

1. Die Sitzung mit dem Chef bereite ich morgen vor.

2. Morgen bereite ich die Sitzung mit dem Chef vor.

3. Ich bereite die Sitzung mit dem Chef morgen vor.

Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätzezu erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb.

VerschiebeprobeBeispiel 7.1.5 (Unzulässiges Verschieben).

1. Die Sitzung mit dem Chef bereite ich morgen vor.

2. *Morgen ich bereite die Sitzung mit dem Chef vor.

3. #Die Sitzung bereite ich morgen mit dem Chef vor.

7.1.3 UmformungsprobenUmformungsprobe

Definition 7.1.6. In der Umformungsprobe werden Sätze umfassend umgebaut.

Beispiel 7.1.7 (Funktion von Nebensätzen).

1. Es würde mich freuen, wenn du mitkämest.

2. Dein Mitkommen würde mich freuen.

Der Nebensatz mit „wenn“ erfüllt eine analoge Funktion wie „Es“.Beispiel 7.1.8 (Infinitivumformung zur Subjekterkennung).

1. Die Lärche ist ein Nadelbaum.

2. ein Nadelbaum sein / die Lärche

63

Page 64: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 7.1: Moderne Satzgliedlehre nach [Stocker et al. 2004]

7.2 SatzSatz

Definition 7.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, diehinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängigist.

Definition 7.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satzzusätzliche Angaben enthalten.

7.2.1 SatzgliederModerne Satzgliedlehre

7.2.2 Köpfe (oder Kerne) von KonstituentenSyntaktische Köpfe (engl. head) / Kern (engl. kernel)

Definition 7.2.3. Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituente,welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar.

Beispiel 7.2.4 (Welches ist der Kern der geklammerten Konstituenten?).

1. Er [hält ihm den Ausweis unter die geschwollene Nase].

2. Sie rennt [mit dem Mobile hantierend] zum Kiosk.

64

Page 65: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

3. Es wird [viel zu oft] telefoniert.

4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt.

5. Sie fühlte sich [wie in einem schlechten Film].

6. Aber sie war auch [in einem ziemlich schlechten Film].

7.3 Syntaxanalyse7.3.1 KonstituenzKonstituenten und Konstituenz

Definition 7.3.1 (Konstituente nach [Bussmann 2002]). Konstituente. In der strukturellenSatzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wort-gruppe) die Teil einer grösseren sprachlichen Einheit ist.

Definition 7.3.2 (Konstituentenanalyse nach [Bussmann 2002]). Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten.

Definition 7.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Präzedenz zwischen Konstituenten.

Konstituenten in der annotate-Darstellung

!"#

$$%&

'($)(*(+,-

.#/#0

1123+

'($)($4#5(306

.#78.9#

:;<:

$,5(*(:==($)(!9

1#4>"06?0.#0

++

2#-(:==($)(*

?06

@A+

!!

&"5"=#0

++

+#?9(:==($)(*

#"0

$B@1C

!!

D

ED

!!

F#45?G/#0

1123+

'($)($4#5(306

"/4#

$$A!:B

*(:==($)

HI.)"G/=#"9#0

++

2#-(:==($)(*

8?5J?4#"J#0

113CK

!!

(

E(

!!

+@ +@ +@ +@

+$

L< L; L<

+$

A: M;

!N M;

L+$

A: !1$ M;

1$

AL

!

L<

!

L<

O P Q ' R S T U V W PO PP PQ

SOO SOP

SOQ SO'

SOR SOS

SOT

L!

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Präzedenz auf Wortebene

Präzedenz zwischen Tochterkonstituenten

Abbildung 7.2: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung

Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente.

Konstituenten in der Balken-DarstellungJede Konstituente überspannt als Balken die Tokens, welche sie dominiert.

65

Page 66: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 7.3: Konstituenz, Dominanz und Präzedenz in Balken-DarstellungQuelle: http://www.cl.uzh.ch/siclemat/lehre/negra/s2.html

Annotation von Nominalphrasen (NP)

Abbildung 7.4: Beispielsatz mit allen zu annotierenden Nominalphrasen (NP)

Hinweise

• Begleiter, attributive Adjektive werden flach eingehängt.

• Keine unären Konstituenten (d.h. keine NP-Knoten mit einem Kind!)

• Komplexe postnominale NPs werden verschachtelt eingehängt.

Annotation von Präpositionalphrasen (PP)

Er hat vor den lauten Hunden im Garten Respekt.

PP

PP

Abbildung 7.5: Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PPs)

Hinweise

66

Page 67: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

• Die unmittelbaren Konstituenten der von der Präposition abhängigen NP werden flacheingehängt.

• Eingebettete NP kann rekonstruiert werden.

• Komplexe postnominale PPs werden IMMER verschachtelt eingehängt.

Annotation von Adjektiv- und Adverbphrasen (AP/AVP)

Die recht zahme Katze schnurrte immer wieder sehr laut .

AP AVP AP

Abbildung 7.6: Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten

Hinweise

• Nur modifizierte Adjektive bilden AP.

• Nur modifizierte Adverbien bilden AVP.

Annotation von finite (S) und infiniten (Teil-)Sätzen (VP)

Er will sie gerne sehen .

VP

S

Abbildung 7.7: Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten

Hinweise

• Finite Verben sind immer unmittelbare Konstituenten von S-Knoten.

• Jedes infinite Verb bildet eine eigene VP (keine flache Struktur hier!)

Annotation von RelativsätzenRelativsätze gehören immer in die NP, auf die sie sich beziehen!

67

Page 68: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Der Hund, den die Katze anfauchte, knurrte leise.

NP

S

NP

S

Abbildung 7.8: Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Konstituententypen

Typen von Konstituenten in TIGER/NEGRA

1. (Teil-)Sätze (S): Konstituente mit finiten Verbalkernen.

2. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern.

3. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern.

4. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern.

5. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern.

6. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition alsKern.

7. Konjunktionalgruppe, -phrase (PP): Konstituente mit der Konjunktion “als” oder “wie”als Kern (aber nicht als Vergleichskonstruktion gebraucht): „Er fühlte sich als Gewinner.“

7.3.2 Dependenz bzw. syntaktische FunktionDependenz und syntaktische Funktion

Definition 7.3.4. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konsti-tuenten.

Definition 7.3.5 (frei nach [Bussmann 2002]). Syntaktische Funktion ist ein Sammelbegriff fürBeschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehungzwischen abhängigen Konstituenten zu bestimmen.

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des “Kopfes” fundamental, abertraditionell wenig explizit dargestellt.

68

Page 69: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

!"#

$$%&

'($)(*(+,-

.#/#0

1123+

'($)($4#5(306

.#78.9#

:;<:

$,5(*(:==($)(!9

1#4>"06?0.#0

++

2#-(:==($)(*

?06

@A+

!!

&"5"=#0

++

+#?9(:==($)(*

#"0

$B@1C

!!

D

ED

!!

F#45?G/#0

1123+

'($)($4#5(306

"/4#

$$A!:B

*(:==($)

HI.)"G/=#"9#0

++

2#-(:==($)(*

8?5J?4#"J#0

113CK

!!

(

E(

!!

+@ +@ +@ +@

+$

L< L; L<

+$

A: M;

!N M;

L+$

A: !1$ M;

1$

AL

!

L<

!

L<

O P Q ' R S T U V W PO PP PQ

SOO SOP

SOQ SO'

SOR SOS

SOT

L!

Syntaktische Funktion

Konstituenten

Abbildung 7.9: Syntaktische Funktion in der NEGRA-Darstellung

Syntaktische Funktionen in der annotate-DarstellungJedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente.

Syntaktische Funktion in der Balken-Darstellung

Abbildung 7.10: Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

Syntaktische Funktionen als Schicht zwischen sich dominierenden Balken.

Annotation von Funktionen in NP

Hinweise

• Pränominale Konstituenten, d.h. Begleiter, attributive Adjektive und die Köpfe haben dieFunktion NK (noun kernel)

• Grund: linguistischen Streit bzgl. Kopf-Status der Begleiter umgehen

• Postnominale Genitivattribute (AG) und postnominale PPs (MNR).

69

Page 70: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Er sah die kleinen Hunde meiner Mutter .

NK NK

NP

NK NK NK AG

NP

Abbildung 7.11: Beispielsatz mit NP-internen Funktionen

Annotation von Funktionen in PP

Er hat vor den lauten Hunden im Garten Respekt .

AC NK

PP

AC NK NK NK MNR

PP

Abbildung 7.12: Beispielsatz mit PP-internen Funktionen

Hinweise

• Die Präposition hat die Funktion AC.

• Alle andern Funktionen sind wie in NPs.

Annotation der Funktionen in AP und AVP

Die recht zahme Katze schnurrte immer wieder sehr laut .

MO HD

AP

HD MO

AVP

MO HD

AP

Abbildung 7.13: Beispielsatz mit allen AP- und AVP-internen Funktionen

Hinweise

• Köpfe (HD: head) werden von adverbialen Modifikatoren (MO: modifier) unterschieden.

Annotation der Funktionen in S und VP

Hinweise

• Finites Verb ist Kopf (HD).

• Abhängige VP ist ein Satzobjekt (OC: object clause)

70

Page 71: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Er will sie gerne sehen .

OA MO HD

VP

SB HD OC

S

Abbildung 7.14: Beispielsatz mit allen S- und VP-internen Funktionen

• Subjekt (SB) ist immer abhängig von finitem Verb.

• Akkusativobjekt (OA) ist rein inhaltlich abhängig.

Annotation der Funktion in Relativsätzen

Der Hund , den die Katze anfauchte , knurrte leise .

NK NK

NP

OA SB HD

S

NK NK RC

NP

SB HD MO

S

Abbildung 7.15: Relativsatz mit allen internen Funktionen

Relativsätze haben die Funktion RC (relative clause).

Einige Satzglieder mit TIGER/NEGRA-Funktion

• Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein Soder eine VP sein!

• Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”)

• Dativ-Objekt (DA): Frage- (Wem?) oder Ersatzprobe (“ihm”)

• Genitiv-Objekt (OG): Frage- (Wessen?) oder Ersatzprobe (“seiner”)

• Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO):Modifikator

• Nicht-finite Verbalteile (OC: object clause): Abhängig von flektiertem oder nicht-flektiertenVerb

71

Page 72: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

• In TIGER: Präpositionalobjekte (OP), Funktionsverbgefüge (CVC) („in die Zuständigkeitfallen“)

Wichtige Gliedteile mit TIGER/NEGRA-Funktion

• Artikel, attributive Pronomen und Adjektiv(phrasen) (NK)

• Präpositionen und konjunktionales “als” oder “wie” (AC)

• Postnominale Präpositionalphrasen (MNR) „das Treffen in Bern“

• Genitivattribute von Nominalphrasen (AG) und Pseudogenitiv (PG) „das Haus vom Va-ter“

• Platzhalter (PH) und wiederholte Elemente (RE)

• Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ)

Weitere Informationen im Annotationshandbuch zu TIGER in [Albert et al. 2003] (http://tinyurl.com/tiger-hs10-syn).

7.3.3 KoordinationKoordination, Konstituenz und Köpfe

Definition 7.3.6. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zweioder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht.

Beispiel 7.3.7 (Koordination von Konstituenten aus NEGRA-Korpus).

• Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35]

• Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre?[Satz 9328]

• Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist dasdie Kirche. [Satz 11978]

ProblemWas ist der Kopf von koordinierten Konstituenten? Die Konjunktion oder eine der koordiniertenPhrasen?

Lösung in TIGER/NEGRA: Es gibt die Koordinations-Konstituenten CS, CNP, CAP usw.

Annotation von koordinierten Konstituenten

Hinweise

• Koordinierte Konstituenten haben immer die Funktion CJ.

• Konjunktionen haben die Funktion CD.

72

Page 73: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Er mag junge und freche Katzen und Hunde .

CJ CD CJ

CAP

NK NK

NP

CJ CD CJ

CNP

Abbildung 7.16: Beispielsatz mit koordinierten Strukturen

7.4 Baumbanken7.4.1 NEGRA/TIGERNEGRA- und TIGER-Baumbanken

• NEGRA (1997-2001): Die 1. Baumbank für Deutsch (20’000 Sätze) III

• TIGER (1999-2006): “Nachfolgeprojekt” (50’000 Sätze im Release 2.1 2006) inklusive Lem-matisierung und Morphologieanalyse http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/

Eigenheiten von NEGRA/TIGER

• PP und NP werden mit flacher Hierarchie verbaut

• Ketten von infiniten Verben (VP) sind zu verschachteln

• Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter

• Keine eindeutig annotierten Köpfe in NP

• Keine explizite Unterscheidung der Satztypen

7.4.2 TIGERSearchTIGERSearch: Ein modernes SuchwerkzeugLernen aus BeispielenBeim Annotieren ist es hilfreich, aus bereits annotiertem Material zu lernen!

Die 3 Hauptfunktionen von TIGERSearch

Abfrage-Sprache (investigation)

Visualisierung der Suchresultate und Baumbank (exploration)

Einfache statistische Auswertung (condensation)

73

Page 74: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Grundlegende SuchrezepteEckige Klammern stehen für Konstituenten (Knoten) eines Syntaxbaumes. Beschreibungen aufder Ebene der Wörter (word), Wortarten (pos), Phrasen (cat) spezifizieren darin die möglichenTreffer.

• Wie wird das Wort “der” verwendet? [ word="der" ]

• Mit welchen Wortarten kommt das Wort “der” wie oft vor? #w:[ word="der" ](#w:brauchts für das Statistikmodul als Knoten-Identifikator)

• Welche Adverbien kommen vor? #w:[ pos="ADV" ]

• Welche koordinierten NP kommen vor? #p:[ cat="CNP" ]

• Welche Dativobjekte kommen vor? [ ] >DA #da:[ ]

Aha-Erlebnis[] > []: unmittelbare Dominanz[] . []: lineare Präzedenz

7.5 Vertiefung• Nachbereitungsauftrag: Wie passen die syntaktischen Funktionen von TIGER auf die mo-derne Satzgliedlehre?

• Pflichtlektüre: Das Kapitel Baumbanken in Carstensen (2009).

• Annotierte TIGER-Sätze in Balkendiagramm-HTML-Darstellung: http://www.cl.uzh.ch/siclemat/lehre/tiger

• Quiz Die Form der Satzglieder http://kitt.cl.uzh.ch/kitt/clab/QUIZ/97

• Quiz Satzglieder und Proben http://kitt.cl.uzh.ch/kitt/clab/QUIZ/104

• Konzise Einführung in die Deutschgrammatik: [Gallmann und Sitta 2010]

• Anleitung zu TIGERSearch mit Bildern http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html

• Sofortbenutzung via X11: ssh -Y [email protected] (ev. -Y durch -X er-setzen; kein VPN erforderlich)

74

Page 75: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

8 Flache Satzverarbeitung

Lernziele

• Kenntnis über POS-Tagger, ihre Aufgabe und Probleme sowie über wichtige POS-Tagsets

• Kenntnis über grundlegende Evaluationsmethodik und -anwendung

• Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger

• Kenntnis über partielle syntaktische Analyse

• Kenntnis über flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil?

STTS-Tag Vorkommen1

? 4413APPR 2084PTKA 279

PTKVZ 244ADV 125

8.1 Wortarten-TaggingWortarten-Tagging

Definition 8.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger,kurz POS-Tagger) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt,indem es ein Klassifikationskürzel als Tag zuordnet.

Beispiel 8.1.2 (Zeilenformat mit Schrägstrich).Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN . . .

N-Best-TaggingBraucht Tagger, welche die wahrscheinlichsten n Wortarten zurückliefern (ev. mit der Wahr-scheinlichkeit) für ein Token.

Nutzen und Anwendung des POS-Tagging

Definition 8.1.3 (POS-Tagging (automatische Wortartenbestimmung)). POS-Tagging ist ei-ne eigenständige und vielfältig benötigte sprachtechnologische Anwendung, welche effizient undzuverlässig funktioniert. Anwendungen: Lemmatisierung, Lexikographie, Sprachsynthese, Spra-cherkennung, Dokumentensuche, Bedeutungsdesambiguierung usw.

75

Page 76: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Beispiel 8.1.4 (Sprachsynthese/Bedeutungsdesambiguierung).

• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)

• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)

Beispiel 8.1.5 (Lemmatisierung).

• eine/ART Kuh: Lemma “ein”

• eine/VVIMP dich mit ihm!: Lemma “einen”

Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe.

Tag-Sets für Englisch

Definition 8.1.6 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische, syntaktische oder morphologische Information. Die Grösseeines Tag-Sets kann stark variieren.

Tag-Set Grösse Beispiel BedeutungBrown 87 (179) she/PPS Pronoun, personal, subject, 3SGPenn 45 she/PRP Pronoun (personal or reflexive)CLAWS c5 62 she/PNP Pronoun personalLondon-Lund 197 she’s/RA*VB+3 pronoun, personal, nominative + verb "to

be", present tense, 3rd person singular

Tabelle 8.1: Übersicht: Tag-Sets für Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist.

Anforderungen an ein Programm für TaggingPositive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]:

• Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen,Markup).

• Effizient: Der Tagger arbeitet schnell.

• Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%).

• Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den.

• Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden.

Was fehlt?

76

Page 77: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

8.1.1 Probleme des TaggingsWortformen mit mehreren möglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token.

Tag-Ambiguität im Englischen

Baseline (Basis-Algorithmus)Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtigeEntscheidungen (gemäss CL-Literatur, aber das werden wir in PCL I noch überprüfen. . . ).

OptimierungspotentialBerücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wör-ter), um die Baseline-Entscheidung umzustossen.

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet:

• die möglichen Tags von wn aus Tagger-Lexikon

• die bereits berechneten Tags der beiden vorangehenden Tokens

Context

3

3

Vgl. NLTK-Buch [Bird et al. 2009, 204]

Abbildung 8.1: Kontextmodell des Trigramm-Taggers tnt

77

Page 78: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Mehrdeutigkeit bei deutschen WörternBeispiel 8.1.7 (Verteilung der Mehrdeutigkeit).Vorkommen in einem Korpus von ca. 80’000 Token

die ART 2351 PRELS 448 PDS 4Mehrheit NN 40bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)

Abbildung 8.2: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998]

Hinweis: Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0.

Unbekannte WörterKein Tagger-Lexikon kann vollständig sein (Eigennamen, Komposita, Zahlausdrücke). Wie kannein Tagger sinnvolle Vorschläge machen?

• Unterscheidung zwischen offenen und geschlossenen Wortarten

• Daumenregeln aufgrund des Baus der unbekannten Wortformen: Wortende/Wortbeginn,Ziffern. Typischerweise N-Gramme von Wortsuffixen.

Beispiel 8.1.8 (Morphologische Heuristiken für Englisch).

• 98% aller Wörter mit Endung -able sind Adjektive.

• Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname.

8.1.2 Fallstudie TnT-TaggerFallstudie: TnT-Tagger trainieren und evaluieren

Fallstudie TnT-Tagger: Anpassbarkeit konkretEin Kochrezept fürs Terminal . . . [Clematide 2007]

1. Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

78

Page 79: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Testkorpustest.ttstest.txt

Trainingskorpustraining.tts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

training.lextraining.123

Evaluations-korpus

eval.tts

Evaluationtnt-diff

Abbildung 8.3: Training, Tagging und Evaluation mit dem TnT-Tagger

$ head -n 3 uis-vonabisz.ttsStudienführer NN" $(Universität NN$ wc uis-vonabisz.tts9677 18154 105188 uis-vonabisz.tts

2. Man nehme 9/10 davon als Trainingskorpus, indem alle bis auf die letzten 968 Zeilen ineine neue Datei geschrieben werden.

$ head --lines -968 uis-vonabisz.tts > training.tts

3. Man nehme die restlichen 1/10 als Testkorpus, indem die letzten 968 Zeilen in eine neueDatei geschrieben werden.

$ tail --lines 968 /uis-vonabisz.tts > test.tts

4. Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para training.tts

5. Man schmecke ab, ob der Tagger was Vernünftiges tut.

$ tnt training /dev/stdin > out.ttsDerTaggerläuft. [mit Control-D für Dateiende abschliessen$ more out.tts

79

Page 80: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

6. Man erstelle das Evaluationskorpus.

$ cut -f 1 test.tts > eval.txt

7. Man tagge das Evaluationskorpus mit dem Trainingsmodell.

$ tnt training eval.txt > eval.tts

8. Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus.

$ tnt-diff test.tts eval.tts

8.2 EvaluationEvaluation

Definition 8.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode.

Definition 8.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrerValidität und Reliabilität.

Definition 8.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethodesagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessenwird.

Definition 8.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messme-thode sagt aus, wie genau und reproduzierbar die Messresultate sind.

Überlegungen zu Reliabilität und Validität

MessintentionEs soll das Verständnis von Studierenden für reguläre Ausdrücke mittels eines Multiple-Choice-Tests geprüft werden.

Überlegung IWie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität undValidität hoch ist?

Überlegung IIWas passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Personmehrmals gemacht wird?

80

Page 81: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

8.2.1 ZweckZweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert wordenist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die KomponenteZ das System optimiert.

SystemvergleichUm ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluationanhand einer Testaufgabe T zeigt auf, welches System besser ist.

8.2.2 AccuracyPOS-Tagger-Evaluation: Genauigkeit

Definition 8.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mitN Token ist der Anteil der korrekt getaggten Token.Formal: Sei E die Anzahl von falsch getaggten Vorkommen von Token:

accuracy = N − EN

Beispiel 8.2.6 (Genauigkeitsberechnung von TnT-Tagger).Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 96.7%.Wieviele Tags im Testkorpus von 100’000 sind falsch?Wenn man nur mit 1’000 Tokens trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpusvon 100’000 Tokens. Wie hoch ist die Genauigkeit?

Häufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant. Erel. Eabs.

NE 15069 NN 2092 13.9 19.6 0.74VVFIN 11595 VVINF 667 5.8 6.3 0.23NN 58563 NE 615 1.1 5.8 0.22VVFIN 11595 VVPP 425 3.7 4.0 0.15ADJA 16843 NN 270 1.6 2.5 0.10

Tabelle 8.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112]

Legende8.2Tagt: Korrektes Tag; Tagf : Falsch getaggtes TagFreqt: Vorkommenshäufigkeit des korrekten TagsFreqf : Vorkommenshäufigkeit des falschen TagsAnt.: Anteil der falschen Tags an den korrekt erkanntenErel./Eabs.: Relative/absolute Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler

81

Page 82: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 8.2.7 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wirdjeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trai-ningsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutra-lisiert“.Beispiel 8.2.8 (Durchschnittliche Genauigkeit (average accuracy)).

accuracy =∑i=10

i=1 accuracyi

10

Generalisierung von 10 auf kDie Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 dasMittel noch genauer.

8.2.3 Lernkurven

!"#$%!&'()#*+,-'+!%.,/&!!"#!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

!"#$!%&!'())*+,-"../0.,1/$+,-0-2,!)00,-#))3"04

56)#"77

80%10

9040%10

6/+!!7!89:;<

6-=!7!>;:8<

6/+!!7!>#:?<

6-=!7!>8:@<

6/+!!7!;?:?<

6-=!7!9#:#<

2*++!$'**A-+BC!"D?!6/11/&+!)&B*+(!+*E(4-4*'!)*=)!FG-11!.)'**)!H&I'+-1J!

'-+K&61L!(*1*0)*K!)'-/+/+5!FM-'/-A1*!(/N*J!-+K!)*()!4-')(!F"@@D@@@!)&B*+(J

"@!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/N*O!)'-/+/+5!-+K!)*()!4-')(!-'*!K/(P&/+):

Q&!&)%*'!(&I'0*(!E*'*!I(*K!3&'!)'-/+/+5:

" ? # "@ ?@ #@ "@@ ?@@ #@@ "@@@#@

;@

8@

9@

>@

"@@

R?:9 ?;:9 ?@:? "S:? >:9 8:@ R:R ?:>#@:S

$'-+/+5!./N*!F=!"@@@J

TM5:!<!U+B+&E+

TM5:!T00I'-0L

SS:R

!"#$%!&'()#*+,-'+!%.,/&!!";!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

:"/6),6;<,'$"$)!%&!$+)!=#$,>??,=((#%"*+

"!Q-/M*!-44'&-0%C

!!!!!,/5'-6!6&K*1!F3/'()!&'K*'!VWWJ

!!!!!.6&&)%/+5C!-KK/)/&+!&3!c 7!@:#!)&!N*'&!3'*XI*+0/*(!!!!!U+B+&E+!E&'K(C!)-5!K/()'/AI)/&+!*()/6-)*K!3'&6!-11!E&'K(

!!!!!Q&!(*+)*+0*!A&I+K-'L!-+K!0-4/)-1/N-)/&+!/+3&

"!.)-)*!&3!)%*!T')C

!!!!!$'/5'-6!6&K*1!F(*0&+K!&'K*'!VWWJ

!!!!!.6&&)%/+5C!Y&+)*=)!/+K*4*+K*+)!1/+*-'!/+)*'4&1-)/&+

!!!!!U+B+&E+!E&'K(C!(I33/=!-+-1L(/(!-+K!(I00*((/M*!-A()'-0)/&+

!!!!!TI)&6-)/0!6&K*1/+5!&3!(*+)*+0*!A&I+K-'/*(!-+K!0-4/)-1/N-)/&+

+-/M*!!!!()-)*!&3!)%*!-')!!!!!!!!!!G.H FZ+51/(%J!!!!!!>#:@< !!!!>;:8< ![":8<

QZ\]T F\*'6-+J!!!!!>?:R< !!!!>;:8< ![R:S<

Abbildung 8.4: Tnt-Evaluation an Penn Treebank durch Thorsten Brants

8.2.4 RecallRecall (Ausbeute, Abdeckung, Vollständigkeit)

82

Page 83: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

!"#$%!&'()#*+,-'+!%.,/&!!"#!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

!"#$%#&'()

"!67-18-)/&+!8(/+5!)9&!0&'4&'-:

!!!!!;6<=>!?&'48(:!@'-+A38')*'!=8+B(0%-8!C<*'D-+!+*9(4-4*'!)*E)(F

!!!!!2*++!$'**G-+A:!H-11!.)'**)!I&8'+-1

"!J/(K&/+)!)'-/+/+5!-+B!)*()!4-')(L!"M!3&1B!0'&((!7-1/B-)/&+

"!$-55/+5!-008'-0N:!4*'0*+)-5*!&3!0&''*0)1N!-((/5+*B!)-5(!9%*+!-((/5+/+5

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!&+*!)-5!)&!*-0%!)&A*+

"!$-55/+5!-008'-0N!B*4*+B/+5!&+!)%*!(/O*!&3!)%*!)'-/+/+5!(*)

!"#$%!&'()#*+,-'+!%.,/&!!"P!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

*#+&!(,!-.//0123#44')425'&123)3627!89:2;(+.%<

="/+#$$

>)(5)

?)@)(5)

D/+!!Q!RST"U

D-E!Q!VWTRU

D/+!!Q!VXTRU

D-E!Q!VRTRU

D/+!!Q!W"TYU

D-E!Q!SVTMU

;6<=>!0&'48(:!#XMLMMM!)&A*+(!+*9(4-4*'!)*E)!C@'-+A38')*'!=8+B(0%-8F

'-+B&D1N!(*1*0)*B!)'-/+/+5!C7-'/-G1*!(/O*F!-+B!)*()!4-')(!C#MLMMM!)&A*+(F

"M!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/O*Z!)'-/+/+5!-+B!)*()!4-')(!-'*!B/(K&/+)

;&!&)%*'!(&8'0*(!9*'*!8(*B!3&'!)'-/+/+5T

" Y X "M YM XM "MM YMM #YMXM

WM

RM

SM

VM

"MM

$'-+/+5!./O*!CE!"MMMF

>75T!U![+A+&9+

>75T!>008'-0N

PWTP P"TP #WTM #MTR Y#TM "ST# "PT# ""TVXMTS

C(**!%))4:\\999T0&1/T8+/!(GTB*\])%&'()*+\)+)\FAbbildung 8.5: Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Definition 8.2.9. Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen möglichen korrekten Antworten an.Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems.

R = At

Nt

Beispiel 8.2.10 (Recall eines Taggers).Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziert.At = 600 und Nt = 800. Der Recall berechnet sich als: R = 600

800 = 75%

8.2.5 PrecisionPrecision (Genauigkeit, Präzision)

Definition 8.2.11. Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems an.Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems.

P = At

A

83

Page 84: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Beispiel 8.2.12 (Precision eines Taggers).Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davonwaren tatsächlich VVFIN.At = 600 und A = 1000. Die Precision berechnet sich als: P = 600

1000 = 60%

8.2.6 F-MeasureF-Measure (F-Mass)

Definition 8.2.13 (F1-Measure). Das F-Measure ist ein Evaluationsmass, das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet.Formal: Sei P die Precision und R der Recall eines Systems:

F = 2× P ×RP +R

Beispiel 8.2.14 (F-Mass eines Taggers).Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN.Das F-Measure berechnet sich somit: F = 2×0.6×0.75

0.6+0.75 = 66.6%

8.3 Chunk ParsingPartielle syntaktische Analyse

Definition 8.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz.Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.

Abbildung 8.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

Chunking-Regeln schreiben in Pfeilnotation III

Wie kann man die zulässigen Chunks beschreiben?NC -> ART NN

• NC : Ein NC (Nominalchunk) besteht

84

Page 85: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 8.7: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

• ->: besteht aus

• ART: aus einem Wort der Wortart ART (Artikel)

• NN: gefolgt von einem Wort der Wortart NN (normales Nomen)

8.3.1 Abneys Chunk-DefinitionChunks (Teilstrukturen) nach [Abney 1991]Beispiel 8.3.2 (Chunks nach Abney).[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].

Motivationen

• Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung

• Effizienz: Teilstrukturen lassen sich effizienter berechnen.

• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktischeAnalyse.

• Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichereAnalysemethoden.

8.3.2 IOB-ChunkFlache Chunks im IOB-Format

Definition 8.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht überdie getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.

• B-K : Anfang einer Chunk-Konstituente K

• I-K : Fortsetzung der Chunk-Konstituente K

• 0: Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

85

Page 86: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

8.3.3 Verschachtelte ChunksVerschachtelte Chunks

Definition 8.3.4 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk inner-halb eines Nominal-Chunks, ist normalerweise nicht möglich.

Beispiel 8.3.5 (Chunk Parsing Output mit Verschachtelungstiefe 3).

[PX [APPR für][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.

8.4 VertiefungZum Thema „POS-Tagging“ und „Chunk Parsing“:

• Pflichtlektüre: [Carstensen et al. 2009, 3.4.2-3]

• Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/

• TnT ist leider nicht als Open-Source-Programm verfügbar. Mit hunpos [Halácsy et al. 2007]existiert allerdings eine gute (bzw. bessere) quelloffene Alternative.

8.4.1 KontrollfragenKontrollfragen

• Was sind 2 typische Szenarien für systematische Evaluation von Systemen?

• Was unterscheidet Recall und Precision von Accuracy?

• Was sind typische Fehlerquoten und Fehlerquellen für STTS-Tagging?

• Wieviel Trainingsmaterial braucht es für eine Tagginggenauigkeit von etwa 95% für eng-lische oder deutsche Zeitungstexte?

• Was ist der Vorteil der IOB-Notation?

86

Page 87: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

8.5 Exkurs: Evaluation binärer KlassifikatorenLernziele

• Kenntnis über True Positive, True Negative, False Positive sowie False Negative

• Kenntnis über Fehlertypen und ihre Gefahr

• Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form derTP:FP:FN:TN-Darstellung

8.5.1 True/False Positives/NegativesEvaluation von binären Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 8.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 8.3

True Übereinstimmung zwischen “Test” und “Truth”

False Keine Übereinstimmung zwischen “Test” und “Truth”

FP Fehlertyp I: Test ist positiv, wo er nicht sollte.

FN Fehlertyp II: Test ist negativ, wo er nicht sollte.

8.5.2 FehlerparadoxeProblem der Fehlerabschätzung IBeispiel 8.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Kon-struktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%.Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat,wenn er ein positives Resultat vermeldet?

Man überlege:Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnittdarunter?

87

Page 88: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Problem der Fehlerabschätzung IIBeispiel 8.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Kon-struktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht, produziertjedoch keine falschen Treffer.Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test einnegatives Resultat vermeldet?

Man überlege:Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind darunter?

8.5.3 Unterschiede von EvaluationsmassenDualität von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 8.4: Recall

Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall.

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 8.5: Precision

Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision.

F-Measure vs. AccuracyF-Measure ignoriert TN. TP interessieren eigentlich.Accuracy ignoriert nichts. TP und TN interessieren gleichwertig.

8.5.4 Mitteln von Recall und PrecisionF-Measure: Harmonisches vs. arithmetisches Mittel

88

Page 89: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2× TP2× TP + FP + FN

Tabelle 8.6: F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 8.7: Accuracy

Abbildung 8.8: F = 2×P ×RP +R : y/x-Achse: Recall F-Mass [F-Mass 2006]

8.5.5 Vertiefung• Artikel zum Harmonischen Mittel in [Wikipedia 2013]

89

Page 90: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 8.9: M = P +R2 : Arithmetisches Mittel

90

Page 91: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

9 Sprachsynthese und Spracherkennung

Lernziele

• Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zurSprachsynthese und der Spracherkennung

• Kenntnis über die Probleme und Ansätze solcher Systeme

• Kenntnis über die Einsatzmöglichkeiten von CL-Techniken

• Kenntnis über sprachtechnologische Standards

9.1 SprachsyntheseSprachsynthesesysteme III

Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einerZeichenkette (Text) ein akustisches Signal.Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus.

Beispiel 9.1.2 (Ein deutscher Stolpersatz).“Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - dieHeroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.”

• Welche Schwierigkeiten liegen vor?

• Was kann ein TTS damit anfangen? Z.B. [German 2006]

Qualitätsmerkmale für Sprachsynthese

Was macht gute Sprachsynthese aus?

• Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert?

• Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt?

• Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral?

• Sprechtempo: Zu schnell, zu langsam?

• Sprechrhythmus: Monotones Geraspel oder gegliederte Information?

• Pausen: Finden Sprechpausen (an der richtigen Stelle) statt?

WeiteresUnterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es,wenn das Sprechtempo stark erhöht werden kann.

91

Page 92: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Einsatzmöglichkeiten von Sprachsynthese

Wo ist Sprachsynthese praktisch anwendbar?

• (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurseusw.), welche meist mit einem Spracherkennungssystem gekoppelt sind

• Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssyste-me im Auto, E-Mail-Vorlesesysteme im Auto usw.

• Computerarbeitsplätze für Sehbehinderte

• Künstliche Stimme für Sprechbehinderte

• Sprachenlernen

• . . .

9.1.1 ArchitekturTypische Architektur von TTSVom der Zeichenkette zum Laut

1. Tokenisierung (Satzsegmentierung, Normalisierung von Abkürzungen usw.)

2. (Flache) syntaktische Analyse für lexikalische Desambiguierung (Tagging) und für dieprosodische Gestaltung der Phrasengrenzen/Pausen und Akzente (Chunking, Parsing)

3. Lexikalische Analyse mit einem Lexikon und/oder Regeln

4. Phonologische und prosodische Analyse

5. Lautproduktion aufgrund der Lautfolge mit Information zu Lautdauer, Tonhöhe (Grund-frequenz), Lautstärke (Intensität).

Beispiel-Architektur von MARY TTS III

9.1.2 AnalyseebenenPhonetische Analyse: Lautfolgen und Akzente von WörternWie werden die einzelnen Laute eines Wortes in Isolation repräsentiert?Beispiel 9.1.3 (Formate elektronischer Aussprachewörterbücher nach [?]).

• Pronlex: +arm.xd’Il.o

• CELEX (britisch): "#-m@-’dI-15 =[a:.m@."dI.l@U],

• CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [arm2"dI.loU]

Definition 9.1.4 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch ent-hält für (flektierte) Wortformen oder Grundformen eine Repräsentation der Lautform (Lautfol-ge, Akzente) in einer Lautschrift.Z.B. in Form der Revision 2005 des International Phonetic Alphabet (IPA) http://www.langsci.ucl.ac.uk/ipa, bzw. einer auf Computern einfacher verwendbareren Kodierung davon.

92

Page 93: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Abbildung 9.1: Architektur von MARY-TTS-System

IPA-Lautschrift für DeutschVgl. volles IPA in [Carstensen et al. 2009, 213])

Phonetische Lautschrift (SAMPA German)Eine in ASCII kodierte Notationsvariante für IPA-Symbole.

• : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze)

• Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem)

• Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r(rein), h (Hand)

• Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja)

• Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a(Satz), @ (bitte), 6 (kurz),

• Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot)

FrageWie kann man das Wort “jenseits” schreiben?Hinweis: Das Wiktionary für Deutsch http://de.wiktionary.org ist auch ein Aussprachewörter-buch.

93

Page 94: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Quelle: [Carstensen et al. 2004, 157]

Abbildung 9.2: IPA-Symbole für Deutsch

Aussprache von Ziffern und AbkürzungenDie Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischenKulturräumen [Liberman und Church 1992].

FrageWelche Aussprachen sind für welche Grössen verbreitet?

Beispiel 9.1.5 (Varianten im Deutschen).

• Einzelziffern: 1456 “ Konto eins vier fünf sechs”

• Zahl: 1456 “Eintausendvierhundertsechsundfünfzig”

• Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig”

• Paare oder Trippel: “044 344 56 10”

• Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.”

Probleme bei AbkürzungenWelche Schwierigkeiten stellt die Aussprache von Abkürzungen?

Phonologische AnalyseWelche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichenKontext gelten?

94

Page 95: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Definition 9.1.6 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unterdenen phonologische Alternationen statt finden.

Beispiel 9.1.7 (Phonologische Alternationen im Englischen).Das Plural-(e)s wird nach Stammendung unterschiedlich ausgesprochen: “peaches”, “pigs”,“cats”.

Morphologie und AusspracheregelnBeispiel 9.1.8 (Aussprache von „st“ im Deutschen).Wann spricht man „st“ als [St] und wann als [st]? Beispiele: Lastwagen, staunen, bestaunen,Staubsauger, Feinstaub, Krebstest, zurückkrebste

Anwendung von AusspracheregelnAusspracheregeln beziehen sich nicht auf das Wort, sondern auf Morphe (Vorsilben, Endungen,Wortstämme).

Beispiel 9.1.9 (Auslautverhärtung).Im Deutschen werden gewisse Laute entstimmlicht, wenn sie am Ende eines Morphs stehenund nicht vor einem Vokal. „Krug“ → [’kru:g]→ [’kru:k] „Krug+s“ → [’kru:g]+[s] → [’kru:ks]„Krug+es“ → [’kru:g]+[@s] → [’kru:g@s]

Probleme der morphologischen Analyse und Lautfolgenberechnung

• Mehrdeutigkeiten der morphologischen Analyse:Wählerstimmen = wähl+erst+imme+n III

• Einschlüsse verschiedener Sprachen in einem Text“Er hat dies nur contre coeur live gesungen.”

• Umgang mit Named Entities

Prosodische Analyse: Akzentuierung im Wort

Definition 9.1.10 (Wortakzent). Der Wortakzent ist diejenige Silbe eines Worts, welche amstärksten betont wird.

Mehrsilbige Wörter und Komposita haben oft Nebenakzente.

Regelhaftigkeit von Wortakzenten im Deutschen

• Bei einfachen Wörtern eine lexikalische Information.

• Präfixe, Suffixe und Infixe sind regelhaft: be-, -lich, -tät, -al

• Bei Komposita (Zusammensetzungen) trägt immer der Wortakzent des Vorderglieds denHauptakzent: Hauptakzenterkennungsroutine

• Flexionsbetonung: Doktor vs Doktoren

Die Nebenakzente können immer durch Fokusakzentuierung semantisch/pragmatisch zum stärks-ten Akzent gemacht werden.

95

Page 96: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm

Abbildung 9.3: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a])

Beispiel: Prosodie [Simmons 2006b]Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenz-verlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenenSprache wieder.Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Com-puter zu analysieren, ist unter http://www.praat.org zu finden.

Prosodie: ToBI-Modell (Tones and Break Indices)

• H (high): Hohe Satzmelodie

• L (low): Tiefe Satzmelodie

• [HL]*: Auszeichnung der betonten Silbe

• [HL]+[HL]: Tonwechsel innerhalb von Wörtern

• [HL]%: Satzendebetonung

• [HL]– : Phrasenbetonung (sekundärer Satzakzent)

Prosodische Analyse: Phrasen und SätzeUm Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguisti-sche Analysen.

96

Page 97: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Beispiel 9.1.11 (Satzintonation und -rhythmus).The government plans. . .

• . . . were defeated.

• . . . to raise taxes.

Grundregel der PhrasierungEine Phrasengrenze zwischen 2 benachbarten Wörtern ist umso plausibler, je stärker die Wörterin der syntaktischen Struktur getrennt sind voneinander.

9.1.3 SprachsignalproduktionSprachsignalproduktionProsodiesteuerungAus der phonologische Analyse (Laute, Akzente, Pausen, Tonhöhenverlauf) werden die prosodi-schen Parameter der Laute für die Sprachsynthese berechnet: Dauer, Grundfrequenz, Intensität.Die klassische linguistische Einheit Phonem (35-50 pro Sprache) ergibt für Sprachgenerierung(Allophonsynthese) keine guten Ergebnisse.Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen?Definition 9.1.12 (Diphone III III). Ein Diphon geht von der Mitte eines Phonems zurMitte des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone,für Spanisch auf 800.Koartikulation von Lauten wird dadurch auf jeweils 2 Phonemkombinationen beschränkt. Inder Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten.

Sprachsignalproduktion: SprachkonservenAm primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustischeSprachkonserven nacheinander ausgegeben werden.Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen."Beispiel 9.1.13 (Ein Problem zu einfacher Ansätze).

• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)

• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)

Unit Selection DatabasesEin Weiterentwicklung sind grosse Datenbanken, welche unterschiedlich grosse Einheiten (Di-phone, Phone, Silben, Wörter) umfassen und eine optimale Selektion daraus versuchen.

9.2 SpracherkennungSpracherkennungssystemeDefinition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus demakustischen Signal von gesprochener Sprache eine textuelle Darstellung.Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnetaus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung.Spracherkennung ist schwieriger als Sprachsynthese. Warum?

97

Page 98: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Typische ArchitekturVom Sprachsignal zur Wortfolge

1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals:Merkmalsextraktion)

2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phone-me, Diphone, Silben), mit denen sich die Wörter zusammensetzen

3. Lexikalische Analyse: Erkennen von Wortkandidaten

4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche

5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen

9.2.1 ProblemeWortübergänge (Junkturen)Wortgrenzen werden eher selten als Sprechpausen realisiert.Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Ver-längerung beginnender Konsonanten oder Betonung endender Vokale.Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonemsdurch seine Umgebung.

Beispiel 9.2.4 (Assimilation).

• this year → this∫ear

• the old man → thiold man

Wortübergänge (Junkturen)Beispiel 9.2.5 (Epenthese und Auslassung).

• China is → Chinaris

• best buy → besbuy

Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)).

• night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes

• The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m

Weitere Störfaktoren

• Unbekannte Wörter, u.a. zu kleines Lexikon

• Hintergrundsgeräusche

• Schlechte Mikrophone

• Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Fär-bung

• Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikationweiss ein Spracherkennungssystem selten, worum es geht.

98

Page 99: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

9.2.2 WorthypothesengraphWorthypothesengraphIn einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsen-tiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrschein-

Abbildung 9.4: Worthypothesengraph aus [Carstensen et al. 2004, 580]

lichsten Pfad auswählen.

9.2.3 WortfehlerrateWortfehlerrate (word error rate, WER)

Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen ver-steht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zumachen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) odereingefügt (INS) werden.

Abbildung 9.5: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581]

Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern).

WER = 100× NSUB +NINS +NDEL

N

99

Page 100: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

9.3 Dialogsysteme9.3.1 TypenDialogsystemeEin natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Menschmittels menschlicher Sprache.

Definition 9.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitigeSteuerung von elektronischen Geräten durch Äusserungen.

Definition 9.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachlicheNavigation durch ein starres Menu. Benutzer kann nur reagieren.

Definition 9.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerungeines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch undMaschine gesteuert sein (mixed-initiative dialogue).1

9.4 Vertiefung• Pflichtlektüren: [Carstensen et al. 2009, 3.1.1-3.1.2, 3.2.2, 5.4]

• Eine umfassende technische Einführung bietet [Pfister und Kaufmann 2008]

• Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/e-books/Hal/chap6/six1.html

• Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/ASA/Contents.html

• Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integrierthaben.

• Beispiel emotionale Fussballreportersprache:[MARY 2006]

• SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite un-ter http://www.phon.ucl.ac.uk/home/sampa/index.html

• MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html

• http://www.voicexml.org

• Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a]

1http://mobile.20min.ch/de/front/28506028f/Das-digitale-Vermächtnis-von-Steve-Jobs

100

Page 101: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

10 Literaturverzeichnis

[Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abneyund C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics, LIN 235. 42, 85

[Albert et al. 2003] Albert, Stephanie, J. Anderssen, R. Bader und S. Becker (2003).TIGER Annotationsschema. 72

[Beesley und Karttunen 2003] Beesley, Kenneth R. und L. Karttunen (2003). Finite-State Morphology: Xerox Tools and Techniques. CSLI Publications. 39

[Bird et al. 2009] Bird, Steven, E. Klein und E. Loper (2009). Natural Language Proces-sing with Python. O’Reilly. 77

[Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Mo-dels. Automation of Corpus Annotation, Saarbrücken Dissertations in Computational Lingui-stics and Language Technology 6. Saarland University. 81

[Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner,Stuttgart, 3., aktual. und erw. Aufl. 15, 19, 50, 52, 64, 65, 68

[Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie: Eine Einführung. Elsevier, München. 94, 99

[Carstensen et al. 2009] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,R. Klabunde und H. Langer, Hrsg. (2009). Computerlinguistik und Sprachtechnologie: Eine Einführung. Spektrum, München. 18, 29, 30, 86, 93, 100

[Cavnar und Trenkle 1994] Cavnar, William B und J. M. Trenkle (1994). N-Gram-Based Text Categorization, In: Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval, S. 161–175. Citeseer, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.53.9367&rep=rep1&type=pdf. 29

[Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT ,http://www.cl.uzh.ch/siclemat/lehre/papers/tnt-training2007.txt. 78

[Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun(1992). A Practical Part-of-Speech Tagger , In: Proceedings of the Third Confe-rence on Applied Natural Language Processing, Trento, S. 133–140, Trento. Asso-ciation for Computational Linguistics, http://www.aclweb.org/anthology/A92-1018.pdf,http://www.cl.uzh.ch/siclemat/lehre/papers/CuttingKupiec1992.pdf. 76

[Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: Unent-behrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 64

101

Page 102: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

[excelsis 2007] excelsis (2007). Hörbeispiel: Fussball-WM-Auskunft,http://www.excelsisnet.com/download/voicedemos/DemoWM2002.mp3,http://www.cl.uzh.ch/siclemat/lehre/papers/excelsis2007.mp3. 100

[F-Mass 2006] F-Mass (2006). F1-Mass in 3D als Funktion von Recall (x) und Precision (y),http://www.cl.uzh.ch/siclemat/lehre/papers/F-Mass2006.mov. 89

[Gallmann und Sitta 2010] Gallmann, Peter und H. Sitta (2010). Deutsche Grammatik.Lehrmittelverlag, 6. Aufl. 53, 74

[German 2006] German, Klara (2006). AT&T Beispiel-satz Deutsch, http://www.research.att.com/~ttsweb/tts/demo.php,http://www.cl.uzh.ch/siclemat/lehre/papers/German2006.mp3. 91

[Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanai-nen (1994). What is a Word, What is a Sentence? Problems of Tokenisa-tion, In: Proceedings of the 3rd Conference on Computational Lexicography andText Research, COMPLEX’94 , Budapest. http://citeseer.ist.psu.edu/grefenstette94what.html,http://www.cl.uzh.ch/siclemat/lehre/papers/GrefenstetteTapanainen1994.pdf. 25, 27, 30

[Grover 2008] Grover, Claire (2008). LT-TTT2 Exam-ple Pipelines Documentation, http://www.ltg.ed.ac.uk/software/lt-ttt2,http://www.cl.uzh.ch/siclemat/lehre/papers/Grover2008.pdf. 22

[Halácsy et al. 2007] Halácsy, Péter, A. Kornai und C. Oravecz (2007). HunPos: anopen source trigram tagger , In: Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions, ACL ’07, S. 209–212, Stroudsburg, PA, USA. As-sociation for Computational Linguistics, http://dl.acm.org/citation.cfm?id=1557769.1557830.86

[ICL 2011] ICL (2011). Informationen zur Leistungsüberprüfung für Bachelorstudierende,http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2011.pdf. 9

[Jurafsky und Martin 2008] Jurafsky, Daniel und J. H. Martin (2008). Speech andLanguage Processing: An Introduction to Natural Language Processing, Computational Lin-guistics, and Speech Recognition. Prentice-Hall, 2. Aufl. 17

[Kassensturz 2006] Kassensturz (2006). Sendung Kassensturz vom 10. Oktober ,http://www.cl.uzh.ch/siclemat/lehre/papers/Kassensturz2006.mov. 11

[Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analy-sis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M.Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York.94

[Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001).Studienbuch Linguistik. Niemeyer, Mit interaktivem Lernprogramm auf CD-ROM. 51

[MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballrepor-ter , http://www.cl.uzh.ch/siclemat/lehre/papers/MARY2006.mp3. 100

102

Page 103: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

[ORF 2007a] ORF (2007a). Hörbeispiel 1: Sprechender Fahr-plan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/,http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007a.mp3. 100

[ORF 2007b] ORF (2007b). Hörbeispiel 3: Sprechender Fahr-plan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/,http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007.mp3. 100

[Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale,Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11–35. New York. 29

[Pfister und Kaufmann 2008] Pfister, Beat und T. Kaufmann (2008). Sprachverar-beitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, Springer-Lehrbuch. Springer, Berlin. 100

[Plaehn 1998] Plaehn, Oliver (1998). ANNOTATE: Bedienungsanleitung,http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn1998a.pdf. 60

[Plaehn 2000] Plaehn, Oliver (2000). ANNOTATE v3.6 – Quick Reference,http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn2000.txt. 60

[Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines fürdas Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf. 53

[Schmid 2006] Schmid, Helmut (2006). TreeTagger , http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html. 21

[Simmons 2006a] Simmons (2006a). Hörbeispiel ToBi: Bloo-mingdales, http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm,http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006a.mp3. 7, 96

[Simmons 2006b] Simmons, Anita (2006b). Sound-Datei zu Beispielsatz ”There ‘s alovely one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav,http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006.mp3. 96

[Steiner 2003] Steiner, Petra (2003). Das revidierte Münsteraner Tagset / Deutsch(MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http://santana.uni-muenster.de/Publications/tagbeschr_final.ps. 54

[Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer,D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Ein-führungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max NiemeyerVerlag, http://www.ds.uzh.ch/studien-cd. 53, 64

[Teufel und Stöckert 1996] Teufel, Simone und C. Stöckert (1996). ELM-DE: EAGLES Specifications for German morphosyntax: Lexicon Specification andClassification Guidelines, electronic (http://www.ilc.cnr.it/EAGLES96/pub/eagles/lexicons/elm_de.ps.gz), http://www.ilc.cnr.it/EAGLES96/pub/eagles/lexicons/elm_de.ps.gz,http://www.cl.uzh.ch/siclemat/lehre/papers/EAGLES1996.pdf. 53

103

Page 104: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

[Tjong Kim Sang und Buchholz 2000] Tjong Kim Sang, Erik F. und S. Buchholz(2000). Introduction to the CoNLL-2000 Shared Task: Chunking, In: Cardie, Claire,W. Daelemans, C. Nedellec und E. Tjong Kim Sang, Hrsg.: Proceedings of CoNLL-2000 and LLL-2000 , S. 127–132. Lisbon, Portugal. 47, 49

[Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese, http://www.ling.su.se/staff/hartmut/kempln.htm. 12

[Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind,59(236):433–460, http://cogprints.org/499/00/turing.html. 17

[Universitätsrat 2004] Universitätsrat (2004). Richtlinie über die Umsetzungdes Bologna-Prozesses an der Universität Zürich, http://www.sae.uzh.ch/reglemente/uzhreglemente/BolognaRichtlinie_UZH_2004.pdf. 10

[Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a sta-tistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137,Bonn. http://www.cl.uzh.ch/siclemat/lehre/papers/VolkSchneider1998.pdf. 78

[Weisser 2005] Weisser, Martin (2005). Computational Philology, http://ell.phil.tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 14

[Wikipedia 2009] Wikipedia (2009). Kognitionswissenschaft — Wikipedia, Die freie Enzyklo-pädie, http://de.wikipedia.org/w/index.php?title=Kognitionswissenschaft. 17

[Wikipedia 2013] Wikipedia (2013). Harmonic mean — Wikipedia, The Free Encyclopedia,http://en.wikipedia.org/w/index.php?title=Harmonic_mean. 89

104

Page 105: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Index

10-fache Kreuzvalidierung, 82

Adjektiv-Flexion, 58Allophonsynthese, 97Alphabet, 32

Eingabealphabet, 36Assimilation, 98Aussprachewörterbuch, elektronisch, 92

Computerlinguistik, 11

DEA, 36Dependenz, 68Dialogsystem

Conversational User Interface, 100Interactive Voice Response System, 100Kommandowortsystem, 100

Diphon, 97

Editierdistanz, minimal, 99Einsetzprobe, 59Endzustand, 36Epsilon, 32Ersatzprobe, 58Evaluation, 80

F-Measure, 47, 84

Genus, 56Grad, 57Grundfrequenzverlauf, 96

IOB-Chunks, 48, 85IPA, 15

Junktur, 98

Kasus, 56Kern, 64Koartikulation, 98Kognitionswissenschaft, 17Komparation, siehe GradKonstituente, 65

Konstituentenanalyse, 65Konstituenz, 65Koordination, 72Kopf, 64

Lemma, 52Lemmatisierung, 59Levenshtein Editierdistanz, siehe Editierdi-

stanz, minimalLexem, 52Lexemverband, 52Linguistik, 15

Merkmal, morphologisch, 55Modus, 57Morphologie, 16Morphologieanalyse, 59Morphologiegenerierung, 60

Named Entity Regonition, 27NER, 27Numerus, 56, 58

Oronym, 98

partielle syntaktische, 42, 84Person, 57Phonem, 15Phonetik, 15Phonologie, 15Pragmatik, 16Precision, 47, 83Probe, linguistisch, 58

Qualität einer Evaluation, 80

Recall, 46, 83Regeln, phonologisch, 95regulärer Ausdruck, 22Reliabilität, 80

Satz, 64

105

Page 106: HS2013:EinführungindieComputerlinguistik I · UniversitätZürich InstitutfürComputerlinguistik Binzmühlestr.14 8050Zürich Vorlesungsskript∗ HS2013:EinführungindieComputerlinguistik

Schallwellen, 96Semantik, 16Sigma, 32Silbentrennung, 26Spracherkennungssystem, 97Sprachsynthesesystem, 91Sprachtechnologie, 12Startzustand, 36Syntaktische Funktion, 68Syntax, 16

Tag-Set, 76Tagging-Genauigkeit, 81Tempus, 57Text-Segmentierung, 20Token, 51TTS, siehe Sprachsynthesesystem

Umformungsprobe, 63

Validität, 80Verschachtelte Chunks, 48, 86Verschiebeprobe, 63volle syntaktische, 42

Weglassprobe, 62WER, siehe WortfehlerrateWort, 19, 32, 50Wort,syntaktisch, 51Wortakzent, 95Wortarten, 52Wortarten-Tagger, 75Wortfehlerrate, 99Wortform, 51

XML-Standard, 23

Zeichenkette, 32Zeichenkette, leer, 32Zustand, 36Zustandsübergangsfunktion, 36

106