Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung...

33
Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02

Transcript of Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung...

Page 1: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

Sehr große Korpora für große Wörterbücher

Manfred Pinkal

Kolloquium Korpus-AnnotierungSaarbrücken, 15.2.02

Page 2: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 2

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wörterbücher für menschliche Benutzer

Page 3: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 3

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I

Page 4: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 4

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wahrig-Projekt II

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I

Page 5: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 5

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Leibniz-Projekt

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wahrig-Projekt II

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I

Page 6: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 6

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

Page 7: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 7

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel

Page 8: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 8

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel• Neue Zürcher Zeitung• Der Standard

Page 9: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 9

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel• Neue Zürcher Zeitung• Der Standard• Spektrum der Wissenschaft (ab 1993)• Brigitte (ab 1997)

Page 10: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 10

Das WTD: Umfang

• 450 Mio. Textwörter

Verteilung auf Publikationsorgane

Süddeutsche Zeitung

34%

Berliner Zeitung23%

Spiegel5%

Neue Zürcher Zeitung

24%

Standard12%

Spektrum1%

Brigitte1%

Page 11: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 11

Das WTD: Struktur

• XML-Format (CES/TEI)• Kodierung meta-linguistischer Header-Information

beim Dokument (z.Zt. 20 Tags)• Kodierung linguistischer Information beim Token

(später)• Markierung von Nicht-Texten („Schrottfilter“):

zwischen 1 und 10% des Umfangs ausgefiltert

Page 12: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 12

Metalinguistische Information

• <abschnitt>

<ressort>Nachrichten</ressort>

<rubrik>SPORT AKTUELL</rubrik>

</abschnitt>

• <titel>

<dt>Neue Ideen, Kraftfahrzeuge optimal erscheinen zu lassen</dt>

<t>Wenn die Lichter angehen</t>

<ut>Bei Hecklichtern und Innenraumbeleuchtung werden Sicherheit und Komfort ausgebaut</ut>

</titel>

Page 13: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 13

Schrott

• <p>Primärmarktkurse für Franken-Neuemissionen </p><p>Betrag Emissions-Rendite(inMio.) CouponZeichnungsfristLiberierungpreisGeldBrief(in%)Inlandschuldner12513/4Eurofima99/0410.5.9917.5.99100,900 2,000 1,8001,9430021/4KantonBern99/0730.4.9918.5.9999,800 1,350 1,1502,4420027/8KantonalbankAargau99/08 ... </p>

(NZZ 1999)

• <p>1. Bundesliga Herren: Alba Berlin - TuS Herten 115:94, Bayer Leverkusen - TVG Trier 91:69, Tally Oberelchingen - MTV Gießen 55:59, Hitachi Landshut - Steiner Bayreuth 80:89; Spitze: 1. Bayer Leverkusen 28:2 Pkt., 2. Alba Berlin 24:4, 3. Brandt Hagen 22:8, 4. TTL Bamberg 20:8.</p>

(Berliner Zeitung 1996)

Page 14: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 14

Das WTD im Vergleich

Umfang Anz. Dokumenttypen

BNC 100 Mio. 4000

DWDS 150 Mio.(500 Mio.) 1500

IdS ? ?

WTD 450 Mio. 7

FR/WSJ 1

Page 15: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 15

Linguistische Annotation I

• Wortart-Tagging (TnT, STTS)– Korrektheit ca. 96,5 %– Nach Training Korrektheit ca. 97,5 %

• Lemmatisierung, zweifach, auf der Basis von– Bertelsmann deutsche Rechtschreibung– Wahrig, Deutsches Wörterbuch– Korrektheit >96 %

• Harmonisierung der Rechtschreibung (Corrigo)

Page 16: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 16

Lückensuche: SZ 5/99

• Ausgangsbasis: Liste nicht-lemmatisierter Tokens

Lemma gefunden

Kein Lemma

3,0 Mio. Textwörter

80% 20%

Page 17: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 17

Automatische Auswahlverfahren I

• Ausfiltern von:

• Eigennamen (BLV- Eigennamenlisten): 0,5%• Eigennamen (Tagger): 16%• Fremdsprachiges Material (Tagger): 2%• Abkürzungen: 0,3%• Nichtwörtern (ßenseiter, schööön, www.festspiel-plus-

heimat.de ...): 4,6% (Wortfilter, reg. Ausdrücke)• „irrelevanten Wörtern“ (Straßennamen, Ortsableitungen,

Wörter mit vielen Bindestrichen ...): 22% (Wortfilter, reg. Ausdrücke)

Page 18: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 18

Filterung

Ca. 450.000 Textwörter, 135.000 Wortformen, 90.000 gute Kandidaten

Fremdsprachl. Material

2%

schlechte Wörter22%

Abkürzungen0,3%

Nichtwörter4,6%

Eigenname (listenbasiert)

0,5%

Eigenname (Tagger)16%

Kandidaten54,6%

Page 19: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 19

Automatische Auswahlverfahren I

• Weitere Reduktion durch Trunkierung:

Bsp:

[Abgeordnetensitzes, Abgeordnetensitzen, Abgeordnetensitze] > Abgeordnetensitz

[Abhörprotokoll, Abhörprotokollen, Abhörprotokolle] > Abhörprotokoll

[abbrannte, abbrannten] > abbrannten

• wortartspezifische Reduktion um ca.:

Nomen 16%, Verben 17%, Adjektive 56%

Page 20: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 20

Stichprobe: 1000 Wörter Rohliste

?37%

im Wahrig6%

kein Eintrag32%

Neologismen4%

Lücken21%

Page 21: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 21

Beispiele

• gute Kandidaten/Lücke:– Tierhaltung, Wahlhelfer, Wohngebiet, zerstörerisch

• gute Kandidaten/Neologismus– Datenautobahn, Docu-Soap,Kinderfreibetrag,

Solidaritätszuschlag, Abfallwirtschaft

• falsche Kandidaten:– wolfsburger, Xetra-Computerhandel, zweitgrößter,

Überraschungskonzert, ästhetisch-harmlos

Page 22: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 22

Automatische Auswahlverfahren II

• Streuung über Jahrgänge und Titel:• positive Bewertung: z.B. Frequenzsteigung über mehrere

Jahrgänge hinweg (floppen: 2/5/5/13/27 über 5 Jahrgänge SZ)

• positive Bewertung: regional interessantes Vorkommen nur in einem Titel wie NZZ (auszonen)

• negative Bewertung: z.B. Vorkommen (fast) nur in einem Titel (Klausenerplatz: Gesamtfrequenz 79, davon 77 Berliner Zeitung)

Page 23: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 23

Wahrig,Deutsche Rechtschreibung

• 5000 Neuaufnahmekandidaten:

80% mit Bewertungsverfahren ermittelt / 20% nach höchster Gesamtfrequenz

ca. 78% Substantive, 17%Adjektive, 5% Verben

• 570 schweiz./850 österr. Kandidaten

• Ca. 700 als Lemmata übernommen• 400 aus anderen Quellen (v.a. Sprachberatung)

Page 24: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 24

schwächeln:Häufigkeit in Jahrgängen

Jahr Vorkommen

1996 41997 71998 251999 512000 81 0

10

20

30

40

50

60

70

80

90

in 1996 in 1997 in 1998 in 1999 in 2000

Vorkommen

Vorkommen

0

10

20

30

40

50

60

70

80

90

in 1996 in 1997 in 1998 in 1999 in 2000

Häufigkeit

Vorkommen

Page 25: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 25

schwächeln:Häufigkeit in Ressorts

Gesamt Sport Andere

1996 4 3 11997 7 5 21998 25 15 101999 51 19 322000 81 31 50

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5

Reihe2

Reihe1

0

10

20

30

40

50

60

70

80

90

1 2 3 4 5

Reihe2

Reihe1

Page 26: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 26

Neue Verwendungen

• Tagger (ADJD) gegen Lemmatisierer (Verb)

zunehmend, überwiegend, genügend, vorwiegend, besorgt, begeistert, zwingend

Page 27: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 27

Häufigkeit von Verbbelegen

stellen 166751 bestellen 12203setzen 117929 entsetzen 2330gehen 354262 entgehen 5400

Page 28: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 28

Leichenschau

• Abelmoschus, Abendfalter, Abendländerin, Abenduniversität, abendwärts, Abendweite, Aberhundert, Aberraute, aberrieren, Abersaat, Abertausend, ABF, abfasen, abfasern, abfleischen, abfluchten

Page 29: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 29

Signifikante Belege

Page 30: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 30

Definitionen: Beispiele

• Unter Telematik versteht man technische Systeme, die die Verkehrsströme so intelligent verteilen und steuern sollen, dass auf der vorhandenen Verkehrsfläche mehr Autos flüssiger vorankommen.

• Unter Ligaschießen versteht man ein freies Schießen, bei dem sich mehrere Vereine für das Finalschießen qualifizieren.

• Unter Ökostrom versteht man Energie, die aus Wasser- und Windkraft, Biomasse oder Sonne erzeugt wird.

Page 31: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 31

Definitionen: Mehr Beispiele

Page 32: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 32

Morphologie: Wortschatzgruppierung

Minister

Bundesminister

Exminister

Kriegsminister

Kultusminister Kultusministerin

Premierminister

Reichsminister

Agrarminister

Arbeitsminister

Arbeitsministerin

Außenminister

Außenministerin

Bauminister

Bundesminister

Bundesministerin

Europaminister

Finanzminister

Gesundheitsministerin

Handelsminister

Innenminister

Justizminister

Kanzleramtsminister

Kultusminister

Kultusministerin

Landwirtschaftsminister

Olympiaminister

Premierminister

Sozialministerin

Staatskanzleiminister

Staatsminister

Tourismusminister

Umweltminister

Verkehrsminister

Verteidigungsminister

Wirtschaftsminister

Wohnungsbauminister

Bundesarbeitsminister

Bundesbildungsminister

Bundesfinanzminister

Bundeswirtschaftsminister

DDR-Staatssicherheitsmin.

Kultur-Staatsminister

SPD-Innenminister

US-Außenminister

US-Verteidigungsminister

Page 33: Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 33

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Leibniz-Projekt

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wahrig-Projekt II

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I