Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung...

Post on 06-Apr-2015

103 views 0 download

Transcript of Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung...

Sehr große Korpora für große Wörterbücher

Manfred Pinkal

Kolloquium Korpus-AnnotierungSaarbrücken, 15.2.02

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 2

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wörterbücher für menschliche Benutzer

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 3

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 4

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wahrig-Projekt II

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 5

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Leibniz-Projekt

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wahrig-Projekt II

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 6

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 7

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 8

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel• Neue Zürcher Zeitung• Der Standard

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 9

Das Wahrig Textkorpus digital

• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel• Neue Zürcher Zeitung• Der Standard• Spektrum der Wissenschaft (ab 1993)• Brigitte (ab 1997)

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 10

Das WTD: Umfang

• 450 Mio. Textwörter

Verteilung auf Publikationsorgane

Süddeutsche Zeitung

34%

Berliner Zeitung23%

Spiegel5%

Neue Zürcher Zeitung

24%

Standard12%

Spektrum1%

Brigitte1%

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 11

Das WTD: Struktur

• XML-Format (CES/TEI)• Kodierung meta-linguistischer Header-Information

beim Dokument (z.Zt. 20 Tags)• Kodierung linguistischer Information beim Token

(später)• Markierung von Nicht-Texten („Schrottfilter“):

zwischen 1 und 10% des Umfangs ausgefiltert

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 12

Metalinguistische Information

• <abschnitt>

<ressort>Nachrichten</ressort>

<rubrik>SPORT AKTUELL</rubrik>

</abschnitt>

• <titel>

<dt>Neue Ideen, Kraftfahrzeuge optimal erscheinen zu lassen</dt>

<t>Wenn die Lichter angehen</t>

<ut>Bei Hecklichtern und Innenraumbeleuchtung werden Sicherheit und Komfort ausgebaut</ut>

</titel>

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 13

Schrott

• <p>Primärmarktkurse für Franken-Neuemissionen </p><p>Betrag Emissions-Rendite(inMio.) CouponZeichnungsfristLiberierungpreisGeldBrief(in%)Inlandschuldner12513/4Eurofima99/0410.5.9917.5.99100,900 2,000 1,8001,9430021/4KantonBern99/0730.4.9918.5.9999,800 1,350 1,1502,4420027/8KantonalbankAargau99/08 ... </p>

(NZZ 1999)

• <p>1. Bundesliga Herren: Alba Berlin - TuS Herten 115:94, Bayer Leverkusen - TVG Trier 91:69, Tally Oberelchingen - MTV Gießen 55:59, Hitachi Landshut - Steiner Bayreuth 80:89; Spitze: 1. Bayer Leverkusen 28:2 Pkt., 2. Alba Berlin 24:4, 3. Brandt Hagen 22:8, 4. TTL Bamberg 20:8.</p>

(Berliner Zeitung 1996)

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 14

Das WTD im Vergleich

Umfang Anz. Dokumenttypen

BNC 100 Mio. 4000

DWDS 150 Mio.(500 Mio.) 1500

IdS ? ?

WTD 450 Mio. 7

FR/WSJ 1

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 15

Linguistische Annotation I

• Wortart-Tagging (TnT, STTS)– Korrektheit ca. 96,5 %– Nach Training Korrektheit ca. 97,5 %

• Lemmatisierung, zweifach, auf der Basis von– Bertelsmann deutsche Rechtschreibung– Wahrig, Deutsches Wörterbuch– Korrektheit >96 %

• Harmonisierung der Rechtschreibung (Corrigo)

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 16

Lückensuche: SZ 5/99

• Ausgangsbasis: Liste nicht-lemmatisierter Tokens

Lemma gefunden

Kein Lemma

3,0 Mio. Textwörter

80% 20%

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 17

Automatische Auswahlverfahren I

• Ausfiltern von:

• Eigennamen (BLV- Eigennamenlisten): 0,5%• Eigennamen (Tagger): 16%• Fremdsprachiges Material (Tagger): 2%• Abkürzungen: 0,3%• Nichtwörtern (ßenseiter, schööön, www.festspiel-plus-

heimat.de ...): 4,6% (Wortfilter, reg. Ausdrücke)• „irrelevanten Wörtern“ (Straßennamen, Ortsableitungen,

Wörter mit vielen Bindestrichen ...): 22% (Wortfilter, reg. Ausdrücke)

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 18

Filterung

Ca. 450.000 Textwörter, 135.000 Wortformen, 90.000 gute Kandidaten

Fremdsprachl. Material

2%

schlechte Wörter22%

Abkürzungen0,3%

Nichtwörter4,6%

Eigenname (listenbasiert)

0,5%

Eigenname (Tagger)16%

Kandidaten54,6%

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 19

Automatische Auswahlverfahren I

• Weitere Reduktion durch Trunkierung:

Bsp:

[Abgeordnetensitzes, Abgeordnetensitzen, Abgeordnetensitze] > Abgeordnetensitz

[Abhörprotokoll, Abhörprotokollen, Abhörprotokolle] > Abhörprotokoll

[abbrannte, abbrannten] > abbrannten

• wortartspezifische Reduktion um ca.:

Nomen 16%, Verben 17%, Adjektive 56%

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 20

Stichprobe: 1000 Wörter Rohliste

?37%

im Wahrig6%

kein Eintrag32%

Neologismen4%

Lücken21%

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 21

Beispiele

• gute Kandidaten/Lücke:– Tierhaltung, Wahlhelfer, Wohngebiet, zerstörerisch

• gute Kandidaten/Neologismus– Datenautobahn, Docu-Soap,Kinderfreibetrag,

Solidaritätszuschlag, Abfallwirtschaft

• falsche Kandidaten:– wolfsburger, Xetra-Computerhandel, zweitgrößter,

Überraschungskonzert, ästhetisch-harmlos

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 22

Automatische Auswahlverfahren II

• Streuung über Jahrgänge und Titel:• positive Bewertung: z.B. Frequenzsteigung über mehrere

Jahrgänge hinweg (floppen: 2/5/5/13/27 über 5 Jahrgänge SZ)

• positive Bewertung: regional interessantes Vorkommen nur in einem Titel wie NZZ (auszonen)

• negative Bewertung: z.B. Vorkommen (fast) nur in einem Titel (Klausenerplatz: Gesamtfrequenz 79, davon 77 Berliner Zeitung)

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 23

Wahrig,Deutsche Rechtschreibung

• 5000 Neuaufnahmekandidaten:

80% mit Bewertungsverfahren ermittelt / 20% nach höchster Gesamtfrequenz

ca. 78% Substantive, 17%Adjektive, 5% Verben

• 570 schweiz./850 österr. Kandidaten

• Ca. 700 als Lemmata übernommen• 400 aus anderen Quellen (v.a. Sprachberatung)

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 24

schwächeln:Häufigkeit in Jahrgängen

Jahr Vorkommen

1996 41997 71998 251999 512000 81 0

10

20

30

40

50

60

70

80

90

in 1996 in 1997 in 1998 in 1999 in 2000

Vorkommen

Vorkommen

0

10

20

30

40

50

60

70

80

90

in 1996 in 1997 in 1998 in 1999 in 2000

Häufigkeit

Vorkommen

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 25

schwächeln:Häufigkeit in Ressorts

Gesamt Sport Andere

1996 4 3 11997 7 5 21998 25 15 101999 51 19 322000 81 31 50

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5

Reihe2

Reihe1

0

10

20

30

40

50

60

70

80

90

1 2 3 4 5

Reihe2

Reihe1

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 26

Neue Verwendungen

• Tagger (ADJD) gegen Lemmatisierer (Verb)

zunehmend, überwiegend, genügend, vorwiegend, besorgt, begeistert, zwingend

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 27

Häufigkeit von Verbbelegen

stellen 166751 bestellen 12203setzen 117929 entsetzen 2330gehen 354262 entgehen 5400

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 28

Leichenschau

• Abelmoschus, Abendfalter, Abendländerin, Abenduniversität, abendwärts, Abendweite, Aberhundert, Aberraute, aberrieren, Abersaat, Abertausend, ABF, abfasen, abfasern, abfleischen, abfluchten

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 29

Signifikante Belege

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 30

Definitionen: Beispiele

• Unter Telematik versteht man technische Systeme, die die Verkehrsströme so intelligent verteilen und steuern sollen, dass auf der vorhandenen Verkehrsfläche mehr Autos flüssiger vorankommen.

• Unter Ligaschießen versteht man ein freies Schießen, bei dem sich mehrere Vereine für das Finalschießen qualifizieren.

• Unter Ökostrom versteht man Energie, die aus Wasser- und Windkraft, Biomasse oder Sonne erzeugt wird.

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 31

Definitionen: Mehr Beispiele

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 32

Morphologie: Wortschatzgruppierung

Minister

Bundesminister

Exminister

Kriegsminister

Kultusminister Kultusministerin

Premierminister

Reichsminister

Agrarminister

Arbeitsminister

Arbeitsministerin

Außenminister

Außenministerin

Bauminister

Bundesminister

Bundesministerin

Europaminister

Finanzminister

Gesundheitsministerin

Handelsminister

Innenminister

Justizminister

Kanzleramtsminister

Kultusminister

Kultusministerin

Landwirtschaftsminister

Olympiaminister

Premierminister

Sozialministerin

Staatskanzleiminister

Staatsminister

Tourismusminister

Umweltminister

Verkehrsminister

Verteidigungsminister

Wirtschaftsminister

Wohnungsbauminister

Bundesarbeitsminister

Bundesbildungsminister

Bundesfinanzminister

Bundeswirtschaftsminister

DDR-Staatssicherheitsmin.

Kultur-Staatsminister

SPD-Innenminister

US-Außenminister

US-Verteidigungsminister

15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 33

Lexika

Bedeutungswörter-bücher für sprachtechnologische Anwendung

Leibniz-Projekt

Wörterbücher

für sprachtechnologische Anwendung

Bedeutungswörter-bücher für menschliche Benutzer

Wahrig-Projekt II

Wörterbücher für menschliche Benutzer

Wahrig-Projekt I