Fachpraktikum Graphische Benutzungsoberflächen Sommersemester 2008
Forschungskolloquium des Fachbereichs … · 3 Definition der Binnenklammerung Binnenklammerung...
Transcript of Forschungskolloquium des Fachbereichs … · 3 Definition der Binnenklammerung Binnenklammerung...
Binnenklammerung im deWaC
Forschungskolloquium des Fachbereichs Korpuslinguistik
Humboldt-Universität zu BerlinMi, 01.07.2015 | 18 – 20 Uhr | DOR 24, 3.308
Burkhard Dietterle
2
Überblick
1.Definition der Binnenklammerung
2.Forschungsziel
3.Korpustechnische Möglichkeiten und Probleme am Beispiel von deWaC
4.Auszählungen in deWaC
5.Zusammenfassung und Ausblick
6.Bibliographie
3
Definition der Binnenklammerung
● Binnenklammerung (BK):
graphische Einklammerung von Elementen innerhalb von Verschriftlichungen morphologischer Einheiten
● Beispiel:Auch wenn dieses beschwingte Hochzeitsdrama etwas zu sehr ( gut)menschelt und manche Figuren zu stark nach ausgebeulten Schemata funktionieren , so rückt es doch einen politischen Konflikt in den Vordergrund , der noch immer nach einer Lösung schreit. [ DiLü ] Die syrische Braut , 97 Min. , R :
(deWaC, Teil 5, Tokens 134893502-134893551)
4
Definition der Binnenklammerung
● Warum
„innerhalb … von morphologischen Einheiten“
statt
„innerhalb … von graphematischen Wörtern“?
● im Grunde beides möglich, z. B. als– ‘BK im engeren Sinne’ (morphologisch) vs.
‘BK im weiteren Sinne’ (graphematisch)
5
BK im engeren Sinne
Auch wenn dieses beschwingte Hochzeitsdrama etwas zu sehr ( gut)menschelt und manche Figuren zu stark nach ausgebeulten Schemata funktionieren , so rückt es doch einen politischen Konflikt in den Vordergrund , der noch immer nach einer Lösung schreit. [ DiLü ] Die syrische Braut , 97 Min. , R :
(deWaC, Teil 5, Tokens 134893502-134893551)
Dr. Klaus Kinkel überreicht Auszeichnungen für behinderten(un)gerechte Konsumgüter auf der REHACare
(deWaC, Teil 2, Tokens 212111470-212111480)
Dein erstes Bild Der Mohn(d ) geht auf .. .
(deWaC, Teil 1, Tokens 43486605-43486614)
6
BK im weiteren Sinne
● EinzelmorphemeKleingeschrieben werden adjektivische Ableitungen von Eigennamen auf -(i)sch , außer wenn […]
(deWaC, Teil 2, Tokens 106559174-106559184)
● SpielergebnisseWährend A-Junioren-Coach Jörg Sievers sich gestern über einen 2:1(1:0 ) -Heimsieg gegen Rot-Weiß Erfurt freuen konnte ( Tore : Hahne und Rosenthal ) , musste sich die U23 von Jörg Goslar heute im Eilenriedestadion mit einem 1:1 ( 0:0 ) gegen Concordia Hamburg zufriedengeben .
(deWaC, Teil 3, Tokens 33618307-33618351)
7
BK im weiteren Sinne
● physikalische EinheitenDies entspricht einem Wert für den Außenbereich von 47 dB(A).“
(deWaC, Teil 2, Tokens 204446951-204446960)
● mathematische Funktionenalso die Funktion lautet : f(x)=-0,5x²+3x-2,5
(deWaC, Teil 2, Tokens 259621951-259621956)
8
BK im weiteren Sinne
● AktenzeichenDokumentenbezeichnung : KOM(2008)196
(deWaC, Teil 1, Tokens 76271419-76271421)
● Gliederungspunktein Übereinstimmung mit Absatz 401(a)(1)(B ) der internationalen Erklärung der Religionsfreiheit von 1998
(deWaC, Teil 2, Tokens 133084372-133084384)
9
BK im weiteren Sinne
● E-Mail-Adressenmail(at)amateurastronomie.com
(deWaC, Teil 2, Token 6736210)
● Telefonnummern+49(0)7071.989631
(deWaC, Teil 2, Token 16169117)
10Friedrich Schmitthenner (1824:76): Die Lehre von der Satzzeichnung oder Interpunction in der teutschen Sprache, nebst einer kurzen, vorbereitenden Darstellung der Satzlehre.Frankfurt am Main: Verlag der Hermannschen Buchhandlung.
Ältester Beleg
11
Forschungsziel
● deskriptives Gesamtbild des schriftsprachlichen Phänomens ‘Binnenklammerung’
● Abgrenzung zu anderen Zeichensetzungen– ‘Parenthese-Klammern’ (Satzzeichen)– Durchkoppelungsbindestrich, BinnenGroßschreibung– Schrägstrich– Komposita Getrenntschreibung
● Nachweis der Intuition, dass BK sich immer mehr ausbreitet
12
BK als ‘expandierende’ Schreibweise
● im Sinne von:– in immer mehr Varietäten– zunehmende Typen-Frequenz– zunehmende Token-Frequenz
● Aufwändigster Teil des Vorhabens– welche Korpora wählen?– welche Typen-Zählung?
13
Korpustechnische Möglichkeiten und Probleme
am Beispiel vondeWaC (Baroni et al. 2008)
14
Recall, Präzision und Frequenz
● Recall: 84183 BK-Wörter in 1,6 Milliarden Token
(bei Zählung von rein alphabetischen, als ein oder zwei Tokens tokenisierten BK-Wörtern mit runden Klammern und ohne sonstige Interpunktion)
davon mindestens 24000 Treffer False Positives
(nur halbautomatisch aussortierbar)
→ < 4 BK-Wörter pro 100000 Tokens
● Recall und Präzision bei Zählung komplexerer BK-Wörter noch ungünstiger
15
False Positives● identische Sätze 9689 Duplikate in 84183 Sätzen (=12% des Recalls)
● automatisch vervielfältigte BK-Wörter:ZAHL + Kommentar(e ) 588 Vorkommen im deWaC
( vor)bestellen bei Amazon 132 Vorkommen im deWaC
● mat. Funktionen f(x) u.ä. 2031 Vorkommen im deWaC
● Abkürzungen AD(H)S 163 Vorkommen im deWaC
● Chunks Sehr geehrte(r ) 100 Vorkommen im deWaC
● Eigennamen Re(i)mbrandt 334 Vorkommen im deWaC
● und weitere …
16
Probleme der Tokenisierung
● Tokenisierung bricht BK-Wörter auf und verhindert Widerherstellung ursprünglicher Getrennt- und Zusammenschreibung, vgl.( Et)was fehlt .
(deWaC, Teil 5, Tokens 240463515-240463518)
Leider auch andere Pseudo- Entertainer(innen ) , wie Kuttner , RAAB ! ! ! ! ! , den ich persönlich sehr hasse , oder Pocher .
(deWaC, Teil 6, Tokens 109037985-109038010)
17
Probleme der Tokenisierung
● Alle Motive zusammen spiegeln die Nutzen‑(Präferenz- ) ‑Funktion des Entscheidungsträgers wider .
(deWaC, Teil 1, Tokens 7864422-7864433)
18
Probleme der Tokenisierung
● False PositivesAls (B)C-Klammerung gefundene syntaktische Parenthese:
die " Dame " wird niemals tramp ( landstreicher)sein können , die " lady " schon eher :- )
(deWaC, Teil 1, Tokens 100973894-100973910)
als Substantiv Neutrum wäre tramp ( Landstreicher)sein aber eine gültige BK
19
Probleme der Tokenisierung
● Zuordnung eines True Positives zum richtigen BK-Muster erschwertAls A(B)C-Klammerung gefundene (B)C-Klammerung:
Faustregel : Ein Ansatz als außergewöhnliche Belastung ist nur dann vorteilhaft , wenn die Unterhaltsleistung verhältnismäßig niedrig ist und der(Ex-)Ehegatte nur über ein geringes eigenes Einkommen verfügt .
(deWaC, Teil 2, Tokens 520394-520421)
20
Probleme der Tokenisierung
● Tokenizer nicht auf BK-Wörter trainiert
(BK wird aber auch in der Graphematik/Interpunktion nicht ausreichend thematisiert.)
● ähnliche Probleme in jedem anderen tokenisierten Korpus außer deWac zu erwarten
● andererseits sehr große Korpora nötig, um überhaupt irgendwelche BK-Wörter zu finden
● Gibt es sehr große untokenisierte Korpora?
21
Probleme des Taggings
● korpuseigenes Tagging unter den selben Vorbehalten zu gebrauchen wie korpuseigene TokenisierungGrds. bin ich allerdings der Meinung , dass jede(r ) das Radfahren beherrschen sollte .
(deWaC, Teil 1, Tokens 723994-724008)
● jede(r) in jeder Hinsicht ein PIS
● B-Klammern selbst keine Tokens
tok jede(r )
pos NE $(
lemma jede(r )
22
Probleme des Taggings
● Was tun mit bikaterogialen BK-Wörtern?Eine Frage noch : Kann man(n ) Intelligenz vortäuschen ?
(deWaC, Teil 1, Tokens 90786477-90786486)
● man(n) zum einen PIS bzw. man, zum anderen NN bzw. Mann
● B-Klammern selbst keine Tokens
tok man(n )
pos NE $(
lemma man(n )
23
Eigener Tagging-Ansatz
● Ermittlung von Trägerwort und Gesamtwort für jedes BK-Wort– ‘Trägerwort’ = BK-Wort exklusive Klammern
und exklusive Eingeklammertesman(n) → man
– ‘Gesamtwort’ = BK-Wort exklusive Klammern, aber inklusive Eingeklammertesman(n) → mann
24
Eigener Tagging-Ansatz
● zweimaliges Tagging jedes einzelnen Treffer-Satzes mit TreeTagger (Schmid 1994)– nach Substitution des BK-Worts durch das
TrägerwortKann man Intelligenz vortäuschen? → PIS
– nach Substitution des BK-Worts durch das GesamtwortKann mann Intelligenz vortäuschen? → NN
25
Auszählungen in deWaC
26
27
28
29
30
31
32
33
34
35
Belege für niederfrequenteBK-Elemente
Das Wissen darum , dass eine ungesunde Lebensweise viele Krankheiten ( mit)verursacht oder verschlimmert sollte unser Verhalten beeinflussen bevor wir krank werden .
(deWaC, Teil 6, Tokens 83798481-83798503)
Jedes Kind ist l(i)ebenswert !
(deWaC, Teil 1, Tokens 104044924-104044928)
Dein Herumhantieren mit konditionierten Vorstellungen , einer konditionierten dinglichen Welt , führt nicht aus dem Traum(a ) heraus , sondern einzig und allein tiefer hinein .
(deWaC, Teil 2, Tokens 195297237-195297262)
Seitdem Raumschiff Enterprise nicht mehr gesendet wird ist Fernsehen auch nicht mehr das was es wa(h)r .
(deWaC, Teil 6, Tokens 128793269-128793285)
36
Zusammenfassung
● BK ist selten, aber nicht irrelevant für Schreibung, Wortbildung und Wortschöpfung (Kontaminationen, in denen viele BK vorkommen, werden mitunter zur Wortschöpfung gezählt, s. Friedrich 2008)– Am meisten binnengeklammert wird in Substantiven;
weniger in Adjektiven und Verben (Dieser Befund ist in der bisherigen Literatur nur eine stillschweigende Annahme! vgl. Dietterle 2015d)
– Es wird auch in anderen Wortarten und sogar bikategorial binnengeklammert
● gegenwärtige Korpustools nicht auf BK trainiert
37
Ausblick
● noch zu untersuchen:– BK mit Binnen-Interpunktion– BK mit phrasalem BK-Element
Das ist schon deswegen völlig abwegig , weil da stetslinks- ( und rechts- ) hemisphärische Verarbeitungsareale und - über das gesamte Gehirn verteilte - Speicherungs-Netzwerke zusammenarbeiten , ohne dass die genauen " Lokalisierungen " der Speicherungen erkennbar sind .
(deWaC, Teil 1, Tokens 66827614-66827653)
38
Bibliographie
Baroni, Marco; Bernardini, Silvia; Ferraresi, Adriano; Zanchetta, Eros (2008): The WaCKy Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Kluwer Academic Publishers.
deWaC-Korpus (2008): erstellt von Marco Baroni u. a.; bereitgestellt von Humboldt-Universität zu Berlin.
Dietterle, Burkhard (2015d): Binnenklammerung. Eine Bibliographie. Hausarbeit: Humboldt-Universität zu Berlin.
Friedrich, Cornelia (2008): Kontamination – Zur Form und Funktion eines Wortbildungstyps im Deutschen. Dissertation. Friedrich-Alexander-Universität Erlangen-Nürnberg.
Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings of the Conference on New Methods in Language Processing. Manchester. S. 44-49.
Friedrich Schmitthenner (1824:76): Die Lehre von der Satzzeichnung oder Interpunction in der teutschen Sprache, nebst einer kurzen, vorbereitenden Darstellung der Satzlehre. Frankfurt am Main: Verlag der Hermannschen Buchhandlung.