Textkorpora in angewandter Slawistik [email protected] dsipka Fünf Beispiele.

22
Textkorpora in angewandter Slawistik [email protected] http://www.public.asu.edu/~dsipka Fünf Beispiele

Transcript of Textkorpora in angewandter Slawistik [email protected] dsipka Fünf Beispiele.

Textkorpora in angewandter Slawistik

[email protected]://www.public.asu.edu/~dsipka

Fünf Beispiele

Einleitung 1. NeuroTran(R), ein MT System zwischen Englisch und mehreren anderen (hauptsächlich slawischen) Sprachen, das in der Firma Translation Experts Ltd., aus London, GB entwickelt wurde. Mehr über diese Firma findet man unter: http://www.tranexp.com .

2. Rapid Deployment Morphology Lemmatisator der serbokroatischen Morphologie von New Mexico State University Computing Research Laboratory, Las Cruces, USA. Mehr über diese Institution ist unter: http://www.crl.nmsu.edu zu erfahren.

3. Serbokroatisch-Englisches Wörterbuch der Umgangssprache (Slang und Kolloquialismen), an dem ich für die Firma Multilingual Research and Management aus Washington, DC, USA arbeite. Mehr über diese Firma findet man unter: http://www.erols.com/hdqt

4. Serbokroatisch-Polnische kontrastive Untersuchungen an der Adam

Mickiewicz Universität in Posen, Polen. Die Informationen zur diesen Projekten sind unter: http://main.amu.edu.pl/~sipkadan/ erhältlich.

5. Slavisch-Englische Text Taggers, erhältlich unter http://www.asusilc.net/lctli.

Die Hauptkonzepte

Die Hauptkonzepte

a. Die Forderung der Minimalität, die verlangt, daß Informationen aus

Textkorpora mit der möglichst kleinsten Anstrengung, gewonnen werden,

b. Die Forderung der Wiederverwendbarkeit, die verlangt, daß ein und dasselbe Material für viele

Anwendungen geeignet ist.

NeuroTranForm Regel Beispiel

<Kopf> => ENGSCR GRM N[ADJECTIVE|PRONOUN] NOUN =>

my houses -> moj kućekuće ‘Häuser’ ist Feminin and Pluralund moj ‘mein’ ist Maskulin and Singular

<Körper, Linie 1>; COPY(2>1:NUMBER,GENDER) moj kuće -> moje kućeGeschlecht und Zahl ist von kuće auf moj kopiert

<Körper, Linie 2>;

....

<Körper, Linie n>

NeuroTran

<Hauptwort><POS tag><Gebrauchsanweisungen><Frequenzangaben><Kollokationsangaben> < Äquivalent 1>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben> < Äquivalent 2>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben > ... <Äquivalent 2><POS Tag><Gebrauchsanweisungen ><Frequenzangaben>< Kollokationsangaben >

NeuroTran

a. Kanonische Liste für die Quellsprache,

b. Gebrauchsanweisungen für die Quell- und Zielsprache,

c. Frequenzangaben für die Quell- und Zielsprache,

d. Lexikalische Valenz für die Zielsprache,

e. Grammatische Valenz für die Zielsprache,

f. Wort-Reihenfolge für die Zielsprache

NeuroTran

NeuroTranJestem w pracy. ->*I am in work.

w L;[...]/in A;[...]/at A;[...]

UNI GRM PREDICATE * PREPOSITION * NOUN => COLLOCATION(13->2)

work [to, at]

*I am in work -> I am at work.

ENGPOL GRM ADJECTIVE NOUN => COLLOCATION(1 2|2 1).

descriptive grammar -> *opisowa gramatyka -> gramatyka opisowaboring grammar -> nudna gramatyka -> nudna gramatyka

RDM

„The model is motivated by engineering concerns: the considerations of economy and efficiency led to the use of non-traditional definitions of morphemes. The model has been implemented in the RDM system in the framework of the Corelli project at CRL. It was initially done on the material of Russian and then successfully applied for Serbo-Croatian”.

RDM[1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G2), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G2), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G2), ][1483, 1486, 'vođe', 'vođ', NOUN(N;N1;C7;G1), ][1483, 1486, 'vođe', 'vođ', NOUN(N;N2;C4;G1), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G1), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G1), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G1), ] // the leaders[1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C7;G1), ][1487, 1487, ' ', ' ', SPACE(), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G1), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N1;C2;G2), ] // of the opposition[1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C1;G2), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G2), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C7;G2), ][1498, 1498, ' ', ' ', SPACE(), ][1499, 1507, 'koalicije', 'koalicija', NOUN(N;N1;C2;G2), ] // coalition[1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C1;G2), ][1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C4;G2), ]

Inxightsentence = 46-167 BOB Prop JOHNSON Prop , Punct-Comma trenér Nn-Sg-Case amerických Adj hokejistů Nn-Pl-Gen koučoval V-PaPart své Pron-Refl svěřence Nn-Sg-Case na Prep Kanadském Adj poháru Nn-Sg-Case z Prep nemocnice Nn-Sg-Gen ; Punct naši Pron-Poss porážejí V-Ind SSSR Prop 5:2 Num-Card ! Punct-Sent

Serbokroatisch-Englisches Wörterbuch der Umgangssprache

a. als eine der Quellen für das Hauptverzeichnis der serbokroatischen Einträge,

b. als eine der Quellen für Gebrauchsanweisungen,

c. als eines der Mittel des Mikrostrukturbaus des Wörterbuchs.

Serbokroatisch-Englisches Wörterbuch der Umgangssprache

631 od tebe, meni iz ruke mazne1

svesku, tri kruga optrči oko pećine, pocepa i odnese sve što sam napis'o, uskoči u kovčeg, a ti još

2825 radi. MIĆA: Ma, mazne1

Dragutinu stranu-dve iz sveske i to je to. IVA: To je to? MIĆA: Ma, da. IVA: I koliko to traje

87551 motre da neko ne mazne1

materijal. (razgovor preko radio stanice) B: (promenjenim glasom) Imal zime Marinko? F: Zima

87546 E pripremaju, ovaj, da maznu1

materijal sa Zetre. D: Eki? A znači to je ta operacija Laufer. C: Saznavši šta je operacija Laufer

74157 noć su Pišonja i Žuga maznuli1

kasetaš iz doma invalida A malo zatim i autobus Autoprevoza sa Hrida. Pišonja ubaci u brzinu, to

75449 A sve je puklo kada je maznuo1

lovu od ekskurzije Pošao je pjevat u kafani Bilo je gadno, bilo je degeneka Ko onda kad je pjevo

87478 tema. Ljepi Sabe je maznuo2

koku Soku onu najljepšu, od onog pingvina Šefika, sina od onog sladoledžije i oženio se s njom

75576 Mile ko fol žuri, Maznuo3

ga speed Amajlije mu zveckaju Na nozi šal od svile Korake mu ne čujem Jer nosaju ga vile Stigoh

87574 se neko, saću ga ja maznut.1

C: Stražar Marinko je primjetio kradljivca materijala. F: Stan druže, stani. (osoba B opet

28635 svašta, ja to znam. Maznuću1

mlin, na brzaka maknuti ga, na kvarnjaka, vaša mala Kalevala, biće zemlja sva propala. Veštica

1 maznuti ‘klauen’; 2 maznuti ‘anfangen mit einer Freundin zu gehen’; 3 maznuti ‘Rauschgiftwirkung fühlen’

Serbokroatisch-Englisches Wörterbuch der Umgangssprache

a. Wenn man anfängt, mit einer Freundin zu gehen, es ist wie sie zu klauen,b. Wenn man die Wirkung von Rauschgift fühlt, ist es wie von Rauschgift geklaut zu sein.

maznuti | 1 ‘klauen’; /\a. ‘anfangen zu gehen mit jemandem’ b. ‘Rauschgiftwirkung fühlen’

Kontrastive UntersuchungenPolnisch

Serbokroatisch

Autor Dawid Warszawski Milan Božić

Inhalt Berichte aus dem Krieg in der ehemaligen Jugoslawien

Kommentare zum Krieg in der ehemaligen Jugoslawien

Quelle Tageszeitung Gazeta Wyborcza Radio B 92

Form Datei Datei

Zeitraum 9/21/93 - 12/7/95 6/3/93 - 2/4/95

Umfang 979981 Zeichnen165566 tokens42914 types

994043 Zeichnen193890 tokens52502 types

Sprache Polnisch, Standard Serbokroatisch, Standard(Serbisch)

Serbokroatisch Polnisch

na televiziji w telewizji

na radiju w radiu

na referendumu w referendum

na izborima w wyborach

Taggers

Taggers:http://www.asusilc.net/cgi-bin/newtepajgu.pl

Exampleshttp://www.asusilc.net/exbcs.htm Offline

http://www.asusilc.net/expol.htm Offline

http://www.asusilc.net/exbcs.htm Offline

Language Selection

Pasting the Text

Tagged Text

Inflections

Zusammenfassung

a. Alle Informationen soll man erstmals aus Textkorpora zu gewinnen versuchen,

b. Es ist sehr wichtig robuste Werkzeuge dafür zu entwickeln,

c. Die Korpusangaben sollten ständig mit Informationen aus anderen Quellen

konfrontiert werden.