Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin...

14
www.bkms.org Bernd-Kristian Kacze Humboldt-Universität zu Berlin Bosnisc h Kroatis ch Montenegrinis ch Serbis ch 3. Symposium „Die grammatikalischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“ Graz, 16.-18. April 2009

Transcript of Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin...

Page 1: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

www.bkms.org

Bernd-Kristian KaczenskiHumboldt-Universität zu Berlin

Bosnisch Kroatisch Montenegrinisch Serbisch

3. Symposium „Die grammatikalischen Unterschiede zwischen dem Bosnischen/Bosniakischen,

Kroatischen und Serbischen“

Graz, 16.-18. April 2009

Page 2: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

Varietätenraum(nach: Gibbon 1998)

Page 3: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

Variationsraum: Dimensionen und Varietäten

Page 4: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

Ein Varietätenkorpus erfasst mit Metadaten annotierte, schriftlich oder mündlich geäußerte Texte eines Varietätenraumes, und macht Varietäten als Teilmengen des Varietätenraumes durch eine exogene Rahmenstruktur sichtbar und vergleichbar. Dabei sind Varietäten selbst Teilmengen anderer Varietäten, sie überschneiden sich und bilden Schnittmengen. Die kleinste Varietät ist der Ideolekt, also die Sprache eines Sprechers oder die eines Textes. Textimmanente Varietät wird per definitionem nicht betrachtet, obwohl streng genommen manch ein Text (besonders Romane) eine Art Mikrovarietätenraum (Sprache des Erzählers vs. Sprache der Charaktere, etc.) eröffnet. Die primäre Funktion eines Varietätenkorpus ist die Ausdifferenzierung von Varietäten.

Definition „Varietätenkorpus“:

Page 5: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

„In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z.B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten“

(Lüdeling, A. (2007): Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik. In: Kallmeyer, W. / Zifonum, G. (eds.): Sprachkorpora – Daten mengen und Erkenntnisfortschritt (= Institut für Deutsche Sprache, Jahrbuch 2006). Berlin, New York. S. 28 – 48.)

STTS (Stuttgart-Tübingen Tagset)

CLAWS Tag Set /Penn Treebank Tag Set

Hunden_NN_­MASK_­AKK_­PL­

Page 6: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

MULTEXT­Richtlinien

MSD (morpho syntactic descriptions)

Ncms­is equivalent to

PoS:Noun,

Type:common,

Gender:masculine,

Number:singular“

Page 7: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

n Token

m Tags

Können konkurrierenKönnen widersprüchlich sein

Erweiterbarindividuell

Token 1 : Tag 1 manuell durch xyz eingefügtToken 1: Tag 73 auto 73%

Token 1: Tag 132 auto 52%Token 2: Tag 2 auto 95%

Token 2: Tag 132 auto 67%

KEINE NULLSTELLEN !!!

Page 8: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.
Page 9: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

Strikte Trennung von Annotations- und Referenzebene

Keine Redundanz Ein Wortform = eine ID 3 Entitäten: Lemmata, Typs und Tags Entitäten können bei Suchabfragen beliebig

kombiniert werden.

Page 10: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.

Ausblick

Statistisch abgesicherte Daten für beliebige Vergleichsabfragen in allen Dimensionen des Varietätenraumes

Benutzerfreundlichkeit durch AJAX-Technologie (Visualisierung)

Dynamik, Flexibilität und Erweiterbarkeit Übersetzungssoftware und

Textverarbeitungsprogramme

Page 11: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.
Page 12: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.
Page 13: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.
Page 14: Www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin BosnischKroatischMontenegrinischSerbisch 3. Symposium Die grammatikalischen Unterschiede.