Einführung in der Korpuslinguistik

download Einführung in der Korpuslinguistik

of 3

Transcript of Einführung in der Korpuslinguistik

  • Ismael Arinas Pelln Universidad Politcnica de Madrid (DLACT) 1

    Korpuslinguistik1 (I): Was und wie wird analysiert?

    Worber redet man? lexicalische Analyse2. Wie redet man? linguistische Analyse3. Wie werden Gedanken strukturiert? kognitive Kartographie (Darstellung der semantischen Verbindungen zwischen Ideen)4.

    Wie wird Textinhalt gedeutet? thematische Analyse5. Korpusanalyse mit Antconc (http://www.antlab.sci.waseda.ac.jp/software.html):

    1. Wortlisten

    2. Schlsselwortlisten / Stichwortlisten

    a) DE Korpus (Jahr 2004 als Referenzkorpus)

    b) Wortart/Token6 ratio = Wortartnummer x 100 / Tokennummer

    c) Vergleichen: 1958 und 1992 mit dem Referenzkorpus

    3. Konkordanzen

    a) Suchen ( DE 2002): wie (Konkordanzen sortieren)

    b) Suchen: *ung|*schaft

    c) Whlen "Regex", suchen: [w|W]+.rd[a-z]+

    d) Whlen "Regex", suchen (Mrchen Korpus): [M|m]+[u]+(ss|)[a-z]+

    e) Whlen "Regex", suchen: \bje\W+(?:\w+\W+){0,8}?desto\b

    4. Kollocationen

    a. Suchen (Krim Korpus): sanktion*

    b. Suchen (Sachbcher Korpus): Welt*

    5. nGrams/Wortgruppen - Clustern (Word clusters)

    a. N-Grams Suche Krim Korpus): von 2 bis 5 lang, minimal Frequenz 3

    b. Suchen (Mrchen Korpus): nicht (Cluster size von 2 bis 5, minimal

    Frequenz 5)

    1 http://www.bubenhofer.com/korpuslinguistik/kurs/ (27/02/2014) http://homepage.ruhr-uni-

    bochum.de/stephen.berman/Korpuslinguistik/Allgemeines.html (27/02/2014) 2 http://www.ssg-bildung.ub.uni-erlangen.de/computerlexikographie.pdf (28/02/2014) http://epub.uni-

    regensburg.de/6848/1/KorpuslinguistikGrosseeinsprachigeWoerterbuecherQuuasthoffWolff1999.pdf (04/03/2014) http://publikationen.ub.uni-frankfurt.de/frontdoor/index/index/docId/11807 (04/03/2014) 3 http://www.linguistik-online.de/27_06/huemmer.pdf (28/02/2014) http://epub.uni-

    regensburg.de/10800/1/magisterarbeit.pdf (04/03/2014) 4 http://halshs.archives-ouvertes.fr/docs/00/82/14/48/PDF/2007AIMSFinal.pdf (04/03/2014)

    5 http://tlab.it/en/features.php (04/03/2014)

    6 "laufende Wrter"

  • Ismael Arinas Pelln Universidad Politcnica de Madrid (DLACT) 2

    6. Kolligation "Als Kolligationen werden Paare sprachlicher Einheiten

    bezeichnet, deren Zusammenhang durch die Bezeichnung ihrer syntaktischen

    Kategorien un der Beziehungen zwischen diesan Kategorien weiter qualifiziert

    ist." (Lemnitzer & Zinsmeister 2006:30)7

    a. RegEx Suche (Sachbcher Korpus):

    (sah|sahen|seh|sehen|sieh|sieht|gesehen)

    b. Suchen: Menschen

    7. Semantische Prferenz8

    a. Suche (Mrchen Korpus) (Konkordanzen & Kollokationen):

    helfen

    b. Suche (Mrchen Korpus) (Konkordanzen & Kollokationen):

    Mann|Mnner|Mnnchen

    8. Semantische Prosodie9: "Die positive oder negative Konnotation, die ein Wort

    durch die semantische Felder von ihrer gemeinsamen bertragen ist

    Kollokatoren (siehe Kollokation). Siehe componential Analyse, Kontrastive

    Analyse, Begriffsklrung".10

    a. Suche (Mrchen Korpus): Hunger (Kwic Sort 1L, 1R, 2R)

    b. Suche (Krim Korpus): Russland

    Deutsch Korpora Links:

    https://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/links/korpora_links#deutsch http://www1.ids-mannheim.de/kl/projekte/korpora/archiv.html http://www.lemnitzer.de/lothar/KoLi/dkorp.pdf http://www.gl.uni-bayreuth.de/de/download/KORPORA.pdf http://www.elsnet.org/resources/eciCorpus.html (Zeitungen, kostet 50) http://wacky.sslmit.unibo.it/doku.php?id=corpora#german

    http://optima.jrc.it/Acquis/JRC-Acquis.3.0/corpus/ http://ipsc.jrc.ec.europa.eu/index.php?id=198#c2728

    7 Lemnitzer, Lothar & Zinsmeister, Heike (2006). Korpuslinguistik: eine Einfhrung. Tbingen: Narr

    Francke Attempo Verlag. 8

    http://books.google.es/books?id=ycJ_GpXxPRQC&pg=PA277&lpg=PA277&dq=semantische+pr%C3%A4ferenz&source=bl&ots=21IY4CpwOZ&sig=Igq0fuq4WYxhLkgXouAwpK7KGow&hl=da&sa=X&ei=MioXU__gOMavygPGn4LQBw&ved=0CDUQ6AEwAg#v=onepage&q=semantische%20pr%C3%A4ferenz&f=false 9 http://www.linguistik-online.de/27_06/huemmer.pdf (28/02/2014)

    10 http://en.termwiki.com/DE:semantic_prosody (28/02/2014)

  • Ismael Arinas Pelln Universidad Politcnica de Madrid (DLACT) 3

    Korpuslinguistik (II): Ein Sprachkorpus

    1. Was und wie viel wird gesammelt?

    http://www.exmaralda.org/en_index.html (Werkzeuge um gesprochene

    Korpora zu bauen)

    http://www.voxforge.org/de (Spracherkennungssystem fr

    automatische Transkiptionen)

    http://www.language-archives.org/ (Open Language Dataien)

    2. Ethische Fragen (Zustimmung der Teilnemmer, Copyright, Anonymitt)

    3. Transkiption (Zeit? Kosten? Kriterien? Konsistenz?)

    4. Mit oder ohne Annotationen?11

    Beispiel (sehen Sie Zusatzmaterial): http://dgd.ids-

    mannheim.de:8080/dgd/pragdb.dgd_extern.sys_inv?v_session_id

    = (verschiedene PDF-Dataien mit Konventionen)

    5. Beispiele:

    MICASE, http://quod.lib.umich.edu/m/micase/

    BASE, http://www2.warwick.ac.uk/fac/soc/al/research/collect/base/

    Bavarian Archive for Speech Signals, http://www.en.phonetik.uni-

    muenchen.de/research/bav_arch_spsig/index.html

    Datenbank fr gesprochenes Deutsch, http://dgd.ids-

    mannheim.de:8080/dgd/pragdb.dgd_extern.sys_desc

    OLAC resources in and about the German language,

    http://www.language-archives.org/language/deu

    6. Andere Initiativen, http://www.exmaralda.org/corpora/en_otherkorpora.html

    7. Trkische Iniziativen (kontrastive Forschung, Kollaboration?),

    http://www.tnc.org.tr/index.php/en/ (Turkish national corpus)

    http://std.metu.edu.tr/en/ (gesprochenes trkisches Korpus)

    11

    http://www.uni-muenster.de/Linguistik/Xlex/Portal/MTPD/about.html (05/03/2014) http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf (05/03/2014) http://www.uni-potsdam.de/u/germanistik/ls_dgs/tiger-sampler-intro.ps.gz (06/03/2014) http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (05/03/2014) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/GermanTagsets.html (05/03/2014) http://www.petrovi.de/data/lrec.pdf (05/03/2014)