Einführung in der Korpuslinguistik
-
Upload
ismael-arinas-pellon -
Category
Documents
-
view
23 -
download
0
Transcript of Einführung in der Korpuslinguistik
-
Ismael Arinas Pelln Universidad Politcnica de Madrid (DLACT) 1
Korpuslinguistik1 (I): Was und wie wird analysiert?
Worber redet man? lexicalische Analyse2. Wie redet man? linguistische Analyse3. Wie werden Gedanken strukturiert? kognitive Kartographie (Darstellung der semantischen Verbindungen zwischen Ideen)4.
Wie wird Textinhalt gedeutet? thematische Analyse5. Korpusanalyse mit Antconc (http://www.antlab.sci.waseda.ac.jp/software.html):
1. Wortlisten
2. Schlsselwortlisten / Stichwortlisten
a) DE Korpus (Jahr 2004 als Referenzkorpus)
b) Wortart/Token6 ratio = Wortartnummer x 100 / Tokennummer
c) Vergleichen: 1958 und 1992 mit dem Referenzkorpus
3. Konkordanzen
a) Suchen ( DE 2002): wie (Konkordanzen sortieren)
b) Suchen: *ung|*schaft
c) Whlen "Regex", suchen: [w|W]+.rd[a-z]+
d) Whlen "Regex", suchen (Mrchen Korpus): [M|m]+[u]+(ss|)[a-z]+
e) Whlen "Regex", suchen: \bje\W+(?:\w+\W+){0,8}?desto\b
4. Kollocationen
a. Suchen (Krim Korpus): sanktion*
b. Suchen (Sachbcher Korpus): Welt*
5. nGrams/Wortgruppen - Clustern (Word clusters)
a. N-Grams Suche Krim Korpus): von 2 bis 5 lang, minimal Frequenz 3
b. Suchen (Mrchen Korpus): nicht (Cluster size von 2 bis 5, minimal
Frequenz 5)
1 http://www.bubenhofer.com/korpuslinguistik/kurs/ (27/02/2014) http://homepage.ruhr-uni-
bochum.de/stephen.berman/Korpuslinguistik/Allgemeines.html (27/02/2014) 2 http://www.ssg-bildung.ub.uni-erlangen.de/computerlexikographie.pdf (28/02/2014) http://epub.uni-
regensburg.de/6848/1/KorpuslinguistikGrosseeinsprachigeWoerterbuecherQuuasthoffWolff1999.pdf (04/03/2014) http://publikationen.ub.uni-frankfurt.de/frontdoor/index/index/docId/11807 (04/03/2014) 3 http://www.linguistik-online.de/27_06/huemmer.pdf (28/02/2014) http://epub.uni-
regensburg.de/10800/1/magisterarbeit.pdf (04/03/2014) 4 http://halshs.archives-ouvertes.fr/docs/00/82/14/48/PDF/2007AIMSFinal.pdf (04/03/2014)
5 http://tlab.it/en/features.php (04/03/2014)
6 "laufende Wrter"
-
Ismael Arinas Pelln Universidad Politcnica de Madrid (DLACT) 2
6. Kolligation "Als Kolligationen werden Paare sprachlicher Einheiten
bezeichnet, deren Zusammenhang durch die Bezeichnung ihrer syntaktischen
Kategorien un der Beziehungen zwischen diesan Kategorien weiter qualifiziert
ist." (Lemnitzer & Zinsmeister 2006:30)7
a. RegEx Suche (Sachbcher Korpus):
(sah|sahen|seh|sehen|sieh|sieht|gesehen)
b. Suchen: Menschen
7. Semantische Prferenz8
a. Suche (Mrchen Korpus) (Konkordanzen & Kollokationen):
helfen
b. Suche (Mrchen Korpus) (Konkordanzen & Kollokationen):
Mann|Mnner|Mnnchen
8. Semantische Prosodie9: "Die positive oder negative Konnotation, die ein Wort
durch die semantische Felder von ihrer gemeinsamen bertragen ist
Kollokatoren (siehe Kollokation). Siehe componential Analyse, Kontrastive
Analyse, Begriffsklrung".10
a. Suche (Mrchen Korpus): Hunger (Kwic Sort 1L, 1R, 2R)
b. Suche (Krim Korpus): Russland
Deutsch Korpora Links:
https://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/links/korpora_links#deutsch http://www1.ids-mannheim.de/kl/projekte/korpora/archiv.html http://www.lemnitzer.de/lothar/KoLi/dkorp.pdf http://www.gl.uni-bayreuth.de/de/download/KORPORA.pdf http://www.elsnet.org/resources/eciCorpus.html (Zeitungen, kostet 50) http://wacky.sslmit.unibo.it/doku.php?id=corpora#german
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/corpus/ http://ipsc.jrc.ec.europa.eu/index.php?id=198#c2728
7 Lemnitzer, Lothar & Zinsmeister, Heike (2006). Korpuslinguistik: eine Einfhrung. Tbingen: Narr
Francke Attempo Verlag. 8
http://books.google.es/books?id=ycJ_GpXxPRQC&pg=PA277&lpg=PA277&dq=semantische+pr%C3%A4ferenz&source=bl&ots=21IY4CpwOZ&sig=Igq0fuq4WYxhLkgXouAwpK7KGow&hl=da&sa=X&ei=MioXU__gOMavygPGn4LQBw&ved=0CDUQ6AEwAg#v=onepage&q=semantische%20pr%C3%A4ferenz&f=false 9 http://www.linguistik-online.de/27_06/huemmer.pdf (28/02/2014)
10 http://en.termwiki.com/DE:semantic_prosody (28/02/2014)
-
Ismael Arinas Pelln Universidad Politcnica de Madrid (DLACT) 3
Korpuslinguistik (II): Ein Sprachkorpus
1. Was und wie viel wird gesammelt?
http://www.exmaralda.org/en_index.html (Werkzeuge um gesprochene
Korpora zu bauen)
http://www.voxforge.org/de (Spracherkennungssystem fr
automatische Transkiptionen)
http://www.language-archives.org/ (Open Language Dataien)
2. Ethische Fragen (Zustimmung der Teilnemmer, Copyright, Anonymitt)
3. Transkiption (Zeit? Kosten? Kriterien? Konsistenz?)
4. Mit oder ohne Annotationen?11
Beispiel (sehen Sie Zusatzmaterial): http://dgd.ids-
mannheim.de:8080/dgd/pragdb.dgd_extern.sys_inv?v_session_id
= (verschiedene PDF-Dataien mit Konventionen)
5. Beispiele:
MICASE, http://quod.lib.umich.edu/m/micase/
BASE, http://www2.warwick.ac.uk/fac/soc/al/research/collect/base/
Bavarian Archive for Speech Signals, http://www.en.phonetik.uni-
muenchen.de/research/bav_arch_spsig/index.html
Datenbank fr gesprochenes Deutsch, http://dgd.ids-
mannheim.de:8080/dgd/pragdb.dgd_extern.sys_desc
OLAC resources in and about the German language,
http://www.language-archives.org/language/deu
6. Andere Initiativen, http://www.exmaralda.org/corpora/en_otherkorpora.html
7. Trkische Iniziativen (kontrastive Forschung, Kollaboration?),
http://www.tnc.org.tr/index.php/en/ (Turkish national corpus)
http://std.metu.edu.tr/en/ (gesprochenes trkisches Korpus)
11
http://www.uni-muenster.de/Linguistik/Xlex/Portal/MTPD/about.html (05/03/2014) http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf (05/03/2014) http://www.uni-potsdam.de/u/germanistik/ls_dgs/tiger-sampler-intro.ps.gz (06/03/2014) http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (05/03/2014) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/GermanTagsets.html (05/03/2014) http://www.petrovi.de/data/lrec.pdf (05/03/2014)