Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem...

39
Chancen und Probleme der Nutzung von Korpora, Taggern und anderen Sprachressourcen in sprachwissenschaftlichen Seminaren — ein Erfahrungsbericht — Heike Zinsmeister D-Spin Workshop “Sprachressourcen in der Lehre” BBAW, Berlin 18. Januar 2011

Transcript of Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem...

Page 1: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

Chancen und Probleme der Nutzung vonKorpora, Taggern und anderen Sprachressourcen

in sprachwissenschaftlichen Seminaren

— ein Erfahrungsbericht —

Heike ZinsmeisterD-Spin Workshop “Sprachressourcen in der Lehre”

BBAW, Berlin18. Januar 2011

Page 2: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 1

Leitfrage:

Welche Themen und Sprachressourcensind für Sprachwissenschaftler in der

Lehre relevant?

Page 3: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 2

Subjektiver Hintergrund (1)

• Lehrgebiete, in denen ich Sprachressourceneinsetze– Sprachwissenschaft

• Bsp: Diskursmodelle (Textlinguistik)

– Korpuslinguistik

• Bsp. Korpuslinguistische Methoden fürLinguisten

– Computerlinguistik

• Bsp. Maschinelle Übersetzung

Page 4: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 3

Subjektiver Hintergrund (2)

• Querschnitt der von mir eingesetzten Ressourcen– Anreicherung

• Treetagger, Lopar• XLE (Grammatikentwicklung, Transfer, Parser, Online)• EXMARaLDA, MMAX2, CLaRK, Annotate, Salto, RST-

Tool, ...– Recherche

• DWDS, COSMAS, CQP• TigerSearch, Tgrep, Linguist‘s Search Engine

– Korpora etc.• Texte des Projekt Gutenberg, Penn Treebank, TüBa-D/Z,

TIGER-Korpus, DWDS-Korpora, IDS-Korpora,...• WordNet, FrameNet, Salsa, ...

(für Referenzen siehe die letzten Folien)

Page 5: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 4

Zwei Lehr-/Lernzieltypen

• Methodenkompetenz• Bsp.: Einsatz von Tools und Datenressourcen zur

Annotation / Suche / Analyse

Praktisches Wissen um die Nutzung von Toolsund Ressourcen

• Verstehen einer linguistischen Fragestellung• Bsp. Anaphorische und Koreferenzbezüge

Tool/Ressource als Mittel zum Zweck

Page 6: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 5

Einsatzszenarien

• “Auf der Bühne”– Studierende nutzen die Tools und Ressourcen selbst– im Seminar / in Übungen / Projekten / Abschlussarbeiten

• “Hinter den Kulissen”– Lehrende verwenden Tools und Ressourcen zur Erstellung

von Unterrichtsmaterialien• Beispiele, Übungen, Abbildungen

(vgl. Aston 2000 zum Einsatz vonKorpora im Fremdsprachenunterricht)

• “Schatten”– Tools werden auf Folien etc. im Unterrichtsvortrag

vorgestellt (evtl. einschließlich Demos im Unterricht?)

Page 7: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 6

Nutzungsszenarien in der Lehre

Aufgabenstellung

Tool auch Online-schnittstellen

Korpus

Abfrage-ergebnis

Eingabe-daten

Manipu-lierteDaten

Tool

Interpretation / Nutzung

Page 8: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 7

Szenarium I

Aufgabenstellung

Tool

Korpus

Abfrage-ergebnis

Interpretation / Nutzung

Page 9: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 8

Beispiel: GermaNet

• http://www.sfs.uni-tuebingen.de/GermaNet/• Lexikalisch-semantische Ressource für das Deutsche• nach dem Vorbild des englischen WordNet

http://wordnetweb.princeton.edu/perl/webwn

(http://arbuckle.sfs.uni-tuebingen.de/GermaNet/Nouns.html#Relations)

Page 10: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 9

WordNet

(http://wordnetweb.princeton.edu)

Page 11: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 10

GermaNet in der Lehre

• Seit 2008 nicht mehr kostenpflichtig fürForschung und Lehre

• Tools– APIs (Java, Perl)

– GermaNet Explorer, GermaNet Pathfinder(Cramer & Fintheimer 2008, Fintheimer & Cramer 2008)

• Neu: Online-abfragbar über Canoo.nethttp://www.canoo.net

Page 12: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 11

Szenarium II

Aufgabenstellung

Eingabe-daten

Manipu-lierteDaten

Tool

Interpretation / Nutzung

Page 13: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 12

Beispiel: Linguistik & Annotation

• Lesarten des Pronomens ‘es’

• Annotierte Daten als potenzielleTrainingsdaten für einen Klassifikator– Präprozessierung für Koreferenzauflösung

– Koreferenzauflösung ist wichtig für

• Informationsextraktion

• Automatische Zusammenfassung

• Maschinelle Übersetzung

• etc.

Page 14: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 13

Annotation: Lesarten von ‘es’

Nominale Anapher

(1) Das Baby liegt in der Wiege. Es schläft ruhig.

Abstrakte Anapher

(2) Die Benzinpreise steigen wieder und das gefällt mir nicht.

Korrelat

(3) Es ist gut, dass Peter kommen konnte.

Wetterverben / Prädikative der Zeit, des Orts, etc.

(4) ... weil es regnete / ... weil es schon drei Uhr war.

Vorfeld-Es

(5) Es wurde bis zum Morgen getanzt.

(adaptiert von Boyd et al. 2005, Naumann 2006)

Page 15: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 14

Annotationsrichtlinien

Entscheidungsbaum linguistischer Tests:Referiert ‘es’ auf einen Referenten, der an anderer Stelle im Text

erwähnt wird? Test: nämlich-Paraphrase

ja = referenzielles Pronomen nein = Expletiv

Ist das Antezedens Fungiert es als Platzhalterdes Pronomens als für ein satzwertigesNP realisiert? Argument (einschließlichTest: NP-Kriterien nicht-finite Phrasen)?

Test: Ersetzung; Satz-ja nein Kriterien Nominale Abstrakte ja neinAnapher Anapher

Korrelat Rest

Page 16: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 15

Annotationstool: MMAX2

(cf. Müller & Strube 2006)

Page 17: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 16

Rahmenkriterien für dieses Szenario (1)

• Ort– Online

• Auslastung / Geschwindigkeit– Pool

• Kenntnis der Hardware / des ‘Handlings’– Heim

• private Rechner / zu Hause / Hilfestellung

• Ausstattung– Vielfalt von Plattformen– Einbindung bestehender Programme

• Positiv von Seiten des Programmierung• Problematisch im “Heim”-Einsatz (evtl. im Pool)

Page 18: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 17

• Zeit– Sitzung / Übungsstunde / Hausaufgabe /

seminarbegleitendes Projekt / abschließendes Projekt

• Dokumentation

• Kodierung

• Eingabe- / Ausgaberepräsentationen

• Visualisierung der Such- / Manipulationsergebnisse

• Evaluierung– quantitativ: Übereinstimmung abstrahiert vom Zufall

– qualitativ: Konfusionsmatrix

Rahmenkriterien für dieses Szenario (2)

Page 19: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 18

Relevante Ressourcen: Sprachwissenschaft

• Daten– (Annotierte) Korpora– lexikalische Ressourcen

• Tools– Online-Schnittstelle– zur Analyse der Daten– zur Aufbereitung der Daten

• Expertise– Tagsets– Anfragesprachesprache– Bedienung der Tools

Page 20: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 19

Leitfrage:

Sprachressourcen in Curricula?

Page 21: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 20

Universität Konstanz: BA Sprachwissenschaft

• Modul 4: Weiterführende Gebiete der Linguistik (Ling220)

• Ling 231 Computerlinguistik• Dieses Seminar führt Grundideen aus der

Computerlinguistik ein und erklärt, wie allgemeinerhältliche Applikationen (z.B. Spracherkennung,POS-Tagging, Maschinelle Übersetzung,Grammar/Spell Checking, Suchfunktionen inWebbrowsern, Text Summarization) funktionierenund wie sie noch verbessert werden könnten.– Ling 232 Maschinelle Übersetzung– Ling 251 Neue Entwicklungen, sonstige Anwendungen

Nutzung vonOnline-Ressourcen

Page 22: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 21

MA Allgemeine Sprachwissenschaft (1)

• Modul-Einheit: Ling 381 Methodenlehre– Wahlpflichtveranstaltung

• In diesem Seminar werden verschiedene Methodenvorgestellt, wie linguistische Daten direkt vonSprechern zu gewinnen und korrekt zu analysierensind, namentlich von Sprechern weniger gutbeschriebener Sprachen (Fragebogenerhebung,Feldforschung). Für typische Anwendungsgebietestatistischer Verfahren in der Sprachwissenschaft,z.B. im Bereich der Phonetik, der Psycho- oderNeurolinguistik oder corpusbasierter Studienwerden grundlegende und weit verbreitete Verfahrenund Methoden vermittelt.

Page 23: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 22

MA Allgemeine Sprachwissenschaft (2)

• Modul 3: Sprachverarbeitung (Ling 330-340)– Ling 331 Computerlinguistik– Ling 341 Psycholinguistik– Ling 343 Neurolinguistik

• Die Studierenden wählen zwei Schwerpunkte aus denBereichen der Computerlinguistik, der Psycholinguistik oderder Neurolinguistik. Es werden vertiefte Kenntnisse deraktuellen Forschungsfragen und -methoden vermittelt. Indiesem Seminar werden aktuelle und klassische Themen derComputerlinguistik vertieft behandelt. Zu ausgewählten Themenwerden Überblicksartikel gelesen und es werden dazuImplementierungen diskutiert. Typische Themen sind Parsing,Generierung, Computationelle Semantik, Ontologien,Repräsentationsmöglichkeiten, Text Mining, InformationExtraction und Text Summarization.

Page 24: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 23

MA Speech and Language Processing

• Modul 2: Maschinelle Sprachverarbeitung (Ling331)– Zweiter Modulteil: Menschliche Sprachverarbeitung

• Aktuelle und klassische Themen der Computer-linguistik werden vertief behandelt. Zuausgewählten Themen werden Überblicksartikelgelesen und es werden dazu Implementierungendiskutiert. Typische Themen sind Parsing,Generierung, Computationelle Semantik, Ontologien,Repräsentationsmöglichkeiten, Text Mining,Information Extraction, Text Summarization.

Page 25: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 24

MA Speech and Language Processing

• Modul 3: Sprachverarbeitung– Ling 332 Regelbasierte Maschinelle

Sprachverarbeitung

– Ling 333 Corpuslinguistik• Programmieren mit Perl oder Python. Arbeiten

mit Corpora, Errechnen von Informationen zuden Corpora und Extraktion von Informationenaus den Corpora mittels eigenständiggeschriebener Programme.

Page 26: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 25

Leitfrage:

Welche Ressourcen werden bevorzugtund gern praktisch eingesetzt?

Page 27: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 26

Auswahlkriterien

• Eigenschaften– Handhabbarkeit

• unmittelbar: Seminarstunde– Wiederanwendbarkeit

• mittelfristig: relevant fürs Studium (z.B.Abschlussarbeit)

– Übertragbarkeit• langfristig: berufsrelevante Kompetenz

• Beispiele:– STTS (Schiller et al. 1999); TreeTagger (Schmid 1994)

Page 28: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 27

Auswahlkriterien (2)

• Online-Zugang– Ist die Prozedur transparent?

• „Download and run / use“– Kennt man die Entwickler persönlich?

– Verwendet man es in der eigenen Forschung?Wurde es in anderen, lokalen Projektenverwendet? („Stallgeruch")

Page 29: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 28

Leitfrage:

Verbesserung und Erleichterung desdidaktischen Einsatzes von

Sprachressourcen

Page 30: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 29

Rahmenbedingungen

(Wiederholung:)• Lehrende: Motivation, eigenes Know-how, Zugriff auf

Expertenwissen• Studierende: Motivation (kurzfristig, langfristig),

eigenes Know-how, Zugriff auf Expertenwissen• Technisches Umfeld

– Plattform, Datenformat, Tool– Poolrechner / begrenzter Zugriff / eigene Arbeiten später an

eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac)

• Räumliches Umfeld• Zeitliches Umfeld

Page 31: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 30

Wünsche: Übersicht

• Zentraler Überblick– Katalog von Sprachressourcen– Zentrale Infostelle

• Anleitung / Hilfestellung– Dokumentation– Fortbildungen– Expertenrat (Hotline, „Network of Expterise“)

• Motivation– Sammlung von Forschungsfragen– Aufzeigen von Anwendungsgebieten

Page 32: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 31

Wünsche: Dokumentation (1)

• Online zugänglich– ggfs. als Wiki

• Handbuch für ein Werkzeug– Erklärender Text– FAQs– Beispiel

• Input- / Outputdatenformat (auch als vollständige Datei)• konkreter Aufruf• ggf. mit Screenshots

• Wissenschaftliche Artikel• Hauptreferenz

Page 33: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 32

Wünsche: Dokumentation (2)

Annotationsrichtlinien als Dokumentation einerannotierten Korpusressource

• Definitionen– Klassifikationen– Etiketten / Labels– ‘Markables’

• Linguistische Tests– operationalisierte Kriterien, um ein Markable mit einer bestimmten

Etikette zu versehen

• Beispiele– unkontroverse Fälle– problematische Fälle

• Diskussionen• Fallentscheidungen

Page 34: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 33

Wünsche: Tools

• Nutzungsoptionen– Onlinenutzung / Download

• Konvertierungsprogramme für– das Eingabeformat

• Bsp.: ein-Wort-pro-Zeile– die Eingabekodierung

• Bsp.: in utf-8

• Werkzeug / Anleitung zur Interpretation derOutputdaten

• Webformular zur Bewertung von Annotationsqualität– Inter-Annotatoren-Übereinstimmung– Konfusionsmatrizen

Page 35: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 34

Referenzen: Annotation

• Annotate– Plaehn, Oliver und Thorsten Brants. 2000. Annotate - An Efficient Interactive

Annotation Tool. In 6th Applied Natural Language Processing Conference (ANLP '00),Seattle, Washington, USA.

– http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/annotate.html

• CLaRK– http://www.bultreebank.org/clark/index.html

• EXMARaLDA– Schmidt, Thomas. 2004. EXMARaLDA - ein Modellierungs- und

Visualisierungsverfahren für die computergestützte Transkription gesprochenerSprache. In: Buchberger, E. (Hrsg.): Proceedings of Konvens 2004, Schriftenreihe derÖsterreichischen Gesellschaft für Artificial Intelligence 5, Wien.

– http://www.exmaralda.org/

• LoPar– Schmid, Helmut. 2000. LoPar: Design and Implementation. Arbeitspapiere des

Sonderforschungsbereiches 340, No. 149, IMS Stuttgart.– http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/LoPar.html

• MMAX2– Müller, Christoph und Michael Strube. 2006. Multi-Level Annotation of Linguistic Data

with MMAX2. In: Sabine Braun, Kurt Kohn, Joybrato Mukherjee (Hrsg.): CorpusTechnology and Language Pedagogy. New Resources, New Tools, New Methods.Frankfurt: Peter Lang, 197-214. (English Corpus Linguistics, Vol.3).

– http://mmax2.sourceforge.net/

Page 36: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 35

Referenzen: Annotation

• RST-Tool– O'Donnell, Michael. 2000. RST-Tool 2.4 – A Markup Tool for Rhetorical Structure

Theory. Proceedings of the International Natural Language Generation Conference(INLG'2000), Mitzpe Ramon, Israel. 253–256.

– http://www.wagsoft.com/RSTTool

• Salto– Burchardt, Aljoscha, Katrin Erk, Anette Frank, Andrea Kowalski und Sebastian Padó.

2006. SALTO – A Versatile Multi-Level Annotation Tool. In Proceedings of LREC-2006, Genua, Italien.

– http://www.coli.uni-saarland.de/projects/salsa/page.php?id=software

• TreeTagger– Schmid, Helmut. 1994. Probabilistic Part-of-Speech Tagging using Decision Trees. In

Proceedings of the 1st International Conference on New Methods in LanguageProcessing.

– http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

• XLE (Xerox Linguistic Environment)– http://www2.parc.com/isl/groups/nltt/xle/– xle web interface: http://decentius.aksis.uib.no/logon/xle.xml

Page 37: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 36

Referenzen: Suche

• DWDS– Korpussuchtool des Projekts Digitales Wörterbuch der Deutschen Sprache

http://www.dwds.de/

• COSMAS– Korpussuchtool des Instituts für Deutsche Sprache http://www.ids-

mannheim.de/cosmas2/

• CQP– Corpus Query Processor der IMS Open Corpus Workbench

http://cwb.sourceforge.net/index.php

• TigerSearch– http://www.wolfganglezius.de/doku.php?id=cl:tigersearch

• Tgrep2– http://tedlab.mit.edu/~dr/Tgrep2/

• Linguist‘s Search Engine– http://lse.umiacs.umd.edu/ (wird nicht länger unterstützt)

Page 38: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 37

Referenzen: Korpora etc.

• Texte des Projekt Gutenberg:http://www.gutenberg.org/wiki/Main_Page

• Penn Treebank: http://www.cis.upenn.edu/~treebank/• TüBa-D/Z: http://www.sfs.uni-tuebingen.de/tuebadz.shtml• TIGER-Korpus http://www.ims.uni-stuttgart.de/projekte/TIGER/• DWDS-Korpora: http://www.dwds.de/• IDS-Korpora: http://www.ids-mannheim.de/kl/corpora.html• WordNet: http://wordnet.princeton.edu/• GermaNet http://www.sfs.uni-tuebingen.de/GermaNet/• FrameNet: http://framenet.icsi.berkeley.edu/• Salsa: http://www.coli.uni-

saarland.de/projects/salsa/page.php?id=index

Page 39: Chancen und Probleme der Nutzung von Korpora, …g91254/dspin-workshop-lehre/... · eigenem Computer / evtl. ungewohnte Umgebung (z.B.Mac) •Räumliches Umfeld •Zeitliches Umfeld.

18.01.2011 38

Weitere Referenzen

• Aston, Guy. 2000. Learning English with the British National Corpus. In:M.P. Battaner & C. López (Hrsg.) VI jornada de corpus lingüístics.Barcelona: Institut universitari de lingüística aplicada, UniversitatPompeu Fabra. 15-40.

• Cramer, Irene und Marc Finthammer. 2008. Tools for ExploringGermaNet in the Context of CL-Teaching. In: Storrer, A., Geyken, A.,Siebert, A. und K.-M- Würzner (Hrgs.): Text Resources and LexicalKnowledge. Selected Papers from the 9th Conference on NaturalLanguage Processing (KONVENS 2008). Berlin/New York: Mouton deGruyter, 195-208.

• Finthammer, Marc und Irene Cramer. 2008. Exploring and Navigating:Tools for GermaNet. In: Proceedings of the 6th InternationalConference on Language Resources and Evaluation (LREC 2008).Marrakech, Marokko, Mai 2008. Paris: ELRA.