Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale...

43
Vertretene Ressourcen und Tools

Transcript of Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale...

Page 1: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Vertretene Ressourcen und Tools

Page 2: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Bayerisches Archiv für Sprachsignale (BAS)

Institut für Phonetik und Sprachverarbeitung (IPS)

LMU München

Christoph Draxler

Page 3: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

BAS – Vertreter

•  Arbeitsgruppe: •  Sprachdatenbanken

•  Interessengebiet: •  Webtechnologien für den Aufbau und

die Nutzung von Sprachdatenbanken

Page 4: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

BAS - Ressourcen

•  VOYS, ALC, Ph@ttSessionz, PhonLab, SmartWeb, etc.

•  Anwendungsnahe Sprachdatensammlungen

Page 5: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

BAS - Tools

•  SpeechRecorder: skriptbasierte Sprachaufnahme

•  WikiSpeech: webbasierte Sprachkorpus-Erstellung

•  MAUS: automatische Segmentation •  Txt2lex: Graphem- zu Phonemkonverter •  Emu: Segmentation und statistische

Auswertung •  (Praat, PostgreSQL, Java Web Start, R,

uvam.)

Page 6: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Berlin

Lothar Lemnitzer

Page 7: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

BBAW -Vertreter

•  Arbeitsgruppe: •  Digitales Wörterbuch der Deutschen

Sprache •  Interessengebiet:

•  Standards für (elektronische) lexikalische Ressourcen

Page 8: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

BBAW - Ressourcen

•  Lexikalisch: •  WDG/DWDS-WB •  Etymologisches Wörterbuch

•  Korpora: •  Kernkorpus 20/21. Jh. (Schriftsprache) •  DTA (Schriftsprache 1650-1900) •  div. Spezialkorpora

Page 9: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

BBAW - Tools

•  Ressourcenverwaltung: •  DDC-Suchmaschine

•  Metadatensammlung: •  Fedora für die Distribution

Page 10: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Goethe Universität Frankfurt Abteilung für geisteswissenschaftliche Informatik

Rüdiger Gleim

Page 11: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Goethe Universität – Vertreter

•  Arbeitsgruppe: •  Abteilung für geisteswissenschaftliche

Fachinformatik •  Interessengebiet:

•  Computerlinguistik •  Texttechnologie

Page 12: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Goethe Universität – Ressourcen

•  Historische Korpora •  Gegenwartssprachliche Korpora •  Lexika •  Bilddatenbanken •  Annotation multimodaler Ressourcen

Page 13: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Goethe Universität – Tools

•  eHumanities Desktop

Page 14: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Institut für Deutsche Sprache TextGrid (u.a. AG Digitale Bibliothek) Korpuslinguistik, Computerlinguistik,

Germanistik

Andreas Witt

Page 15: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Statische Ressourcen (Auswahl)

•  Deutsches Referenzkorpus (DeReKo) •  Archiv Gesprochenes Deutsch (AGD) •  elexiko •  Grammatisches Informationssystem

(GRAMMIS) •  mit TextGrid: Die Digitale Bibliothek (im

Aufbau)

Page 16: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Werkzeuge

•  Corpus Search, Management and Analysis System (COSMAS II)

•  Gesprächsanalytisches Informationssystem (GAIS)

•  Online-Wortschatz-Informationssystem Deutsch (OWID)

Page 17: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB-732, Incremental specification in context Institut für Maschinelle Sprachverarbeitung (IMS) Universität Stuttgart

Ulrich Heid

Page 18: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

IMS - Vertreter

•  Arbeitsgruppe Nachhaltigkeit von Ressourcen: •  Prof. Dr. Hinrich Schütze (Vorsitz) •  Prof. Dr. Klaus von Heusinger (Linguistik) •  Dr. Antje Schweitzer (Phonetik) •  Jun.-Prof. Dr. Sebastian Pado (Psycholing.

Experimente)

•  Interessengebiete (Heid): •  Korpusannotation •  Lexikographie •  Korpuswerkzeuge

Page 19: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Phonetik-Projekte des SFB •  2 Radionachrichtenkorpora (1.5 bzw. 6h)

•  Segment-, Silben- und Wortannotation (SAMPA, ESPS Format)

•  prosodische Annotation (GToBI, ESPS Format), manuell

•  Informationsstatus-Annotation (TiGer-XML/SALTO), manuell

•  3 Unit Selection Korpora fü ̈r Sprachsynthese (1.5, 2.5, 3h) •  Segment-, Silben- und Wortannotation (SAMPA, ESPS Format)

•  prosodische Annotation (GToBI, ESPS Format), manuell

•  daraus abgeleitete Evaluationsdaten fü ̈r Phone Acquisition

•  Werkzeuge

•  Multiple description toolbox, implementiert in Matlab, nutzbar z.B. zur Analyse u. Resynthese von Sprachsignale

•  Classification toolbox, Matlab-Implementierung verschiedener Klassifikationsalgorithmen

•  Deutsche OpenSource-Module für die Festival–Sprachsynthese

Page 20: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Projekte zur symbolischen Analyse von Text

•  SDeWaC: dependenzgeparster Ausschnitt aus DeWaC (Baroni/Kilgariff 2006), 880 M Wörter

•  Bitext: geparstes EuroParl, DE/ EN

•  Kollokationsdaten V + NObj , V + PP aus DE Korpora, mit morphosyntaktischen Präferenzen (Datenbank)

•  Datenbank französischer Psych-Verben, Modellierung in OWL, OWL-Modellierung ontologischer und lexikalischer Beschreibungen

•  Morphologische und semantische Analyse von ung-Nominalisierungen deutscher be-Verben (excel-Tabellen)

  Verschiedene Formate

  Unterschiedliche Größe, unterschiedlicher Detailliertheitsgrad

Page 21: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Fragebogen: Stimuli und Akzeptabilitätsurteile

•  Stellung von Adjektiven in FR, IT, ES, RO (.doc)

•  Kasusmarkierung und -alternation im Mongolischen (excel, SPSS)

•  Fokus in DE und HU (SPSS) •  Muttersprachliche Qualitätsurteile für

Generierungsalternativen (DE) (plain text)

•  Experimente zu Nominalisierungen

Page 22: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Tools: Symbolische und statistische Verarbeitung – eigene Entwicklungen •  Syntaktische Analyse und unterspezifizierte

flache Semantikkonstruktion (DE)

•  BitPar parser (EN, DE)

•  Clustering software (PAC): EM-Training + MDL

•  RF-Tagger (DE, CZ): Feinkörniges POS-Tagging, auch für Sprachen mit reichhaltiger Morphologie

•  Datenbank zur Verwaltung von Korpora, Metadaten, Analysen, Werkzeugzuständen usw.

Page 23: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Für jede Ressource

•  Name der Ressource, Kontaktperson im SFB-732

•  Datum der letzten Änderung •  Sprache(n) •  Ausgabeformat(e) •  Dokumentation: publizierte Artikel,

Web-Seiten •  Physikalische Speicherung der

Daten (Ort im SFB-Netz) •  Nutzungsrechte und -möglichkeiten

Page 24: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

Max Planck Institut für Psycholinguistik (MPI) Nijmegen

Jacquelijn Ringersma Andreas Koenig

Page 25: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

MPI - Vertreter

•  Working group: •  Archive for Linguistic Resources

•  Fields of interest: •  LMF •  ISOcat •  Metadata •  PID

Page 26: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

MPI - LMF

•  Lexical Markup Framework:

Model for standardized framework for the construction of lexicons

•  Goals:

•  Common model for electronic lexical resources

•  Manage and exchange data between resources

•  Enable merging of electronic resources

Page 27: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

LMF

Page 28: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

MPI - ISOcat

•  ISO 12620:2009 •  Terminology and language resources •  Specification of data categories and

management of a Data Category Registry for language resources  

•  Data category •  A data category is an elementary

descriptor in a linguistic structure or an annotation scheme (specification of a given data field).

Page 29: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

MPI - ISOcat

•  Model consists of 3 main parts: •  Administrative part: Administration and

identification •  Descriptive part: Documentation in

various working languages •  Linguistic part: Conceptual domain(s)

for various object languages

Page 30: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

MPI – ISOcat

Data Category Registry: ISOcat •  A free service: anyone can access it or

register as an expert and create/share his/her own data categories. •  Data categories can be submitted to the

standardization process, in which case they are assigned to a Thematic Domain Group which judges it.

•  At regular intervals, snapshots of the standardized subset of the DCR will be submitted to ISO.

www.isocat.org

Page 31: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

MPI - PID

•  Persistent identifiers allow to reference resource parts

•  Every object in the archive catalogue has a proper (archive wide) unique identifier.

•  This id should be as persistent as the archive

•  The same resource can have a different id in different archive catalogues

http://www.pidconsortium.eu/ http://www.handle.net/

Page 32: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

MPI - PID

•  We  are  using  handles  as  PIDs:  h2p://hdl.handle.net/1839/00-­‐0000-­‐0000-­‐0009-­‐2951-­‐C    

•  There  is  also  an  internal  nodeid  to  reference  resources:  h2p://corpus1.mpi.nl/ds/imdi_browser/?openpath=MPI600401%23  

Page 33: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Bielefeld 673: Alignment in Communication

Peter Menke

Page 34: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Bielefeld - Vertreter

•  Projekt  X1  „MulRmodale  Alignmentkorpora“,  SFB  673  „Alignment  in  CommunicaRon“  

•  Interessen:  MulRmodalität,  UnifikaRon  heterogener  Daten,  (halb-­‐)automaRsche  AnnotaRon  und  Datengewinnung  

•  Universität  Bielefeld  

Page 35: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Bielefeld - Ressourcen

  Ressourcen:  Verschiedene  Korpora  im  SFB,  zumeist  (noch)  unveröffentlicht  

  SAGA-­‐Korpus  (=“Speech  And  Gesture  Alignment“)  

  Weitere  Korpora  mit  Sprache,  Blickbewegungen,  Handgesten,  Kopfgesten,  Mimik,  Handlungen/AkRonen,  Speicherabbildern  und  mentalen  RepräsentaRonen  künstlicher  Agenten

Page 36: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Bielefeld - Tools

•  Selbst  hergestelltes  Tool:  Ariadne  Corpus  Management  System  (auf  der  Grundlage  des  eHumaniRes  Desktop)  zur  Verwaltung,  Unifizierung  und  Analyse  heterogener  mulRmodaler  Korpora  

•  Weiterhin  verwendet:  Elan,  Praat

Page 37: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB 538 ‚Mehrsprachigkeit‘ (+ Hamburger Zentrum für Sprachkorpora)

Teilprojekt Z2 „Computergestützte Erfassungs- und Analysemethoden multilingualer Daten“

Universität Hamburg Thomas Schmidt (+ Kai Wörner, Timm

Lehmberg, Hanna Hedeland, Kristin Bührig)

Page 38: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Hamburg – Ressourcen (Auswahl)

•  Longitudinale Studien zum bilingualen kindlichen Spracherwerb in verschiedenen Sprachkombinationen

•  Studien zu Language Attrition bei bilingualen Sprechern in verschiedenen Sprachkombinationen

•  Korpora zum Konsekutiv- / Simultandolmetschen

•  Korpora zu mehrsprachiger Kommmunikation

•  Parallelkorpora / Comparable Corpora

•  Historische Korpora zu Sprachen in Kontaktsituationen

•  (nicht am SFB, aber mit EXMARaLDA) Dialektkorpora, monolinguale Korpora zu speziellen Gesprächstypen (Arzt-Patienten-Kommunikation, Unterrichtskommunikation), monolinguale Referenzkorpora gesprochener Sprache, geschriebene, multiebenen-annotierte Lernerkorpora

Page 39: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Hamburg - Tools

•  Werkzeuge (selbst hergestellt) zur

•  Ressourcenerstellung: EXMARaLDA Partitur-Editor (und FOLKER), verschiedene Annotationswerkzeuge

•  Ressourcenverwaltung/Metadatensammlung: EXMARaLDA Corpus-Manager

•  Ressourcenanalyse: EXAKT

Page 40: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB 632 Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text Humboldt-Universität zu Berlin (KorpuslinguisRk) /Universität Potsdam (ComputerlinguisRk) InformaRonsstruktur,  Projekt  D1  (linguisRsche  DB)� Christian Chiarcos Julia Ritz Amir Zeldes

Page 41: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

•  Mehrebenenkorpora  •  Diskursphänomene  •  InformaRonsstruktur  •  Lernerkorpora    •  historische  Korpora  •  Formatmodellierung  

Interessengebiete

Page 42: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Berlin/Potsdam – Ressourcen (Auswahl)

•  Namen:  Korpora  des  SFB  632,  PCC,  Falko  

•  Typen:  Mehrebenenkorpora  (Syntax,  Koref…),  InformaRonsstruktur,  historische  Korpora,  Lernerkorpora  

Page 43: Vertretene Ressourcen und Tools - sfs.uni-tuebingen.de · Bayerisches Archiv für Sprachsignale (BAS) Institut für Phonetik und Sprachverarbeitung (IPS) LMU München Christoph Draxler

SFB Berlin/Potsdam - Tools

•  Werkzeuge (selbst hergestellt oder hauptsächlich verwendet) zur

•  Ressourcenerstellung – EXMARaLDA, TIGER, MMAX2, etc.

•  Ressourcenverwaltung – PAULA, Pepper, ANNIS2, OLiA Ontologien