EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF … · EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF...
Transcript of EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF … · EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF...
EINE BASIS-ARCHITEKTUR FÜR DEN ZUGRIFF AUF MULTIMODALE KORPORA GESPROCHENER SPRACHEJosip Batinić, Elena Frick, Joachim Gasch, Thomas Schmidt (IDS Mannheim)
Postanschrift:Leibniz-Institut für Deutsche SpracheR 5, 6-1368161 Mannheim
Tel.: +49 621 1581-0Fax: +49 621 [email protected]
© 2019 IDS Mannheim
Kontakt:Dr. Thomas Schmidt Leiter des Programmbereichs „Mündliche Korpora“Abteilung PragmatikLeibniz-Institut für Deutsche SprachePostfach 10 16 2168016 Mannheim
Tel.: +49 621 1581-313Fax: +49 621 [email protected]
6. Jahrestagung des Verbands Digital Humanities im deutschsprachigen Raum (DHd), 25. bis 29. März 2019
Oracle DB
Index(.fln)
Web Services(PL/SQL)
MTAS (Lucene)
Index(ISO/TEI)
/search/api
[w=„koch“ & pos=„NN“]
/corpora /{speaker}/{corpus} /speakers
?q={query string}+/media
/metadata
...
[00001] [0] [00084] [w] [so][00002] [0] [00084] [w.id] [w1][00003] [0] [00084] [pos] [NGIRR][00084] [0-13][00089] [u.id] [u_d1e17][00085] [0-13][00089] [u.speaker] [LB]
...
...
Sprechereignisse pro Bundesland
Abgleich der Lemmata mit den Goethe Wortschatzlisten im Sprechereignis
Verteilung der Sprecherbeiträge im Sprechereignis
"query": {"@type": "koral:token","wrap": { "@type": "koral:term",
"foundry": "opennlp","key": "Koch","layer": "orth","match": "match:eq" } }
HINTERGRUNDPLATTFORMEN-VERGLEICH
KONZEPTISO/TEI SPEZIFIKATION
Forschungsprojekt „ZuMult“
Drei-Ebenen-Architektur
Backend
Web Services (REST API)
Client
Objektorientierte Modellierung der Korpus-Bestandteile und ihrer Beziehungen
Modellierung nutzergruppenspezifischer Zugänge für DaF-, Gesprächs- und Variationsforschung
KoralQuery
Beispielsuchanfrage in CQP QL
ZuMult steht für „Zugänge zu multi-modalen Korpora gesprochener Sprache: Vernetzung und zielgruppenspezifische Ausdifferenzierung“
Ziel: Entwicklung einer Architektur für den einheitlichen Zugriff auf unterschiedliche Korpora gesprochener Sprache an ver-schiedenen Standorten
ZuMult-Blog unter https://zumult.org
Plattformen: DGD, GeWiss, CNC, Spokes, Spoken BNC2014, Talkbank, ESLO, CLAPI, TGDA
Kriterien: Zugang zu den Daten (Such- und Browsingfunktionalitäten), Darstellung der Suchergebnisse
Ergebnisse: – Heterogenität – Entwicklungsspielraum bei – Suche vs. Browsing grafischen Visualisierungen – KWIC als Standard – Plattformspezifische Features
Neue Möglichkeiten zur Erstellung eines Virtuellen Korpus
• Deckungswerte in Bezug auf GeR-Niveaustufen (Goethe) und Frequenzlisten (Herder)
• Normalisierungsrate: Abgleich Transkription vs. norm. Transkription
• Sprachliche Komplexität: Lemma-Token-Ratio, lexikalische Dichte, durchschn. Wortlänge, Anzahl bestimmter POS- Folgen, Anzahl bestimmter Wortbildungsmuster etc.
• Dialogizität: durchschnittliche Anzahl der Wörter in Beiträ-gen, Anzahl der Überlappungen, Anteil der Beiträge eines Sprechers, etc.