EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF … · EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF...

EINE BASIS - ARCHITEKTUR FÜR DEN ZUGRIFF AUF MULTIMODALE KORPORA GESPROCHENER SPRACHE Josip Batinić, Elena Frick, Joachim Gasch, Thomas Schmidt (IDS Mannheim) Postanschrift: Leibniz-Institut für Deutsche Sprache R 5, 6-13 68161 Mannheim Tel.: +49 621 1581-0 Fax: +49 621 1581-200 [email protected] www.ids-mannheim.de © 2019 IDS Mannheim Kontakt: Dr. Thomas Schmidt Leiter des Programmbereichs „Mündliche Korpora“ Abteilung Pragmatik Leibniz-Institut für Deutsche Sprache Postfach 10 16 21 68016 Mannheim Tel.: +49 621 1581-313 Fax: +49 621 1581-200 [email protected] 6. Jahrestagung des Verbands Digital Humanities im deutschsprachigen Raum (DHd), 25. bis 29. März 2019 Oracle DB Index (.fln) Web Services (PL/SQL) MTAS (Lucene) Index (ISO/TEI) /search /api [w=„koch“ & pos=„NN“] /corpora /{speaker} /{corpus} /speakers ?q={query string} + /media /metadata ... [00001] [0] [00084] [w] [so] [00002] [0] [00084] [w.id] [w1] [00003] [0] [00084] [pos] [NGIRR] [00084] [0-13][00089] [u.id] [u_d1e17] [00085] [0-13][00089] [u.speaker] [LB] ... ... S p r e c h e r e i g n i s s e p r o B u n d e s l a n d A b g l e i c h d e r L e m m a t a m i t d e n G o e t h e W o r t s c h a t z l i s t e n i m S p r e c h e r e i g n i s V e r t e i l u n g d e r S p r e c h e r b e i t r ä g e i m S p r e c h e r e i g n i s "query": { "@type": "koral:token", "wrap": { "@type": "koral:term", "foundry": "opennlp", "key": "Koch", "layer": "orth", "match": "match:eq" } } HINTERGRUND PLATTFORMEN-VERGLEICH KONZEPT ISO/TEI SPEZIFIKATION Forschungsprojekt „ZuMult“ Drei-Ebenen-Architektur Backend Web Services (REST API) Client Objektorientierte Modellierung der Korpus-Bestandteile und ihrer Beziehungen Modellierung nutzergruppenspezifischer Zugänge für DaF-, Gesprächs- und Variationsforschung KoralQuery Beispielsuchanfrage in CQP QL ZuMult steht für „Zugänge zu multi-modalen Korpora gesprochener Sprache: Vernetzung und zielgruppenspezifische Ausdifferenzierung“ Ziel: Entwicklung einer Architektur für den einheitlichen Zugriff auf unterschiedliche Korpora gesprochener Sprache an ver- schiedenen Standorten ZuMult-Blog unter https://zumult.org Plattformen: DGD, GeWiss, CNC, Spokes, Spoken BNC2014, Talkbank, ESLO, CLAPI, TGDA Kriterien: Zugang zu den Daten (Such- und Browsingfunktionalitäten), Darstellung der Suchergebnisse Ergebnisse: – Heterogenität – Entwicklungsspielraum bei – Suche vs. Browsing grafischen Visualisierungen – KWIC als Standard – Plattformspezifische Features Neue Möglichkeiten zur Erstellung eines Virtuellen Korpus • Deckungswerte in Bezug auf GeR-Niveaustufen (Goethe) und Frequenzlisten (Herder) • Normalisierungsrate: Abgleich Transkription vs. norm. Transkription • Sprachliche Komplexität: Lemma-Token-Ratio, lexikalische Dichte, durchschn. Wortlänge, Anzahl bestimmter POS- Folgen, Anzahl bestimmter Wortbildungsmuster etc. • Dialogizität: durchschnittliche Anzahl der Wörter in Beiträ- gen, Anzahl der Überlappungen, Anteil der Beiträge eines Sprechers, etc.

Upload
others
Category

Documents
view
4
download
0

Embed Size (px):

Transcript of EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF … · EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF...

Page 1: EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF … · EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF MULTIMODALE KORPORA GESPROCHENER SPRACHE Josip Batini , Elena Frick, Joachim Gasch,

EINE BASIS-ARCHITEKTUR FÜR DEN ZUGRIFF AUF MULTIMODALE KORPORA GESPROCHENER SPRACHEJosip Batinić, Elena Frick, Joachim Gasch, Thomas Schmidt (IDS Mannheim)

Postanschrift:Leibniz-Institut für Deutsche SpracheR 5, 6-1368161 Mannheim

Tel.: +49 621 1581-0Fax: +49 621 [email protected]

Kontakt:Dr. Thomas Schmidt Leiter des Programmbereichs „Mündliche Korpora“Abteilung PragmatikLeibniz-Institut für Deutsche SprachePostfach 10 16 2168016 Mannheim

Tel.: +49 621 1581-313Fax: +49 621 [email protected]

6. Jahrestagung des Verbands Digital Humanities im deutschsprachigen Raum (DHd), 25. bis 29. März 2019

Oracle DB

Index(.fln)

Web Services(PL/SQL)

MTAS (Lucene)

Index(ISO/TEI)

/search/api

[w=„koch“ & pos=„NN“]

/corpora /{speaker}/{corpus} /speakers

?q={query string}+/media

/metadata

...

[00001] [0] [00084] [w] [so][00002] [0] [00084] [w.id] [w1][00003] [0] [00084] [pos] [NGIRR][00084] [0-13][00089] [u.id] [u_d1e17][00085] [0-13][00089] [u.speaker] [LB]

...

Sprechereignisse pro Bundesland

Abgleich der Lemmata mit den Goethe Wortschatzlisten im Sprechereignis

Verteilung der Sprecherbeiträge im Sprechereignis

"query": {"@type": "koral:token","wrap": { "@type": "koral:term",

"foundry": "opennlp","key": "Koch","layer": "orth","match": "match:eq" } }

HINTERGRUNDPLATTFORMEN-VERGLEICH

KONZEPTISO/TEI SPEZIFIKATION

Forschungsprojekt „ZuMult“

Drei-Ebenen-Architektur

Backend

Web Services (REST API)

Client

Objektorientierte Modellierung der Korpus-Bestandteile und ihrer Beziehungen

Modellierung nutzergruppenspezifischer Zugänge für DaF-, Gesprächs- und Variationsforschung

KoralQuery

Beispielsuchanfrage in CQP QL

ZuMult steht für „Zugänge zu multi-modalen Korpora gesprochener Sprache: Vernetzung und zielgruppenspezifische Ausdifferenzierung“

Ziel: Entwicklung einer Architektur für den einheitlichen Zugriff auf unterschiedliche Korpora gesprochener Sprache an ver-schiedenen Standorten

ZuMult-Blog unter https://zumult.org

Plattformen: DGD, GeWiss, CNC, Spokes, Spoken BNC2014, Talkbank, ESLO, CLAPI, TGDA

Kriterien: Zugang zu den Daten (Such- und Browsingfunktionalitäten), Darstellung der Suchergebnisse

Ergebnisse: – Heterogenität – Entwicklungsspielraum bei – Suche vs. Browsing grafischen Visualisierungen – KWIC als Standard – Plattformspezifische Features

Neue Möglichkeiten zur Erstellung eines Virtuellen Korpus

• Deckungswerte in Bezug auf GeR-Niveaustufen (Goethe) und Frequenzlisten (Herder)

• Normalisierungsrate: Abgleich Transkription vs. norm. Transkription

• Sprachliche Komplexität: Lemma-Token-Ratio, lexikalische Dichte, durchschn. Wortlänge, Anzahl bestimmter POS- Folgen, Anzahl bestimmter Wortbildungsmuster etc.

• Dialogizität: durchschnittliche Anzahl der Wörter in Beiträ-gen, Anzahl der Überlappungen, Anteil der Beiträge eines Sprechers, etc.