Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen

18
Felix Sasaki und Georg Rehm Mockups von Jan Nehring DFKI GmbH – Forschungsbereich Sprachtechnologie, Berlin Fachtagung „Digitale Kuratierungstechnologien“ Humboldtuniversität, Oktober 2015 Digitale Kuratierungstechnologien Beispiele aus ausgewählten Branchen

Transcript of Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen

Felix Sasaki und Georg RehmMockups von Jan Nehring

DFKI GmbH – Forschungsbereich Sprachtechnologie, Berlin

Fachtagung „Digitale Kuratierungstechnologien“Humboldtuniversität, Oktober 2015

Digitale Kuratierungstechnologien

Beispiele aus ausgewählten Branchen

BranchenInput Prozesse Software Output

Tweet Analysieren Textverarbeitung ZeitungsartikelZeitungsartikel Auswählen Präsentationen Multimedia-WebsiteAgenturmeldung Fokussieren Tabellenkalkulation TV-BeitragFacebook-Meldung Überarbeiten Email AusstellungskatalogSuchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte)SMS Gestalten Branchenapplikationen TextbeitragKonzept Recherchieren CMS KonzeptTextdateien Bewerten ECMS ZeitstrahlVideo Evaluieren CRM FachartikelKarte Ordnen Unternehmens-Software StudieStockfotos Sortieren Grafik-/Layout-Software PräsentationIn-house Datenbank Strukturieren Telefonie FaktensammlungKalendereintrag Zusammenfassen etc. ExponatsartikelSpreadsheets Kürzen AnalysenArchiv Übersetzen etc.etc. Informieren

KombinierenAbstrahierenEinordnenVisualisierenGenerierenAnnotierenReferenzierenetc.

Enthalten, in jeweils unterschiedlichen Verhältnissen, Text, Daten, Metadaten, Bild, Video, Ton, Visualisierungen, sonstige interaktive Elemente, Multimedia-Bausteine, spezifische Textstrukturen etc.

BranchenInput Prozesse Software Output

Tweet Analysieren Textverarbeitung ZeitungsartikelZeitungsartikel Auswählen Präsentationen Multimedia-WebsiteAgenturmeldung Fokussieren Tabellenkalkulation TV-BeitragFacebook-Meldung Überarbeiten Email AusstellungskatalogSuchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte)SMS Gestalten Branchenapplikationen TextbeitragKonzept Recherchieren CMS KonzeptTextdateien Bewerten ECMS ZeitstrahlVideo Evaluieren CRM FachartikelKarte Ordnen Unternehmens-Software StudieStockfotos Sortieren Grafik-/Layout-Software PräsentationIn-house Datenbank Strukturieren Telefonie FaktensammlungKalendereintrag Zusammenfassen etc. ExponatsartikelSpreadsheets Kürzen AnalysenArchiv Übersetzen etc.etc. Informieren

KombinierenAbstrahierenEinordnenVisualisierenGenerierenAnnotierenReferenzierenetc.

Enthalten, in jeweils unterschiedlichen Verhältnissen, Text, Daten, Metadaten, Bild, Video, Ton, Visualisierungen, sonstige interaktive Elemente, Multimedia-Bausteine, spezifische Textstrukturen etc.

Sprach- und Wissenstechnologien:•  Semantische Analyse (AP1)•  Mehrsprachigkeit (AP2)•  Semantische Generierung (AP3)

Drei Funktionsbereiche•  Semantische Textanalyse:

–  Anreicherung von Informationen mit Metadaten (z.B. zu Eigennamen) –  Automatisches Textzusammenfassen –  Integration von Informationen aus externen Datenquellen inkl.

Provenance-Information, etwa LOD (z.B. DBpedia, Wikidata) •  Semantische Generierung:

–  Hypertextualisierung und Aufbereitung von Informationssammlungen zu Texten und Hypertexten (Semantic Story Telling)

–  Nutzung von Markup-Sprachen für thematische, räumliche, temporale Annotation und Darstellung

•  Internationalisierung und Mehrsprachigkeit: –  Anwendung von W3C-Standards (z.B. ITS 2.0), Verknüpfung mit LOD–  Integration und Adaptation von maschineller Übersetzung (MT)

4Fachtagung „Digitale Kuratierungstechnologien“ 2015

Semantische Analyse

•  Geringe Präzision•  Keine Adaptierbarkeit•  „Nur Text“ Verarbeitung – erschwerte Einbindung in Workflows

5

State of the Art

“The chancellor of Germany will visit several countries. Mrs. Merkel will start in Brazil.” ✖

✖ Nicht analysiert

Fachtagung „Digitale Kuratierungstechnologien“ 2015

Semantische Analyse

6

DKT Innovation

•  Hohe Präzision mit tiefer Verarbeitung•  Adaption zu Nutzer spezifischen Domänen•  Dokumentstruktur spezifische Abdeckung zahlreicher Inhaltsformate / -

workflows

“The chancellor of Germany will visit several countries. Mrs. Merkel will start in Brazil.” ✔

✔ Analysiert✔

“The chancellor

…”

Eingabe: Text, HTML, Word, ...

Analyse (Domäne: Politik,

Wirtschaft, ... „Meine In-House

Domäne“)

Weitere Kuratierungs-

prozesse

identisch

Teil von

Fachtagung „Digitale Kuratierungstechnologien“ 2015

Mehrsprachigkeit

•  Verbreitet: Maschinelle Übersetzung (MT) mit geringer Qualität (Inbound Translation)

•  Wünschenswert: Hoch qualitative MT (HQMT)

7

State of the Art

„Der Kanzler von Deutschland werden mehrere Länder besuchen. Frau Merkel in Brasilien zu starten.“

“The chancellor of Germany will visit several countries. Mrs. Merkel will start in Brazil.”

Maschinelle Übersetzung

✖✖✖

Fachtagung „Digitale Kuratierungstechnologien“ 2015

Mehrsprachigkeit

8

DKT Innovation

•  Einfache Schnittstellen für Inbound Translation•  In Richtung HQMT: Adaption von MT durch externe Wissensquellen•  In Richtung HQMT: Verbesserung des MT Workflows durch

standardisierte Metadaten

„Der Kanzler von Deutschland wird mehrere Länder besuchen. Frau Merkel in Brasilien starten.“

“The chancellor of Germany will visit several countries. Mrs. Merkel will start in Brazil.”

Maschinelle Übersetzung

Externe Wissens-quellen

Metadaten

✔✖

✖ „wird“ fehlt

Fachtagung „Digitale Kuratierungstechnologien“ 2015

Semantische Generierung

•  Verbreitet: Template-basierte Ansätze•  Geringe Sprach- und Domänenabdeckung

9

State of the Art

„In @@@@ scheint die Sonne. Es ist zur Zeit @@@@ Grad.“

„In Rio de Janeiro scheint die Sonne. Es ist zur Zeit 28 Grad.“

Generierung Wetterberichte

Fachtagung „Digitale Kuratierungstechnologien“ 2015

Semantische Generierung

10

DKT Innovation

•  Enge Verknüpfung mit semantischer Analyse und Mehrsprachigkeit•  Adaption von Stil, Grammatik etc. durch Textstrukturgrammatiken ->

Basis für Storytemplates

“The chancellor of Germany … will start in Brazil.”http://www.dbpedia.org/resource/Brazil

„Brasilien hat über 200 Millionen Einwohner. Bekannte Städte sind: Rio de Janeiro, ...“

Externe, sprachübergreifende Wissensquellen

Textstruktur-grammatiken -> Story-templates

Semantische Generierung

Ergebnissemantische Analyse

Sprach- und MedienübergreifendeGenerierung –

„Den Nutzer berühren“

Fachtagung „Digitale Kuratierungstechnologien“ 2015

Wichtig: NutzerperspektivenIn vier Branchen ...

1.  ART&COM: Kommunikationslösungen für Museen, Showrooms, Events etc.

2.  Condat: Redaktionen im Medienbereich, z.B. von TV/Radio-Sendern

3.  3pc: Websites und mobile Anwendungen fu ̈r Kunden aus Wirtschaft, Wissenschaft und Kultur

4.  kreuzwerker: Gestaltung von Transformationsprozessen im IT-Bereich

11Fachtagung „Digitale Kuratierungstechnologien“ 2015

Wichtig: Nutzerperspektiven... mit verschiedenen Personas – exemplarische, typische Nutzern und exemplarischen Herausforderungen in der jeweiligen Branche1.  Projektleiter für Ausstellungsentwurf–  Herausforderung „Kooperative Erstellung von Inhalten“

2.  Medienredakteur–  Berücksichtigung mehrsprachiger Inhalte

3.  Anwendungsentwickler für digitale Archive–  Anpassung von Navigationsstrukturen in kuratierten

Inhalten4.  Softwareintegrator für Kuratierungs-Workflows–  Flexible Verknüpfung bestehender Softwareschnittstellen

12Fachtagung „Digitale Kuratierungstechnologien“ 2015

MOCKUPS FÜR DIE NUTZER

13Fachtagung „Digitale Kuratierungstechnologien“ 2015

Beispiele ...... für einige Personas1.  Projektleiter für Ausstellungsentwurf–  Herausforderung „Kooperative Erstellung von Inhalten“

2.  Medienredakteur–  Berücksichtigung mehrsprachiger Inhalte

Die Entwicklung der Sprach- und Wissenstechnologien durch die Anforderungen der Kuratierungsbranchen leiten

14Fachtagung „Digitale Kuratierungstechnologien“ 2015

Projektleiter für Ausstellungsentwurf•  „Ich muss Materialien sammeln ... tausende von Dateien

in unterschiedlichen Formaten, Textschnipseln ... Wie bewahre ich den Überblick?“

•  Digitale Kuratierung: Wahrung der Provenienz–  Jede Kuratierungseinheit hat einen eindeutigen

Identifikator – eine Webadresse–  Der Workflow erlaubt beim Einbinden der Ressourcen die

URIs zu speichern–  Beispiel dkt-demo/provenienz.html

•  Hochladen einer HTML-Datei in den Workflow•  Analysieren von relevanten Textstücken, z.B.

Personennamen•  URIs für die Daten als ganzes und für alle Entitäten

15Fachtagung „Digitale Kuratierungstechnologien“ 2015

Medienredakteur•  „Ich muss bis morgen einen Artikel über ... schreiben.

Wie finde ich relevante Quellen über Sprachgrenzen hinweg?“

•  Digitale Kuratierung: sprachübergreifender Zugang–  Beispiel dkt-demo/medienredakteur.html

•  Redakteur gibt Satz mit verschiedenen Namen ein•  Alle Namen werden automatisch identifiziert•  Sprachübergreifende Schreibweisen werden aus Webquellen

gesucht•  Eine Websuche mit den Schreibweisen wird ausgeführt•  Die ersten Treffer werden automatisch übersetzt•  Der Redakteur kann entscheiden ob er die Artikel manuell

übersetzen lässt

16Fachtagung „Digitale Kuratierungstechnologien“ 2015

Nächste Schritte•  Nutzung der Kuratierungstechnologien analysieren

–  Durch die Entwickler der Kuratierungstechnologien vorangetrieben

•  Sprach- und Wissenstechnologien den Anforderungen entsprechend entwickeln–  Keine Black Box Technologien mehr – den Nutzern das

geben, was sie brauchen

17Fachtagung „Digitale Kuratierungstechnologien“ 2015

Felix Sasaki und Georg RehmMockups von Jan Nehring

DFKI GmbH – Forschungsbereich Sprachtechnologie, Berlin

Fachtagung „Digitale Kuratierungstechnologien“Humboldtuniversität, Oktober 2015

Digitale Kuratierungstechnologien

Beispiele aus ausgewählten Branchen