Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung für...

of 20 /20
Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung für Automatische Sprachverarbeitung Institut für Informatik Universität Leipzig [email protected]

Embed Size (px)

Transcript of Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung für...

  • Folie 1
  • Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung fr Automatische Sprachverarbeitung Institut fr Informatik Universitt Leipzig [email protected]
  • Folie 2
  • Grundlegendes Canonical Text Services (CTS) Protokoll fr webbasierten Textservice fr Zitation Entwickelt im Homermultitext Projekt (www.homermultitext.org), Smith et.al.2009 http://www.homermultitext.org/hmt-docs/specifications/ctsurn/ http://www.homermultitext.org/hmt-docs/specifications/cts/ Eindeutige Identifier (Unique Resource Name, URN) spezifizieren Textabschnitte (passages) Implementierungen auf Basis von Tripelstore und XML-Datenbank vorhanden, waren aber nicht fr unsere Zwecke nutzbar Diese (MySQL-basierte) Implementierung ist Teil des ESF-Projektes Bibliothek der Milliarden Wrter Der Inhalt dieser Prsentation kann auf www.urncts.de live nachvollzogen werdenwww.urncts.de Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 3
  • Kanonische Zitation Shakespeare Sonette Sonett 1Sonett 35Vers 1Wort 1Wort 10Vers 5Sonett 154 Shakespeare, Sonett 1, Vers 1
  • Folie 4
  • Kanonische Zitation Dokumenteneinordung von drauen Shakespeare Sonnets english 1st edition Textabschnitt innerhalb des Dokumentes Sonnet 1 Vers 1 Kombiniert Shakespeare Sonnets english 1st edition Sonnet 1 Vers 1 CTS-URN urn:cts:demo:shakespeare.sonnets.en.1:1.1 Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 5
  • Canonical Text Services (CTS) Canoncal Text Services - Jochen Tiepmar 2014 urn:cts:demo:shakespeare.sonnets.en.1:1.1 Shakespeare Sonette Sonett 1Sonett 35Vers 1Wort 1Wort 10Vers 5Sonett 154 Shak espe are Sone tte Sone tt 1 Sone tt 35 Vers 1 Wort 1 Wort 0 Vers 5 Sone tt 154 So ne tt 35 Ve rs 1 Shakes peare Sonette Sonett 154 Shakespear e Kapitel 2 Satz1Wort 410Wort 115Kapitel154 CTS From fairest creatures we desire increase,
  • Folie 6
  • Typen von Textabschnitten Einfach (Kapitel 12, Vers 2, Lied 1985, Edition, Werk) urn:cts:demo:shakespeare.sonnets.en.1:1.1 urn:cts:demo:shakespeare.sonnets.en.1: Spanne urn:cts:demo:shakespeare.sonnets.en.1:1.1-1.2 urn:cts:demo:shakespeare.sonnets.en.1:1-1.10.6 Teilabschnitt urn:cts:demo:shakespeare.sonnets.en.1:[email protected] Spanne ber Teilabschnitte urn:cts:demo:shakespeare.sonnets.en.1:[email protected]@gaudy urn:cts:demo:shakespeare.sonnets.en.1:[email protected]@gaudy[1] Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 7
  • Deutsches Text Archiv in CTS 1712 Werke in je 3 Editionen -> 5136 Editionen translit, transcript, norm 321 192 031 Tokens, 2 191 023 188 Zeichen Keine Einteilung in Kapitel oder hnliches, nur Stze Tokens pro Edition Min 75 Avg 62769, Max :588181 Canoncal Text Services - Jochen Tiepmar 2014 urn:cts:dta:albertinus.landtstoertzer011615.de.translit:11 Visualisierung: Stefan Jaenickes TRAVizStefan Jaenickes TRAViz
  • Folie 8
  • Weitere Datenstze PBC Parallel Bible Corpus 831 Editionen 247292629 Tokens Perseus 3 Versionen Plaintext, XML, Updated greekLit, latinLit, (farsiLit, pdlrefwk) 407 bzw 1137 Editionen 6096120 bzw 27295030 Tokens Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 9
  • Statistiken Testumgebung: - Ubuntu-Server Testsetup: - Hole Liste aller Editionen - Frage je den Abschnitt [URN_der_Edition]:1-2 ab Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 10
  • DTA Statistiken Canoncal Text Services - Jochen Tiepmar 2014 5136 Editions. 334820482 Tokens. 2284090670 Characters. Durchschnittliche Abschnittslnge: 203 Characters
  • Folie 11
  • Perseus_xml Statistiken Canoncal Text Services - Jochen Tiepmar 2014 407 Editions. 6096120 Tokens. 44217523 Characters. Durchschnittliche Abschnittslnge: 26838 Characters
  • Folie 12
  • Perseus_new Statistiken Canoncal Text Services - Jochen Tiepmar 2014 1137 Editions. 27295030 Tokens. 222456065 Characters. Durchschnittliche Abschnittslnge: 28930 Characters
  • Folie 13
  • PBC Statistiken Canoncal Text Services - Jochen Tiepmar 2014 831 Editions. 247292629 Tokens. 1357136926 Characters Durchschnittliche Abschnittslnge: 352634 Characters
  • Folie 14
  • 1 Milliarde Wrter? Hat zufllig jemand ein paar Wrter brig??? Canoncal Text Services - Jochen Tiepmar 2014 CTS-InstanzAnzahl Tokens DTA334820482 PBC247292629 Perseus_new27295030 Perseus_xml6096120 Perseus_plain5525132 insg621029393
  • Folie 15
  • 1 Milliarde knstlicher Wrter 1 CTS mit 100 000 zufllig generierten Editionen 1281272600 Tokens (min. 3/edition, max. 69118/edition) Test 1) Alle Editionen auflisten 2) Konsturiere vollen Textabschnitt fr jede Edition (kein XML) Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 16
  • Language Support UTF8 Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 17
  • Future Work URNs als IDs hnlich CITE-Architektur http://www.homermultitext.org/hmt-docs/cite/ Nutzen der URNs als IDs fr andere Projekte Standardisierung CTS - Ausgabe als Standardformat fr GUI Unabhngigkeit von eigentlicher Textstruktur Eigenschaften der URNs Sprachkrzel in URN fr bersetzung nutzen urn:cts:demo:shakespeare.sonnets.en.1:1.1-1.2 Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 18
  • Future Work Volltextsuche Canoncal Text Services - Jochen Tiepmar 2014 Shakespeare Sonette Sonett 1Sonett 35Vers 1Wort 1Wort 10Vers 5Sonett 154 Shakespeare, Sonett 1, Vers 1 Shakespeare, Sonett X,
  • Folie 19
  • Future Work Volltextsuche Rckrichtung Text ReUse, Zitatsuche, Duplikatsuche, Plagiatsuche Analyse beliebig groer Textabschnitte (Bigramm, Trigramm,) ohne zustzliche Datenaufbereitung Textspannen ber mehrere Texteinheiten (Stze, Kapitel) schwierig Canoncal Text Services - Jochen Tiepmar 2014
  • Folie 20
  • Vielen Dank Canoncal Text Services - Jochen Tiepmar 2014