Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung für...
of 20
/20
-
Author
caecilie-boche -
Category
Documents
-
view
103 -
download
0
Embed Size (px)
Transcript of Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung für...
- Folie 1
- Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung fr Automatische Sprachverarbeitung Institut fr Informatik Universitt Leipzig [email protected]
- Folie 2
- Grundlegendes Canonical Text Services (CTS) Protokoll fr webbasierten Textservice fr Zitation Entwickelt im Homermultitext Projekt (www.homermultitext.org), Smith et.al.2009 http://www.homermultitext.org/hmt-docs/specifications/ctsurn/ http://www.homermultitext.org/hmt-docs/specifications/cts/ Eindeutige Identifier (Unique Resource Name, URN) spezifizieren Textabschnitte (passages) Implementierungen auf Basis von Tripelstore und XML-Datenbank vorhanden, waren aber nicht fr unsere Zwecke nutzbar Diese (MySQL-basierte) Implementierung ist Teil des ESF-Projektes Bibliothek der Milliarden Wrter Der Inhalt dieser Prsentation kann auf www.urncts.de live nachvollzogen werdenwww.urncts.de Canoncal Text Services - Jochen Tiepmar 2014
- Folie 3
- Kanonische Zitation Shakespeare Sonette Sonett 1Sonett 35Vers 1Wort 1Wort 10Vers 5Sonett 154 Shakespeare, Sonett 1, Vers 1
- Folie 4
- Kanonische Zitation Dokumenteneinordung von drauen Shakespeare Sonnets english 1st edition Textabschnitt innerhalb des Dokumentes Sonnet 1 Vers 1 Kombiniert Shakespeare Sonnets english 1st edition Sonnet 1 Vers 1 CTS-URN urn:cts:demo:shakespeare.sonnets.en.1:1.1 Canoncal Text Services - Jochen Tiepmar 2014
- Folie 5
- Canonical Text Services (CTS) Canoncal Text Services - Jochen Tiepmar 2014 urn:cts:demo:shakespeare.sonnets.en.1:1.1 Shakespeare Sonette Sonett 1Sonett 35Vers 1Wort 1Wort 10Vers 5Sonett 154 Shak espe are Sone tte Sone tt 1 Sone tt 35 Vers 1 Wort 1 Wort 0 Vers 5 Sone tt 154 So ne tt 35 Ve rs 1 Shakes peare Sonette Sonett 154 Shakespear e Kapitel 2 Satz1Wort 410Wort 115Kapitel154 CTS From fairest creatures we desire increase,
- Folie 6
- Typen von Textabschnitten Einfach (Kapitel 12, Vers 2, Lied 1985, Edition, Werk) urn:cts:demo:shakespeare.sonnets.en.1:1.1 urn:cts:demo:shakespeare.sonnets.en.1: Spanne urn:cts:demo:shakespeare.sonnets.en.1:1.1-1.2 urn:cts:demo:shakespeare.sonnets.en.1:1-1.10.6 Teilabschnitt urn:cts:demo:shakespeare.sonnets.en.1:[email protected] Spanne ber Teilabschnitte urn:cts:demo:shakespeare.sonnets.en.1:[email protected]@gaudy urn:cts:demo:shakespeare.sonnets.en.1:[email protected]@gaudy[1] Canoncal Text Services - Jochen Tiepmar 2014
- Folie 7
- Deutsches Text Archiv in CTS 1712 Werke in je 3 Editionen -> 5136 Editionen translit, transcript, norm 321 192 031 Tokens, 2 191 023 188 Zeichen Keine Einteilung in Kapitel oder hnliches, nur Stze Tokens pro Edition Min 75 Avg 62769, Max :588181 Canoncal Text Services - Jochen Tiepmar 2014 urn:cts:dta:albertinus.landtstoertzer011615.de.translit:11 Visualisierung: Stefan Jaenickes TRAVizStefan Jaenickes TRAViz
- Folie 8
- Weitere Datenstze PBC Parallel Bible Corpus 831 Editionen 247292629 Tokens Perseus 3 Versionen Plaintext, XML, Updated greekLit, latinLit, (farsiLit, pdlrefwk) 407 bzw 1137 Editionen 6096120 bzw 27295030 Tokens Canoncal Text Services - Jochen Tiepmar 2014
- Folie 9
- Statistiken Testumgebung: - Ubuntu-Server Testsetup: - Hole Liste aller Editionen - Frage je den Abschnitt [URN_der_Edition]:1-2 ab Canoncal Text Services - Jochen Tiepmar 2014
- Folie 10
- DTA Statistiken Canoncal Text Services - Jochen Tiepmar 2014 5136 Editions. 334820482 Tokens. 2284090670 Characters. Durchschnittliche Abschnittslnge: 203 Characters
- Folie 11
- Perseus_xml Statistiken Canoncal Text Services - Jochen Tiepmar 2014 407 Editions. 6096120 Tokens. 44217523 Characters. Durchschnittliche Abschnittslnge: 26838 Characters
- Folie 12
- Perseus_new Statistiken Canoncal Text Services - Jochen Tiepmar 2014 1137 Editions. 27295030 Tokens. 222456065 Characters. Durchschnittliche Abschnittslnge: 28930 Characters
- Folie 13
- PBC Statistiken Canoncal Text Services - Jochen Tiepmar 2014 831 Editions. 247292629 Tokens. 1357136926 Characters Durchschnittliche Abschnittslnge: 352634 Characters
- Folie 14
- 1 Milliarde Wrter? Hat zufllig jemand ein paar Wrter brig??? Canoncal Text Services - Jochen Tiepmar 2014 CTS-InstanzAnzahl Tokens DTA334820482 PBC247292629 Perseus_new27295030 Perseus_xml6096120 Perseus_plain5525132 insg621029393
- Folie 15
- 1 Milliarde knstlicher Wrter 1 CTS mit 100 000 zufllig generierten Editionen 1281272600 Tokens (min. 3/edition, max. 69118/edition) Test 1) Alle Editionen auflisten 2) Konsturiere vollen Textabschnitt fr jede Edition (kein XML) Canoncal Text Services - Jochen Tiepmar 2014
- Folie 16
- Language Support UTF8 Canoncal Text Services - Jochen Tiepmar 2014
- Folie 17
- Future Work URNs als IDs hnlich CITE-Architektur http://www.homermultitext.org/hmt-docs/cite/ Nutzen der URNs als IDs fr andere Projekte Standardisierung CTS - Ausgabe als Standardformat fr GUI Unabhngigkeit von eigentlicher Textstruktur Eigenschaften der URNs Sprachkrzel in URN fr bersetzung nutzen urn:cts:demo:shakespeare.sonnets.en.1:1.1-1.2 Canoncal Text Services - Jochen Tiepmar 2014
- Folie 18
- Future Work Volltextsuche Canoncal Text Services - Jochen Tiepmar 2014 Shakespeare Sonette Sonett 1Sonett 35Vers 1Wort 1Wort 10Vers 5Sonett 154 Shakespeare, Sonett 1, Vers 1 Shakespeare, Sonett X,
- Folie 19
- Future Work Volltextsuche Rckrichtung Text ReUse, Zitatsuche, Duplikatsuche, Plagiatsuche Analyse beliebig groer Textabschnitte (Bigramm, Trigramm,) ohne zustzliche Datenaufbereitung Textspannen ber mehrere Texteinheiten (Stze, Kapitel) schwierig Canoncal Text Services - Jochen Tiepmar 2014
- Folie 20
- Vielen Dank Canoncal Text Services - Jochen Tiepmar 2014