Historische Textkorpora für die Geistes- und … · 2013. 10. 13. · für die Geistes- und...

50
Historische Textkorpora für die Geistes- und Sozialwissenschaften. Das Beispiel "Deutsches Textarchiv" Alexander Geyken (BBAW) DTA-Projektgruppe: S. Haaf, B. Jurish, M. Schulz, C. Thomas, F. Wiegand Workshop der AG Elektronisches Publizieren "Best Practice: Digitale Korpora" BBAW Einstein-Saal, 8.9.10.2013

Transcript of Historische Textkorpora für die Geistes- und … · 2013. 10. 13. · für die Geistes- und...

  • Historische Textkorpora für die Geistes- und Sozialwissenschaften.

    Das Beispiel "Deutsches Textarchiv"

    Alexander Geyken (BBAW)

    DTA-Projektgruppe: S. Haaf, B. Jurish,

    M. Schulz, C. Thomas, F. Wiegand

    Workshop der AG Elektronisches Publizieren

    "Best Practice: Digitale Korpora"

    BBAW – Einstein-Saal, 8.–9.10.2013

  • Einleitung: Historische Korpora …

    • Aufbau historischer Korpora

    – Verfahren der Erfassung, Qualitätskriterien

    – Strukturierung, Annotation

    • Interoperabilität von Korpusressourcen

    • Analyse historischer Korpora

    – Maschinell: Normalisierung der Schreibung, morpho-syntaktische Analyse, Eigennamenextraktion, …

    – Kulturwissenschaftliche und linguistische Auswertung

    – Infrastruktur für die linguistische Analyse

    • Nachhaltige Sicherung der Ressourcen

  • … eingebettet in langfristiges Ziel

    Momentaner Stand historischer deutscher Korpora (~15.–20. Jh.):

    (1) Historische Korpora vielfältig vorhanden, aber sie liegen „verstreut“ in der Korpuslandschaft

    (2) Unterschiedliche Kodierungsformate; Problem der Interoperabilität

    (3) Kein anerkanntes System der Qualitätssicherung

    (4) Keine etablierte Kultur des Teilens von Ressourcen (Lizenzen!)

    (5) Unsicherheit über die nachhaltige Verfügbarkeit von Korpora

    Ziel: Ein (verteilter) Ort, an dem man die verfügbaren bzw. verlässlichen Texte finden kann und eine (verteilte) Plattform, auf der diese analysiert werden können

  • Stand der Korpusarbeiten DTA/CLARIN

    Erreichter Stand …

    • Korpusaufbau, Vereinheitlichung der Formate

    • Korpusanalyse

    • Aufbau einer Community

    … des Korpus-Infrastrukturzentrums (BBAW/DTA) und von CLARIN-D …

    … als Nukleus einer verteilten Plattform interoperabler Korpora

  • Stand der Korpusarbeiten DTA/CLARIN

    1. DTA-Projekt

    – DTA-Kernkorpus

    – Kollaborative Qualitätssicherung (DTAQ)

    – Korpuserweiterungen

    2. DTA und CLARIN-D

    – Interoperabilität: das DTA-Basisformat und die CLARIN-D Infrastruktur

    – Nachhaltigkeit

  • 1. Deutsches Textarchiv auf einen Blick

    • Disziplinen- und gattungsübergreifender Grundbestand (1600 – ~1900)

    – Kommentierte Vorschläge von Mitgliedern aller Klassen der BBAW

    – Euler, Boltzmann, Hilbert; Marx, Wundt; Goethe, Lessing …

    • Digitalisierung (Erstausgaben, sehr hohe Erfassungsqualität), TEI/P5; DTABf, schreibweisentolerante Durchsuchbarkeit

    • Erweiterung durch Kooperationen

    • Förderung: 2007–2013/2014

    • Gefördert:

  • 1. DTA : Erstausgaben und Sprachstand

  • DTA : Erstausgaben und Sprachstand

  • DTA : Erstausgaben und Sprachstand

    Wedekind, Frank: Frühlings Erwachen. Zürich, 1891. In: Deutsches Textarchiv http://www.deutschestextarchiv.de/wedekind_erwachen_1891,

    abgerufen am 17.09.2013.

    Dass. in: Werke in drei Bänden. Berlin u. Weimar : Aufbau, 1969. In: TextGridRep, PID:hdl:11858/00-1734-0000-0005-94F9-5

    abgerufen am 17.09.2013.

    DTA vs TextGridRep

    www.juxtasoftware.org

    http://www.deutschestextarchiv.de/wedekind_erwachen_1891http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0http://www.textgridrep.de/browse.html?id=textgrid:x34m.0

  • gieb ] gib Brod ] Brot Thüre ] Türe Klex ] Klecks

    zu Muthe ] zumute

    Kniee ] Knie

    citiren ] zitieren examiniren ] examinieren

    Corset ] Korsett Guitarre ] Gitarre

    Epheukranz ] Efeukranz

    gräuliche ] greuliche behülflich ] behilflich

    Verabscheuenswürdiges ] Verabscheuungswürdiges

    Kawboy ] Cowboy

    unverrichteter Sache ] unverrichtetersache

    DTA : Erstausgaben und Sprachstand

  • seit fünfzig Jahren ] seit fünfzehn Jahren

    Adelar trank aus der Zuckerdose ] Adelar trank aus dem Aschenbecher

    dich küssen, daß dir der Athem vergeht ] dich küssen, daß dir der Atem ausgeht

    eine Drainage in die Stirnhöhle appliciren zu lassen ] […] einen Ventilator […]

    Ist's denn nicht der stupendeste Beweis ] Ist's denn nicht der eklatanteste Beweis

    Der einmalige Fehltritt könne noch zu ihrem Glücke führen ] Der ehemalige […]

    in Gottes freier Natur ] draußen

    dringend darum ersuchen ] bitten

    Ich schmiß die Staffelei um ] Ich werfe […]

    Artig ] Brav

    DTA : Erstausgaben und Sprachstand

  • Weiß der Himmel, mir ist um mich nicht mehr bange. Ich habe diesmal zu tief hinunterblickt. ] Weiß der Himmel, mir ist um mich nicht mehr bange. Dazu habe ich diesmal zu tief hinuntergeblickt.

    so wird uns ein hohes Cultusministerium für das hereingebrochene Unglück, an dem neben dem Verunglückten unser schuldbeladener Schüler die Hauptschuld trägt, verantwortlich machen.

    Wir sehen uns, wie wir einander einstimmig eingestehen, in die zwingende Nothwendigkeit versetzt, den Schuldbeladenen zu richten.

    DTA : Erstausgaben und Sprachstand

  • DTA : Erstausgaben und Sprachstand

    Druckfehler, e.g. "Ednard": Ednard Eduard chamisso_schlemihl_1814?p=13

    Keine Modernisierungen; Normalisierungen e.g. “Ich laſſe mich nicht irre ſchreyn”:

    ſchreyn → ſchreyn ſchreyn → schreyn ſchreyn → schreien

    goethe_faust01_1808?p=293

    Transkription (UTF-8; 99,95% Zeichengenauigkeit)

  • DTA-Kernkorpus

    (a) Zugreifbar

    80 Millionen Textwörter

    345 000 Seiten (Bild-/Text-Ansicht)

    563 Millionen Zeichen

    1014 Werke (Stand Sept. 2013)

    www.deutschestextarchiv.de

  • DTA-Kernkorpus

    (b) schreibweisentolerant durchsuchbar

  • DTA-Website

    (c) Verschiedene Ansichten, z. B.

    – TEI, Text, HTML, CAB

    – Faksimiles

    (d) Analysen, z. B.

    – Wortwolken

    – Lemma-/Typelisten

    (e) Download aller Texte

    – TEI, Text, HTML, TCF

    – Kernkorpus: CC BY-NC 3.0 DE

  • DTA-Website

    Wortwolke Gleditsch: Botan. Abhandlungen (1789)

    Gleditsch, Johann Gottlieb: Vermischte botanische Abhandlungen. Bd. 1. Berlin, 1789. In: Deutsches Textarchiv , abgerufen am 08.10.2013

  • DTAQ: Qualitätssicherung

    • Web-basierte Korrekturplattform für TEI-P5 Texte

    • Ansichten: Faksimile, TEI, HTML, text, CAB (linguistische Normalisierung u. a.); Metadaten

    • Für alle Nutzer (derzeit 280): Fehlermeldesystem

    • Für Administratoren: Editiermöglichkeiten WYSIWYG und TEI-editing (ab Ende Nov. 2013)

    • Suchindex: DDC- und grep-Suche

    www.deutschestextarchiv.de/dtaq

  • DTAQ: Qualitätssicherung

  • Facsimile ; HTML; ticketing system

  • Linguistische Normalisierung

  • Current extensions

    a. WYSIWYG-editor

    – Nur Änderungen auf Textknotenebene

    b. XML Editor

    basiert auf ACE (ajaxorg/ace · GitHub)

  • b. XML Editor

  • DTAQ: Fakten

    • 280 Nutzer

    • Wachsender Bestand:

    – 1000 Werke (500 M. Zeichen), Nov. 2012

    – 1500 Werke (~720 M. Zeichen), Aug. 2013

    • Über 50 000 Anmerkungen, davon 35 000 korrigiert

  • c. Erweiterungen

  • Typen von Ressourcen

    1. DTA-Format: Transkribiert oder strukturiert gemäß DTA-Richtlinien: AEDit, Marx (Neue Rheinische Zeitung)

    2. TEI-andere: blumenbach, sandrart.net, Wolfenbüttel (HAB), dingler

    3. Andere Formate: wikisource, gutenberg.org, gutzkow, Kosmos

    4. OCR-Basis: Digi20, GEI-Digital, Grenzbote

    Primärer Erweiterungsfokus: Texte mit hoher Metadaten- und Erfassungsqualität

  • Ressource: TEI-andere

    • Beispiel 1: Akademienprojekt Blumenbach – online

    – TEI/P5 gewährleistet Austausch

    – DTABf gewährleistet Analyse mit DTA-Tools

    • Textaustausch zum beiderseitigen Nutzen:

    – Korpuserweiterung für das DTA; Qualitätsverbesserung für Blumenbach

    – Laufende Qualitätskontrolle mit DTAQ

    – DTA: automatische linguistische Analyse (Normalisierung, Lemmatisierung, NER)

    – Blumenbach: tiefere Erschließung/Annotation (Fachbegriffe, Objekte, Personen- und Ortsnamen)

  • Ressource: OCR-basiert

    • Zwei Ebenen der Qualitätskontrolle:

    – Textkorrektur (hierfür webbasierte verteilte Editoren, z.B. Typewright, TextBerg-Editor, DTAQ, …

    – Strukturkorrektur

    • Beispiel 1: DFG-Projekt Grenzbote

    – Nationalliberale Zeitschrift (1841-1922)

    – 270 Bände, 187 000 Seiten, ca. 450 Mill. Zeichen

    – Phase 1: 2011-2013 Digitalisierung

    – Phase 2: Seit 08/2013 Text- und Strukturkorrektur

    Partner: Univ. Bremen; DTA (für Phase 2)

  • www.deutschestextarchiv.de/files/ error-hl_nn_charaktere01_1848.html

    • 20 Textseiten • ca. 59700 Zeichen • 663 fehlerhafte Stellen = ca. 98.89 %

    Erkennungsrate ⌀ 33,15 Fehler pro

    Textseite

    Korrektheit OCR: 98,89 %

  • ABBYY-OCR-Zonen (-Tags) 628 Vie Smaragdinsel.

    rakter wie unsre „Schnaderhüpfel" in Tirol und Körnten. In den kleinen unüberschricbenenGedichten der Abteilung „Liebesschiller," Gefühlsakkorden, kurzen Stimmungslauten, hat er das beste Zeugnis für seine rein lyrische Be¬ gabung abgelegt. Als „Anhang" bietet er drei Balladen, von denen die eine: „Byzantinisches Triumphbild" ein herbes Pathos und eine kräftige Gestciltnngskraft bekundet. Es genüge hier, darauf hinzuweisen.

    Die ^maragdinsel. as neunzehnte Jahrhundert ist das Jahrhundert des Natio¬

    nalitätsprinzips. Alle Bewegungen und Umwälzungen, die in

    Europa in neuerer Zeit stattgefunden haben, haben als Grund¬

    lage das Streben nach Durchführung dieses Prinzips gehabt.

    Wenn wir daher von den Vorgängen in Irland lesen, von dem

    hartnäckigen Kampfe der Iren um Selbständigkeit, so sind wir geneigt, auch hier

    das Walten des mächtigen Geistes zu erkennen, der die Menschenheißt dem

    Dränge des Blutes folgen und sich Verhältnissenwidersetzen, welche die Natur

    verachten.*)

    […]

    Wales wurde im Jahre 1282 von Edward I. erobert, nachdem Irland

    schon im Jahre 1169 unterworfen und im nördlichen Teile besiedelt worden

    war. Zeit genug haben die beiden Länder gehabt, sich an das Neue zu ge¬

    wöhnen. Wenn sich Irland noch heute gegen England sträubt und die Treue *) Dieser Aufsatz wird unsern Lesern als Ergänzung zu dem im 19. Hefte: „Erinne¬ rungen aus Irland" willkommen sein.

    „Die Smaragdinsel.“ In: Die Grenzboten, Jg. 47, 1888, Zweites Vierteljahr, S. 628–635. URL: http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/203414

    http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/203414http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/203414http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/203414

  • ABBYY-OCR-Zonen (-Tags)

    Probleme:

    • Überschrift

    • Schmuckinitiale

    • Falsche Grenzen

    • Fußnotenerkennung

  • C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de

    Änderungen (Skript + manuelle Nachkorrektur):

    • Überschrift (d1)

    • Absatzgrenzen (p)

    • Schmuckinitiale

    • Markup semantischer Funktionen von Zonen (pb, column title, initial vs. figure, footnote)

    Correction of zones (DTA)

  • OCR - basiert

    • Beispiel 2:

    – Georg-Eckert-Institut (Braunschweig)

    – GEI-Digital: Sammlung historischer Lehrwerke

    – Geplant bis 2015: 3000 Werke, 1 Mill. Seiten

    – Genauigkeit der OCR: ~ 98%

  • Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

    Döring, Emilie: Lehrbuch der Geschichte der alten Welt. Teil 1. Frankf./Main: Diesterweg 1880, S. 208 URL: http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/

    http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/

  • Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

  • Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

    Zeichengenauigkeit

    hier ca. 94,958% (2261 Zeichen, 114 fehlerhafte Stellen)

  • Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

    Zeichengenauigkeit

    hier ca. 94,958% (2261 Zeichen, 114 fehlerhafte Stellen)

  • 3. DTAE: Erweiterungen und Kooperationen

    Kooperation mit 15 Partnern, u.a.: – Forschungsstelle für

    Personalschriften (AdW Mainz)

    – HAB Wolfenbüttel (DFG-Projekt AEdit)

    – Dinglers Polytechnisches Journal (HU Berlin)

    – Grenzbote (Univ. Bremen)

    – CLARIN-D Kurationsprojekt

    – Blumenbach www.deutschestextarchiv.de/dtae-dlc

    Korpus Seiten Textwörter

    Grenzbote 187 000 ~ 55 Mill.

    Dingler 205 000 ~ 45 M

    Andere 53 000 ~ 15 M

    ~ 115 M

    http://www.deutschestextarchiv.de/dtae-dlchttp://www.deutschestextarchiv.de/dtae-dlchttp://www.deutschestextarchiv.de/dtae-dlc

  • Stand der Korpusarbeiten DTA/CLARIN

    1. DTA-Projekt

    – DTA-Kernkorpus

    – Kollaborative Qualitätssicherung (DTAQ)

    – Korpuserweiterungen

    2. DTA und CLARIN-D

    – Interoperabilität: das DTA-Basisformat und die CLARIN-D Infrastruktur

    – Nachhaltigkeit

  • 4. CLARIN-D: Überblick

    • Common Language Resources and Technology Infrastructure Deutschland

    • 9 Partner + 7 Facharbeitsgruppen verschiedener Disziplinen

    • Verteilte, zentrenorientierte Forschungsinfrastruktur für Sprachressourcen in den Geistes- und Sozialwissenschaften

    • > 60 Softwarewerkzeuge (Syntax, NE-Erkennung, Visualisierung), Zusammenfassung in einer (verteilten) Verarbeitungskette (WebLicht)

    • Interoperabilität und nachhaltige Verfügbarkeit

    45

  • Interoperabilität im DTA/CLARIN-D

    TEI-P5 als Startpunkt

    2005: DWDS-Kernkorpus (20. Jh.) in TEI-P5

    2007: DTA startet mit der Idee eines „Basisformats“: DTABf

    Idee: geeignete Untermenge von TEI-P5 für die Strukturierung von historischen gedruckten Texten

    Grundidee: Interoperabilität (Unsworth 2011) gewährleisten

    • establish high quality transcription of the text

    • provide high quality metadata

    • focus on non-controversial aspects of the text, thus providing unambiguous solutions for text annotation

    2012: DTABf : Best Practice für historische Texte in CLARIN-D (Benutzerhandbuch, http://de.clarin.eu/de/)

    46

    http://de.clarin.eu/de/sprachressourcen/benutzerhandbuch.html

  • 4b. Infrastruktur und Lifecycle dig. Texte

    Software zur Integration in die CLARIN-D Infrastruktur:

    (1) Teilautomatisierte Integration der Metadaten

    (2) Konvertierung in TEI-P5 a. OxGarage

    b. DTA-Import (teilautomatisch)

    (3) TEI-P5 DTABf via DTA-oXygen Framework

    (4) Qualitätskontrolle über DTAQ

    (5) Generisches web-basiertes Framework zur Integration in die CLARIN-D Infrastruktur

    (6) Analysen via WebLicht

    47

  • • Normalisierung der Struktur (DTABf, TCF)

    • Normalisierung Orthographie: – mit und

    – Bsp.: seyn und sein

    • CLARIN-D Re-Analyse der Texte in Tübingen, Stuttgart, Leipzig (NER, Syntax, Visualisierung)

    • nachhaltige Speicherung nach Projektförderung in BBAW-Servicezentrum

    48

    Mehrwert CLARIN-D am Beispiel „Dingler“

  • CLARIN-Demoseite:

    http://clarin01.ims.uni-stuttgart.de/dingler/index.jsp

  • Weitere Anwendungen im CLARIN-Kontext

    • Thematische Gruppierungen von Dokumenten

    • Relationsextraktionen

    – „active learning“-Ansatz ; Basis: Syntaxanalyse

    – Relationen werden festgelegt

    – Kontexte werden vom Benutzer trainiert (d.h. er markiert positive und negative Instanzen in einem interaktiven Prozess)

    – Daraus werden Merkmale „gelernt“

    – Z.B. „X hat_Beruf Y“ oder „X ist_geboren_in Y“

  • Relationsextraktion: „active learning“

    51

    Blessing, Andre; Stegmann, Jens; Kuhn, Jonas SOA meets Relation Extraction: Less may

    be more in Interaction in Proceedings of the Workshop on Service-oriented Architectures

    (SOAs) for the Humanities: Solutions and Impacts, Digital Humanities pp. 6-11.

  • Parsebaum mit Normalisierung

    Eine Lösung dieser scheinbaren Anomalie dürfte einigen

    Lesern nicht unwillkommen sein.

  • Parsebaum ohne Normalisierung

    53

    Eine Lösung dieser scheinbaren Anomalie dürfte einigen

    Lesern nicht unwillkommen seyn.

  • POS-Verteilung normalisiert vs. original

    • Normalisierung durch CAB-Werkzeug des DTA

    • Normalisierte Fassung: Abnahme: NE (-20% ), XY

    (-41% ), ADJA (-5% )

    Zunahme: VAINF (+14%), ITJ (+57%) sowie mehr analysierte Funktionswörter

    (Analyse: Normalisierung, B. Jurish

    (DTA-CAB), Syntaxanalyse A. Blessing, (IMS-Stuttgart), Feb. 2013

    54

  • Vielen Dank für Ihre Aufmerksamkeit!

    DTA-Projektgruppe: A. Geyken, S. Haaf, B. Jurish,

    M. Schulz, C. Thomas, F. Wiegand