Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin C. Fritze / O....

Post on 05-Apr-2015

106 views 0 download

Transcript of Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin C. Fritze / O....

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

DTA – Deutsches Textarchiv

Tag der Geisteswissenschaften

Berlin-Brandenburgische

Akademie der Wissenschaften

31. Oktober 2007

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

I Rahmenbedingungen

II Korpuszusammensetzung

III Arbeitsablauf

IV Werkzeuge

V Ziele

Deutsches TextarchivÜbersicht

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivRahmendaten

Arbeitsgruppe

Antragsteller: Prof. W. Klein (MPI f. Psycholinguistik), Prof. M. Bierwisch (BBAW),Prof. M. Grötschel (ZIB)

Projektleitung: Dr. A. Geyken

Mitarbeiter: C. Fritze, O. Duntze (Projektkoordination, Textbeschaffung,Textstrukturierung etc.); A. Siebert (Computerlinguistik, Webprogrammierung); B. Jurish (Computerlinguistik)

Förderung

- DFG-Projekt

- Gesamtlaufzeit 7 Jahre

- Bewilligung für die ersten drei Jahre (Juli 2007 – Juni 2010)

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivRahmendaten

Projektziele

- Digitalisierung von ca. 750 Texten aus dem Zeitraum von 1780–1900

- Bereitstellung als Volltexte (XML/TEI-P5)

- Bereitstellung der Bilddigitalisate

- Verknüpfung von Text und Bild

- Insgesamt ca. 200.000–250.000 Seiten

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivKorpuszusammensetzung – Textsorten

Lyrik 4,3%

Technik / Medizin12,1%

Naturwissen-schaften17,1%

Gesellschafts-wissenschaften

17,6%

Geisteswissen-schaften19,5%

Prosa 26,2%

Drama 2,7%

Journalismus0,4%

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivKorpuszusammensetzung – Zeitlicher Verlauf

0

5000

10000

15000

20000

250001

77

6-1

78

0

17

81

-17

85

17

86

-17

90

17

91

-17

95

17

96

-18

00

18

01

-18

05

18

06

-18

10

18

11

-18

15

18

16

-18

20

18

21

-18

25

18

26

-18

30

18

31

-18

35

18

36

-18

40

18

41

-18

45

18

46

-18

50

18

51

-18

55

18

56

-18

60

18

61

-18

65

18

66

-18

70

18

71

-18

75

18

76

-18

80

18

81

-18

85

18

86

-18

90

18

91

-18

95

18

96

-19

00

Jahr

Se

iten

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivArbeitsablauf

Bilddigitalisierung

- überwiegend Digitalisierung durch externen Dienstleister

- für kleineren Teil hausinterne Digitalisierung

- Qualitätsanforderungen:

- 300 dpi

- 24 bit Farbtiefe

- Komplettdigitalisierung inkl. Einband, Spiegel, Vorsatz etc.

- Master werden als unkomprimierte TIFFs archiviert

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivArbeitsablauf

Volltexterfassung

- ›komplexe‹ Texte über Dienstleister

- Erfassungsgenauigkeit ca. 99,98 %

- Möglichkeit der Vorstrukturierung beim Dienstleister:

kursiver Text <i>kursiver Text</i>

- automatisierte Umwandlung in TEI-konformes Markup:

<i>kursiver Text</i> <hi rend=''italic''>kursiver Text</hi>

- manuelle Nachauszeichnung bei Problemfällen

- ›einfache‹ Texte mit OCR

- Erkennungsgenauigkeit deutlich geringer als bei manueller Texterfassung, daher Nachkorrektur notwendig

- ggf. automatisierte Textauszeichnung bei klar definierbaren Strukturen möglich

- manuelle Textauszeichnung, z. T. unterstützt in Korrekturumgebung

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivWerkzeuge

Korrekturumgebung

- Text-Bild-Koppelung

- ermöglicht effiziente Korrektur von OCR-Fehlern

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivWerkzeuge

Korrekturumgebung

- Text-Bild-Koppelung

- ermöglicht effiziente Korrektur von OCR-Fehlern

- ermöglicht visuell basiertes Tagging

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivWerkzeuge

Phonetische Suche

- Problem: in historischen Sprachstufen verschiedene graphematische Realisierungen

- u.a. bei Diphthongen, T vs. Th usw.

- z.B.: Teil → Theil, Teyl, Theyl, Tail …

- Normalisierter Text ist für historisches Textkorpus nicht wünschenswert

→ Unterschiedliche Schreibweisen sollen durch intelligente Suche abgefangen werden

Morphologische Analyse

- Texte werden durch automatisierte Verfahren linguistisch annotiert

- ermöglicht komplexe linguistische Abfragen

- Basis für korpusbasierte sprachwissenschaftliche Untersuchungen

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivWerkzeuge

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches TextarchivZiele

Das »Aktive Archiv«

- Die Texte des DTA werden der Öffentlichkeit im »open access« bereitgestellt

- Das DTA ist den Grundsätzen der »Berliner Erklärung« vom Oktober 2003 verpflichtet

- Die Nutzer sollen die Texte online bearbeiten können, z. B. durch

- linguistische Annotation

- Auszeichnung von Textstrukturen

- Freitextanmerkungen

- Lesezeichen

- …

- Möglichkeit der Integration weiterer Texte durch die Nutzer

→ Entwicklung vom »passiven Archiv« zum »aktiven online-Arbeitsplatz«

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Deutsches Textarchiv

Kontakt

Berlin-Brandenburgische Akademie der WissenschaftenDeutsches TextarchivJägerstr. 22/2310117 Berlin

www.deutsches-textarchiv.de