DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin...

39
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de DIE KORPORA DES DEUTSCHEN TEXTARCHIVS Erfassung, Annotation, Analyse und Qualitätssicherung textbasierter Forschungsdaten für die DH Christian Thomas, Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) / Humboldt-Universität zu Berlin (HU) [email protected] , [email protected]

Transcript of DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin...

Page 1: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DIE KORPORA DES DEUTSCHEN TEXTARCHIVSErfassung Annotation Analyse und Qualitaumltssicherung textbasierter Forschungsdaten fuumlr die DH

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Christof Schoumlch bdquo Ein digitales Textformat fuumlr die Literaturwissenschaften Die Richtlinien der Text Encoding Initiative und ihr Nutzen fuumlr Textedition und Textanalyseldquo In CLiGS httpcligshypothesesorg253 15102015 [Vorabversion fuumlr httpwwwromanischestudiende]

Text Encoding Initiative (TEI)

latest Version 291 Last updated on15th October 2015 revision 46ac023httpwwwtei-corgreleasedoctei-p5-docenGuidelinespdf [1702 pages]

ldquohellip a consortium which collectively developsand maintains a standard for the representa-tion of texts in digital formrdquo (httpwwwtei-corg)

TEI-C = Herausgeber der TEI Guidelinesbull XML-basierter freier internationaler

(de facto-) Standardbull umfassend dokumentiertbull plattformunabhaumlngig flexibel nutzbarbull menschen- amp maschinenlesbarbull generische und TEI-spezifische Toolsbull (prinzipiell) interoperabel

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Text Encoding Initiative (TEI)

Aktive Communitybull TEI-C Home httpwwwtei-corgbull TEI-L httpslistservbrownedu

archivescgi-binwaA0=tei-lbull jTEI httpjteirevuesorgbull TEI GitHub httpsgithubcomTEICTEIbull TBE httpteibyexampleorgbull Annual Conference and

Memberlsquos Meeting (eg 2015 Lyon FR)

httptei2015huma-numfren

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

Text Encoding Initiative (TEI)

ldquoCustomization is a central aspect of TEI usage and theGuidelines are designed with customization in mindrdquo(httpwwwtei-corgGuidelinesCustomization)

TEI-Consortiumbull Allbull Corpusbull MS TEIbull Dramabull Litebull TEI Titebull Barebull Simplebull hellip

TEI-Communitybull DTA-Basisformat (DTABf)

DTABf fuumlr Zeitungen DTABf fuumlr Funeralschriften DTABf fuumlr Manuskripte (DTABf-M)

bull IDS i5bull TextGrid Baseline Encodingbull TEI Analyticsbull Best Practices for TEI in Librariesbull hellip

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Grundstruktur TEI-XML

Metadatenzum digitalen Objekt zur Vorlage zum Encoding hellip

ObjektdatenzB Transkription der gedruckten Vorlage

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

ltElement attribut =Wertgt (leeres Element)

ltElement attribut =Wertgthellipltelementgt (umschlieszligend)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 2: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Christof Schoumlch bdquo Ein digitales Textformat fuumlr die Literaturwissenschaften Die Richtlinien der Text Encoding Initiative und ihr Nutzen fuumlr Textedition und Textanalyseldquo In CLiGS httpcligshypothesesorg253 15102015 [Vorabversion fuumlr httpwwwromanischestudiende]

Text Encoding Initiative (TEI)

latest Version 291 Last updated on15th October 2015 revision 46ac023httpwwwtei-corgreleasedoctei-p5-docenGuidelinespdf [1702 pages]

ldquohellip a consortium which collectively developsand maintains a standard for the representa-tion of texts in digital formrdquo (httpwwwtei-corg)

TEI-C = Herausgeber der TEI Guidelinesbull XML-basierter freier internationaler

(de facto-) Standardbull umfassend dokumentiertbull plattformunabhaumlngig flexibel nutzbarbull menschen- amp maschinenlesbarbull generische und TEI-spezifische Toolsbull (prinzipiell) interoperabel

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Text Encoding Initiative (TEI)

Aktive Communitybull TEI-C Home httpwwwtei-corgbull TEI-L httpslistservbrownedu

archivescgi-binwaA0=tei-lbull jTEI httpjteirevuesorgbull TEI GitHub httpsgithubcomTEICTEIbull TBE httpteibyexampleorgbull Annual Conference and

Memberlsquos Meeting (eg 2015 Lyon FR)

httptei2015huma-numfren

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

Text Encoding Initiative (TEI)

ldquoCustomization is a central aspect of TEI usage and theGuidelines are designed with customization in mindrdquo(httpwwwtei-corgGuidelinesCustomization)

TEI-Consortiumbull Allbull Corpusbull MS TEIbull Dramabull Litebull TEI Titebull Barebull Simplebull hellip

TEI-Communitybull DTA-Basisformat (DTABf)

DTABf fuumlr Zeitungen DTABf fuumlr Funeralschriften DTABf fuumlr Manuskripte (DTABf-M)

bull IDS i5bull TextGrid Baseline Encodingbull TEI Analyticsbull Best Practices for TEI in Librariesbull hellip

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Grundstruktur TEI-XML

Metadatenzum digitalen Objekt zur Vorlage zum Encoding hellip

ObjektdatenzB Transkription der gedruckten Vorlage

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

ltElement attribut =Wertgt (leeres Element)

ltElement attribut =Wertgthellipltelementgt (umschlieszligend)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 3: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Christof Schoumlch bdquo Ein digitales Textformat fuumlr die Literaturwissenschaften Die Richtlinien der Text Encoding Initiative und ihr Nutzen fuumlr Textedition und Textanalyseldquo In CLiGS httpcligshypothesesorg253 15102015 [Vorabversion fuumlr httpwwwromanischestudiende]

Text Encoding Initiative (TEI)

latest Version 291 Last updated on15th October 2015 revision 46ac023httpwwwtei-corgreleasedoctei-p5-docenGuidelinespdf [1702 pages]

ldquohellip a consortium which collectively developsand maintains a standard for the representa-tion of texts in digital formrdquo (httpwwwtei-corg)

TEI-C = Herausgeber der TEI Guidelinesbull XML-basierter freier internationaler

(de facto-) Standardbull umfassend dokumentiertbull plattformunabhaumlngig flexibel nutzbarbull menschen- amp maschinenlesbarbull generische und TEI-spezifische Toolsbull (prinzipiell) interoperabel

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Text Encoding Initiative (TEI)

Aktive Communitybull TEI-C Home httpwwwtei-corgbull TEI-L httpslistservbrownedu

archivescgi-binwaA0=tei-lbull jTEI httpjteirevuesorgbull TEI GitHub httpsgithubcomTEICTEIbull TBE httpteibyexampleorgbull Annual Conference and

Memberlsquos Meeting (eg 2015 Lyon FR)

httptei2015huma-numfren

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

Text Encoding Initiative (TEI)

ldquoCustomization is a central aspect of TEI usage and theGuidelines are designed with customization in mindrdquo(httpwwwtei-corgGuidelinesCustomization)

TEI-Consortiumbull Allbull Corpusbull MS TEIbull Dramabull Litebull TEI Titebull Barebull Simplebull hellip

TEI-Communitybull DTA-Basisformat (DTABf)

DTABf fuumlr Zeitungen DTABf fuumlr Funeralschriften DTABf fuumlr Manuskripte (DTABf-M)

bull IDS i5bull TextGrid Baseline Encodingbull TEI Analyticsbull Best Practices for TEI in Librariesbull hellip

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Grundstruktur TEI-XML

Metadatenzum digitalen Objekt zur Vorlage zum Encoding hellip

ObjektdatenzB Transkription der gedruckten Vorlage

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

ltElement attribut =Wertgt (leeres Element)

ltElement attribut =Wertgthellipltelementgt (umschlieszligend)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 4: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Text Encoding Initiative (TEI)

Aktive Communitybull TEI-C Home httpwwwtei-corgbull TEI-L httpslistservbrownedu

archivescgi-binwaA0=tei-lbull jTEI httpjteirevuesorgbull TEI GitHub httpsgithubcomTEICTEIbull TBE httpteibyexampleorgbull Annual Conference and

Memberlsquos Meeting (eg 2015 Lyon FR)

httptei2015huma-numfren

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

Text Encoding Initiative (TEI)

ldquoCustomization is a central aspect of TEI usage and theGuidelines are designed with customization in mindrdquo(httpwwwtei-corgGuidelinesCustomization)

TEI-Consortiumbull Allbull Corpusbull MS TEIbull Dramabull Litebull TEI Titebull Barebull Simplebull hellip

TEI-Communitybull DTA-Basisformat (DTABf)

DTABf fuumlr Zeitungen DTABf fuumlr Funeralschriften DTABf fuumlr Manuskripte (DTABf-M)

bull IDS i5bull TextGrid Baseline Encodingbull TEI Analyticsbull Best Practices for TEI in Librariesbull hellip

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Grundstruktur TEI-XML

Metadatenzum digitalen Objekt zur Vorlage zum Encoding hellip

ObjektdatenzB Transkription der gedruckten Vorlage

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

ltElement attribut =Wertgt (leeres Element)

ltElement attribut =Wertgthellipltelementgt (umschlieszligend)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 5: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

Text Encoding Initiative (TEI)

ldquoCustomization is a central aspect of TEI usage and theGuidelines are designed with customization in mindrdquo(httpwwwtei-corgGuidelinesCustomization)

TEI-Consortiumbull Allbull Corpusbull MS TEIbull Dramabull Litebull TEI Titebull Barebull Simplebull hellip

TEI-Communitybull DTA-Basisformat (DTABf)

DTABf fuumlr Zeitungen DTABf fuumlr Funeralschriften DTABf fuumlr Manuskripte (DTABf-M)

bull IDS i5bull TextGrid Baseline Encodingbull TEI Analyticsbull Best Practices for TEI in Librariesbull hellip

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Grundstruktur TEI-XML

Metadatenzum digitalen Objekt zur Vorlage zum Encoding hellip

ObjektdatenzB Transkription der gedruckten Vorlage

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

ltElement attribut =Wertgt (leeres Element)

ltElement attribut =Wertgthellipltelementgt (umschlieszligend)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 6: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Grundstruktur TEI-XML

Metadatenzum digitalen Objekt zur Vorlage zum Encoding hellip

ObjektdatenzB Transkription der gedruckten Vorlage

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

ltElement attribut =Wertgt (leeres Element)

ltElement attribut =Wertgthellipltelementgt (umschlieszligend)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 7: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

ltElement attribut =Wertgt (leeres Element)

ltElement attribut =Wertgthellipltelementgt (umschlieszligend)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 8: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Elemente Attribute amp Werte

ltdiv1 type=volume n=1 xmlid=d3gt

ltheadgtVolume 1ltheadgt

lt-- --gt

ltdiv2 type=chapter n=113 xmlid=d16gt

ltheadgtChapter 113ltheadgt

ltpb n=134gt

ltpgtFor lthi rend=italicsgttwolthigt months

the fugitives remained absent [hellip]ltpgt

Beispiel aus httpteibyexampleorgexamplesTBED03v00htm

Transformationz B XSLT

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 9: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltpersNamegt amp ltplaceNamegt | ref=[GND]

ltpgtUnterthaumlnigst-Gehorsamsterltlbgt

ltpersName ref=httpd-nbinfognd118794396gt

Joachim von SandrartltpersNamegtltlbgtauf

ltplaceName ref=httpd-nbinfognd4536160-5gt

StockaultplaceNamegtltpgt

Beispiel aus Sandrart Joachim von LrsquoAcademia Todesca della Architectura Scultura amp Pittura Oder Teutsche Academie der Edlen Bau- Bild- und Mahlerey-Kuumlnste Bd 21 Nuumlrnberg 1679 In Deutsches Textarchiv lthttpwwwdeutschestextarchivdesandrart_academie0201_1679gt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 10: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

ltcastListgt ltheadgtPerſonenltheadgtltlbgt

ltcastItemgt

ltrole xmlid=GERgtGerhard ein

reicher Privatmannltlbgtltrolegt

ltcastItemgt

ltcastItemgt

ltrole xmlid=STEgtSternberg

Advokat Vetterltlbgtltrolegt

ltcastItemgt

ltcastListgt

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 11: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ltspgt mit who=[xmlid]

Zentralitaumltswerte aller Figuren zu Lessings Emilia Galotti (1772) Automatisches Clustering von Figurengruppen in einem Netzwerkgraph (Wilhelm Schaumlfer Faustine [1898]) Quelle httpsdlinagithubio

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 12: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 13: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Deutsches Textarchiv (DTA)

wwwdeutschestextarchivde

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 14: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA Uumlberblick

Stand 20102015

= mehr als 800 000 Seiten 15 Mrd Zeichen 212 Mio Tokens

bull Zeitraum 2007ndash201516 Foumlrderung

bull beteiligt anCLARIN-D (Common Language Resources and Technology Infrastructure)

bull Grundlage fuumlr ein Referenzkorpus des Neuhochdeutschen

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 15: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull Parallelansicht facs|text

bull Text in TEI-XML HTML txt CAB-View

bull Metadaten TEI-Header CMDI DC

bull Linguistische Analyse (Standoff) DDC

bull Download XML HTML plain text TCF

Download DTA-Kernkorpus (CC-BY-NC) DTAE oder alle Texte bestimmter Kategorien Zeitraumlume etcwwwdeutschestextarchivdedownload

DTA Key Features

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 16: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

bull zeichengenau nach Vorlage (+ Strukturtags aus Zoning)

bull keine Modernisierungen keine Normalisierungen

bdquoIch laſſe mich nicht irre ſchreynrdquo

ſchreyn rarr ſchreyn

ſchreyn rarr schreyn

ſchreyn rarr schreien

goethe_faust01_1808p=293

Richtlinien zur Texterfassung

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 17: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Tokenisierung Lemmatisierung POS-Tagging orthographische Normierung

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 18: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

ermoumlglicht z B Suche nach allen flektierten Formen von ehelichenldquo als Verb (im Unterschied zur Verwendung als Adjektiv)

+ DTA-Indizierung ermoumlglicht fuumlr jede Suche Einschraumlnkung auf einzelne Baumlnde Autoren auf bestimmte Subkorpora bestimmte Zeitspannen Textsorten etc

Siehe zur Suche im DTA httpwwwdeutschestextarchivdedokuDDC-suche_hilfe

DTA linguistische Analyse(automatisch Standoff)

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 19: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Germanet integriert

GermaNet lexikalisch-semantisches WortnetzNomina Verben und Adjektive in sbquoSynsetslsquo modelliert

Synsets Gruppen lexikalischer Einheiten die zum gleichen Konzept gehoumlren

semantische Relationen zwischen den Konzeptensind ebenfalls definiert

GermaNet fungiert also als Online-Thesaurus oder light-weight-Ontologie httpsshibbolethbbawdeproxiedgermanet

httpwwwsfsuni-tuebingendeGermaNet

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 20: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

religioumlses_Wesen|germanet

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 21: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

kompliziert|germanet rarr complicirt ſchwer schwierig vermaledeyt vertract verwickelt verworren verzwickt verzwackt hellip

Germanet integriert

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 22: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

DTA-Basisformat (DTABf)

Susanne Haaf Alexander Geyken and Frank Wiegand laquoThe DTA ldquoBase Formatrdquo A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sourcesraquo jTEI 8 2014-2015 httpjteirevuesorg1114 DOI 104000jtei1114

ndash Echte Untermenge des TEI-P5 Tagsets

ndash Reduktion der Elementauswahl Festlegung von Attributen und Werten Ziel Reichhaltigkeit der TEI-Richtlinien reduzieren auf eindeutige Tagging-Loumlsungen

ndash Komponenten Dokumentation ODD RelaxNG

ndash DTABf als Ausgangsformat fuumlr DTA-Tools

httpwwwdeutschestextarchivdedokubasisformat

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 23: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

sbquoreinelsquo Typographie Nie

schoenberg_berginformation_1693hl=informirenp=103

zeller_chronik01_1700hl=moralischampp=59

anonym_relation_1609hl=studirenampp=164

ercker_aula01_1672

marperger_hutmacher_1719p=97

marperger_hutmacher_1719p=97

marperger_hutmacher_1719hl=conC5BFummirenampp=100

fleming_jaeger01_1719p=599

mueller_ostiacken_1726p=55

mueller_ostiacken_1726p=55

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 24: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Gliederung

Einfuumlhrung Text Encoding Initiative (TEI)

Annotation XML-kodierter Texte gemaumlszlig TEI P5

Annotation im Deutschen Textarchiv (DTA) der BBAW

TEI-basiertes DTA-Basisformat (DTABf)

computerlinguistisch gestuumltzte Suche im DTA

Annotation im Projekt Hidden Kosmos der HU Berlin

Erweiterung des DTABf fuumlr Manuskripte (DTABf-M)

Humboldts Kosmos-Vortraumlge als vernetztes Forschungskorpus

Annotationen als Forschungswerkzeug

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 25: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Hidden KosmosReconstructing Alexander von Humboldtrsquos raquoKosmos-Lectureslaquo

D Erdmann M Hug C Kassung C ThomasB Fiechter S Balck

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 26: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

1 Zwei parallele Vorlesungszyklen

2 Kein Manuskript (fuumlr 62 bzw 16Vortraumlge)

3 Nachschriften der Zuhoumlrer sehr kritisch betrachtet

Humboldts sbquoKosmos-Vortraumlgelsquo Berlin 182728bdquo[hellip] so habe ich [hellip] fast gleichzeitig in der groszligen Halle der Singakademie und in einem der Houmlrsaumlle der Universitaumlt Vorlesungen uumlber die physische Weltbeschreibung [hellip] gehalten Bei freier Rede habe ich [hellip] nichts uumlber meine Vortraumlge schriftlich aufgezeichnet(Humboldt Kosmos I S IX f)

bdquonichts [hellip] ist widerwaumlrtiger als publicirt zu sehen was ein Gemisch von Gehoumlrtem und Selbstzugesetztem istldquo(Brief Humboldts an R Zeune Berlin 1621857)

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 27: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Erdmann Hug Kassung Thomas Projektvorstellung Hidden Kosmos 1 Potsdamer A v Humboldt-Tag 27052014 27

sbquoDielsquo Kosmos-Vortraumlge A v Humboldts2 sehr verschiedene Vortragszyklen

Humboldts sbquoKosmos-Vortraumlgelsquo

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 28: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Anonym (1934) hrsg v Verlag Miron Goldstein

Anonym (1993) hrsg v J Hamel und K-H Tiemann

Humboldts sbquoKosmos-Vortraumlgelsquo

Stand 2014 nur 2 Nachschriften veroumlffentlicht

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 29: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Nachschriften der Kosmos-Vortraumlge A v Humboldts

Privat(Fam v Heinz

Berlin)

Privat(C Sengoumlr

Tuumlrkei)

IAI-PK

SBB-PK

Bib Jag Krakoacutew

SBB-PK SBB-PK SBB-PKSBB-PK

SBB-PK (Kartenabt)

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 30: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Hidden Kosmos ndash Eckdaten

30

bull Hauptziel Publikation und Vernetzung aller Nachschriften der Kosmos-Vortraumlgebull bislang 11ndash12 handschriftliche Nachschriften

bull Gesamtumfang ca 3500 Seiten

bull Aufbau einer virtuellen Forschungsumgebung zu den Kosmos-Vortraumlgenbull Vernetzung aller Nachschriften untereinander

+ Vernetzung mit zeitgenoumlssischer LiteraturQuellen

+ mit VL-Manuskripten aus dem Nachlass Humboldts(als Anschlussprojekt in Planung)

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 31: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

ltheadgtltpgt

ltheadgt

ltpb facs=f0007 n=2rgt

ltdiv n=1gt

ltheadgtPhysikalische Geographie bei A v Humboldtltheadgtltlbgtltdivgt

ltmilestone unit=section rendition=hrgt

ltdiv type=session n=1gt

lthead rendition=rightMargingt1 3 Nov 1827ltheadgtltlbgt

ltpgtAls Einleitung in die physik Geogr gebe ich eine Uumlbersichtltlbgt

der Zustaumlnde im allgemeinen in welchen die Materie unsltlbgt

im Weltraume erscheint und fange daher mit denjenigenltlbgt

Koumlrpern anltdel rendition=sgtltdelgt welche in der

Lichtbildung begriffen scheinenltlbgt [hellip] ltpgt [hellip] ltdivgt [hellip] ltdivgt

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 32: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

ltnotegt

ltaddgt ltmetamarkgt

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 33: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

bdquoDunstmassenldquo statt bdquoDurchmesserldquo

HamelTie-mann (Hrsg) 1993 S 43

(Ms Germ qu 2124 Bl 2r)

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 34: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

asymp 400 Abweichungen von der Vorlage(asymp 24 Abweichungen pro Druckseite)

bdquodie halbe Dickeldquo st bdquodie selbe Dickeldquo (Bl 6v)

bdquoStierenldquo st bdquoRindernldquo (Bl 24r)

bdquoKraumlheldquo st bdquoHuhnldquo (Bl 39r)

bdquoneuentdecktenldquo st bdquounentdecktenldquo (Bl 64v)

bdquomagnetisches Lichtldquo st bdquoeigenthuumlmliches Lichtldquo (Bl 69r)

bdquoErscheinungenldquo st bdquoErfahrungenldquo (Bl 77r)

bdquounsere Maumlnnerldquo st bdquomehrere Maumlnnerldquo (Bl 80v)

hellip hellip hellip

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 35: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

HamelTiemann (Hrsg) 1993vs Ms Germ qu 2124

wwwdeutschestextarchivdenn_msgermqu2124_1827

ohne die zahlreichen Abweichungen der fruumlheren Edition gegenuumlber der Vorlageerweiterbar TEI-XML annotiert (ltsubstgt hand ltchoicegt ltpersNamegt hellip)

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 36: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Eingriffe in Anonym 1934Viedas Bielas Komet 1826

gewesen unser Jahr um 3 Tage verlaumlngert haumltte Derltlbgt

ltsubstgtltdel rendition=s hand=pencilgtlthi rendition=aqgtViedalthigt

ltdelgtltadd place=left-margin hand=pencilgtBielaltaddgtltsubstgtsche ist

ltsubstgtltdel rendition=s hand=pencilgt1726ltdelgt

ltadd place=sublinear hand=pencilgt1826 ltaddgtltsubstgt

nur 2 Mondweiten von uns gewesenltlbgt

1783 meinte man unsere Atmosphaumlre sei ver-ltlbgt

Anonym 1934 S 7

Ms Germ qu 2345 S [5]

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 37: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Eingriffe in Anonym 1934 ich gt Humbold[t] gt ich

ltpgtDie ltchoicegtltoriggtKohlsaumlureltoriggt

ltreg resp=CTgtKohlensaumlureltreggtltchoicegt ist

verschiedenartig der Sauerstoff hinge-ltlbgtgen immer gleich

dies fand ltsubstgtltdel rendition=ow hand=ink1gt

ltsupplied reason=covered cert=high resp=CTgtichltsuppliedgtltdelgt

ltdel rendition=s hand=pencilgt

ltadd place=across hand=ink2gt

lthi rendition=aqgtHumboldlthigtltaddgtltdelgt

ltadd place=superlinear hand=pencilgtichltaddgtltsubstgt

auf dem Chimboraszligoltlbgt[hellip]ltpgt

Ms Germ qu 2345 S [11]

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 38: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Anonym 1934 vs Ms Germ qu 2345

httpwwwdeutschestextarchivdenn_msgermqu2345_1827

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde

Page 39: DIE KORPORA DES DEUTSCHEN TEXTARCHIVS€¦ · Annotation im Projekt Hidden Kosmos der HU Berlin Erweiterung des DTABf für Manuskripte (DTABf-M) Humboldts Kosmos-Vorträge als vernetztes

Berlin-Brandenburgische Akademie der Wissenschaften bull Jaumlgerstrasse 2223 bull 10117 Berlin wwwbbawde

Vielen Dank fuumlr Ihre Aufmerksamkeit

Fragen Anregungen

Christian Thomas Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) Humboldt-Universitaumlt zu Berlin (HU)thomasbbawde christianthomas1staffhu-berlinde