CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... ·...

19
CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren von Texten Thomas Bögel 1 , Evelyn Gius 2 , Marco Petris 2 , Jannik Strötgen 3 1 Universität Heidelberg, 2 Universität Hamburg, 3 MPI Saarbrücken

Transcript of CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... ·...

Page 1: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren von Texten

Thomas Bögel1, Evelyn Gius2, Marco Petris2, Jannik Strötgen3 1Universität Heidelberg, 2Universität Hamburg, 3MPI Saarbrücken

Page 2: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Workshop-Ablauf

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

2

¨  Hintergrund und Philosophie von CATMA ¨  (kurze) Einführung in computergestütztes Annotieren und Analysieren ¨  Hands-on! PAUSE ¨  Automatische Annotationen (heureCLÉA) ¨  noch mehr Hands-on ¨  Implementierung der Annotationen in CATMA

A N N O T A T I O N M I T

Page 3: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Unser Ausgangspunkt: ¨  philologische Textanalyse ¨  Funktion: Annotationen als …

¤  Anmerkungen ¤  Hervorhebung besonders relevanter Textstellen ¤  Markierung weiter zu analysierender Textstellen

à Annotation als wesentliches Mittel der philologischen Textanalyse

Textanalyse als (philologische) Praxis

3

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

Page 4: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

CATMA (Computer Aided Textual Markup and Analysis)… ¨  ist eine Software für

Textauszeichnung und –analyse

¨  wurde für Nutzer/innen mit wenig technischer Vorerfahrung entwickelt

¨  basiert auf der Auffassung, dass ein Digital Humanities-Tool die methodologische und soziale Praxis traditioneller Philologie emulieren soll

à  hermeneutischer Zugang zu Annotation

08.03.2016

4

CATMA (Bögel/Gius/Petris/Strötgen)

Page 5: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Textexploration & -annotation in CATMA

Workflow:¨  Tagsetserstellen&anno-eren¨  Fragenstellen¨  Ergebnisseinterpre-eren

¨  weiteranno-erenbzw.Tagsets/Annota-onenüberarbeiten

¨  (bessere)Fragenstellen¨  Ergebnisseinterpre-eren

¨  weiteranno-erenbzw.Tagsets/Annota-onenüberarbeiten

¨  ...

5

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

tagset = (wiederverwendbare) Sammlung von Tags tag = Konzept für Annotation (z.B. „Ort“, „Verb“, „Metapher“)

Page 6: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Anwendungsbsp.: Narrative Strukturen in Konflikterzählungen

¨  Verhältnis zwischen dem WIE und dem WAS in Konflikterzählungen ¨  Untersuchung narratologischer Kategorien ¨  bottom up: möglichst umfassende Analyse narratologischer

Phänomene ¤  14 narratologische Felder mit über 400 narratologischen Konzepten

¨  Korpus: 39 faktuale Erzählungen über Arbeitssituationen

¤  … mit akuten Konflikten (18), ¤  … ohne Konflikte (15), und ¤  … mit gelösten Konflikte (6).

6

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

Page 7: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Anwendungsbsp.: Annotation und Analyse

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

7

¨  23.904 Annotationen: ¤  15.546 narratologische Tags ¤  8.358 Hilfstags (Art der Erzählung, Sprecher/in etc.)

¨  plus: 4.147 zusätzliche Merkmale („properties“) der Tags ¨  Analyse der Distribution der narratologischen Phänomene

¤  für jedes narratologische Feld ¤  in Bezug auf die drei Erzählungstypen (akuter Konflikt, konfliktlos, gelöster Konflikt)

366 � Weitere Analyseergebnisse

Tab. A.11. Verhältnis von Wiedergabe von Rede und mentalen Prozessen in Erzähltripeln nachTextumfang

mentale Prozesse RedeK [K] -K ø K [K] -K ø

Brigitte A �,�� �,�� �,�� �,�� �,�� �,�� �,�� �,��Brigitte B �,�� �,�� - �,�� �,�� �,�� �,�� �,��Martin �,�� �,�� - �,�� �,�� �,�� �,�� �,��Milan �,�� �,�� - �,�� �,�� �,�� �,�� �,��Pascal �,�� �,�� �,�� �,�� �,�� �,�� �,�� �,��Tara �,�� �,�� �,�� �,�� �,�� �,�� �,�� �,��gesamt �,�� �,�� �,�� �,�� �,�� �,�� �,�� �,��

Tab. A.12. Vorkommnisse und relative Häu�gkeit von Wiedergabe von Rede und mentalenProzessen in den Haupterzählungen nach Einzelphänomenen

Vorkommnisse relative Häu�gkeitK [K] -K ges. K [K] -K gesamt

mental_process_representation ��� �� �� ��� ��� ���,� ���,� ���,�narrated_character_thought � � - � � �,� - ��,�transposed_character_thought ��� �� �� ��� ��� ��,� ��,� ���,�partly_quoted_character_thought � - � � � - ��,� ��,�quoted_character_thought �� � � �� �� ��,� ��,� ���,�narrated_character_speech ��� �� �� ��� ��� ���,� ���,� ���,�free_indirect_speech � - - � � - - �,�indirect_speech ��� �� � ��� ��� ���,� ��,� ���,�autonomous_direct_speech �� � � �� �� ��,� ��,� ��,�direct_speech ��� �� �� ��� ��� ���,� ���,� ���,�partly_quoted_speech �� � � �� �� ��,� ��,� ��,�alle Phänomene ���� ��� ��� ���� ���� ����,� ���,� ����,�

VerhältnisWiedergabevonRede/mentalenProzessen(rela>vzumUmfangderErzählung)(cf.Gius2015:366)

Page 8: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Anwendungsbsp: Ergebnisse

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

8

¨  60+ Zusammenhänge zwischen narratologischen Phänomenen und Vorhandensein/Abwesenheit von Konflikten in der Erzählung è narrative Konstituierung von Konflikterzählungen

¨  meist in Form von ¤  “wenn Phänomen X vorhanden/abwesend/im Vergleich zu einem anderen Phänomen dominant ist,

handelt es sich um eine Erzähung über einen akuten Konflikt/einen gelösten Konflikt/keinen Konflikt.”

lowescala-on!"highescala-onfasternarra>on vs. slowernarra>on

itera>ve vs. repe>>vecomple>veanachronies vs. par>alanachronies

externalanalepses vs. internalanalepsesnarratedspeech vs. transposedspeech

speechrepresenta>on vs. representa>onofmentalprocessesfeelingsoftheotherparty vs. thoughtsoftheotherparty

morerepresenta>onsoftheaddressee

narrator’sspeechandmentalprocessesmorenarrators(andnarra>velevels)highinvolvementinac>onofnarratorpassagewithpresencefunc>onsdis>nctphenomenaofperspec>ve

Page 9: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Literaturwissenschaftliche Textanalyse mit CATMA

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

9

I. Erkenntnisinteresse

II. Forschungsfrage formulieren

III. Konkreten Textbezug sichern „An welchem Textphänomen X kann

man die Fragestellung untersuchen?“

Qualitative Dimension - Aspekt der Bedeutung

„Was bedeutet X, und zwar à  textintern à  textüberschreitend?“

Quantitative Dimension - Aspekt der Verteilung

„Wo kommt X vor, und zwar. à  textintern à  textüberschreitend?“

Pragmatische Dimension – Komplexität

„Ist X ein einfaches oder ein zusammengesetztes Phänomen?“

A. Inhaltliche Reflexion: „Worum geht‘s?“

B. Heuristische Reflexion: „Wie könnte man‘s herausbekommen?“

C. Praktische Reflexion: „Wie kann man Verteilung / Bedeutung mit CATMA analysieren ?“

IV. Operationalisierung in CATMA

1. Suchen & Finden

2. Markieren

3. Fragen & Auswerten

4. Interpretieren

D. Kritische Reflexion: „Wie brauchbar sind die Ergebnisse?“

Page 10: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Hands-on: Erste Schritte in CATMA

¨  Login: www.digitalhumanities.it/catma/

¨  weitere Infos: ¤ www.catma.de ¤ www.digitalhumanities.it/catma/manual/

10

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

Page 11: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

The Developer‘s Perspective

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

11

¨  CATMA‘s approach to annotation

Page 12: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Paper Annotation

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

12

Annotation paper style •  the annotation is embedded in the

annotated text, either •  inline („interlinear“) •  in the page margins •  in a different layout section of the

text (footnotes, apparatus etc.) that is cross-referenced using a scheme, such as footnote / end note numbering)

Page 13: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

13

Corpus

Markup file Markup file

Markup file Markup file Markup generated by users 1, 2 ... n

User Markup

Text document

Tag Type Libraries

Markup Collections

Collections of tags (= annotation terms). These can be pre-defined & imported, and/or extended and defined ‚on the fly‘ during the annotation process

CATMA file types

Page 14: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Inanagitatedmood,hehastenedthroughthestreetsofthecity.Withoutthegate,hesatdownbeneaththetrees.Shehadtoldhiminthemorningthatshewastogothatnight,withsomerela>ons,tothecountry.Intoxicatedwithlove,herose,hesat,hewanderedinthewood[…].

1

0-5657-116117-173174-236237-

1Excerptfrom„DerPokal“,LudwigTiek1812,Transla>onThomasCarlyle„TheGoblet“,Wikisource

Analepsisofpar$alextent(coversonlypartofthe‘backstory’)andinternalreach(itdoesn’textendintothe‘pre-history’ofthemainstoryline).

Example1:annota>ngananalepsis

14

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

Page 15: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Shehadtoldhiminthemorningthatshewastogothat

night,withsomerela>ons,tothecountry.

117-173

174-217

Ananalepsisofpar>alextentandinternalreach

15

TagType•  „Analepsis“•  n•  AuthorType

„Shehad[…]thecountry.“ TagInstance

TagInstanceReference

defines

oneormore

annotatesrangesoftext

Step 1: Define Tag Type, Instance & Range

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)

Page 16: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

TagType•  „Analepsis“•  n•  AuthorType

Analepsisofpar>alextentandinternalreach.

„Shehad[…]thecountry.“ TagInstance

TagInstanceReference

Propertydefini>ons•  extent(complete,par>al,...)•  reach(internal,external,...)

Proper>es•  extent–par>al•  reach–internal•  AuthorInstance

CATMA (Bögel/Gius/Petris/Strötgen)

16

defines

oneormore

instancespecificconfigura>on

par>allypredefined

annotatesrangesoftext

has

Step 2: Define Tag instance specific properties

08.03.2016

Page 17: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

1Excerptfrom„DerPokal“,LudwigTiek1812,Transla>onThomasCarlyle„TheGoblet“,Wikisource

Archaictransla>on,amorecontemporarytransla>oncouldbe„outside“.

Example2:annota>ngahistoricwordform

CATMA (Bögel/Gius/Petris/Strötgen)

17

Inanagitatedmood,hehastenedthroughthestreetsofthecity.Withoutthegate,hesatdownbeneaththetrees.Shehadtoldhiminthemorningthatshewastogothatnight,withsomerela>ons,tothecountry.Intoxicatedwithlove,herose,hesat,hewanderedinthewood[…].

1

0-5657-116117-173174-236237-

08.03.2016

Page 18: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

Withoutthegate,hesatdownbeneaththetrees.57-105

Archaictransla>on,amorecontemporarytransla>oncouldbe„outside“. TagType

•  „ArchaicTransla>on“

•  n

Propertydefini>on•  contemporary(?)

TagInstance

Property•  contemporary–outside

DefiningTagtype,taginstance&taginstanceproper>es

CATMA (Bögel/Gius/Petris/Strötgen)

18

instance specific configuration with adhoc value

partially predefined

has

08.03.2016

Page 19: CATMA eine Plattform zum kollaborativen und ...jstroetge/talks/dhd2016-catma-tutorial-catma... · CATMA eine Plattform zum kollaborativen und automatisierten Annotieren und Analysieren

TagType•  treestructure

TextRangeTagInstance

TagInstanceReference

Propertydefini>ons•  name•  (possiblevalues)

Proper>es•  name–value

reusable,textindependent

CATMA’sannota>onmodel

19

defines

instancespecificconfigura>on

par>allypredefined

has

oneormoreannotates

08.03.2016 CATMA (Bögel/Gius/Petris/Strötgen)