Julius-Maximilians-Universität Würzburg · 4 . 1 Einleitung Anfang 2011 veröffentlichte Hugh...

Julius-Maximilians-Universität Würzburg Lehrstuhl für Computerphilologie Studienfach: Digital Humanities

Masterarbeit

Figurennetzwerke als Ähnlichkeitsmaß

08.08.2016

Isabella Reger

Betreuer: Prof. Dr. Fotis Jannidis

Zweitgutachter: Dr. Christof Schöch

Inhaltsverzeichnis 1 Einleitung ......................................................................................................... 4

2 Theoretischer und thematischer Hintergrund ................................................... 5

3 Methoden und Forschungsstand ....................................................................... 9

3.1 Figurennetzwerke .................................................................................... 9

3.1.1 Grundlagen der Netzwerktheorie .............................................. 9

3.1.2 Netzwerke aus Textdaten ........................................................ 10

3.1.3 Netzwerke aus literarischen Texten ........................................ 11

3.1.4 Analyse und Evaluation von Figurennetzwerken ................... 13

3.2 Topic Modeling ..................................................................................... 14

3.2.1 Latent Dirichlet Allocation ..................................................... 14

3.2.2 Anwendungsbeispiele ............................................................. 15

4 Geplante Experimente .................................................................................... 16

4.1 Korpus ................................................................................................... 16

4.2 Evaluationsgrundlage ............................................................................ 17

4.3 Durchführung ........................................................................................ 18

5 Figurennetzwerke ........................................................................................... 19

5.1 Datenaufbereitung ................................................................................. 19

5.2 Modellierung und Netzwerkerstellung.................................................. 21

5.2.1 Erstellung von Interaktionslisten ............................................ 21

5.2.2 Netzwerkerstellung und -visualisierung ................................. 23

5.3 Vergleich der Netzwerke mit Zusammenfassungen ............................. 26

5.3.1 Figurennetzwerke zu Effi Briest und Madame Bovary .......... 26

5.3.2 Besonderheiten bei Figurennetzwerken .................................. 29

5.4 Netzwerkfeatures .................................................................................. 33

5.5 Berechnung von Distanzen ................................................................... 39

5.6 Auswertung anhand der Evaluationsgrundlage..................................... 42

6 Kombination mit Topic Modeling .................................................................. 48

6.1 Preprocessing und Parameter ................................................................ 48

6.2 Interpretation der entstandenen Topics ................................................. 52

6.3 Berechnung von Distanzen und Auswertung ........................................ 57

6.4 Topics als Kanteneigenschaften ............................................................ 59

7 Fazit und Diskussion ...................................................................................... 64

8 Ausblick .......................................................................................................... 68

9 Literaturverzeichnis ........................................................................................ 70

10 Anhang ........................................................................................................... 75

4

1 Einleitung Anfang 2011 veröffentlichte Hugh Craig einen Artikel, in dem er mit Hilfe

quantitativer Methoden zeigen konnte, dass William Shakespeare im Vergleich zu

seinen Zeitgenossen in seinen Werken keinen überdurchschnittlich hohen Wort-

schatz verwendet, obwohl dies eine gängige Annahme auf dem Gebiet der Shake-

speare-Studien war (Craig 2011). Patrick Juola fand 2013 mittels statistischer Un-

tersuchungen heraus, dass der unter dem Pseudonym Robert Galbraith erschienene

Roman The Cuckoo’s Calling mit hoher Wahrscheinlichkeit von Joanne K. Row-

ling stammt (Juola 2013). Kurze Zeit später bestätigte die Autorin der Harry Potter-

Reihe dies öffentlich.

Diese bekannten Beispiele aus der Stilometrie zeigen, dass die quantitative

Analyse von Literatur Erkenntnisse liefern kann, die mit klassischem Close Rea-

ding nicht möglich wären und die bestehende Forschungsansichten der Literatur-

wissenschaft revidieren können. In der jüngeren Vergangenheit ist daher auch die

Zahl der Arbeiten, die quantitative Methoden auf literarische Texte - seien es Ro-

mane, Dramen oder Lyrik - anwenden, kontinuierlich gestiegen.

Neben der stilistischen Gestaltung können auch andere Aspekte von litera-

rischen Werken mit computergestützten Methoden untersucht werden. Die inhalt-

lich-thematische Zusammensetzung eines Textes kann beispielsweise mit Hilfe von

Topic Modeling repräsentiert und so unter anderem für die Betrachtung literarischer

Gattungen genutzt werden. Derartige quantitative Ansätze basieren immer auf Mo-

dellen zur Operationalisierung bestimmter Eigenschaften literarischer Texte.

Ein weiterer Bereich in der Literaturwissenschaft, der mit Hilfe einer sol-

chen Operationalisierung untersucht werden kann, ist die Figurenkonstellation in

Romanen oder Dramen. Abgesehen vom Einzeltext ist die Untersuchung der Figu-

renkonstellation auch für größere Textsammlungen interessant: Mögliche For-

schungsfragen könnten sein, ob es wiederkehrende Typen von Figurenkonstellati-

onen gibt, die sich, unter Umständen in leichter Abwandlung, in verschiedenen Ro-

manen finden lassen oder ob bestimmte Konstellationen typisch für bestimmte Gat-

tungen sind.

Die Figurenkonstellation eines Romans lässt sich durch ein soziales Netz-

werk repräsentieren, das automatisch aus dem Romantext extrahiert werden kann.

5

Die vorliegende Arbeit befasst sich anhand eines Korpus von deutschsprachigen

Romanen aus dem 19. Jahrhundert mit der Frage, ob mit Hilfe solcher Figurennetz-

werke automatisch festgestellt werden kann, inwieweit sich Romane im Hinblick

auf ihre Figurenkonstellation ähnlich sind. Dazu werden Methoden der Sozialen

Netzwerkanalyse verwendet, um Eigenschaften der Figurennetzwerke zu erheben,

anhand derer dann Distanzen berechnet werden können, die die Ähnlichkeit zwi-

schen Romanen angeben. Als Evaluationsgrundlage dient die menschliche Intuition

solcher Ähnlichkeit, festgehalten in Form einer manuell erstellten Distanzmatrix.

Im Folgenden wird anhand eines Beispiels erläutert, welches Konzept von

Ähnlichkeit zwischen Figurenkonstellationen dieser Arbeit zugrunde liegt. Der da-

rauf folgende Abschnitt gibt einen Überblick über bestehende Forschung in den

relevanten Themengebieten. Anschließend werden die Daten- und Evaluations-

grundlage, sowie die geplanten Experimente und Berechnungen vorgestellt. Die

Abschnitte 5 und 6 erläutern die anhand von Figurennetzwerken durchgeführten

Experimente und deren Kombination mit Topic Modeling. Danach findet eine Dis-

kussion der Ergebnisse und Beobachtungen statt. Den Abschluss bildet ein Aus-

blick auf zukünftige nötige und mögliche Arbeiten.

2 Theoretischer und thematischer Hintergrund Das Ziel dieser Arbeit ist, die Figurenkonstellation von Romanen mit com-

putergestützten Methoden zu modellieren und davon ausgehend Ähnlichkeiten zwi-

schen Romanen festzustellen. Daher werden diese beiden Begriffe – Figurenkons-

tellation und Ähnlichkeit – in diesem Abschnitt unter Einbeziehung eines Beispiels

näher beleuchtet.

Das Reallexikon der Deutschen Literaturwissenschaft definiert Figurenkon-

stellation als „Ensemble aller in einem Drama oder Erzähltext vorkommenden fik-

tiven Personen“ (Weimar et al. 2010, S. 591). Zusätzlich zu ihren Eigenschaften

und Merkmalen ist jede Einzelfigur über ihre Einbettung ins Figurenensemble de-

finiert. Das macht die Figurenkonstellation zu einem wichtigen strukturgebenden

Ordnungsprinzip in literarischen Texten. Zwischen den Figuren finden im Verlauf

der Handlung die verschiedensten Interaktionen und Veränderungen statt; das Zu-

sammenspiel aller Figuren zu einem bestimmten Zeitpunkt des Textes wird als

Konfiguration bezeichnet. Das übergreifende Konzept der Figurenkonstellation

6

bleibt jedoch „im ganzen Text konstant“ (Weimar et al. 2010, S. 591), gewisserma-

ßen in einem aggregierten Zustand über die einzelnen Konfigurationen.

Alex Woloch (Woloch 2003) betrachtet den Raum innerhalb eines Romans,

der einer Figur gewidmet wird (character space), als zentral für deren Charakteri-

sierung. Mit ‚Raum‘ bezeichnet er hier die Aufmerksamkeit, quantifiziert über die

Menge des Textes, die der Figur entgegengebracht wird. Dabei betont er, dass Ro-

manfiguren insbesondere durch das Verhältnis der Figuren untereinander und ihre

Einbettung in eine Gesamtstruktur (character system) für den Leser greifbar wer-

den. Die Dominanz des Protagonisten wird erst durch seine Eingliederung in ein

Ensemble weniger wichtiger Nebenfiguren realisiert. Obwohl Wolochs Studie im

Folgenden eher auf die Charakterisierung von Figuren fokussiert ist, hebt er den-

noch das Figurensystem als Ganzes als zentralen Aspekt von Romanen hervor.

Einem ähnlichen Konzept folgt auch Dieter Kafitz und versucht sich an ei-

ner auf der Figurenkonstellation basierenden Typologie des Romans (Kafitz 1978,

S. 10–18). Er entwirft ein Spektrum, an dessen einen Ende er den „Roman mit her-

ausgehobenem Helden“ sieht, bei dem die Nebenfiguren einem zentralen Helden

untergeordnet sind, während am anderen Ende der „Vielheitsroman“ steht, in dem

eine Vielzahl von Figuren nebeneinander gleichermaßen von Bedeutung ist und die

Hierarchie in Haupt- und Nebenfiguren nur schwach ausgeprägt ist. Zwischen die-

sen beiden Polen finden sich verschiedene Abstufungen, wie der Roman des „Dop-

pelhelden“, in dem die Relation zwischen zwei Hauptfiguren im Zentrum steht oder

der Roman, in dem sich die Figurenkonstellation um eine Figurengruppe, beispiels-

weise eine Familie oder andere soziale Gemeinschaft, formiert. Kafitz sieht auch

einen Zusammenhang zwischen den genannten Typen von Figurenkonstellationen

und Gattungen: Laut seiner Darstellung findet sich die Konstellation des Doppel-

helden oft in romantischen Romanen, während es sich bei „Romanen mit herausge-

hobenen Helden“ häufig um Entwicklungs- oder Bildungsromane handelt. Dies be-

legt er jedoch rein exemplarisch.

Diese Ausführungen von Kafitz zeigen, dass verschiedene Romane gewisse

wiederkehrende Strukturen in ihrer Figurenkonstellation aufweisen können und un-

terstützen damit die Annahme, dass Romane anhand ihrer Figurenkonstellation als

ähnlich (oder unähnlich) eingestuft werden können.

Im Folgenden soll nun anhand eines Beispiels verdeutlicht werden, wann

man von einer Ähnlichkeit zwischen den Figurenkonstellationen von Romanen

7

sprechen würde. Zwei Romane, die einige Gemeinsamkeiten aufweisen und in zahl-

reichen Studien miteinander in Verbindung gesetzt wurden, sind Theodor Fontanes

Effi Briest und Gustave Flauberts Madame Bovary (Dethloff 2000; Degering 1978;

Bonwit 1948). Tatsächlich lassen sich auch in den Figurenkonstellationen beider

Romane (Abbildungen 1 und 2) viele Parallelen finden.

1 Figurenkonstellation zu Effi Briest

In beiden Texten steht eine junge Frau im Fokus, die in recht jungen Jahren

einen deutlich älteren Mann heiratet, in dessen Haushalt in eine fremde Kleinstadt

zieht und ihre Familie hinter sich lässt. Diese Ehe stellt jeweils die zentrale Relation

des Romans dar, eingebettet in einen sozialen Kontext bestehend aus den Eltern

bzw. Schwiegereltern, den Angestellten im Haushalt und Mitgliedern der Ge-

meinde. In beiden Fällen spielt hier der Apotheker des Ortes, Alonzo Gieshübler in

Effi Briest und Monsieur Homais in Madame Bovary, eine Rolle, mit dem die Paare

einen nachbarschaftlichen, freundschaftlichen Umgang pflegen. Es wird jedoch

recht schnell klar, dass sich sowohl Effi, als auch Emma in ihrer Beziehung durch

das hohe Arbeitspensum ihrer Ehemänner einsam und gelangweilt fühlen. Beide

sehnen sich nach einem aufregenderen, stimulierenden gesellschaftlichen Leben,

das ihre Wohnorte jedoch nicht zu bieten haben. Im Verlauf der Handlung bekom-

men beide Paare eine Tochter. Weder Effi, noch Emma sind jedoch in der Lage, ihr

Kind bedingungslos zu lieben, weshalb beide Töchter hauptsächlich von Kinder-

frauen aufgezogen werden. So nimmt die Entfremdung der Ehepartner ihren Lauf,

bis die Frau sich zum heimlichen Ehebruch hinreißen lässt bzw. entscheidet.

8

Natürlich unterscheiden sich die beiden Romane in ihrem Handlungsverlauf

und in den Details auch deutlich – legt man den Fokus aber auf das Figureninventar

und die Beziehungen der Figuren untereinander, so sind zweifelsfrei deutliche Pa-

rallelen zwischen den Figurenkonstellationen beider Romane feststellbar.

2 Figurenkonstellation zu Madame Bovary

Abbildungen 1 und 21, sowie die vorhergehende Beschreibung, zeigen auch,

dass sich der Eindruck der Figurenkonstellation eines Romans, sowie die Einschät-

zung von Ähnlichkeit zwischen den Figurenkonstellationen verschiedener Romane

auf zwei Aspekte stützt: Zum einen auf die grundlegende Struktur, also die Art, wie

die Figuren untereinander vernetzt sind und wie stark einzelne Figuren in das Ge-

samtbild eingebettet sind und zum anderen auf gewisse Eigenschaften von Figuren,

wie Geschlecht, sozialer Status oder der Beruf, sowie die Art der Beziehungen und

gemeinsame Motive zwischen Figuren. Madame Bovary und Effi Briest weisen in

dieser Hinsicht, wie bereits beschrieben, einige deutliche Parallelen auf und können

somit als gutes Beispiel für zwei Romane mit ähnlicher Figurenkonstellation gelten.

Die vorliegende Arbeit untersucht die Frage, ob es möglich ist, die Figuren-

konstellation von Romanen mit computergestützten Methoden zu modellieren und

1 Die Übersichtsgrafiken wurden von der Verfasserin nach Lektüre beider Romane erstellt. Dicke

Linien deuten eine besonders starke Beziehung zwischen zwei Figuren an. Gestrichelte Linien

stehen für Beziehungen, die zwar faktisch vorhanden, aber für den Roman von geringerer Be-

deutung sind.

9

anhand dessen automatisch festzustellen, ob und welche Romane sich hinsichtlich

der beschriebenen Aspekte ähnlich sind.

3 Methoden und Forschungsstand In den folgenden Abschnitten werden die computergestützten Methoden,

die in dieser Arbeit zum Einsatz kommen, eingeführt und bisherige Forschung auf

den entsprechenden Gebieten thematisiert. Nach einem kurzen Überblick über die

Grundlagen der Graphentheorie werden bestehende Ansätze zur Erstellung von Fi-

gurennetzwerken sowie darauf aufbauende Untersuchungen dargestellt. Anschlie-

ßend wird die Latent Dirichlet Allocation als eine Methode des Topic Modeling

vorgestellt und ebenfalls relevante Anwendungsbeispiele aus den Geisteswissen-

schaften und speziell zur Analyse von literarischen Texten aufgezeigt.

3.1 Figurennetzwerke

3.1.1 Grundlagen der Netzwerktheorie

Ein Netzwerk oder Graph besteht aus einer Menge von Objekten, den soge-

nannten Knoten, und bestimmten Verbindungen zwischen den Objekten, die als

Kanten bezeichnet werden.2 Je nach Art des Netzwerks kann es sich bei den Knoten

um verschiedene Arten von Objekten handeln: In einem Computernetzwerk wäre

beispielsweise jeder Rechner ein Knoten, während in einem sozialen Netzwerk Per-

sonen als Knoten repräsentiert werden. Als Kanten kämen entsprechend die Daten-

verbindungen zwischen Computern oder die Freundschafts- und Verwandtschafts-

beziehungen von Personen in Betracht. Die Kanten eines Netzwerks können gerich-

tet sein, falls eine Verbindung explizit von einem Knoten ausgeht und nur in diese

Richtung durchlaufen werden kann, oder ungerichtet, falls dem nicht so ist. Außer-

dem kann ein Graph gewichtet sein: In diesem Fall tragen alle Kanten numerische

Gewichte, die die Stärke der Verbindung angeben.

Solche Netzwerke können auf verschiedene Weisen repräsentiert werden.

Gängige Methoden sind die Darstellung als Kantenliste, in der alle Verbindungen

2 In Newman (2010) findet sich ab Seite 109 eine gute, umfassende Einführung in die konzeptio-

nellen und mathematischen Grundlagen der Graphentheorie.

10

zwischen Knoten entsprechend ihrer Richtung und gegebenenfalls mit ihrem Ge-

wicht aufgelistet sind, oder als Adjazenzmatrix, die für jeden Knoten eine Zeile und

eine Spalte besitzt und eine 1 bzw. das Kantengewicht enthält, sofern zwischen

zwei Knoten eine Verbindung existiert.

In Analogie zu einem sozialen Netzwerk kann auch die Figurenkonstellation

eines Romans als Graph dargestellt werden. Dabei werden die Figuren durch Kno-

ten und die Beziehungen zwischen Figuren durch Kanten repräsentiert. Je nach Mo-

dellierung der Relationen zwischen Figuren können die Kanten zudem gewichtet

sein oder eine Richtung besitzen.

Mit entsprechenden computergestützten Methoden können derartige Netz-

werke auch automatisch generiert werden. Im Folgenden werden zunächst beste-

hende Ansätze betrachtet, die Netzwerke aus Textdaten extrahieren, bevor diese

Idee auf literarische Texte ausgeweitet wird. Anschließend werden verschiedene

Möglichkeiten zur Modellierung von Interaktionen zwischen Figuren, sowie auf

Basis von Figurennetzwerken durchgeführte Untersuchungen näher beleuchtet.

3.1.2 Netzwerke aus Textdaten

Die Idee, soziale Netzwerke aus textuellen Daten automatisch zu erstellen,

existiert bereits seit längerem und wird in verschiedenen Domänen immer wieder

aufgegriffen.

Culotta et al. (Culotta et al. 2004) analysieren das Email-Postfach eines Nut-

zers, um daraus dessen persönliches soziales Netzwerk zu extrahieren. Außerdem

wenden sie Methoden der Sozialen Netzwerkanalyse an, um innerhalb dieses Netz-

werks besonders wichtige Personen zu identifizieren oder Vorschläge zu generie-

ren, welcher Kontakt sinnvoll bei einer bestimmten Email in Kopie (‚CC‘) gesetzt

werden könnte.

Jing et al. (Jing et al. 2007) erstellen soziale Netzwerke anhand von

gesprochener Sprache und verwenden als Datengrundlage Transkriptionen von

aufgezeichneten Interviews mit Holocaust-Überlebenden. Eine besondere Heraus-

forderung stellte hierbei dar, dass die einzelnen Sprecher zwar mit Bezeichnungen

wie ‚Speaker1‘ und ‚Speaker2‘ gekennzeichnet waren, diese Begriffe jedoch nicht

auf die tatsächlich während des Interviews anwesenden Personen aufgelöst wurden.

11

Auch Gruzd und Haythornthwaite (Gruzd und Haythornthwaite 2008) ext-

rahieren soziale Netzwerke aus textuellen Daten, nämlich aus den Diskussions-

strängen eines Online-Forums. Dabei wenden sie Methoden des Natural Language

Processing an, um anhand syntaktischer und semantischer Eigenschaften die ver-

schiedenen expliziten und impliziten Relationen zwischen den Nutzern des Forums,

sowie die Stärke dieser Verbindungen, zu ermitteln.

3.1.3 Netzwerke aus literarischen Texten

Die bisher genannten Arbeiten haben eine Gemeinsamkeit, die als Vorteil

bei der automatischen Erstellung von sozialen Netzwerken gewertet werden kann:

Die zugrundeliegenden Daten weisen gewisse wiederkehrende, explizit ausgewie-

sene Strukturen auf. Interessiert man sich für die Analyse literarischer Texte, ist

dies sehr viel seltener der Fall. In Dramen gibt es noch einige Strukturelemente, wie

die Aufteilung in Akte und Szenen oder die Kennzeichnung der Sprecher, die sich

zur automatischen Erstellung von sozialen Netzwerken nutzen lassen (Trilcke et al.

2015). Diese können sich jedoch von Werk zu Werk stark unterscheiden. Romane

und andere Erzähltexte bieten jedoch kaum derartige Struktureigenschaften, sofern

diese nicht aufwändig per Hand im Text kodiert wurden. Die automatische Gene-

rierung von Figurennetzwerken aus literarischen Prosatexten erfordert also einige

Vorverarbeitungsschritte und gewisse Operationalisierungen, für die in der For-

schungsgemeinde bereits verschiedene Vorschläge gemacht wurden.

Der erste Schritt besteht in der Regel darin, die im Text vorkommenden Fi-

guren zu identifizieren. Hierfür werden meist bestehende Named Entity Recogni-

tion Systeme genutzt. Anschließend sollten die gefundenen Figurenreferenzen bes-

tenfalls durch eine Koreferenzauflösung aufeinander bezogen werden. Da dies oh-

nehin ein schwieriger Task ist und bestehende Systeme in den meisten Fällen an-

hand von Zeitungskorpora entwickelt wurden, sind die Ergebnisse für Romantexte

hier oft mäßig, sodass häufig auf stark vereinfachte Notlösungen zurückgegriffen

oder auf Koreferenzauflösung verzichtet wird. Es ist jedoch nicht klar, wie stark

sich das auf die resultierenden Figurennetzwerke auswirkt. Jannidis et al. und Krug

et al. haben sowohl für die Erkennung der Figuren, als auch für die Koreferenzauf-

lösung eigene Systeme entwickelt, die auf deutschsprachige Romane des 19. Jahr-

hunderts spezialisiert sind (Jannidis et al. 2015; Krug et al. 2015). Beide Systeme

werden in dieser Arbeit genutzt und in Abschnitt 5.1 genauer erläutert.

12

Auch und vor allem bei der Modellierung von Interaktionen zwischen Figu-

ren, also wann eine Kante zwischen zwei Figuren gezogen wird, können verschie-

dene Wege eingeschlagen werden. Elson et al. identifizieren Passagen direkter

Rede in Romanen und ordnen jeder Instanz von direkter Rede eine Figur als Spre-

cher zu (Elson und McKeown 2010). Anhand der im Text vorkommenden Dia-

logstrukturen erstellen sie anschließend Figurennetzwerke aus britischen Romanen

des 19. Jahrhunderts (Elson et al. 2010). Auch Celikyilmaz et al. extrahieren soziale

Netzwerke auf Basis der Dialoge aus englischen Romanen des gleichen Zeitraums,

nutzen dafür jedoch ein unüberwachtes Verfahren, das Actor-Topic-Model, für die

Zuordnung von Sprechern zu jeweiligen direkten Reden (Celikyilmaz et al. 2010).

Auch für deutsche Romane des 18. bis 20. Jahrhunderts haben Krug et al. (Krug et

al. 2016a) ein regelbasiertes Verfahren entwickelt, das sowohl den Sprecher, als

auch den Angesprochenen einer direkten Rede ermittelt. Diese Informationen kön-

nen, ähnlich zu Elson et al., ebenfalls für die Erstellung von Figurennetzwerken

herangezogen werden, sofern ein Roman einen ausreichenden Anteil an direkter

Rede enthält.

Andere Ansätze stützen sich auf gemeinsames Vorkommen von Figuren im

Text. Park et al. bestimmen den Abstand zwischen Figurenreferenzen im Text und

definieren eine Distanzfunktion, um aus den gemessenen Abständen die Stärke der

entsprechenden Relation zu berechnen (Park et al. 2013). Coll Ardanuy und Spor-

leder betrachten als Alternative zu Dialogstrukturen auch Netzwerke, bei denen

eine Interaktion angenommen wird, sobald zwei oder mehr Figuren im gleichen

abgeschlossenen Textabschnitt, beispielsweise einem Absatz, vorkommen (Coll

Ardanuy und Sporleder 2014).

Die Arbeitsgruppe um Apoorv Agarwal verfolgt eine weitere Vorgehens-

weise, die sie zunächst in einer manuellen Studie vorschlagen (Agarwal et al. 2012)

und anschließend in Form von SINNET als computergestützte Methode umsetzen

(Agarwal et al. 2013a; Agarwal et al. 2013b). Dabei modellieren sie zwei Arten von

Ereignissen zwischen Figuren: „Interactions“, bei denen beide Parteien sich der In-

teraktion bewusst sind, wie beispielsweise ein Gespräch, und „Observations“, die

nur einer Figur bewusst sind, weil sie zum Beispiel über eine abwesende Figur

spricht oder nachdenkt. Neben der Modellierung von zwei unterschiedlichen Inter-

aktionstypen ist eine Besonderheit der Arbeit von Agarwal et al., dass sie anhand

von Lewis Carrolls Alice im Wunderland ein automatisch generiertes Netzwerk und

13

ein manuell erstelltes Netzwerk im Detail miteinander vergleichen, um die Ergeb-

nisse ihres Systems einschätzen zu können. In vielen anderen Arbeiten werden zwar

Methoden zur Extraktion von Netzwerken aus Textdaten vorgestellt, die entstande-

nen Netzwerke als solches aber nicht weiter ausgewertet, sondern direkt zu weiter-

führenden Analysen herangezogen.

3.1.4 Analyse und Evaluation von Figurennetzwerken

In der Sozialen Netzwerkanalyse, wie sie in den Sozialwissenschaften oder

auch der Psychologie angewandt wird, sowie auch in der Netzwerkanalyse seitens

der Mathematik und der Informatik, gibt es zahlreiche Methoden und Metriken zur

Beschreibung und Auswertung von Netzwerkdaten. Franco Moretti, als prominen-

tes Beispiel, hat Konzepte wie Zentralität oder Dichte in die Domäne der Literatur-

wissenschaft übertragen: Unter Verwendung solcher Methoden analysiert er ein

manuell erstelltes Figurennetzwerk aus Shakespeares Hamlet im Detail und aus kla-

rer literaturwissenschaftlicher Perspektive (Moretti 2011). Peer Trilcke (Trilcke

2013) versucht, im Sinne einer Methodenentwicklung zur Analyse von Figuren-

netzwerken aus literarischen Texten, systematisch Konzepte aus der Sozialen Netz-

werkanalyse auf die Literaturwissenschaft zu übertragen. Anhand eines Anwen-

dungsbeispiels, in dem er Figurennetzwerke mehrerer deutscher Dramen vergleicht,

macht er den Einsatz dieser Techniken in Bezug auf literaturwissenschaftliche Fra-

gestellungen deutlich.

Nach der automatischen Erstellung von Figurennetzwerken aus literarischen

Texten ist der nächste folgerichtige Schritt deren ebenfalls computergestützte Ana-

lyse auf Basis größerer Korpora. Elson et al. (Elson et al. 2010) nutzen die quanti-

tative Netzwerkanalyse, um die literaturwissenschaftlich begründeten Hypothesen,

dass die Struktur des Figurennetzwerks mit der Menge an Dialogen im Roman so-

wie dem Setting (urban oder ländlich) zusammenhängt, zu widerlegen. Krug et al.

(Krug et al. 2016b) nutzen sowohl auf Dialogstrukturen als auch auf Kookkurren-

zen basierende Figurennetzwerke, um die Hauptfiguren eines Romans zu identifi-

zieren, und evaluieren ihren Ansatz mit Hilfe von automatisch ausgewerteten In-

haltszusammenfassungen. Coll Ardanuy und Sporleder (Coll Ardanuy und Sporle-

der 2014) extrahieren Features aus Figurennetzwerken, um anhand derer Romane

nach Gattung und nach Autorschaft zu clustern. Insbesondere die Ergebnisse für

14

das Clustering nach Gattungen sind jedoch unzureichend, was sie auf die Proble-

matik zurückführen, dass literarische Gattungen ein kaum klar abgrenzbares Kon-

zept darstellen.

Dieser Überblick zeigt, dass vielfältige Fragestellungen mit Hilfe von Figu-

rennetzwerken adressiert werden können, wobei in manchen Fällen die erwarteten

Ergebnisse ausbleiben.

3.2 Topic Modeling

3.2.1 Latent Dirichlet Allocation

Ein weiteres Verfahren der quantitativen Textanalyse, das in dieser Arbeit

zum Einsatz kommen soll, ist Topic Modeling. Dabei handelt es sich um einen

Überbegriff für eine Reihe von Verfahren, die Muster von Kookkurrenzen in Daten,

häufig Textdaten, aufdecken. Im Allgemeinen werden Texte dabei als sogenannte

Bag-of-Words-Modelle repräsentiert, also nur anhand der vorkommenden Wörter,

ungeachtet deren Reihenfolge und syntaktischer Struktur. Ein Ziel von Topic Mo-

deling ist es, die versteckte inhaltliche Zusammensetzung eines Korpus ans Licht

zu bringen.

Die bekannteste und am häufigsten genutzte Umsetzung dieser Technik ist

die sogenannte Latent Dirichlet Allocation, kurz LDA (Blei et al. 2003). LDA ist

ein generatives Modell, das davon ausgeht, dass sich jeder Text gemäß einer fest-

stehenden Wahrscheinlichkeitsverteilung aus verschiedenen Topics zusammen-

setzt. Ein Topic ist dabei definiert als eine feste Menge von Wörtern, die innerhalb

des Topics ebenfalls einer bestimmten Wahrscheinlichkeitsverteilung unterliegen.

In einem Topic sammeln sich mit hoher Wahrscheinlichkeit Wörter, die aus einem

gemeinsamen semantischen Feld, gewissermaßen einem Themengebiet, stammen.

LDA nimmt an, dass ein Text in einem generativen Prozess entsteht, indem wieder-

holt entsprechend der jeweiligen Wahrscheinlichkeitsverteilungen verschiedene

Topics und daraus wiederum Worte ausgewählt werden.

Um LDA zur Untersuchung eines Korpus anzuwenden, muss dieser Prozess

gewissermaßen umgedreht werden. Ausgehend von den Originaltexten werden die

zugrundeliegenden Topics und deren Verteilung über das Korpus berechnet, indem

15

Kookkurrenzen von Wörtern in den gleichen Dokumenten ausgewertet werden. Da-

her benötigt LDA als unüberwachtes Verfahren keine aufwändig annotierten Trai-

ningsdaten. Die resultierenden Topics spiegeln die inhaltliche und thematische Zu-

sammensetzung des betrachteten Korpus wider. In diesem interpretierbaren und für

anschließende Experimente verwendbaren Ergebnis liegen die Nützlichkeit und der

Charme von LDA (Blei 2012).

3.2.2 Anwendungsbeispiele

Aufgrund seiner Funktionsweise wird LDA häufig zur Modellierung und

Untersuchung auch größerer Textkorpora eingesetzt, wodurch es als Methode auch

für die Geisteswissenschaften von Interesse ist. Im Folgenden sollen typische An-

wendungsbeispiele für Topic Modeling aufgezeigt werden und dargelegt werden,

inwiefern Topic Modeling auch für die Arbeit mit literarischen Texten herangezo-

gen werden kann.

Griffiths und Steyvers (Griffiths und Steyvers 2004) verwenden LDA, um

in einer Datenbank von wissenschaftlichen Publikationen den Zusammenhang zwi-

schen vergebenen Kategorien wie ‚Mathematik‘ oder ‚Psychologie‘ und den tat-

sächlich in den Abstracts vorkommenden Themen, repräsentiert durch Topics, zu

untersuchen. Auch für diachrone Studien kann Topic Modeling eingesetzt werden:

David Mimno (Mimno 2012) betrachtet eine Sammlung von mehreren Zeitschriften

zu Altertumswissenschaften und verwendet LDA, um thematische Ähnlichkeiten

zwischen verschiedenen Zeitschriften oder auch die Variabilität von Vokabular o-

der Themen in einem Journal über den Zeitverlauf zu untersuchen.

Im Hinblick auf die Analyse von literarischen Texten ist beispielsweise ein

Blogartikel von Cameron Blevins häufig zitiert worden, in dem er das Tagebuch

der Martha Ballard, einer Hebamme im 18. Jahrhundert, mit LDA modelliert und

das Auftreten bestimmter Topics über den Textverlauf betrachtet (Blevins 2010).

Matthew Jockers beschäftigte sich in Zusammenarbeit mit Mimno (Jockers und

Mimno 2013) und auch in seinem Buch Macroanalysis (Jockers 2013) anhand von

englischsprachigen Romanen ausführlich mit der Frage nach dem Zusammenhang

zwischen dem Vorkommen bestimmter Themen, modelliert mit LDA, und Faktoren

wie dem Geschlecht oder der Nationalität des Autors, dem Erscheinungsjahr oder

der Gattung eines Textes. Dabei kann er zeigen, dass sich ein solcher Zusammen-

hang mit Topic Modeling durchaus nachweisen lässt: das Themengebiet ‚Mode der

16

Frau‘ ist beispielsweise bei weiblichen Autorinnen sehr viel stärker vertreten als bei

Männern, während bei diesen das Thema ‚Feindschaft‘ sehr viel häufiger auftritt

(Jockers 2013, S. 136–138). Ähnliche Ergebnisse hat Christof Schöch erhalten, der

mit Hilfe von LDA anhand einer Sammlung französischer Kriminalliteratur zeigen

konnte, dass verschiedene Autoren, Untergattungen und Zeiträume durch unter-

schiedliche Topic-Verteilungen charakterisiert sind (Schöch 2015). Ebenfalls mit

Untergattungen von Romanen beschäftigt sich eine weitere Arbeit von Schöch et

al. (Schöch et al. 2016), die Topics über den Textverlauf betrachtet und dabei fest-

stellt, dass manche Themengebiete, wie beispielsweise „Schule“, eher am Anfang

von Romanen auftreten, während gegen Ende häufiger abstrakte Topics, die bei-

spielsweise auf bestimmte Wertvorstellungen hindeuten, gefunden werden. Hettin-

ger et al. (Hettinger et al. 2016) verwenden Topic Modeling, um Untergattungen

von deutschsprachigen Romanen des 19. Jahrhunderts automatisch zu klassifizie-

ren. Eine Besonderheit dieser Arbeit ist, dass sie LDA, Stilometrie und Netzwerk-

analyse kombiniert, um so verschiedene Aspekte literarischer Texte abzubilden.

4 Geplante Experimente Die bis hierhin beschriebenen theoretischen Konzepte und Methoden sollen

nun in computergestützten Experimenten auf die dieser Arbeit zugrundeliegende

Fragestellung übertragen werden. Daher werden zunächst das verwendete Korpus,

sowie die Erstellung der Evaluationsgrundlage, auf deren Basis die durchgeführten

Untersuchungen ausgewertet werden, erläutert. Schließlich werden die geplanten

Experimente kurz vorgestellt.

4.1 Korpus Diese Arbeit befasst sich mit Romanen des 19. Jahrhunderts, die in deut-

scher Sprache verfasst sind. In dem entsprechend zusammengestellten Korpus be-

finden sich jedoch nicht nur Texte von deutschen Autoren, es können auch Romane

von Autoren anderer Nationalitäten, wie beispielsweise Flaubert, enthalten sein, die

in einer deutschen Übersetzung vorliegen. Die verwendeten Texte stammen aus der

17

Digitalen Bibliothek von TextGrid3 und sind dementsprechend qualitativ hochwer-

tige Digitalisate von Erstdrucken und Studienausgaben.

Das Korpus umfasst 35 Romane, deren Auswahl bestimmten Kriterien un-

terliegt. Diese recht niedrige Zahl ermöglicht es, einen guten Überblick über die

Texte zu behalten sowie die einzelnen Arbeitsschritte detailliert nachvollziehen zu

können. Auch die relativ zeitaufwändige händische Aufbereitung der Textdaten, die

in Abschnitt 5.1 beschrieben wird, wäre mit einer größeren Textmenge im Rahmen

dieser Arbeit nicht mehr zu bewältigen gewesen. Ein weiterer Grund für den über-

schaubaren Umfang des Korpus ist die Notwendigkeit, sich zur Erstellung der Eva-

luationsgrundlage, die im nächsten Abschnitt erläutert wird, eine gewisse Grund-

kenntnis zu jedem Roman anzueignen. Daher wurde als weiteres Auswahlkriterium

bei der Korpuszusammenstellung geprüft, ob für den jeweiligen Text eine Zusam-

menfassung von ausreichender Länge vorliegt. Die Herkunft und Verwendung die-

ser Zusammenfassungen werden im folgenden Abschnitt beschrieben. Außerdem

wurden Briefromane und in der ersten Person erzählte Romane ausgeschlossen, da

diese Fälle zusätzliche Schwierigkeiten bei der Erstellung von Figurennetzwerken

mit sich bringen können. Abgesehen von diesen Kriterien wurden die Texte für das

Korpus willkürlich aus dem Bestand der Digitalen Bibliothek ausgewählt. Eine

vollständige Übersicht über die im Korpus enthaltenen Romane befindet sich im

Anhang.

4.2 Evaluationsgrundlage Um computergestützte Experimente auswerten zu können, benötigt man in

der Regel eine vorher festgelegte Evaluationsgrundlage. Da es sehr zeitaufwändig

und auch nicht im Sinne einer quantitativen Analyse wäre, alle Texte des Korpus

zu lesen, wurden Inhaltszusammenfassungen herangezogen, um sich einen Ein-

druck der Figurenkonstellation der Romane zu verschaffen. Die Zusammenfassun-

gen stammen aus Kindlers Literatur Lexikon Online4, sind von Experten verfasst

worden und größtenteils relativ ausführlich. Zur Evaluation der folgenden Untersu-

3 https://textgrid.de/digitale-bibliothek. 4 Arnold, Heinz L. (Hg.) (2009). Kindlers Literatur Lexikon. 3. Aufl. Stuttgart/Weimar: Verlag

J.B. Metzler. Online verfügbar unter kll-online.de, zuletzt geprüft am 02.08.2016.

18

chungen wurde die menschliche Intuition über die Ähnlichkeit zwischen den Figu-

renkonstellationen der im Korpus enthaltenen Romane in Form einer manuell er-

stellten Distanzmatrix festgehalten. Eine solche Matrix besitzt als Spalten und Zei-

len jeweils alle 𝑛𝑛 Romane des Korpus, sodass in den einzelnen Feldern die Ab-

stände zwischen zwei Romanen als numerische Werte eingetragen werden können.

Entsprechend ist eine Distanzmatrix symmetrisch und enthält in der Hauptdiagona-

len nur Nullen. Aufgrund dieser Eigenschaften müssen nur 𝑛𝑛 ⋅ (𝑛𝑛 − 1)/2 Felder

ausgefüllt werden: Bei 35 Romanen bedeutet das dennoch 595 paarweise Verglei-

che, was wiederum den überschaubaren Umfang des Korpus erklärt.

Nach der genauen und wiederholten Lektüre der jeweiligen Zusammenfas-

sungen wurden die Romane entsprechend einer Skala von 0 (= identisch) bis 4 (=

unähnlich) hinsichtlich ihrer Ähnlichkeit bewertet. Dabei lag der Fokus natürlich

auf der Struktur der Figurenkonstellation und den vorkommenden Relationen und

Konflikten zwischen Figuren. Dennoch handelt es sich dabei um eine zeitaufwän-

dige und schwierige Aufgabe, da sich oft sowohl Parallelen als auch Unterschiede

zwischen Romanen finden lassen.

Die so erstellte Distanzmatrix bietet die Möglichkeit einer direkten Auswer-

tung der Experimente, im Gegensatz zu einer indirekten Evaluation durch die Klas-

sifikation bestehender Kategorien wie beispielsweise Gattungen. Sie wurde manu-

ell in Excel erstellt und kann unter Verwendung passender Packages gut in Python

eingelesen werden.

4.3 Durchführung Im folgenden praktischen Teil dieser Arbeit werden die Textdaten zunächst

aufbereitet, um daraus mit Hilfe einer bestimmten Modellierung automatisch Figu-

rennetzwerke zu extrahieren. Dabei soll auch genauer beleuchtet werden, wie gut

ein automatisch erstelltes Netzwerk die Figurenkonstellation eines Romans wider-

spiegelt. Zu diesen Netzwerken werden unter Verwendung von Methoden aus der

Sozialen Netzwerkanalyse verschiedene Eigenschaften erhoben. Auf Basis dieser

Features können Distanzen zwischen den Netzwerken berechnet werden, die wie-

derum gegen die manuell erstellte Distanzmatrix evaluiert werden. Mit Hilfe von

19

Topic Modeling soll versucht werden, Informationen zu in den Romanen enthalte-

nen Motiven und Beziehungsarten zu erheben, um diese zusätzlich zur Distanzbe-

rechnung heranzuziehen bzw. direkt in die Figurennetzwerke einzubinden.

Zur Durchführung der Experimente wurde Python in Verbindung mit ver-

schiedenen Packages verwendet und, wo erforderlich, weitere Open-Source-Soft-

ware herangezogen.

5 Figurennetzwerke

5.1 Datenaufbereitung Der erste Schritt auf dem Weg zu einer automatischen Erstellung von Figu-

rennetzwerken ist die Erkennung aller Vorkommen von Figuren im Text. Es gibt

zahlreiche Systeme zur Namenserkennung (Named Entity Recognition, kurz NER),

wie zum Beispiel Stanford NER5, die Personennamen in Texten finden. Da diese

Werkzeuge üblicherweise auf Zeitungskorpora trainiert wurden, markieren sie je-

doch nur Personennennungen mittels konkreter Namen. In literarischen Texten

können Figuren jedoch oft auch durch sogenannte Appellative, beispielsweise

Adelstitel wie ‚Baron‘ oder Berufsbezeichnungen wie ‚Gärtner‘, referenziert wer-

den, die ein solches System nicht erkennen kann. Jannidis et al. (Jannidis et al.

2015) haben dafür ein System entwickelt, das auf einem manuell annotierten Gold-

standard von Auszügen aus deutschen Romanen des 19. Jahrhunderts trainiert und

somit optimal für diese erweiterte Definition von Named Entity Recognition geeig-

net ist. Um konkrete Namen und Appellative auch noch im Nachhinein voneinander

unterscheiden zu können, verwendet das System die Tags ‚B-PER‘ und ‚I-PER‘

jeweils mit den Zusätzen ‚Core‘ bzw. ‚App‘, sowie ‚Pron‘ für pronominale Refe-

renzen.

Anschließend sollte eine Koreferenzauflösung (Coreference Resolution,

CR) erfolgen, also festgestellt werden, welche Referenzen sich auf die gleichen Fi-

guren beziehen. In weiterführender Arbeit haben Krug et al. (Krug et al. 2015) auch

hierfür ein Werkzeug entwickelt, das auf die Domäne literarischer Texte angepasst

5 http://nlp.stanford.edu/software/CRF-NER.shtml.

20

ist und im Vergleich zu anderen State-of-the-Art Systemen zur Koreferenzauflö-

sung wie CorZu6, die typischerweise ebenfalls anhand von Zeitungsdaten entwi-

ckelt wurden, bessere Ergebnisse liefert.

Zusammen mit einigen weiteren Natural-Language-Processing-Komponen-

ten wie Tokenisierung, Satz- und Absatzerkennung oder Part-of-Speech-Tagging

sind die beiden genannten Werkzeuge in ein von Markus Krug erstelltes Komman-

dozeilenprogramm7 integriert, das sich über Konfigurationsdateien an die Bedürf-

nisse des Benutzers anpassen lässt. Auf diese Weise wurden alle Texte des Korpus

prozessiert.

Da Koreferenzauflösung jedoch, insbesondere auf Texten von Romanlänge,

ein schwieriger Task ist, macht leider auch das hier verwendete, auf die Domäne

angepasste System einige Fehler. Schwierigkeiten treten beispielsweise dann auf,

wenn mehrere Figuren den gleichen Familiennamen oder sogar den gleichen Vor-

namen tragen, oder sich der Name oder Titel durch eine Hochzeit, Beförderung oder

ähnliches ändert. Beispiele dafür sind die Namen ‚Briest‘ und ‚Innstetten‘ in Effi

Briest oder zwei Figuren in Sudermanns Frau Sorge, die beide ‚Elsbeth‘ heißen.

Auch wiederkehrende Adelstitel oder Berufsbezeichnungen können zu Problemen

führen: Kommen in einem Roman mehrere verschiedene Figuren vor, die den Titel

‚Baron‘ tragen, so kann es passieren, dass sie als eine Figur zusammengefasst wer-

den. Auch umgekehrt kann es vorkommen, dass zwei oder mehr Gruppen von Re-

ferenzen, die sich eigentlich auf die gleiche Figur beziehen, nicht kombiniert wer-

den.

Um sicherzustellen, dass die verwendete Datengrundlage für diese Arbeit

dennoch von möglichst hoher Qualität ist, wurde die Ausgabe der Koreferenzauf-

lösung manuell nachkorrigiert. Natürlich kann nicht jede einzelne Referenz über-

prüft werden, es wurde jedoch für die am häufigsten vorkommenden Figuren über-

prüft, dass keine gravierenden Fehlzuweisungen bestehen bleiben. Dazu wurde ein

ebenfalls von Markus Krug entwickelter Editor verwendet, der neben diverser an-

derer Funktionen einerseits einen Überblick über alle im Roman vorkommenden

6 http://www.cl.uzh.ch/de/research/completed-research/coreferenceresolution.html. 7 Das Programm ist zum aktuellen Zeitpunkt nicht veröffentlicht, wurde aber zur Verwendung im

Rahmen dieser Arbeit zur Verfügung gestellt.

21

Figuren und andererseits eine Korrektur von Fehlern in der Koreferenzauflösung

ermöglicht.

Da die verwendete Pipeline intern mit UIMA arbeitet und entsprechend das

XMI-Format verwendet, wurden die Daten anschließend in ein anderes Format

transformiert. Dabei handelt es sich um eine Tab-separierte, tabellarische Auflis-

tung, bei der jede Zeile ein Wort und die dazugehörigen Informationen wie POS-

Tag, NE-Tag und Koreferenz-ID in mehreren Spalten enthält (Abbildung 3). Neben

der intuitiven und übersichtlichen Lesbarkeit für den Menschen, hat dieses Format

den Vorteil, dass es sich recht komfortabel mit Skriptsprachen wie Python verar-

beiten lässt.

3 Ausschnitt aus tabellarischer Darstellung zu Effi Briest

5.2 Modellierung und Netzwerkerstellung

5.2.1 Erstellung von Interaktionslisten

Um auf Basis der aufbereiteten Textdaten Figurennetzwerke zu erstellen, ist

noch eine konzeptionelle Entscheidung nötig: Auf welche Weise sollen Interaktio-

nen zwischen Figuren modelliert werden, also wann existiert eine Kante zwischen

zwei Figuren? Wie Abschnitt 3.1.3 gezeigt hat, gibt es dafür mehrere Ansätze. In

dieser Arbeit wird eine Interaktion angenommen, sobald zwei Figuren gemeinsam

in einem Absatz genannt werden. Die Informationen zu Absatzgrenzen sind aus

dem tabellarischen Dateiformat durch eine fortlaufende Zählung ersichtlich. Diese

Operationalisierung wurde unter anderem gewählt, da vorhergehende Arbeiten in

Bezug auf die Identifikation der Hauptfiguren eines Romans keinen Vorteil in der

Verwendung von komplizierteren, auf Dialogstrukturen beruhenden Figurennetz-

werken erkennen konnten (Krug et al. 2016b). Da in Romanen zudem ein Großteil

22

der Informationen über Erzählerrede vermittelt wird und manche Romane nur we-

nig direkte Rede enthalten, sind Kookkurrenz-Netzwerke möglicherweise sogar

besser geeignet, um diese Textsorte zu repräsentieren (Coll Ardanuy und Sporleder

2014). Charmant ist auch die relativ einfache Programmierbarkeit dieses Ansatzes.

Im resultierenden Netzwerk wird also jede Figur durch einen Knoten und jedes ge-

meinsame Vorkommen zweier Figuren in einem Absatz durch eine Kante repräsen-

tiert. Als Kantengewicht wird die Information verwendet, in wie vielen Absätzen

dies der Fall ist. Darüber hinaus liefert diese Vorgehensweise jedoch keine weiteren

Informationen zu den Kanten, wie beispielsweise die Art der Relation zwischen

zwei Figuren.

Zum Erstellen der Interaktionsdaten wird die Tab-separierte Datei eines Ro-

mans zunächst unter Verwendung des Python-Pakets Pandas8 als DataFrame ein-

gelesen, um die groupby-Funktionen dieser Datenstruktur nutzen zu können. Mit

deren Hilfe werden die Daten in eine interne Datenstruktur überführt, die aus ver-

schachtelten Listen auf den Ebenen von Kapiteln, Absätzen und Wörtern besteht.

Die einzelnen Wörter werden als Dictionaries repräsentiert, wobei nur die tatsäch-

lich benötigten Informationen mitgeführt werden, nämlich das Wort an sich, das

Named-Entity-Tag des Wortes und die Koreferenz-ID. Anschließend geht das

Skript alle Absätze durch und ermittelt die enthaltenen Relationen, nämlich alle

möglichen Zweierkombinationen zwischen allen im Absatz genannten Figuren.

Außerdem wird gezählt, in wie vielen Absätzen die jeweiligen Relationen auftreten.

Für all diese Schritte wird die Koreferenz-ID herangezogen, da sie eine Fi-

gur eindeutig identifiziert. Im Hinblick auf eine spätere Visualisierung der Figuren-

netzwerke ist es allerdings wünschenswert, jede Figur zusätzlich durch einen Na-

men bezeichnen zu können. Jeder Koreferenz-ID ist jedoch eine ganze Reihe von

Nennungen dieser Figur zugeordnet. Daher muss daraus ein Anzeigename ausge-

wählt werden, der für den Betrachter möglichst anschaulich deutlich macht, welche

Figur sich hinter der jeweiligen ID verbirgt. Hier sind mehrere Varianten denkbar:

Es könnte beispielsweise die kürzeste, als ‚Core‘ getaggte Referenz (also ein kon-

kreter Name) gewählt werden. Bei wiederkehrenden Familiennamen kann dies je-

doch dazu führen, dass mehrere Figuren den gleichen Anzeigenamen erhalten. In

verschiedenen Versuchen stellte sich heraus, dass die sinnvollsten Anzeigenamen

8 http://pandas.pydata.org.

23

entstehen, wenn diejenige Referenz gewählt wird, die am häufigsten vorkommt,

wobei pronominale Referenzen natürlich ausgeschlossen werden müssen.

Da nun alle nötigen Informationen zum Aufbau eines Figurennetzwerks er-

mittelt wurden, können diese als Tabstopp-getrennte Liste gespeichert werden, wie

Abbildung 4 zeigt. Diese Interaktionslisten enthalten für jede Figur sowohl die Ko-

referenz-ID, als auch den Anzeigenamen und die entsprechenden Kantengewichte

zwischen zwei Figuren. Für eine bessere Übersichtlichkeit wurden die Knoten je-

weils so angeordnet, dass der im Alphabet vorangehende Name zuerst genannt

wird, und die gesamte Liste nach Kantengewichten absteigend sortiert.

Effi_569 Innstetten_779 286

Effi_569 Mama_880 135

Effi_569 Roswitha_860 95

Effi_569 Gieshübler_598 94

Crampas_445 Effi_569 85

Crampas_445 Innstetten_779 59

Innstetten_779 Mama_880 58

Gieshübler_598 Innstetten_779 56 4 Ausschnitt aus Interaktionsliste zu Effi Briest

Auf diese Weise muss die Extraktion der Daten nur einmal durchgeführt

werden. Außerdem ermöglicht es die Zwischenspeicherung, die Daten in anderen

Anwendungen, wie zum Beispiel zur Visualisierung in Gephi9 oder zur Weiterver-

arbeitung in anderen Skriptsprachen wie R, zu nutzen. Auf Basis dieser Interakti-

onslisten können im Folgenden Figurennetzwerke erstellt und analysiert werden.

5.2.2 Netzwerkerstellung und -visualisierung

Zur Arbeit mit Netzwerken in Python wird die Bibliothek NetworkX10 ver-

wendet, die es erlaubt, mathematische Graphen zu repräsentieren, die Knoten und

Kanten zu verwalten, sowie diesen Labels oder Eigenschaften wie Gewichte zuzu-

weisen. Außerdem stellt sie zahlreiche Funktionen für typische Berechnungen auf

9 https://gephi.org. 10 https://networkx.github.io.

24

Graphen oder zur Visualisierung bereit. Die Daten können direkt aus der Interakti-

onsliste eingelesen werden. Dabei muss lediglich angegeben werden, welche Kan-

teneigenschaft in der dritten Spalte steht und welchen Datentyp diese hat, da Net-

workX auch weitere Spalten mit zusätzlichen Attributen erlaubt. Die entsprechen-

den Knoten und Kanten werden dann automatisch generiert.

Ein auf diese Weise entstandenes Figurennetzwerk kann je nach Roman aus

mehreren Hundert Knoten bestehen, da auch unwichtige Figuren, die nur sehr selten

auftreten, enthalten sind. Um Figurennetzwerke als Modell für die Figurenkonstel-

lation von Romanen sinnvoll analysieren und visualisieren zu können und völlig

überladene Darstellungen zu vermeiden, muss die Knotenzahl reduziert werden.

Zunächst wurden sehr generische Knoten wie ‚Menschen‘, ‚Leute‘ oder

‚Gesellschaft‘ mit Hilfe einer Liste herausgefiltert, ebenso wie Knoten mit Bezeich-

nern wie ‚Gott‘ oder ‚Person‘. Diese werden von den Algorithmen zur Erkennung

der Figurenreferenzen und Koreferenzauflösung wie alle anderen Figuren auch be-

handelt und erscheinen dann als relativ wichtig im Figurennetzwerk, obwohl sie

inhaltlich wenig beitragen. Die Filterung wirkt diesem Effekt entgegen und wird

zuerst durchgeführt, damit andere, inhaltlich sinnvollere Figuren ins Netzwerk

„nachrücken“ können.

Anschließend wurde ein sogenannter Knotenfilter eingeführt, bei dem die

Knoten absteigend nach ihrem gewichteten Knotengrad (weighted node degree)

sortiert werden und dann nur eine bestimmte Anzahl vom Beginn dieser Liste in die

Visualisierung aufgenommen wird. Der gewichtete Knotengrad (auch node

strength genannt) wird ermittelt, indem die Gewichte aller an dem Knoten anlie-

genden Kanten summiert werden (Costa et al. 2007, S. 174). Je mehr Kanten ein

Knoten hat und je höher deren Gewicht ist, desto höher ist also dieser Wert und

desto wichtiger der jeweilige Knoten. Beim tatsächlichen Sortieren in Python ist

hier Vorsicht geboten, da NetworkX die Knoten und den dazu berechneten gewich-

teten Grad als Dictionary zurückgibt, in dem die Elemente folglich keine feste Rei-

henfolge besitzen. Es kann also passieren, dass bei einem zweiten Durchlauf des

Skripts die Sortierreihenfolge bei Knoten mit gleichem Grad abweicht. Daher muss

unbedingt sowohl nach Alphabet, als auch nach gewichtetem Knotengrad sortiert

werden.

Nach Anwendung dieses Filters erhält man ein Netzwerk, das sehr stark ver-

bunden ist, aber viele Kanten mit geringem Gewicht enthält. Daher liegt es nahe,

25

auch die Kanten auf die wichtigsten zu beschränken. Dazu wird ein bestimmter

Prozentsatz der Kanten mit dem niedrigsten Gewicht herausgefiltert und alle iso-

lierten Knoten, die danach ohne Kanten verbleiben, ebenfalls verworfen. Alternati-

ven zu diesem Ansatz wären, nur Kanten ab einem bestimmten Mindestgewicht

oder nur eine bestimmte Anzahl von Interaktionen mit hohem Gewicht vom Beginn

der Interaktionsliste zu berücksichtigen. In Versuchen hat sich jedoch gezeigt, dass

eine Begrenzung wie oben beschrieben auf die zehn wichtigsten Knoten und eine

Filterung von 30% der schwächsten Kanten anschauliche Visualisierungen liefert,

bei denen die wichtigen Hauptfiguren im Netzwerk verbleiben und dessen Grund-

struktur gut hervortritt. Der empirische Eindruck, dass nach der Filterung vor allem

Hauptfiguren im Figurennetzwerk enthalten sind, lässt sich weiter untermauern:

Eine naheliegende Annahme ist, dass die Hauptfiguren in einem Roman auch am

häufigsten vorkommen bzw. dass häufig vorkommende Figuren wichtig für die Fi-

gurenkonstellation sind. Betrachtet man die in den Netzwerken enthaltenen Figuren

im Hinblick auf diese These, so fallen diese durchschnittlich unter die 15 häufigsten

Figuren des Romans, wobei durchschnittlich nur 1,14 Knoten nicht aus den zehn

häufigsten Figuren stammen. Diese Zahlen unterstützen den Eindruck, dass die Fil-

terung ihren Zweck erfüllt.

Für die Darstellung wurde das ‚spring‘-Layout aus NetworkX verwendet,

welches den Fruchterman-Reingold-Algorithmus nutzt, um die Knoten auf der

Bildfläche anzuordnen. Dabei werden anziehende und abstoßende Kräfte zwischen

den Knoten angenommen und diese so platziert, dass sie den größtmöglichen Ab-

stand zueinander haben und gleichmäßig verteilt sind. Außerdem wird versucht,

Überschneidungen von Kanten soweit möglich zu vermeiden (Pfeffer 2010, S. 231).

Abbildung 5 zeigt das Figurennetzwerk zu Effi Briest im ungefilterten Zustand, so-

wie nach Anwendung beider Filter. Bei den Zahlen hinter den Namen handelt es

sich um die entsprechende Koreferenz-ID der Figur, die zur Unterscheidung dient,

falls mehrere Figuren den gleichen Anzeigenamen haben.

26

5 Verschiedene Filterstufen zu Effi Briest: kein Filter (links), nur Knotenfilter (Mitte), Knoten- und Kanten-filter (rechts)

Die Grafik zeigt, dass die Filterung die Struktur des Netzwerks für den Be-

trachter viel deutlicher macht und für einen besseren Überblick sorgt. Bei der Fil-

terung werden zwar Informationen entfernt, diese lassen sich jedoch auf Figuren

zurückführen, die nur sehr selten im Roman vorkommen und daher für eine Reprä-

sentation der Figurenkonstellation nicht relevant sind. Außerdem sorgt die Filte-

rung dafür, dass das Beziehungsgeflecht zwischen den verbleibenden Figuren bes-

ser hervortritt. Dies verstärkt den Eindruck, dass diese Filterung auch für die auto-

matische Analyse der Figurennetzwerke nur von Vorteil sein kann.

5.3 Vergleich der Netzwerke mit Zusammenfassungen Im Folgenden werden die generierten Figurennetzwerke für Effi Briest und

Madame Bovary im Detail betrachtet und mit der in Abschnitt 2 vorgestellten je-

weiligen Figurenkonstellation in Bezug gesetzt, um zu sehen, wie gut ein solches

Figurennetzwerk einen Roman repräsentieren kann. Außerdem werden Figuren-

netzwerke näher betrachtet, deren Visualisierung von der anhand der Zusammen-

fassung erwarteten Figurenkonstellation abweichen, um eventuelle Probleme oder

Besonderheiten bei der Netzwerkerstellung zu identifizieren.

5.3.1 Figurennetzwerke zu Effi Briest und Madame Bovary

Betrachtet man das Netzwerk zu Effi Briest (Abbildung 6), so stellt man fest,

dass alle in der schematischen Figurenkonstellation (Abbildung 1) dargestellten Fi-

guren auch im Netzwerk zu finden sind. Zudem liegt der Fokus darauf, die Grund-

struktur der Figurenkonstellation zu erfassen, die sich am Netzwerk recht deutlich

erkennen lässt. Effi steht im Zentrum und ist der Knoten, an dem die meisten Kan-

ten anliegen. Die zentrale Relation zwischen ihr und Innstetten ist stark ausgeprägt.

Auch das Arrangement zwischen Effi als Mutter und Roswitha als Kindermädchen

im Hinblick auf Tochter Annie lässt sich wiederfinden. Die Kante zwischen Effi

27

und Crampas fällt nicht ganz so stark aus, wie vielleicht zu erwarten wäre, aller-

dings ist ihre Beziehung im Roman auch nur von kurzer Dauer mit relativ wenig

direkter Interaktion und wird viel in Andeutungen erzählt. Zwischen Innstetten und

Annie, sowie ihm und Roswitha, sind keine Kanten realisiert. Dies könnte sich da-

rauf zurückführen lassen, dass Roswitha hauptsächlich Effis Angestellte und Ver-

traute ist und weniger mit Innstetten interagiert. Annie ist zwar Innstettens Tochter,

aber da der Roman auf die Protagonistin Effi fokussiert ist, die ihrer Tochter nur

phasenweise Aufmerksamkeit schenkt und Innstetten viel auf Reisen ist, ist es nach-

vollziehbar, dass Innstetten und Annie seltener gemeinsam genannt werden. Ob-

wohl ein Leser des Romans sich natürlich der Verwandtschaftsbeziehung zwischen

den beiden Figuren bewusst ist, kann diese Information keineswegs trivial mit com-

putergestützten Methoden erhoben werden und ist somit bei der Netzwerkerstellung

nicht verfügbar.

6 Figurennetzwerk zu Effi Briest

Am Figurennetzwerk zu Madame Bovary11 lassen sich ähnliche Effekte be-

obachten (Abbildung 7). Auch hier steht Emma im Zentrum und ist durch eine

starke Kante mit ihrem Ehemann Karl verbunden. Mit ihren beiden Liebhabern Leo

und Rudolf verbinden sie relativ starke Relationen. Dienstmädchen Felicie und

Tochter Bertha tauchen nicht im Netzwerk auf. Das ist erklärbar, da Felicie eher

eine Nebenfigur ist und Bertha hauptsächlich bei einer Amme aufwächst, wodurch

11 Bei dem Knoten „Frau_1120“ handelt es sich um die alte Frau Bovary, Karls Mutter.

28

die Interaktionen zwischen ihr und ihren Eltern eher gering bleiben. Außerdem

hängt das „Fehlen“ von Figuren natürlich mit den angewendeten Filtern zusammen.

7 Figurennetzwerk zu Madame Bovary

In jedem Fall lässt sich bei Kenntnis der Romane sagen, dass keiner der

Knoten und keine der Kanten, die in den Netzwerken enthalten sind, falsch oder

nicht nachvollziehbar sind. Die hier beschriebenen Unterschiede zwischen den Fi-

gurennetzwerken und der manuell erstellten Übersicht über die Figurenkonstella-

tion lassen sich im Wesentlichen auf zwei Punkte zurückführen. Zum ersten muss

man sich bewusst sein, dass bei der manuellen Analyse der Figurenkonstellation

Informationen über feststehende Beziehungen zwischen Figuren, wie zum Beispiel

Verwandtschaft, einfließen, die der Leser während der Lektüre eines Romans er-

hält. Derartige grundlegende Relationen werden im Roman häufig nur einmal ein-

geführt und manifestieren sich, wie im Fall der Beziehung zwischen Innstetten und

seiner Tochter Annie, nicht notwendigerweise in häufiger Interaktion zwischen den

entsprechenden Figuren. Diese Interaktionen, modelliert über gemeinsames Vor-

kommen von Figuren, sind jedoch die einzigen Daten, die zur automatischen Er-

stellung von Figurennetzwerken genutzt werden können. Hier liegen also die Gren-

zen dessen, was ein solches Netzwerk darstellen kann. Entsprechend können die

Kanten des Netzwerks auch nicht weiter in Kategorien wie Ehe, Freundschaft oder

Familie unterteilt werden. Das Netzwerk erfasst lediglich, zwischen welchen Figu-

ren eine Relation besteht und wie häufig diese im Roman vorkommt. Obwohl es

29

theoretisch denkbar wäre, Informationen über Familienbeziehungen und andere so-

ziale Verhältnisse durch Textmining-Verfahren in Romanen zu ermitteln, ist dies

jedoch keineswegs eine einfache Aufgabe. Zum Zeitpunkt dieser Thesis sind keine

Arbeiten bekannt, in denen Kanten in Figurennetzwerken automatisch hinsichtlich

verschiedener Beziehungsarten klassifiziert wurden.

Der zweite Punkt ist die Filterung des Netzwerks. Je nachdem, auf welche

Werte die Knoten- und Kantenfilter gesetzt werden, kann es vorkommen, dass ein

Leser bei der Betrachtung eines Figurennetzwerks manche Figuren als fehlend oder

überflüssig empfindet. Andererseits sind die Filter notwendig, um ein übersichtli-

ches Netzwerk darzustellen und dessen Struktur überblicken zu können. Leider ist

keine Vorgehensweise bekannt, einen solchen automatischen Filter anders als durch

empirisches Ausprobieren und Betrachtung der Visualisierungen für das komplette

Korpus festzulegen. Auch eine individuelle Berechnung der Filter-Werte pro Ro-

man könnte hilfreich sein. Andererseits entscheidet auch bei der manuellen Erstel-

lung einer Figurenkonstellation der Leser, welche Figuren aufgenommen werden

sollen und lässt andere weg, die ihm weniger wichtig erscheinen und wendet damit

gewissermaßen einen Filter an.

5.3.2 Besonderheiten bei Figurennetzwerken

Neben diesen Beispielen wurde für alle Romane des Korpus betrachtet, ob

es Netzwerke gibt, die wesentlich von der anhand der Zusammenfassung erwarteten

Figurenkonstellation abweichen. Dabei fielen insbesondere zwei Texte auf.

Der erste ist Der grüne Heinrich von Gottfried Keller12, in dem der Lebens-

weg des Künstlers Heinrich Lee geschildert wird, welcher von seinen Reisen und

Begegnungen mit anderen Figuren geprägt ist13. Anhand der Zusammenfassung

wäre ein tendenziell sternförmiges Netzwerk zu erwarten, dessen Zentrum Heinrich

bildet, um den die anderen Figuren angeordnet sind. Tatsächlich ist das generierte

Netzwerk zu diesem Roman jedoch relativ stark verbunden, wobei an allen Knoten

eine ähnliche Zahl von Kanten anliegt und alle Kanten ein vergleichbares Gewicht

haben (Abbildung 8).

12 Erste Fassung von 1854. 13 Alle in diesem Abschnitt enthaltenen Inhaltszusammenfassungen zu Romanen basieren auf den

entsprechenden Artikeln aus Kindlers Literatur Lexikon Online.

30

8 Figurennetzwerk zu Der grüne Heinrich

Bei näherer Betrachtung des Romans zeigt sich auch der Grund für diesen

Effekt: Obwohl der Roman hauptsächlich heterodiegetisch erzählt ist, wird ein län-

gerer Teil als Rückblick auf Heinrichs Kindheit und Jugendalter von ihm selbst aus

der Ich-Perspektive geschildert. Dies führt zu besonders vielen Schwierigkeiten bei

der Koreferenzauflösung, da die Figuren aus den beiden Teilen aufeinander bezo-

gen werden müssen. Das ist insbesondere bei den vielen Referenzen auf Heinrich

Lee in der ersten Person eine besondere Herausforderung, der der Algorithmus zur

Koreferenzauflösung noch nicht gewachsen ist. Auch eine manuelle Korrektur wäre

hier zu aufwändig gewesen. Es bleibt also festzuhalten, dass längere eingeschobene

Passagen, die in einer anderen Erzählperspektive verfasst sind, möglicherweise zu

Problemen bei der automatischen Erstellung von Figurennetzwerken führen kön-

nen. Solche Einschübe könnten zum Beispiel längere Briefe, Tagebucheinträge o-

der Binnenerzählungen sein. Letztere sind ein Sonderfall, da sie andere Figuren

enthalten, als in der Haupthandlung vorkommen. Für die Zukunft wäre es nützlich,

solche Passagen automatisch zu erkennen, um sie dann gegebenenfalls anders pro-

zessieren zu können.

Der zweite auffällige Fall ist Jean Pauls Die unsichtbare Loge. Auch hier

wäre ein weitgehend sternförmiges Netzwerk zu erwarten, da der Roman die Le-

bensgeschichte von Gustav von Falkenberg erzählt, der zunächst abgeschieden von

der Gesellschaft aufwächst und erzogen wird, und später bei Hofe lebt und einer

31

Geheimgesellschaft beitritt. Im generierten Figurennetzwerk (Abbildung 9) ist je-

doch neben Gustav noch ein weiterer zentraler Knoten zu finden, der überra-

schenderweise die Bezeichnung ‚Leser‘ trägt.

Dies hängt mit der stilistischen Gestaltung des Romans zusammen: Im Text

wird wiederholt der Leser direkt vom Erzähler angesprochen. Diese Vorkommen

wurden vom NER-System fehlerhaft als Figur gekennzeichnet, obwohl - wenn

überhaupt - die Auszeichnung als Pseudofigur14 legitim wäre. Wenn ein solcher

Fall jedoch nicht oder nur sehr selten in den NER-Trainingsdaten auftritt, kann die

korrekte Auszeichnung auch nicht vom System erwartet werden. In der Konsequenz

werden in der Koreferenzauflösung auch Pronomen und andere Referenzen fehler-

haft auf die Figur ‚Leser‘ aufgelöst. Auch dies ist ein Problem, das potentiell in

anderen Romanen wiederkehren könnte. Im vorliegenden Fall wurden alle Vor-

kommnisse von ‚Leser‘ und die dazugehörigen Kanten aus der Interaktionsliste ge-

strichen, um eine bessere Repräsentation für diesen Roman zu erhalten.

9 Figurennetzwerke zu Die unsichtbare Loge mit (links) und ohne ‚Leser‘ (rechts)

Darüber hinaus kann es vorkommen, dass zwar die Figuren wie anhand der

Zusammenfassungen angenommen im Netzwerk enthalten sind, aber manche Kan-

ten deutlich stärker oder auch deutlich schwächer ausgeprägt sind, als erwartet, und

damit auch manche Figuren entsprechend zentraler oder weniger zentral erschei-

nen. Als Beispiel sei hier Das Gemeindekind von Marie von Ebner-Eschenbach ge-

nannt. Der Roman handelt von einem Geschwisterpaar, Milada und Pavel, die ohne

Eltern aufwachsen. Während Milada von einer Gutsbesitzerin aufgenommen wird,

14 Im Annotationsschema des NER-Systems von Jannidis et al. (2015) ist eine Pseudofigur eine

Figur, die zwar im Text genannt wird, aber eigentlich keine Figur der erzählten Welt ist. Weitere

Beispiele wären die Nennung von Schriftstellernamen oder mythologischen Figuren.

32

gerät Pavel auf die schiefe Bahn und findet erst Jahre später mit Hilfe seiner

Schwester zu einem rechtschaffenen Leben zurück. Dies lässt vermuten, dass beide

Geschwister gleichrangige Hauptfiguren des Romans und für die Figurenkonstella-

tion von ähnlich hoher Bedeutung sind. Das generierte Figurennetzwerk ist aller-

dings klar sternförmig um Pavel aufgebaut und deutet darauf hin, dass die Handlung

doch stärker auf Pavel konzentriert ist (Abbildung 10).

10 Figurennetzwerk zu Das Gemeindekind

Ebenso kann es vorkommen, dass Relationen im Netzwerk deutlich stärker

ausgeprägt sind als erwartet oder dass Relationen im Figurennetzwerk enthalten

sind, die in der Zusammenfassung nicht genannt wurden. Ob nun der durch die Zu-

sammenfassung oder der durch das Netzwerk vermittelte Eindruck den Roman bes-

ser widerspiegelt, kann in solchen Fällen nur durch eine ausführliche Recherche

oder schließlich die Lektüre des Romans geklärt werden.15 Daher kann dieses Phä-

nomen nicht als methodische Schwäche dieser Art der Netzwerkerstellung gewertet

werden, sondern deutet vielmehr auf ein interessantes Verhältnis zwischen einem

Roman und verschiedenen Zusammenfassungen desselben hin.

15 Im Wikipedia-Artikel zu Das Gemeindekind steht Pavel deutlich stärker im Fokus und seine

Entwicklung wird als Hauptstrang des Romans bezeichnet (https://de.wikipe-

dia.org/wiki/Das_Gemeindekind). Das zeigt, dass verschiedene Zusammenfassungen durchaus

unterschiedliche Eindrücke der Figurenkonstellation vermitteln können.

https://de.wikipedia.org/wiki/Das_Gemeindekind

https://de.wikipedia.org/wiki/Das_Gemeindekind

33

Insgesamt lässt sich feststellen, dass die automatisch generierten Figuren-

netzwerke bis auf vereinzelte Ausnahmen nicht nennenswert von der Figurenkons-

tellation, wie sie anhand der Zusammenfassungen eingeschätzt werden kann, ab-

weichen. Am Beispiel von Effi Briest und Madame Bovary wurde gezeigt, dass die

Figurennetzwerke die Figurenkonstellation der Romane hier sehr gut widerspie-

geln. Es kann also davon ausgegangen werden, dass die vorgestellte Methode

brauchbare modellhafte Repräsentationen der Figurenkonstellation von Romanen

erzeugt.

5.4 Netzwerkfeatures Um die generierten Figurennetzwerke automatisch analysieren und verglei-

chen zu können, müssen diese durch Merkmale, sogenannte Features, beschrieben

werden, die dann als Ausgangspunkt für weitere Berechnungen dienen können. In

der Graphentheorie und der Sozialen Netzwerkanalyse gibt es eine ganze Reihe von

Netzwerkmaßen und -kennzahlen, die sich in verschiedene Typen unterteilen las-

sen: Manche Maße beziehen sich auf einzelne Knoten oder Kanten, wie zum Bei-

spiel Zentralitätsmaße, die angeben, wie wichtig diese Bestandteile für das Netz-

werk sind. Andere beschreiben einen Graphen als Ganzes und befassen sich mit der

Verbundenheit der Knoten untereinander und der damit einhergehenden Gruppen-

bildung oder dem Informationsfluss im Netzwerk, je nach Anwendungsfall. Die

meisten solcher Maße können Eigenschaften des Netzwerks, wie die Richtung oder

die Gewichtung der Kanten, mit einbeziehen.

In diesem Abschnitt soll anhand dreier Visualisierungen von generierten Fi-

gurennetzwerken (Abbildung 11) dargelegt werden, welche strukturellen Eigen-

schaften der Netzwerke in dieser Arbeit von Interesse sind und mit Hilfe welcher

Maße diese als Features modelliert werden.

11 Figurennetzwerke zu Das Gemeindekind (links), Ekkehard (Mitte) und Die Wahlverwandtschaften (rechts)

34

Der Fokus liegt hierbei darauf, ein Netzwerk als Ganzes zu beschreiben, um

möglichst dessen Grundstruktur zu modellieren. Das erste Beispiel ist wiederum

das Figurennetzwerk zu Marie von Ebner-Eschenbachs Das Gemeindekind. Dabei

handelt es sich um ein fast vollkommen sternförmiges Netzwerk, bei dem ein Kno-

ten ganz klar zentral und mit allen anderen verbunden ist. Außer zwei Kanten mit

relativ geringem Gewicht sind unter den äußeren Knoten keine weiteren Relationen

vorhanden. Insgesamt sind die Kantengewichte relativ gleichmäßig verteilt: Sie va-

riieren natürlich, es gibt aber keine Kante, die ein deutlich höheres Gewicht als alle

anderen hat. Dies ist dagegen im zweiten Beispiel der Fall. Im Figurennetzwerk zu

Joseph Victor von Scheffels Ekkehard gibt es nicht eine einzelne Figur, die beson-

ders zentral ist, sondern eine Kante mit besonders hohem Gewicht, die zwei wiede-

rum recht stark verknüpfte Figuren verbindet. Im Unterschied zum ersten Beispiel

gibt es nur einen Knoten, an dem nur eine einzige Kante anliegt. Das dritte Beispiel

zeigt das Figurennetzwerk zu Johann Wolfgang von Goethes Die Wahlverwandt-

schaften. Hier sind fast alle Figuren untereinander verbunden. An jedem Knoten

liegen mindestens zwei Kanten an. Fast alle Figuren sind ähnlich stark ins Netzwerk

eingebunden, es gibt keinen Knoten, der besonders zentral erscheint.

Von dieser Beschreibung ausgehend, müssen also insbesondere zwei Netz-

werkeigenschaften als Features modelliert werden: Die Existenz besonders zentra-

ler Knoten oder Kanten und deren Bezug auf das Netzwerk als Ganzes sowie die

Ausprägung der Verbundenheit der Knoten untereinander. Dafür bieten sich zum

Beispiel Zentralitätsmaße an, mit denen nicht nur wichtige Knoten identifiziert,

sondern auch Informationen über die Struktur des Netzwerks gewonnen werden

können.

Ein einfaches, bekanntes und oft verwendetes Zentralitätsmaß ist die Grad-

zentralität (degree centrality, 𝑐𝑐𝐷𝐷) (Newman 2010, S. 169). Für einen Knoten 𝑣𝑣 ist

sie definiert als der Quotient zwischen der Anzahl aller an einem Knoten anliegen-

den Kanten deg(𝑣𝑣) und der Anzahl aller anderen Knoten im Graphen, außer dem

betrachteten Knoten selbst.16

16 In den folgenden Formeln bezeichnet 𝑛𝑛 die Anzahl aller Knoten, 𝑉𝑉 die Menge aller Knoten, 𝑚𝑚

die Anzahl aller Kanten und 𝑤𝑤(𝑖𝑖, 𝑗𝑗) das Gewicht der Kante zwischen den Knoten 𝑖𝑖 und 𝑗𝑗.

35

𝑐𝑐𝐷𝐷(𝑣𝑣) =deg (𝑣𝑣)𝑛𝑛 − 1

Der mögliche Wertebereich der Gradzentralität liegt also zwischen 1, falls

alle möglichen Kanten eines Knoten realisiert sind, und 0, falls ein Knoten gar keine

Kanten hat.17 Als erstes Feature wird der maximale im Netzwerk vorkommende

Wert für dieses Maß verwendet. Dieser kann bei 1 liegen, falls es sich um ein stern-

förmiges Netzwerk mit einem einzelnen Knoten im Zentrum handelt, aber auch,

falls es sich um ein stark verbundenes Netzwerk handelt. In einem komplett ver-

bundenen Graphen hätten alle Knoten eine Gradzentralität von 1. Um diese Fälle

voneinander abzugrenzen, wird der kleinste vorkommende Wert der Gradzentralität

zusätzlich als Feature herangezogen, da dieser bei einem sternförmigen Netzwerk

sehr klein ist und bei einem stark verbundenen Netzwerk auch größer sein kann.

Außerdem wird die Varianz der Gradzentralitäten aller Knoten verwendet: Hier

deutet ein kleiner Wert darauf hin, dass alle Knoten eine ähnliche Gradzentralität

haben, was bedeutet, dass der Graph relativ stark verbunden sein muss.

Dieses Zentralitätsmaß lässt jedoch die Kantengewichte, die ebenfalls als

Information in den Figurennetzwerken enthalten sind, außer Acht, die die Einbe-

ziehung weiterer Feinheit erlauben. In Analogie zum Knotengrad wird in gewich-

teten Graphen häufig die „Stärke“ eines Knoten (node strength) berechnet, also die

Summe der Gewichte aller an einem Knoten anliegenden Kanten (Costa et al. 2007,

S. 9). Dividiert man diesen Wert durch die Summe aller Kantengewichte im ganzen

Netzwerk, so erhält man ein recht anschauliches Zentralitätsmaß für gewichtete

Graphen, das als gewichtete Gradzentralität (weighted degree centrality, 𝑐𝑐𝑊𝑊𝐷𝐷) be-

zeichnet wird und dessen Wertebereich ebenfalls zwischen 0 und 1 liegt.

𝑐𝑐𝑊𝑊𝐷𝐷(𝑣𝑣) =∑ 𝑤𝑤(𝑣𝑣, 𝑖𝑖)𝑖𝑖 ∈ 𝑉𝑉, 𝑖𝑖≠𝑣𝑣

∑ 𝑤𝑤(𝑖𝑖, 𝑗𝑗)𝑖𝑖,𝑗𝑗 ∈ 𝑉𝑉, 𝑖𝑖≠𝑗𝑗

Diese Berechnung führt dazu, dass im Unterschied zur ungewichteten Grad-

zentralität Knoten, an denen mehr starke Kanten anliegen, als wichtiger betrachtet

17 Durch die Filterung von isolierten Knoten kann dies bei den in dieser Arbeit betrachteten Figu-

rennetzwerken jedoch nicht vorkommen.

36

werden als solche, an denen vor allem schwache Kanten anliegen. Als Features

werden der höchste und der zweithöchste Wert dieses Zentralitätsmaßes verwendet,

sowie die Differenz zwischen beiden. Ist der erste Wert hoch und die Differenz zum

zweiten Wert ebenfalls, so besitzt das Netzwerk einen besonders zentralen Knoten.

Falls der zweite Wert auch höher und die Differenz relativ klein ist, deutet dies auf

ein stärker verbundenes Netzwerk hin.

Ein weiteres Maß, das zur Beschreibung der Graphstruktur beitragen kann,

ist die sogenannte Central Point Dominance (Costa et al. 2007, S. 28).

𝐶𝐶𝐶𝐶𝐶𝐶 = 1

𝑛𝑛 − 1�(𝐵𝐵𝑚𝑚𝑚𝑚𝑚𝑚 − 𝐵𝐵𝑖𝑖)𝑖𝑖 ∈ 𝑉𝑉

Dieses Maß wird mit Hilfe der Betweenness-Zentralität 𝐵𝐵 berechnet und

lässt sich als durchschnittliche Differenz zwischen dem zentralsten Knoten und al-

len anderen interpretieren. Die Betweenness-Zentralität eines Knotens gibt dabei

an, wie oft der betrachtete Knoten auf einem kürzesten Pfad zwischen zwei anderen

Knoten liegt. 𝐵𝐵𝑚𝑚𝑚𝑚𝑚𝑚 ist die höchste im Netzwerk vorkommende Betweenness-Zent-

ralität, während 𝐵𝐵𝑖𝑖 für die Betweenness-Zentralität des Knoten 𝑖𝑖 steht. Das Ergebnis

der Central Point Dominance ist ein Wert von 1 für einen sternförmigen Graphen,

bei dem alle Kanten in einem Knoten zusammenlaufen, und ein Wert von 0 für

einen komplett verbundenen Graphen.

Gil et al. definieren in ihrer Studie zu Figurennetzwerken aus Dramen und

Filmen ein Maß namens Single Relationship Centrality, welches misst, wie stark

eine einzelne Relation im Fokus steht (Gil et al. 2011, S. 4). Berechnet wird es aus

der Differenz der Gewichte der beiden stärksten Kanten, im Verhältnis zum gesam-

ten Kantengewicht im Graphen.

𝑆𝑆𝑆𝑆𝐶𝐶 =𝑚𝑚𝑚𝑚𝑚𝑚𝑖𝑖,𝑗𝑗, 𝑖𝑖≠𝑗𝑗�𝑤𝑤(𝑖𝑖, 𝑗𝑗)� − 𝑛𝑛𝑛𝑛𝑚𝑚𝑛𝑛_𝑚𝑚𝑚𝑚𝑚𝑚𝑖𝑖,𝑗𝑗, 𝑖𝑖≠𝑗𝑗�𝑤𝑤(𝑖𝑖, 𝑗𝑗)�

∑ 𝑤𝑤(𝑖𝑖, 𝑗𝑗)𝑖𝑖,𝑗𝑗 ∈𝑉𝑉, 𝑖𝑖≠𝑗𝑗

Je höher dieser Wert, desto eindeutiger enthält das Netzwerk eine Kante, die

gegenüber allen anderen besonders zentral ist und ein besonders hohes Kantenge-

wicht hat. Analog verwenden Gil et al. ein Maß für die Dominanz einer einzelnen

37

Figur, das jedoch in dieser Arbeit durch die Verwendung der Differenz zwischen

den beiden höchsten gewichteten Gradzentralitäten bereits abgedeckt ist und daher

nicht zusätzlich genutzt wird, um Korrelationen zwischen den Features zu vermei-

den.

Neben Maßen, die die Netzwerkstruktur über die Zentralität von Knoten o-

der Kanten beschreiben, werden solche herangezogen, die die Verbundenheit des

Graphen messen. Eine sehr einleuchtende solche Kennzahl ist die Dichte (density,

𝐶𝐶) eines Graphen.

𝐶𝐶 = 𝑚𝑚

12𝑛𝑛(𝑛𝑛 − 1)

Dabei handelt es sich um das Verhältnis der Anzahl aller tatsächlich im

Netzwerk realisierten Kanten zu der Anzahl aller theoretisch möglichen Kanten

(Newman 2010, S. 134). Auch dieser Wert bewegt sich zwischen 1 bei einem kom-

plett verbundenen Netzwerk und 0 bei einem hypothetischen Netzwerk, das nur aus

isolierten Knoten besteht. Je höher also der Wert, desto stärker sind die Knoten

untereinander verbunden.

Ein weiteres Maß für die Verbundenheit eines Netzwerks ist die Transitivi-

tät (transitivity, 𝐶𝐶). Sie gibt das Verhältnis der Zahl aller geschlossenen Dreiecke

(𝑁𝑁Δ) zur Zahl aller „Triaden“ (𝑁𝑁3), also Pfaden der Länge 2, die nicht zu einem

Dreieck geschlossen sind, an (Costa et al. 2007, S. 19). Der Faktor 3 ergibt sich

daraus, dass jedes Dreieck eigentlich aus drei Triaden besteht und sorgt dafür, dass

der Wertebereich der Transitivität im Intervall [0, 1] liegt.

𝐶𝐶 = 3𝑁𝑁Δ𝑁𝑁3

Damit beschreibt sie die Verbundenheit eines Netzwerks zusätzlich unter

einem anderen Blickwinkel als die Dichte. Beide Maße für die Verbundenheit eines

Netzwerks lassen die Kantengewichte außer Acht. Dies ist beabsichtigt, da es bei

der Analyse der Struktur der Figurennetzwerke zunächst primär darum geht, wie

viele Kanten im Netzwerk realisiert sind und in welcher Form.

38

Feature Gemeinde-

kind

Ekkehard Wahlverwandt-

schaften

Max. Degree 1,0 1,0 1,0

Min. Degree 0,1111 0,1667 0,4

Degree Varianz 0,0735 0,0820 0,0587

Top 1 Weighted De-

gree

0,9159 0,6685 0,5412

Top 2 Weighted

Degree

0,2073 0,5471 0,5011

Weighted Degree

Differenz

0,7085 0,1214 0,0400

Central Point Domi-

nance

0,8951 0,2222 0,2400

Single Relationship

Centrality

0,0012 0,1719 0,0069

Density 0,2444 0,5714 0,6667

Transitivity 0,15 0,6316 0,6667

1 Feature-Werte für Beispielnetzwerke

Tabelle 1 zeigt die Zahlenwerte für die Features für die drei oben gezeigten

Beispielnetzwerke. Hier wird deutlich, dass die Features die Netzwerke entspre-

chend der dargelegten Erwartungen beschreiben und dass die Werte sich je nach

Struktur des Netzwerks unterscheiden. So sind beispielsweise die gewichtete Grad-

Differenz und die Central Point Dominance für das sternförmige Netzwerk zu Das

Gemeindekind deutlich höher als für die anderen beiden Netzwerke. Analog dazu

sind die Dichte und die Transitivität bei Ekkehard und insbesondere bei den Wahl-

verwandtschaften stärker ausgeprägt. Ebenso zu beobachten, ist der im Vergleich

zu den anderen Netzwerken hohe Wert für die Single Relationship Centrality bei

Ekkehard, dessen Netzwerk zweifellos eine zentrale Kante aufweist.

Berechnet man die beschriebenen Features für die ungefilterten Netzwerke,

so liegen die Werte bei allen Maßen in sehr schmalen Bereichen und unterscheiden

sich von Roman zu Roman nur sehr viel schwächer als die hier gezeigten Werte für

39

gefilterte Netzwerke. Dies bestätigt nochmals, dass die Filterung nicht nur für die

Visualisierung, sondern auch für die Analyse der Figurennetzwerke sinnvoll ist.

Die meisten hier genannten Maße können mit NetworkX direkt berechnet

werden. Wo das nicht der Fall ist, wurden zusätzliche Funktionen implementiert.

Die berechneten Features wurden zu einer Featurematrix zusammengefasst, in der

jede Spalte den Featurevektor für einen Roman enthält. Diese Matrix wird zur wei-

teren Verwendung als csv-Datei gespeichert.

5.5 Berechnung von Distanzen Nachdem nun alle Romane durch eine Featurematrix repräsentiert sind, kön-

nen mit Hilfe eines Distanzmaßes paarweise Ähnlichkeiten zwischen den Romanen

berechnet werden. Die Verwendung eines Distanzmaßes zur Berechnung von Ähn-

lichkeit impliziert, dass eine hohe Distanz für eine geringe Ähnlichkeit steht und

umgekehrt eine niedrige Distanz für große Ähnlichkeit.

Zunächst muss jedoch die Featurematrix skaliert werden, da andernfalls

Features mit hohen Werten und größeren Wertebereichen die Berechnung von Dis-

tanzen dominieren können. Daher werden alle Features mittels Min-Max-Scaling

(Raschka und Olson 2015, S. 110) so umgerechnet, dass sie danach in einem ge-

meinsamen Intervall von [0,1] liegen. Die Anwendung von Min-Max-Scaling ist

sinnvoll, da es sich bei den Features um Messwerte auf kontinuierlichen Skalen

handelt und es mehr um die relative Größe der Werte zueinander geht, als um Ab-

weichungen von einer Norm. Genutzt wird die Implementierung MinMaxScaler()

aus der Python-Bibliothek Scikit-Learn18.

Als Distanzmaß wird die Kosinusdistanz verwendet, wie sie im Paket

Scipy19 enthalten ist. Dabei wird der Kosinus des Winkels zwischen zwei Vektoren

berechnet und von 1 abgezogen, um einen Distanzwert zu erhalten. Aus den Eigen-

schaften des Kosinus ergibt sich, dass die Werte der Kosinusdistanz im Intervall

zwischen 1 (höchste Distanz) und 0 (keine Distanz) liegen können. Daraus resultiert

eine berechnete Distanzmatrix, die als csv-Datei gespeichert wird und im Folgen-

den näher betrachtet werden soll.

18 http://scikit-learn.org/stable. 19 https://www.scipy.org. Kosinusdistanz unter http://docs.scipy.org/doc/scipy/reference/genera-

ted/scipy.spatial.distance.cosine.html.

https://www.scipy.org/

40

Ein genauerer Blick auf die berechneten Distanzen zeigt, dass der größte

ermittelte Abstand bei 0,9157 liegt, während der kleinste Wert, abgesehen von der

Diagonalen, auf der korrekterweise alle Werte 0 sind, bei 0,0064 liegt. Die in Bezug

auf den Wertebereich der Kosinusdistanz relativ große Differenz zwischen Mini-

mum und Maximum deutet darauf hin, dass eindeutig Unterschiede in den Daten

messbar sind. Zwischen diesen Extremwerten können die Distanzen allerdings auch

recht gleichmäßig verteilt sein.

Ein nützliches Hilfsmittel zur explorativen Untersuchung einer Distanz-

matrix ist deren Visualisierung als Heatmap. Dabei werden die Zahlenwerte als Ab-

stufungen von Farben kodiert, was dem Betrachter einen schnellen Überblick über

die Daten ermöglicht. Anhand der Farben lässt sich schnell erkennen, zwischen

welchen Romanen eine kleine bzw. große Distanz berechnet wurde. Abbildung 12

zeigt eine solche Visualisierung der berechneten Distanzmatrix. Für die Farbkodie-

rung wurde eine von blau nach rot verlaufende Skala gewählt. Als Beispiel wurden

je ein recht ähnliches und ein recht unähnliches Paar ausgesucht und die dazugehö-

rigen Netzwerkvisualisierungen beigefügt. Das relativ dunkel blaue Feld zwischen

Ebner-Eschenbachs Gemeindekind und Carl Hauptmanns Einhart der Lächler ent-

spricht einer Kosinusdistanz von 0,0213, was anhand der Netzwerke sehr deutlich

nachvollziehbar ist. Beide Netzwerke sind sternförmig mit einer zentralen Figur in

der Mitte und besitzen je zwei Kanten zwischen äußeren Figuren. Deutlich rot ein-

gefärbt ist mit 0,6349 dagegen die Distanz zwischen Gemeindekind und den Wahl-

verwandtschaften. Auch das entspricht den Erwartungen, da das Netzwerk zu den

Wahlverwandtschaften im Gegensatz zum sternförmigen Netzwerk des Gemeinde-

kinds auf vier stärker verbundene, gleichrangige Figuren fokussiert ist. Außerdem

lässt sich erkennen, dass zueinander ähnliche Romane meist ähnliche Distanzen zu

den restlichen Texten des Korpus aufweisen.

41

12 Heatmap der berechneten Distanzen mit Beispielnetzwerken20

Diese Visualisierung zeigt, dass die Berechnung von Distanzen auf Basis

der Netzwerkfeatures Ergebnisse liefert, die bei Betrachtung der automatisch gene-

rierten Netzwerkvisualisierungen den Erwartungen entsprechen und durchaus

nachvollziehbar sind. Die verwendeten Features scheinen also grundsätzlich geeig-

net zu sein, um strukturelle Eigenschaften von Figurennetzwerken zu modellieren.

Diese These lässt sich anhand einer Visualisierung auf Basis der Features

selbst weiter untermauern. Berechnet man ausgehend von der skalierten Feature-

matrix eine Principal Component Analysis (PCA) zur Reduktion der Daten auf zwei

Dimensionen und plottet diese als Scatterplot, so stellt man fest, dass auch diese

Grafik sinnvoll interpretiert werden kann (Abbildung 13).

20 Alle Abbildungen dieser Arbeit befinden sich zur genaueren Ansicht auch auf dem beiliegenden

USB-Stick.

42

13 PCA-Scatterplot der Netzwerkfeatures

In der linken Hälfte der Grafik finden sich sternförmige Netzwerke, wäh-

rend auf der rechten Seite eher stärker verbundene zu finden sind. Am unteren Rand

stehen einige Netzwerke, die eine zentrale, besonders starke Relation enthalten. Effi

Briest und Madame Bovary liegen nicht allzu weit auseinander. Auch diese Be-

trachtung deutet darauf hin, dass die ausgewählten Features wie beabsichtigt be-

stimmte strukturelle Eigenschaften der Figurennetzwerke abbilden können.

5.6 Auswertung anhand der Evaluationsgrundlage Um festzustellen, in wie weit mit der beschriebenen Vorgehensweise – au-

tomatische Netzwerkerstellung, Beschreibung durch Netzwerkfeatures und Berech-

nung von Distanzen – die zuvor als Evaluationsgrundlage festgehaltene Intuition

über die Ähnlichkeit zwischen Romanen im Korpus abgebildet werden kann, müs-

sen die manuell erstellte Distanzmatrix und die berechnete Distanzmatrix miteinan-

der in Beziehung gesetzt werden.

Eine Möglichkeit zum Vergleich zweier Distanzmatrizen ist der Mantel

Test, der 1967 von dem Biologen und Statistiker Nathan Mantel vorgeschlagen

wurde (Mantel 1967). Der Test kann verwendet werden, um Distanzen zwischen

den gleichen Objekten, die aus unterschiedlichen Quellen stammen, zu vergleichen,

wie beispielsweise geographische und genetische Abstände zwischen Tierarten.

Die Grundidee dieses Tests besteht darin, eine Korrelation zwischen beiden Matri-

zen zu berechnen, die zustande kommt, wenn jeweils an den gleichen Stellen hohe

43

bzw. niedrige Werte stehen. Ein Problem ist jedoch, dass paarweise Distanzen keine

voneinander unabhängigen Daten sind. Mantels Lösungsansatz hierfür ist, eine der

beiden Matrizen wiederholt zu permutieren und für jede Permutation die Korrela-

tion zu berechnen. Dahinter steht die Annahme, dass die meisten dieser Permutati-

onen keine Korrelation aufweisen, da dieser Zusammenhang durch das Permutieren

einer der beiden Matrizen aufgehoben wird. Wenn wirklich eine Korrelation zwi-

schen den beiden Matrizen besteht, dann sollte die tatsächliche Korrelation signifi-

kant höher sein, als der Durchschnitt für alle Permutationen, was über den Z-Score

angegeben werden kann. Der Linguist Jon W. Carr beschreibt die Funktionsweise

des Tests und die gerade erläuterten Annahmen sehr anschaulich auf seinem Blog

(Carr 2014) und hat zudem eine Python-Implementierung des Mantel Tests entwi-

ckelt, die er auf GitHub zur Verfügung stellt21 und die in dieser Arbeit verwendet

wird.

Carrs Funktion liefert die tatsächliche Korrelation r zwischen den zu ver-

gleichenden Matrizen zurück, sowie den Signifikanzwert p und den Z-Score z.

Wenn der p-Wert den festgelegten Schwellwert von 0,05 unterschreitet, deutet ein

positiver Z-Score auf eine signifikant positive Korrelation hin und ein negativer Z-

Score auf eine signifikant negative Korrelation. Der Wert r kann dabei als Stärke

dieser Korrelation interpretiert werden. Da der Test zufällige Permutationen einer

Matrix berechnet, können die Ergebnisse bei wiederholter Berechnung abweichen.

Setzt man die Anzahl der zu betrachtenden Permutationen hoch genug, erhält man

aber weitgehend stabile Ergebnisse, die sich erst in den hinteren Nachkommastellen

unterscheiden. Je größer die betrachteten Matrizen und je höher die Zahl der Per-

mutationen, desto rechenintensiver wird der Mantel Test jedoch auch.

Um die berechneten Werte besser einschätzen und interpretieren zu können,

wurden vier Beispielmatrizen der Größe 10 erstellt und mittels des Mantel Tests

verglichen. Matrix A wurde mit zufälligen Werten erstellt, Matrix B enthält an jeder

Stelle den doppelten Wert von A, in Matrix C und D wurden zusätzlich die Werte

für drei bzw. zehn Objektpaare verändert.

21 http://jwcarr.github.io/MantelTest.

44

Vergleich Beschreibung r p z

A – B Verdopplung 1,00 0,0001 6,55

A – C 3 Änderungen 0,90 0,0001 6,02

A – D 10 Änderungen 0,64 0,0001 4,29

2 Ergebnisse des Mantel Test für Beispielmatrizen

Die Tabelle zeigt, dass Matrix A zu allen anderen hoch signifikant positiv

korreliert ist, was den Erwartungen entspricht. Werden jedoch mehr Abweichungen

in die Matrizen eingebracht, so wird die Korrelation schrittweise schwächer.

Nutzt man nun den Mantel Test, um die manuelle Distanzmatrix der Ro-

mane mit den anhand der Figurennetzwerke berechneten Distanzen zu vergleichen,

erhält man diese Ergebnisse: r = -0,01, p = 0,89, z = -0,15. Negative Werte für r und

z entstehen, wenn die verglichenen Matrizen negativ korreliert sind, also wenn Fel-

der, die in der ersten Matrix hohe Zahlen enthalten, in der zweiten Matrix an diesen

Stellen niedrige Zahlen enthalten und umgekehrt. Da die Werte für r und z in diesem

Fall jedoch nahe an 0 liegen und der p-Wert sehr hoch ist, deuten sie leider in keiner

Weise auf eine Korrelation hin. Ein mögliches Problem könnte darin liegen, dass

die manuelle Distanzmatrix nur vier feste Werte für Distanzen enthalten kann (1, 2,

3, 4), während die berechneten Distanzen auf einer kontinuierlichen Skala zwischen

0 und 1 liegen. Um das zu umgehen, wurden die berechneten Distanzwerte eben-

falls auf die Kategorien 1 bis 4 abgebildet, indem alle Werte anhand der Quartile in

vier Gruppen eingeteilt wurden. Lag der berechnete Wert zwischen 0 und dem ers-

ten Quartil, so wurde eine 1 stattdessen eingesetzt und analog für die anderen Ab-

schnitte. Daraufhin liefert der Mantel Test die Ergebnisse r = -0,02, p = 0,81 und

z = -0,26. Auch das stellt leider keine Verbesserung dar.

Eine weitere Möglichkeit zur Analyse von Distanzmatrizen ist die Anwen-

dung eines hierarchischen Clusterings und die anschließende Visualisierung mittels

eines Dendrogramms. Dabei werden iterativ die Objekte bzw. Cluster mit dem ge-

ringsten Abstand zueinander zusammengefasst, sodass eine hierarchische Baum-

struktur entsteht. Einer der verbreitetsten Algorithmen für hierarchisches Clustering

ist die Ward-Methode, die darauf abzielt, die Varianz der Daten innerhalb eines

Clusters zu minimieren (Ward 1963). Prozessiert man sowohl die manuelle, als

auch die berechnete Distanzmatrix auf die gleiche Weise, so erhält man zwei Gra-

fiken, die einem optischen Vergleich unterzogen werden können.

45

14 Dendrogramm der berechneten Distanzen

Betrachtet man das auf Basis der berechneten Distanzen erstellte Dendro-

gramm (Abbildung 14), so fällt zunächst auf, dass Ludwig Ganghofers Schloß Hu-

bertus und Gottfried Kellers Der Grüne Heinrich als eigenes Cluster herausstechen.

Zumindest bei letzterem Roman könnte dies auf die in 5.3.2 beschriebenen Prob-

leme bei der Netzwerkerstellung zurückzuführen sein. Ansonsten lässt sich be-

obachten, dass das unterste grüne Cluster von Hauptmanns Einhart der Lächler bis

zu Ebner-Eschenbachs Gemeindekind die am deutlichsten sternförmigen Netz-

werke zusammenfasst. Bis auf Das Gemeindekind liegen diese auch im Dendro-

gramm zu den manuellen Distanzen (Abbildung 15) in einem Cluster, wenn auch

nicht so deutlich von den anderen Romanen abgegrenzt.

46

15 Dendrogramm der manuellen Distanzen

Leider erschöpfen sich hier auch bereits die erkennbaren Gemeinsamkeiten,

sodass eine weitere Interpretation kaum möglich ist und auf reiner Spekulation be-

ruhen würde. Am Dendrogramm der manuellen Distanzen lassen sich allerdings

Gruppierungen beobachten, die auf thematische Aspekte zurückgeführt werden

können: Das türkise Cluster aus Raabe, Hauff und Stifter umfasst Romane, die sich

mit der Thematik Krieg und Politik befassen. Das pinke Teilcluster darüber, beste-

hend aus Anna Karenina, Madame Bovary und Effi Briest, gruppiert Ehebruchsro-

mane mit deutlichen Parallelen.

Um sich nicht auf einen optischen Vergleich verlassen zu müssen, können

aus einem hierarchischen Clustering flache Cluster erzeugt werden, die jeden Ro-

man zu einer bestimmten Gruppe zuordnen, indem das Dendrogramm sozusagen

auf einer bestimmten Höhe abgeschnitten wird, um eine vorher festgelegte Zahl an

Clustern zu erhalten. Da das Dendrogramm auf Basis der manuellen Distanzen vier

recht deutliche Cluster zeigt, wurde die Clusteranzahl auf diesen Wert festgelegt.

Mit Hilfe der fcluster-Funktion aus Scipy können aus beiden hierarchischen

47

Clusterings analog flache Gruppierungen erzeugt werden, die anschließend mit

gängigen Maßen zur Auswertung der Performanz von Clustering-Algorithmen ver-

glichen werden können. Ein solches Maß ist der Accuracy Score, der in scikit-learn

implementiert ist. Dabei wird berechnet, für welchen Anteil der Romane die vorge-

gebene und die berechnete Clusterzuordnung miteinander übereinstimmen. Für den

Vergleich zwischen dem Clustering anhand der manuellen Distanzen und dem

Clustering anhand der berechneten Distanzen ergibt sich ein Accuracy Score von

0,34, was bedeutet, dass sich die beiden Clusterings sehr schlecht aufeinander ab-

bilden lassen. Auch für andere Anzahlen von Clustern bleibt der Wert ähnlich

schlecht oder schlechter.

Diese starken Abweichungen von der Evaluationsgrundlage sind im Hin-

blick auf die Tatsache, dass sowohl die auf Basis der Figurennetzwerke ermittelten

Features als auch die berechneten Distanzen sinnvoll interpretiert werden können,

durchaus erstaunlich. Dies führte zu der Idee, anhand einer simpleren Fragestellung

zu untersuchen, ob die Netzwerkfeatures überhaupt grundsätzlich wie erwartet

funktionieren. Daher wird nun die deutlich klarer definierte Frage untersucht, ob

die Figurenkonstellation eines Romans um eine zentrale Hauptfigur angeordnet ist

oder nicht. Dies wurde wiederum anhand der Zusammenfassungen festgehalten.

Ausgehend von der berechneten Distanzmatrix wurde mit den bereits beschriebe-

nen Methoden ein flaches Clustering mit zwei Clustern berechnet. Dieses wurde

mit der manuellen Einteilung verglichen, wobei sich ein Accuracy Score von 0,74

ergibt. Dieser Wert liegt deutlich über der durchschnittlichen Performanz einer zu-

fälligen Zuordnung und zeigt somit, dass die Features für diese Art der Klassifika-

tion eindeutig relevante Informationen enthalten. Betrachtet man die Romane, die

abweichend klassifiziert wurden, so handelt es sich dabei häufig um solche Fälle,

in denen die anhand der Zusammenfassung erwartete Figurenkonstellation und das

generierte Figurennetzwerk voneinander abweichen, ohne dass klar erkennbar ist,

welche Darstellung den Roman besser widerspiegelt (vgl. Abschnitt 5.3.2). Das

deutet darauf hin, dass die gewählten Features mindestens für die Unterscheidung

zwischen sternförmigen und stärker verbundenen Netzwerke nachvollziehbare Er-

gebnisse liefern und nicht grundsätzlich schlecht funktionieren.

Klar ist: Obwohl die aus den Netzwerken generierten Features sinnvoll in-

terpretierbar sind, wie in den Abschnitten 5.4 und 5.5 gezeigt wurde, passen die

Evaluationsgrundlage und die berechneten Distanzen nicht zusammen. Dies stellte

48

sich sowohl bei der Verwendung eines Korrelationstests, als auch beim Clustering

heraus. Ein möglicher Grund könnte sein, dass die Erstellung der Evaluationsgrund-

lage unterbewusst mehr als angenommen durch wiederkehrende Themen und Mo-

tive beeinflusst ist. Zwischenmenschliche Motive wie Ehe, gesellschaftlicher Stand

oder Familienkonflikte können die Wahrnehmung der Figurenkonstellation deut-

lich formen, zumal wenn die Einschätzung lediglich auf der Lektüre von Zusam-

menfassungen basiert. Solche Informationen, die eher auf die verschiedenen Arten

von Beziehungen zwischen Figuren abzielen, können Figurennetzwerke, wie sie in

dieser Arbeit betrachtet werden, nicht abbilden.

6 Kombination mit Topic Modeling Die vorhergehenden Experimente mit Figurennetzwerken haben zu der An-

nahme geführt, dass die menschliche Intuition von Ähnlichkeit in Bezug auf die

Figurenkonstellation in Romanen neben der grundlegenden Struktur weitere As-

pekte mit einbezieht. Im Folgenden wird versucht, mit Hilfe von Topic Modeling

wichtige Themen zu modellieren, die im Korpus vorkommen. Die Idee dabei ist,

dass auf diese Weise auch wiederkehrende zwischenmenschliche Motive erfasst

werden können, die als Annäherung für die in den Romanen enthaltenen Bezie-

hungsarten herangezogen werden können. So könnte eine weitere Dimension der

Ähnlichkeit zwischen Figurenkonstellationen abgedeckt werden.

6.1 Preprocessing und Parameter Zur Berechnung der Topics wird LDA verwendet, wie es in Abschnitt 3.2.1

beschrieben ist. Eine der bekanntesten und am weitesten verbreiteten Implementie-

rungen dieser Methode ist Mallet22. Es ist in Java geschrieben, als Open-Source-

Software frei verfügbar und lässt sich über die Kommandozeile bedienen. Aus Py-

thon heraus kann Mallet mit Hilfe des Moduls subprocess23 angesteuert werden,

welches es ermöglicht, Befehle auf der Kommandozeile durchzuführen und die

22 http://mallet.cs.umass.edu/topics.php. 23 https://docs.python.org/3/library/subprocess.html.

49

Rückgabewerte zu speichern. Es gibt natürlich auch direkt in Python implemen-

tierte Bibliotheken für Topic Modeling, wie beispielsweise Gensim24; Mallet hat

sich jedoch für diese Arbeit, unter anderem im Hinblick auf die Laufzeit, als per-

formanter erwiesen.

Als Input benötigt Mallet Plain-Text-Dateien. Da die Romane im zuvor be-

schriebenen tabellarischen Format (vgl. Abbildung 3) vorliegen, muss zunächst

eine reine Textfassung daraus generiert werden. Davor werden die Daten jedoch

einem recht umfangreichen Preprocessing unterzogen, wie es im Bereich des Topic

Modeling üblich ist.

Typischerweise werden dabei die Texte gefiltert, sodass nur noch bestimmte

Tokens in das Modell einfließen. Da vor allem thematische Informationen model-

liert werden sollen, liegt es nahe, sich auf die Substantive zu beschränken, weil

diese in einem Text den höchsten inhaltlichen Gehalt haben. Das tabellarische For-

mat enthält bereits Part-of-Speech-Tags zu jedem Wort, sodass die gewünschten

einfach ausgewählt werden können. Auf diese Weise werden, unter anderem, die

sogenannten Funktionswörter wie zum Beispiel Artikel oder Pronomen ausge-

schlossen, die aus geschlossenen Wortklassen stammen, meistens sehr häufig vor-

kommen und inhaltlich wenig beitragen.

Außerdem werden alle Figurenreferenzen ausgeschlossen, da diese spezi-

fisch für einzelne Romane sind und somit keine hilfreichen Informationen beitragen

können, wenn es darum geht, mehrere Texte zu vergleichen. Ähnliches gilt für die

Hapax Legomena, also Wörter, die nur einmal im ganzen Korpus vorkommen.

Diese werden aus dem gleichen Grund entfernt.

Analog zum sogenannten Culling, das beispielsweise in der Stilometrie ein-

gesetzt wird, um Wörter herauszufiltern, die zu spezifisch für wenige Texte sind,

wurden alle Wörter, die nur in einem einzigen Roman vorkommen, ignoriert (Eder

et al. 2016). All diese Maßnahmen zielen auf die Vermeidung von Topics ab, die

zu sehr auf einen Einzeltext fokussiert sind.

Nach den ersten Testläufen stellte sich heraus, dass sich einige Wörter in

sehr vielen Topics wiederholten. Da es sich dabei vor allem um solche Wörter han-

delte, die im Gesamtkorpus sehr häufig vorkommen, wurden zusätzlich zu den an-

deren Preprocessing-Schritten die 50 häufigsten Wörter entfernt.

24 https://radimrehurek.com/gensim.

50

Des Weiteren werden die lemmatisierten Formen der Substantive verwen-

det, die ebenfalls aus dem tabellarischen Format ersichtlich sind. Bei der Lemmati-

sierung werden der Plural und andere Flexionsformen auf eine gemeinsame Grund-

form zurückgeführt, zum Beispiel ‚Kinder‘ und ‚Kindes‘ auf die Form ‚Kind‘. In

Ausnahmefällen, in denen der Lemmatisierer keine Grundform finden konnte, wird

das ursprüngliche Token beibehalten. Durch diesen Preprocessing-Schritt wird un-

erwünschte Variabilität im Vokabular reduziert, was zu konsistenteren Topics führt.

Ein weiterer Schritt, der oft unternommen wird, ist das Aufteilen von länge-

ren Texten in kürzere Einheiten. LDA betrachtet jeden Text als Bag-of-Words, ohne

die ursprüngliche Reihenfolge der Wörter zu berücksichtigen. Die Wahrscheinlich-

keit, dass Wörter in einem ganzen Roman gemeinsam auftauchen, ist sehr viel hö-

her und die damit verbundene Information sehr viel weniger aussagekräftig, als in

einem kleineren Textabschnitt. Würde man die Romane im Ganzen als Input ver-

wenden, so würden sehr breite und unspezifische Topics entstehen und andere The-

men, die nur an einzelnen Stellen vorkommen, überlagert werden. Diese Problema-

tik beschreibt auch Matthew Jockers in Macronanalysis und betont, dass die Seg-

mentierung von Romantexten vor der Anwendung von Topic Modeling eindeutig

sinnvoll ist und zu besseren Ergebnissen führt. Gleichzeitig weist er darauf hin, dass

es keine allgemeingültige Richtlinie für die optimale Segmentierung gibt und diese

in jeder Studie empirisch festgelegt werden muss (Jockers 2013, S. 134).

Zum Segmentieren der Romane gibt es mehrere Ansätze. Zum einen könn-

ten Sinnabschnitte wie Kapitel oder Absätze verwendet werden. Diese sind jedoch

nicht notwendigerweise in jedem beliebigen Roman enthalten und können in der

Länge sehr stark variieren, sowohl innerhalb eines Textes als auch über ein Korpus

hinweg. Eine andere Möglichkeit ist, die Texte in Abschnitte mit einer bestimmten

Wortanzahl zu unterteilen. Welche Größe dabei für die Segmente gewählt werden

sollte, kann nicht allgemein festgelegt werden. In der vorliegenden Studie wurde

eine Segment-Länge von 300 Wörtern verwendet und außerdem darauf geachtet,

Absatzgrenzen zu berücksichtigen, ähnlich wie bei Schöch et al. (Schöch et al.

2016). Hierbei wurden Segmente mit der festgelegten Wortanzahl betrachtet und

dann jeweils die nächstliegende Absatzgrenze als tatsächlicher Trennpunkt heran-

gezogen. Zudem wurde dafür Sorge getragen, dass das letzte Segment nicht zu klein

wird, indem es gegebenenfalls zum vorletzten Segment dazu genommen wurde. Die

51

Einbeziehung von Absatzgrenzen dient dazu, den Sinnzusammenhang des Textes

weitgehend zu bewahren.

Nach Durchführung des beschriebenen Preprocessing wurden die entstan-

denen Segmente als Textdateien gespeichert. Dafür wurden neue Dateinamen, be-

stehend aus dem ursprünglichen Namen und einer fortlaufenden Zählung, generiert,

um die Segmente später wieder den jeweiligen Romanen zuordnen zu können.

Ein entscheidender Parameter, der bei LDA vom Benutzer festgelegt wer-

den muss, ist die Anzahl der Topics, die das Modell ermitteln soll. Auch hier gibt

es keine allgemeingültige Angabe: Die Wahl der Topic-Anzahl hängt von der

Größe und Variabilität des Korpus, sowie der gewünschten Detailgenauigkeit der

Topics ab (Jockers 2013, S. 128). Eine zu niedrige Topic-Anzahl resultiert in sehr

allgemeinen Topics, die tendenziell in allen Texten vertreten sind, während eine zu

hohe Anzahl zu schwerer interpretierbaren Topics führen kann. Nach mehreren

Durchläufen wurde in dieser Arbeit eine Topic-Anzahl von 70 festgelegt.

Nach der Durchführung von LDA mit Mallet erhält man mehrere Ausgabe-

dateien. Eine Textdatei enthält alle Topics mit der jeweiligen Gesamtwahrschein-

lichkeit im Korpus, sowie den 20 Wörtern mit der höchsten Gewichtung für das

jeweilige Topic, ohne jedoch die konkreten Wahrscheinlichkeiten für die einzelnen

Wörter anzugeben. Diese Ausgabe ist eine gute Möglichkeit für den Benutzer, einen

schnellen Überblick über die berechneten Topics zu erhalten. Die Informationen

über alle in einem Topic enthaltenen Wörter mit den dazugehörigen Wahrschein-

lichkeiten sind in einer separaten Datei aufgelistet. Auch das lässt sich gut für die

Analyse der entstandenen Topics nutzen, beispielsweise für die im nächsten Ab-

schnitt gezeigten Visualisierungen. Außerdem liefert Mallet die Topic-Verteilung

über die einzelnen Dokumente in Form einer Matrix, bei der jede Zeile ein Doku-

ment (also ein Romansegment) und jede Spalte ein Topic repräsentiert. In den Zel-

len stehen die Wahrscheinlichkeiten dafür, dass das jeweilige Topic im Dokument

enthalten ist. Diese Datei bietet alle notwendigen Informationen für eine Analyse

der Topics im Hinblick auf ihre Verteilung über die Dokumente.

52

6.2 Interpretation der entstandenen Topics Bei der Einschätzung der Qualität der von einem LDA-Modell berechneten

Topics lässt sich ein menschlicher Betrachter typischerweise von zwei Aspekten

leiten: Wie gut passen die mit höchster Wahrscheinlichkeit in einem Topic enthal-

tenen Wörter zusammen und wie leicht fällt es, einen Überbegriff für das Topic zu

finden? Diese beiden Dimensionen, auch als Kohärenz und Interpretierbarkeit be-

zeichnet, sind gerade bei der Arbeit mit literarischen Texten von besonderer Bedeu-

tung, da sich Literaturwissenschaftler natürlich interpretierbare und nachvollzieh-

bare Erkenntnisse über Romane erhoffen (Jockers 2013, S. 128). Beide Aspekte

beeinflussen sich stark gegenseitig: je eindeutiger der Zusammenhang zwischen

den Wörtern eines Topics, desto leichter fällt es einem Betrachter, das Topic mit

einem Label zu benennen.

Obwohl natürlich im Optimalfall alle Topics klar interpretierbar sein sollten,

bedeutet das Vorkommen von weniger kohärenten Topics keineswegs, dass das er-

rechnete Modell schlecht oder unbrauchbar ist. Betrachtet man die 70 Topics, die

für das in dieser Arbeit verwendete Korpus berechnet wurden, so zeigt sich, dass

auch hier manche klarer und manche weniger klar interpretierbar sind.

Da Topics nach Wahrscheinlichkeit gewichtete Wortverteilungen sind, kön-

nen sie gut als Wordclouds visualisiert werden. Die einzelnen Wörter werden dabei

je nach ihrer Gewichtung in verschiedenen Schriftgrößen dargestellt: je häufiger

ein Wort in einem Topic vertreten ist, desto größer wird es geschrieben. Diese Art

der Visualisierung ermöglicht einen anschaulicheren Eindruck von der Zusammen-

setzung eines Topics, als die Betrachtung einer einfachen Wortliste, da die Wahr-

scheinlichkeitsverteilung der enthaltenen Wörter mit berücksichtigt wird. Zur Er-

stellung der Wordclouds wurde das gleichnamige Python-Package25 verwendet und

jeweils die 15 wichtigsten Wörter dargestellt.

Bei der Betrachtung dieser Wordclouds fällt auf, dass Topics auf verschie-

dene Aspekte hin interpretiert werden können. Manche Topics repräsentieren zent-

rale Probleme oder Ereignisse, die die Handlung eines Textes prägen können.

25 http://amueller.github.io/word_cloud.

53

16 Topic 37: Krankheit/Tod

17 Topic 5: Geld(-sorgen)

Ein Beispiel dafür ist Topic 37 (Abbildung 16), das Wörter rund um ‚Krank-

heit‘ und ‚Tod‘ enthält und damit ein häufig in literarischen Texten vorkommendes

Motiv beschreibt. Tatsächlich ist es in den meisten Romanen des Korpus vertreten.

Auf der rechten Seite ist als weiteres Beispiel Topic 5 (Abbildung 17) mit dem

Thema ‚Geld‘ zu sehen, das auch einige Wörter enthält, die Finanzprobleme und

Geldsorgen andeuten. Dieses Topic findet sich zum Beispiel in Madame Bovary,

da Emma gegen Ende des Romans immer häufiger auf Geldanlagen und Geschäfte

mit dem Händler L‘Heureux einlässt, die sie nicht vollständig überblickt und sich

damit in eine finanzielle Notlage bringt.

Andere Topics beschreiben eher das Setting eines Romans. Topic 48 in Ab-

bildung 18 umfasst Wörter, die sich auf das Thema ‚Kloster‘ beziehen. Romanen,

in denen dieses Topic vertreten ist, spielen wahrscheinlich, zumindest stellenweise,

in einer klösterlichen Umgebung, wie beispielsweise Scheffels Ekkehard, der von

einem jungen Mönch handelt.

18 Topic 48: Kloster

19 Topic 43: Ländliches

Ähnlich spricht das Vorkommen von Topic 43 (Abbildung 19) dafür, dass

ein Roman, oder Teile davon, in einer ländlichen Umgebung spielt, in der Land-

wirtschaft von Bedeutung ist. Im Hinblick auf die Figurenkonstellation deuten diese

54

Topics darauf hin, dass eine oder mehrere Romanfiguren mit den genannten Be-

reich in Bezug stehen, also beispielsweise Mönch oder Bauer sind.

Ähnlich lassen sich Topics betrachten, die bestimmte Interessensgebiete o-

der Lebensinhalte beschreiben. Auch hier liegt nahe, dass Figuren im entsprechen-

den Roman an diesen Bereichen interessiert sind und zugehörige Tätigkeiten ausü-

ben.

20 Topic 11: Jagd

21 Topic 14: Musik

Beispiele hierfür sind Topic 11 (Abbildung 20), das sich mit dem Begriff

‚Jagd‘ beschreiben lässt und in Ganghofers Schloß Hubertus prominent vertreten

ist, in dem ein alter Schlossherr sein Leben dieser Beschäftigung gewidmet hat. In

Wilhelm Heises Hildegard von Hohenthal hat Topic 14 eine hohe Wahrscheinlich-

keit, welches Wörter aus dem Themengebiet ‚Musik‘ umfasst (Abbildung 21).

Manche Topics bilden auch ganz klar zwischenmenschliche Beziehungen

ab. Ein Beispiel dafür ist Topic 56 in Abbildung 22, welches Wörter rund um

‚Hochzeit‘ und ‚Ehe‘ enthält.

22 Topic 56: Hochzeit

In Romanen, in denen dieses Topic vertreten ist, findet also höchstwahr-

scheinlich eine Hochzeit statt oder das Thema wird angesprochen. Beispiele dafür

55

sind Theodor Fontanes Mathilde Möhring oder Der Schimmelreiter von Theodor

Storm.

Außer den Topics liefert Mallet auch die Topic-Verteilung über die einzel-

nen Dokumente. Bei einem Dokument handelt es sich dabei um ein Romansegment.

Im vorliegenden Anwendungsfall ist aber die Verteilung der Topics über die Ro-

mane als Ganzes von Interesse. Daher muss für jedes Topic die durchschnittliche

Wahrscheinlichkeit über alle Segmente hinweg berechnet werden. Da die Topic-

Verteilung als Matrix gespeichert ist, lassen sich dafür die groupby-Funktionen

aus Pandas nutzen.

Um sich einen ersten Überblick zu verschaffen, wie die Topics über die Ro-

mane verteilt sind, bietet sich wiederum eine Heatmap zur Visualisierung an (Ab-

bildung 23). Dabei werden auf der vertikalen Achse die Romane aufgetragen. Auf

der horizontalen Achse befinden sich die Topics, wobei für jedes Topic die entspre-

chende Nummer sowie die ersten drei Wörter als Beschriftung angezeigt werden.

Die Wahrscheinlichkeiten für die Topics werden durch eine Farbskala repräsentiert:

je dunkler das Feld, desto höher die Wahrscheinlichkeit, dass ein Topics im ent-

sprechenden Text vorkommt.

56

23 Heatmap der Topic-Verteilung

57

An der Heatmap lässt sich erkennen, dass die Verteilung über die Romane

je nach Topic tatsächlich sehr unterschiedlich ausfallen kann. Manche Topics sind

relativ gleichmäßig in fast allen Romanen vertreten. Andere hingegen stechen mit

besonders hoher Wahrscheinlichkeit in einzelnen Texten heraus. Es gibt jedoch

auch einige Topics, die manche Romane gemeinsam haben, während sie in anderen

gar nicht auftreten, wie beispielsweise Topic 26, das sich um das Thema ‚Kampf‘

dreht. Ein weiteres Beispiel ist Topic 20 zum Thema ‚Kunst und Malerei‘, welches

Romane verbindet, deren Hauptfigur Künstler ist oder die sich anderweitig mit dem

Motiv ‚Kunst‘ auseinandersetzen.

Auch in den LDA-Ergebnissen scheinen also nützliche Informationen ent-

halten zu sein. Diese sollen im Folgenden zusätzlich zu den Netzwerk-Features zur

Berechnung von Distanzen herangezogen werden, um die Evaluationsgrundlage

eventuell besser annähern zu können.

6.3 Berechnung von Distanzen und Auswertung Um die Informationen aus dem Topic Modeling in die Berechnung der Dis-

tanzen zwischen Romanen mit einfließen zu lassen, werden für jeden Roman die

Wahrscheinlichkeiten für die einzelnen Topics als Features verwendet. Dafür wird,

wie bereits oben beschrieben, die durchschnittliche Topic-Verteilung über alle Ro-

mansegmente ermittelt und in einer csv-Datei zwischengespeichert. Die Netzwerk-

Features und die Topic-Features werden in einem Pandas-DataFrame zusammen-

geführt. Es sind also für jeden Text 70 weitere Features hinzugefügt worden. Ana-

log zu der in Abschnitt 5.5 beschriebenen Vorgehensweise werden die Daten ska-

liert und die Kosinusdistanz berechnet.

Auf diese Weise erhält man wiederum eine Distanzmatrix und es gilt zu

überprüfen, ob das erweiterte Feature-Set die Evaluationsgrundlage möglicher-

weise besser annähert. Der Mantel Test liefert die Werte r = 0,18, p = 0,005 und

z = 2,82. Dies deutet auf eine signifikant positive Korrelation hin, auch wenn diese

nur sehr schwach ausgeprägt ist. Die Idee, Topic Modeling als weitere Dimension

mit einzubinden, scheint also im Sinne der Evaluationsgrundlage zu sein.

Obwohl das kombinierte Feature-Set sehr viel mehr Topic-Features als

Netzwerk-Features enthält, tragen die Netzwerk-Features dennoch eindeutig zu den

berechneten Distanzen bei und werden nicht von den Topic-Features überlagert.

58

Dies zeigt sich, wenn man die nur auf Basis der Netzwerk-Features berechnete Dis-

tanzmatrix mit der anhand der kombinierten Features ermittelten Distanzmatrix ver-

gleicht. Die Werte r = 0,59, p = 0,0001 und z = 6,11 zeigen eine deutliche positive

Korrelation.

Berechnet man die Distanzen jedoch nur auf Basis der Topic-Features, ohne

die Netzwerk-Informationen zu berücksichtigen, und vergleicht diese mit der Eva-

luationsgrundlage, so liefert der Mantel Test r = 0,22, p = 0,0006 und z = 3,28.

Diese Korrelation ist etwas stärker und hat gleichzeitig einen niedrigeren Signifi-

kanzwert als für die Distanzen basierend auf den kombinierten Features. Das deutet

darauf hin, dass die Informationen aus dem Topic Modeling eher in der Lage sind,

die in der manuell erstellten Distanzmatrix festgehaltene Intuition über die Ähn-

lichkeit zwischen Romanen abzubilden, als die Netzwerkmaße. Angesichts der Tat-

sache, dass die Visualisierungen der Figurennetzwerke und die daraus ermittelten

Kennzahlen doch sehr klar interpretierbar sind, ist dies erstaunlich und wirft die

Frage auf, ob die Evaluationsgrundlage zu sehr von in den Romanen vorkommen-

den Themen und Motiven geprägt ist und bei der Erstellung die Figurenkonstella-

tion unterbewusst in den Hintergrund getreten ist.

Im Gegensatz zu den Netzwerkfeatures, bei denen die berechnete Distanz-

matrix anhand der Netzwerkvisualisierungen gut nachvollzogen werden konnte, ist

eine solche Betrachtung der Distanzen hier kaum möglich. Obwohl der Mantel Test

eine positive Korrelation anzeigt, ist diese nur sehr schwach und lässt keineswegs

die Schlussfolgerung zu, dass Topic-Features die Ähnlichkeit zwischen den Figu-

renkonstellationen verschiedener Romane abbilden würden. Vielmehr drängen sich

Zweifel daran auf, ob die Evaluationsgrundlage tatsächlich die Intuition von Ähn-

lichkeiten zwischen Romanen mit Fokus auf der Figurenkonstellation abbildet oder

doch zu stark von anderen Faktoren beeinflusst ist.

Zudem wurden die beiden Featuresets lediglich durch einfaches Zusammen-

fügen miteinander kombiniert, sodass nun insgesamt 80 Features für jeden Roman

betrachtet werden. Bei einem kleinen Korpus ist dies bereits extrem viel, sodass die

Daten diesen höher-dimensionalen Raum nur noch spärlich abdecken (die Daten

werden sparse). Im unendlich dimensionalen Raum wären alle Datenpunkte gleich

weit voneinander entfernt. Das kann dazu führen, dass berechnete Distanzen nicht

59

mehr aussagekräftig sind. Dieses Phänomen wird auch als ‚Fluch der Dimensiona-

lität‘ (curse of dimensionality) bezeichnet (Keogh und Mueen 2011) und könnte

eventuell erklären, warum der Mantel Test hier eine Korrelation anzeigt.

Daher wird im Folgenden ein Ansatz vorgestellt, der es erlaubt, die Figu-

rennetzwerke und die LDA-Topics auf differenziertere Weise zusammenzubringen.

6.4 Topics als Kanteneigenschaften Dieser Abschnitt untersucht die Frage, ob und wie Figurennetzwerke mit

Informationen aus einem Topic-Modell angereichert werden könnten. Die Idee da-

bei ist, jede Kante durch ein dazugehöriges Topic zu charakterisieren und so even-

tuell verschiedene wiederkehrende Kantentypen und Muster solcher Typen über die

Romane hinweg identifizieren zu können. Auf diese Weise könnten die Informati-

onen aus dem Topic-Modell direkter mit den Figurennetzwerken verknüpft werden,

als nur durch die Verwendung der Topic-Verteilungen als Features.

Da die Kanten der Figurennetzwerke über gemeinsames Vorkommen von

Figuren im gleichen Absatz modelliert sind, muss auch das Topic-Modell auf Ab-

sätzen beruhen, damit beide Informationen miteinander in Verbindung gesetzt wer-

den können. Daher wurde erneut ein LDA-Modell berechnet, mit dem Unterschied,

dass die Romantexte diesmal in die einzelnen Paragraphen segmentiert wurden.

Aufgrund der variierenden Länge von Absätzen kann es vorkommen, dass für man-

che Paragraphen kein LDA-Dokument erstellt wurde, da diese durch ihre Kürze

keine Substantive enthalten oder alle Substantive im Preprocessing herausgefiltert

wurden. Die einzelnen Absatzsegmente wurden mit dem Dateinamen des Romans

sowie der entsprechenden Absatznummer aus dem tabellarischen Format benannt,

um sicherzustellen, dass die Informationen anschließend wieder mit den Figuren-

netzwerken zusammengeführt werden können. Abgesehen davon wurden das glei-

che Preprocessing wie in Abschnitt 6.1 angewendet und ebenfalls 70 Topics be-

rechnet.

Die entstandenen Topics sollen hier nicht im Detail beleuchtet werden. Es

kann jedoch festgehalten werden, dass das Ergebnis vergleichbar zu den in Ab-

schnitt 6.2 beschriebenen Topics auf Basis der Segmentierung nach Wortanzahl ist.

Ein Großteil der Topics lässt sich analog wiedererkennen, natürlich jeweils mit ei-

ner anderen Topic-Nummer.

60

Bei der Erstellung der Interaktionslisten wurde nun für jeden Absatz das

Topic mit der höchsten Wahrscheinlichkeit ermittelt und allen im Absatz vorkom-

menden Kanten zugeordnet. Sofern zu einem Absatz aufgrund leerer LDA-Doku-

mente keine Informationen über die Topic-Verteilung vorlagen, wurde der Platz-

halter -1 vergeben. Auf diese Weise erhält man für jede Kante eine Liste von To-

pics, deren Länge dem Gewicht der Kante entspricht. Aus dieser Liste wurde das

am häufigsten vorkommende Topic herausgesucht und als zusätzliches Kantenattri-

but neben dem Kantengewicht gespeichert. Als weitere Information wurde die An-

zahl der Absätze, in denen das gewählte Topic am wahrscheinlichsten war, festge-

halten (vgl. Abbildung 24).

Diese Informationen können in der Form ‚gewähltes Topic_Anzahl‘ als

weitere Spalte in die Interaktionslisten geschrieben werden, da NetworkX Mecha-

nismen zum Einlesen mehrerer Kantenattribute bietet.

Emma_1117 Karl_1189 248 56_23

Emma_1117 Rudolf_1108 163 41_13

Emma_1117 Leo_1029 140 26_13

Emma_1117 Frau_1120 127 56_16

Frau_1120 Karl_1189 85 37_8 24 Ausschnitt aus Interaktionsliste zu Madame Bovary mit Topic-Informationen

Bei der Visualisierung dieser erweiterten Figurennetzwerke bietet es sich

nun an, die Kanten je nach zugeordnetem Topic in verschiedenen Farben darzustel-

len. Dabei wurde mit Colormaps aus Matplotlib26 gearbeitet und jede Topic-Num-

mer auf eine bestimmte Farbabstufung gemappt. Bei der Auswahl des Farbschemas

aus dem limitierten Angebot an Colormaps wurde darauf geachtet, dass die Farben

möglichst gut unterscheidbar sind. Außerdem wurde die jeweilige Topic-Nummer

als Label an die Kanten geschrieben, damit die dazugehörigen Topics zur besseren

Analyse nachgeschlagen werden können.

26 http://matplotlib.org/users/colormaps.html.

61

25 Figurennetzwerk zu Madame Bovary mit Topics als Kantenattributen

Betrachtet man beispielsweise das mit Topic-Informationen angereicherte

Figurennetzwerk zu Madame Bovary (Abbildung 25), so stellt man fest, dass fast

allen Kanten unterschiedliche Topics zugeordnet wurden. Zwei Kanten, zwischen

Emma und Frau Bovary sowie zwischen Emma und Karl, haben das gleiche Topic

erhalten. Da es sich bei den beiden Figuren um Emmas Ehemann und ihre Schwie-

germutter und somit um recht unterschiedliche Arten von Beziehungen handelt,

wären verschiedene Topics für die Kanten zu erwarten gewesen. Bei Kenntnis des

Romans lässt sich andererseits sagen, dass Frau Bovary sehr häufig in Verbindung

mit Emma und Karl auftritt, wenn sie beispielsweise für längere Besuche im Haus

des Paars weilt. Das hat zur Folge, dass es zahlreiche gemeinsame Textstellen die-

ser drei Figuren gibt, was eine Erklärung für die übereinstimmenden Topic-Zuord-

nungen sein könnte.

Erfreulich ist das Topic für die Kante zwischen Emma und L‘Heureux: To-

pic 2 umfasst die Themen ‚Geld‘ und ‚Finanzielle Not‘. Das ist sehr passend, da die

Figur L’Heureux ein nur scheinbar wohlgesonnener, skrupelloser und profitgieriger

Händler ist, bei dem Emma häufig Dinge kauft, dabei Schulden macht und sich

Geld leihen muss. Die Topic-Zuordnungen für die anderen Kanten lassen sich je-

doch nicht so offensichtlich interpretieren.

Bei Betrachtung aller Visualisierungen lässt sich sagen, dass die Topics 37,

51 und 56 in sehr vielen Netzwerken vorkommen, wie das auch bei Madame Bovary

der Fall ist. Das liegt daran, dass es sich dabei um die drei Topics mit der insgesamt

62

größten Wahrscheinlichkeit für das Korpus handelt. Außerdem kann es vorkom-

men, dass (fast) alle Kanten eines Netzwerks das gleiche Topic erhalten. Dies pas-

siert vor allem dann, wenn ein einzelnes Topic für einen Roman eine besonders

hohe Wahrscheinlichkeit aufweist. In einem solchen Fall bieten Topics als Kan-

tenattribute kaum eine Möglichkeit zur Interpretation im Hinblick auf Relationen

zwischen Figuren oder zur weiteren Analyse.

26 Beispielnetzwerke mit (fast) nur gleichen Kanten-Topics; Goethes Wahlverwandtschaften (links), Eichen-dorffs Ahnung und Gegenwart (Mitte), Heinses Hildegard von Hohenthal (rechts)

Vergleicht man die als Kantenattribute auftretenden Topics mit der Vertei-

lung der Topics über die Romane als Ganzes, so stellt man fest, dass die für die

Kanten ermittelten Topics im Großen und Ganzen die Topic-Verteilung des Ro-

mans widerspiegeln. Gibt es für den Roman ein dominierendes Topic, dessen Wahr-

scheinlichkeit deutlich höher ist, als bei den anderen Topics, erhalten höchstwahr-

scheinlich alle Kanten dieses Topic als Attribut. Gibt es mehrere Topics mit ähnlich

hoher Wahrscheinlichkeit, werden diese als Kanteneigenschaften im Netzwerk zu

finden sein. Folglich haben die Ergebnisse dieses Ansatzes im Vergleich zur Topic-

Verteilung über die Romane als Ganzes leider keinen wesentlich höheren Informa-

tionsgehalt.

Außerdem fällt auf, dass die Zuordnung der Topics zu den Kanten oft nur

auf einem kleinen Teil der Absätze, in denen die entsprechende Kante vorkommt,

beruht. Ein Blick auf die vierte Spalte der in Abbildung 24 gezeigten Interaktions-

liste zeigt, dass die Topic-Zuordnung beispielweise für die Kante zwischen Emma

und Karl auf 23 von 248 Absätzen basiert. Auch bei anderen Kanten sind unter 10%

der Absätze für die Auswahl entscheidend. In Anbetracht der Tatsache, dass für

jeden Absatz 70 Topics theoretisch in Frage kommen, relativiert sich dieser Ein-

druck zwar etwas, es entstehen dennoch Zweifel, ob die Auswahl des Topics für

eine Kante über die reine Häufigkeit eine sinnvolle Methode ist. Betrachtet man für

die Kante zwischen Emma und Karl für alle 248 relevanten Absätze die Topics mit

der höchsten Wahrscheinlichkeit und deren Häufigkeit, so stellt man fest, dass 50

63

verschiedene Topics vorkommen und die Häufigkeiten im oberen Bereich sehr nah

beieinander liegen. Topic 56 kommt 23 Mal vor, Topic 37 an zweiter Stelle 22 Mal.

Somit wird bei der einfachen Auswahl des häufigsten Topics eine nicht unbeträcht-

liche Datenmenge außer Acht gelassen. Eine denkbare Möglichkeit zur Abmilde-

rung dieser Problematik ist, den Wahrscheinlichkeitswert zu speichern, wenn für

jeden Absatz das Topic mit der höchsten Wahrscheinlichkeit ermittelt wird, und

anschließend für jedes Topic die gesammelten Wahrscheinlichkeitswerte aufzu-

summieren. Auf diese Weise erhalten Topics, die zwar seltener sind, aber dafür

höhere Wahrscheinlichkeiten aufweisen, insgesamt mehr Einfluss. Bei der Betrach-

tung der resultierenden Interaktionslisten und Visualisierungen zeigt sich jedoch,

dass diese Vorgehensweise effektiv bis auf sehr wenige Ausnahmen die gleichen

Ergebnisse liefert.

Eine alternative Herangehensweise wäre, für jede Kante die Häufigkeitsver-

teilung der zugeordneten Topics zu betrachten. Das würde jedoch eine Visualisie-

rung und eine nachfolgende Analyse erheblich erschweren und die Entwicklung

neuer Methoden erforderlich machen.

Der hier vorgestellte Ansatz zur Einbindung von Topics als Kantenattribute

ist also durchaus problembehaftet. Aufgrund der Funktionsweise von Topic Mode-

ling und der Netzwerkerstellung auf Basis von gemeinsamen Vorkommen von Fi-

guren im gleichen Absatz liegt die Annahme nahe, dass die Idee besser funktioniert,

wenn zwei Figuren durch eine klar abgegrenzte Relation verbunden sind, also häu-

fig nur zu zweit und seltener in Verbindung mit anderen Figuren auftreten und sich

ihr Umgang auf eine bestimmte Tätigkeit oder einen Lebensbereich fokussiert. Dies

trifft beispielsweise auf die oben beschriebene Relation zwischen Emma und

L‘Heureux zu. Bei Figuren mit intensiveren, vielschichtigeren Beziehungen ist

diese Annahme eher problematisch, da ein einzelnes Topic dies kaum abbilden

kann.

Zudem kann die beschriebene Vorgehensweise nur dann potentiell nützliche

Informationen liefern, wenn unterschiedliche Relationen auch verschiedene Topics

als Kantenattribute erhalten. Damit hängt sie stark vom berechneten LDA-Modell

ab, welches wiederum vom Korpus abhängig ist. Ob die als Kantenattribute ermit-

telten Topics im Hinblick auf die Relation zwischen den zwei Figuren sinnvoll in-

64

terpretierbar sind, steht auf einem anderen Blatt. Klar ist allerdings, dass Netz-

werke, in denen jede Kante das gleiche Topic hat, keinen Ansatzpunkt für weitere

Untersuchungen bieten.

7 Fazit und Diskussion Die in dieser Arbeit betrachtete Fragestellung beschäftigt sich mit der auto-

matischen Erkennung von Ähnlichkeit zwischen den Figurenkonstellationen ver-

schiedener Romane. Dazu wurden zunächst Figurennetzwerke automatisch aus den

Romanen extrahiert und mit Hilfe von Visualisierungen gezeigt, dass diese die Fi-

gurenkonstellation weitgehend gut repräsentieren. Auf Basis der Figurennetzwerke

wurden verschiedene Netzwerkmaße ermittelt und diese als Features zur Berech-

nung von Distanzen zwischen den Romanen verwendet. Obwohl diese Distanzen

durchaus sinnvoll interpretiert werden konnten, konnte keine Verbindung zur ma-

nuell erstellten Evaluationsgrundlage nachgewiesen werden. Dies widerspricht den

zuvor gehegten Erwartungen und lässt aufgrund der guten Interpretierbarkeit der

Features und der berechneten Distanzen Zweifel an der Evaluationsgrundlage auf-

kommen. Ausgehend von der Annahme, dass die verschiedenen Arten von Bezie-

hungen und bestimmte zwischenmenschliche Motive zwischen Figuren den Ein-

druck von Ähnlichkeit zwischen Figurenkonstellationen stark beeinflussen, wurde

Topic Modeling verwendet, um derartige Informationen mit einzubinden. Durch

die zusätzliche Verwendung der Topic-Verteilung für die Romane als Features

konnte eine signifikant positive Korrelation zwischen den berechneten und den ma-

nuell ermittelten Distanzen festgestellt werden, die jedoch nur sehr schwach ausge-

prägt ist. Das deutet dennoch darauf hin, dass die Evaluationsgrundlage unterbe-

wusst doch relativ stark von den im Roman auftretenden Themen und Motiven be-

einflusst ist und nährt somit weitere Zweifel daran, ob die Evaluationsgrundlage in

ihrer vorliegenden Form geeignet ist, die in dieser Arbeit durchgeführten Experi-

mente auszuwerten.

Tatsächlich gibt es einige Punkte, die im Zusammenhang mit der Erstellung

der Evaluationsgrundlage als problematisch betrachtet werden können. Zum einen

beruht die Einschätzung der Figurenkonstellation auf Zusammenfassungen. Ob-

wohl diese Zusammenfassungen von Experten verfasst sind und aus einem qualita-

tiv hochwertigen Literaturlexikon stammen, und bei der Zusammenstellung des

65

Korpus darauf geachtet wurde, dass die entsprechenden Zusammenfassungen von

einer gewissen Länge sind, variieren sie dennoch in Umfang und Detailgehalt. So-

mit kann je nach Zusammenfassung ein besserer oder schlechterer Eindruck eines

Romans und dessen Figurenkonstellation entstehen, wie das Beispiel von Marie von

Ebner-Eschenbachs Gemeindekind in Abschnitt 5.3.2 zeigt. So können auch rele-

vante Informationen verborgen bleiben, ohne dass es der Leser der Zusammenfas-

sung merkt. Da es jedoch extrem zeitaufwändig und bei größeren Korpora gar nicht

denkbar wäre, alle Romane komplett zu lesen, ist der Rückgriff auf Zusammenfas-

sungen dennoch eine notwendige Alternative.

Zum anderen können Romane sehr vielseitig und unterschiedlich sein,

wodurch es kaum möglich ist, feste Kriterien bei der Erstellung einer manuellen

Distanzmatrix anzuwenden. Häufig lassen sich beim Vergleich zweier Romane so-

wohl ähnliche, als auch unähnliche Aspekte finden. Obwohl versucht wurde, sich

auf den Vergleich der Figurenkonstellationen zu beschränken, kann der Eindruck

von Ähnlichkeit trotzdem durch verschiedene Aspekte unterbewusst beeinflusst

sein, beispielsweise durch vergleichbares Setting oder wiederkehrende zentrale

Motive. Durch die Verwendung einer Skala für die Distanzen wurde zwar eine bi-

näre Aufteilung in ‚ähnlich‘ und ‚unähnlich‘ vermieden, dennoch handelt es sich

bei den manuell erstellten Distanzen um stark subjektiv geprägte Ad-hoc-Entschei-

dungen. Dies lässt vermuten, dass es durchaus auch zu nicht unerheblichen Abwei-

chungen kommen würde, wenn eine zweite Person eine Distanzmatrix von Hand

erstellen würde, da diese Aufgabe auch für Menschen schwierig ist.

Mögliche Alternativen, eine weniger stark subjektiv geprägte manuelle Dis-

tanzmatrix als direkte Evaluationsgrundlage zu erstellen, wären zum einen ein

Crowdsourcing, in dem jeweils mehrere Personen die Ähnlichkeit der Figurenkon-

stellation von Romanen anhand der Zusammenfassungen bewerten. Einerseits

könnte auf diese Weise das Inter-Annotatoren-Agreement berechnet werden, um

die Schwierigkeit der Aufgabe besser einschätzen zu können. Außerdem könnten

die durchschnittlichen Distanzen der verschiedenen Annotatoren verwendet wer-

den, um subjektive Einflüsse zu vermindern. Andererseits ist ein solches Crowd-

sourcing natürlich zeitaufwändig und mit Kosten verbunden. Zudem müssten die

Teilnehmer bei einer derartigen Aufgabe über eine gewisse literaturwissenschaftli-

che Kenntnis verfügen.

66

Ein weiterer Ansatz wäre eine umfassende Recherche in literaturwissen-

schaftlicher Sekundärliteratur, um festzustellen, welche Texte in der Forschung als

ähnlich betrachtet werden. Dabei könnte eine Schwierigkeit darin liegen, Sekun-

därliteratur zu finden, die speziell auf den Bereich Figurenkonstellation fokussiert

ist. Außerdem ist die klassische literaturwissenschaftliche Forschung stark am Ein-

zelwerk interessiert und versucht eher, Besonderheiten von einem bestimmten Text

in Abgrenzung zu anderen Texten herauszuarbeiten. Darüber hinaus ist literatur-

wissenschaftliche Fachliteratur größtenteils auf kanonisierte Werke beschränkt, so-

dass dieser Ansatz nicht mehr in Frage kommt, wenn das zu untersuchende Korpus

auch unbekanntere Texte enthält.

Sofern die vorgestellten Untersuchungen auf größere Korpora übertragen

werden sollen, sind beide Ansätze kritisch zu betrachten, da die Erstellung einer

solchen Evaluationsgrundlage immer aufwändiger wird, je größer die Textsamm-

lung ist und zudem zu allen Texten Zusammenfassungen bzw. Sekundärliteratur

vorhanden sein müssten. Insgesamt lässt sich festhalten, dass für Experimente mit

Figurennetzwerken, wie sie in dieser Arbeit betrachtet werden, eine alternative Art

der Evaluation erforderlich ist, für die noch nicht der richtige Ansatz gefunden

wurde. Hierbei wäre auch eine Form der indirekten Auswertung denkbar, bei der

die Features und Methoden für eine Unterteilung von Romanen in nachprüfbare

literaturwissenschaftliche Kategorien, wie beispielsweise Gattungen, oder zur

Überprüfung literaturwissenschaftlicher Thesen herangezogen werden könnten.

Aufgrund der dargelegten Probleme ist es nicht möglich, anhand von Eva-

luationsergebnissen gezielt verschiedene methodische Details wie beispielsweise

der Auswahl der Features oder des Distanzmaßes zu verändern. Dies gilt insbeson-

dere für die Wahl der Parameter beim Topic Modeling, die folglich mittels einer

näheren Betrachtung der entstehenden Topics festgelegt wurden.

Bei der Auswertung des Topic Modeling fiel auf, dass manche Topics für

einzelne Texte eine besonders hohe Wahrscheinlichkeit aufwiesen, während sie in

allen anderen Texten kaum vertreten waren. Ein solcher Effekt ist weniger hilfreich,

wenn es darum geht, Ähnlichkeiten zwischen Romanen zu entdecken. Hier könnte

der relativ kleine Umfang des Korpus eine Rolle spielen, da sich der Effekt in einer

größeren Textmenge relativieren würde, weil dann die Wahrscheinlichkeit höher

wäre, dass Topics in mehreren verschiedenen Texten auftreten.

67

Einige der entstandenen Topics bilden eine Reihe von Aspekten ab, die sich,

wie in Abschnitt 6.2 beschrieben, hinsichtlich der Figuren eines Romans interpre-

tieren lassen. Es gibt jedoch auch weitere Topics, die allgemeinere Konzepte reprä-

sentieren und eher auf die Art und Weise hindeuten, wie Figuren, Orte oder Situa-

tionen in Romanen beschrieben werden. Diese Topics haben meist eine insgesamt

recht hohe Wahrscheinlichkeit und kommen in den meisten Texten vor.

Im Hinblick auf den Versuch, Beziehungen zwischen Romanfiguren mittels

Topic Modeling zu modellieren, lässt sich sagen, dass die Topics zu viele verschie-

dene Aspekte abbilden, um das leisten zu können. Zudem beschreibt die Wahr-

scheinlichkeitsverteilung der Topics über das Korpus eher die Romane als Ganzes.

Gründe dafür könnten sein, dass feste Beziehungen zwischen Figuren, wie Ver-

wandtschaft, Ehe oder Liebe, an wenigen Stellen eingeführt und dann nicht wieder-

holt direkt thematisiert werden, sondern über Verhalten, Handlungen und Rede der

Figuren vermittelt werden. Andere Relationen, wie beispielsweise die Affäre zwi-

schen Effi und Crampas, klingen nur an, wobei die letztliche Interpretation dem

Leser überlassen wird. Solche Aspekte sind typisch für literarische Texte und ge-

nerell eine Herausforderung für eine computergestützte Analyse.

Bezüglich Figurennetzwerken als solches kann festgehalten werden, dass

diese die Figurenkonstellation von Romanen trotz der sehr einfachen Modellierung

auf Basis von Figuren-Kookkurrenzen gut repräsentieren. In vereinzelten Fällen

können Probleme entstehen, die stilistischen oder strukturellen Besonderheiten der

entsprechenden Romane geschuldet sind. Bei der Evaluation stellte sich heraus,

dass manche Netzwerke von der anhand der Zusammenfassung erwarteten Figu-

renkonstellation abweichen. Hier lässt sich jedoch nicht pauschal sagen, welche

Darstellung den Roman besser repräsentiert. Dieser Umstand ist durchaus proble-

matisch für die Idee, Figurennetzwerke anhand von Zusammenfassungen zu evalu-

ieren, was sich sowohl bei der Evaluationsgrundlage als auch bei der Kategorisie-

rung in Netzwerken mit und ohne einer eindeutig zentralen Hauptfigur zeigte. Da

sich natürlich bereits geringe Unterschiede zwischen Figurennetzwerken in den

extrahierten Features bemerkbar machen, decken die in dieser Arbeit generierten

Figurennetzwerke den Merkmalsraum zwischen verschiedenen Extremfällen recht

gleichmäßig ab. Da bereits in dem vorliegenden, relativ kleinen Korpus viele Zwi-

schenstufen vorkommen, ist anzunehmen, dass dieser Effekt in größeren Korpora

68

noch stärker hervortritt. Dies könnte dafür sprechen, dass Autoren Figurenkonstel-

lationen in ihren Werken recht frei gestalten, ohne sich zu stark an wiederkehrenden

Typen zu orientieren, und somit Kafitz‘ Versuch einer Romantypologie anhand der

Figurenkonstellation (vgl. Abschnitt 2) gewissermaßen relativieren. Hier müssten

jedoch weitere Untersuchungen an umfangreicheren Korpora in Betracht gezogen

werden.

8 Ausblick Wie im vorhergehenden Abschnitt beschrieben, ist die Entwicklung einer

alternativen Möglichkeit zur Evaluation von Experimenten mit Figurennetzwerken,

wie sie auch in dieser Arbeit durchgeführt wurden, ein sehr zentraler Punkt für wei-

tere Arbeiten in diesem Bereich. Eine solide Evaluationsgrundlage würde es ermög-

lichen, verschiedene Feature-Kombinationen und Distanzmaße zu vergleichen oder

mit Hilfe von Learning-to-Rank-Verfahren eine passende Metrik anhand der Daten

lernen zu lassen.

Darüber hinaus wäre eine Erkennung von eingeschobenen Passagen in Ro-

manen, wie Briefen oder Binnenerzählungen, sowie von Vor- und Rückblenden,

die möglicherweise in einer abweichenden Erzählperspektive verfasst sind, von

großem Nutzen, sodass derartige strukturelle Besonderheiten bei der Erstellung von

Figurennetzwerken berücksichtigt werden könnten. Ebenso wäre eine verbesserte

Koreferenzauflösung für die Domäne literarischer Texte von Vorteil für die Erken-

nung der wichtigsten Romanfiguren und deren Darstellung als Figurennetzwerk.

Die Einbindung von weiteren Figureneigenschaften wie dem Geschlecht, dem Alter

oder dem gesellschaftlichen Stand und eine Erkennung der verschiedenen Typen

von Beziehungen zwischen Figuren könnten zu einer umfassenderen Repräsenta-

tion der Figurenkonstellation beitragen und die Betrachtung neuer Fragestellungen

ermöglichen.

Aufbauend auf die in dieser Arbeit betrachteten Netzwerke könnten dyna-

mische Figurennetzwerke betrachtet werden, die die Entwicklung der Figurenkon-

stellation über den Verlauf eines Romans hinweg modellieren, erstellt und unter-

sucht werden. Da die Figuren die Handlungsträger eines Romans sind, könnten dy-

namische Figurennetzwerke eventuell dazu beitragen, bestimmte Plot-Elemente in

Romanen zu erfassen. Daran anknüpfend wäre es außerdem interessant, weitere

69

Aspekte, in denen Romane sich ähneln können, wie den Plot oder die stilistische

Gestaltung mit computergestützten Methoden zu greifbar zu machen und somit

mehrere Dimensionen von Ähnlichkeit zwischen literarischen Texten zusammen-

zubringen. In der Praxis könnten mit einem solchen System beispielsweise qualita-

tive Leseempfehlungen generiert werden oder Romane abseits des literarischen Ka-

nons erschlossen und mit ähnlichen kanonisierten Werken in Verbindung gebracht

werden, wodurch sich neue Forschungsansätze ergeben könnten.

70

9 Literaturverzeichnis Agarwal, Apoorv; Corvalan, Augusto; Jensen, Jacob; Rambow, Owen (2012). So-

cial Network Analysis of Alice in Wonderland. Proceedings of the NAACL-

HLT 2012 Workshop on Computational Linguistics for Literature. Mont-

réal, Canada: Association for Computational Linguistics, S. 88–96.

Agarwal, Apoorv; Kotalwar, Anup; Rambow, Owen (2013a). Automatic Extraction

of Social Networks from Literary Text: A Case Study on Alice in Wonder-

land. Proceedings of the Sixth International Joint Conference on Natural

Language Processing. Nagoya, Japan: Asian Federation of Natural Lan-

guage Processing, S. 1202–1208.

Agarwal, Apoorv; Kotalwar, Anup; Zheng, Jiehan; Rambow, Owen (2013b). SIN-

NET: Social Interaction Network Extractor from Text. The Companion Vol-

ume of the Proceedings of IJCNLP 2013: System Demonstrations. Nagoya,

Japan: Asian Federation of Natural Language Processing, S. 33–36.

Arnold, Heinz L. (Hg.) (2009). Kindlers Literatur Lexikon. 3. Aufl. Stuttgart/Wei-

mar: Verlag J.B. Metzler. Online verfügbar unter kll-online.de, zuletzt ge-

prüft am 02.08.2016.

Blei, David M. (2012). Introduction to Probabilistic Topic Models. In: Communi-

cations of the ACM 55 (4), S. 77–84. DOI: 10.1145/2133806.2133826.

Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. (2003). Latent Dirichlet Allo-

cation. In: Journal of Machine Learning Research (3), S. 993–1022.

Blevins, Cameron (2010). Topic Modeling Martha Ballard's Diary. Online verfüg-

bar unter http://www.cameronblevins.org/posts/topic-modeling-martha-

ballards-diary/, zuletzt geprüft am 21.07.2016.

Bonwit, Marianne (1948). Effi Briest und Ihre Vorgängerinnen Emma Bovary und

Nora Helmer. In: Monatshefte 40 (8), S. 445–456. DOI: 10.2307/30164770.

Carr, Jon W. (2014). A guide to the Mantel test for linguists. Online verfügbar unter

http://www.jonwcarr.net/blog/2014/9/19/a-guide-to-the-mantel-test-for-

linguists, zuletzt geprüft am 21.07.2016.

71

Celikyilmaz, Asli; Hakkani-Tur, Dilek; He, Hua; Kondrak, Greg; Barbosa, Denil-

son (2010). The Actor-Topic Model for Extracting Social Networks in Lit-

erary Narrative. Proceedings of the NIPS 2010 Workshop Machine Learn-

ing for Social Computing. Whistler, Canada.

Coll Ardanuy, Mariona; Sporleder, Caroline (2014). Structure-based Clustering of

Novels. Proceedings of the 3rd Workshop on Computational Linguistics for

Literature (CLfL). Gothenburg, Sweden: Association for Computational

Linguistics, S. 31–39.

Costa, Luciano. da F.; Rodrigues, Francisco. A.; Travieso, Gonzalo; Villas Boas,

Paulino R. (2007). Characterization of Complex Networks: A Survey of

Measurements. In: Advances in Physics 56 (1), S. 167–242. DOI:

10.1080/00018730601170527.

Craig, Hugh (2011). Shakespeare's Vocabulary: Myth and Reality. In: Shakespeare

Quarterly 62 (1), S. 53–74. DOI: 10.1353/shq.2011.0002.

Culotta, Aron; Bekkerman, Ron; McCallum, Andrew (2004). Extracting social net-

works and contact information from email and the Web. First Conference

on Email and Anti-Spam (CEAS).

Degering, Thomas (1978). Das Verhältnis von Individuum und Gesellschaft in Fon-

tanes "Effi Briest" und Flauberts "Madame Bovary". Bonn: Bouvier (Ab-

handlungen zur Kunst-, Musik- und Literaturwissenschaft, 274).

Dethloff, Uwe (2000). Emma Bovary und Effi Briest. Überlegungen zur Entwick-

lung des Weiblichkeitsbildes in der Moderne. In: Hanna Delf von Wolzogen

(Hg.): Theodor Fontane - am Ende des Jahrhunderts. Würzburg: Königshau-

sen & Neumann, S. 123–134.

Eder, Maciej; Rybicki, Jan; Kestemont, Mike (2016). Stylometry with R: A Package

for Computational Text Analysis. In: The R Journal 2016 (1).

Elson, David; Dames, Nicholas; McKeown, Kathleen (2010). Extracting Social

Networks from Literary Fiction. Proceedings of the 48th Annual Meeting of

the Association for Computational Linguistics. Uppsala, Sweden: Associa-

tion for Computational Linguistics, S. 138–147.

72

Elson, David K.; McKeown, Kathleen (2010). Automatic Attribution of Quoted

Speech in Literary Narrative. Proceedings of the 24th AAAI Conference on

Artificial Intelligence. Atlanta.

Gil, Sebastian; Kuenzel, Laney; Suen, Caroline (2011). Extraction and Analysis of

Character Interaction Networks from Plays and Movies. Online verfügbar

unter http://web.stanford.edu/~cysuen/projects/GilKuenzelSuen-Character-

InteractionNetworks.pdf, zuletzt geprüft am 21.07.2016.

Griffiths, Thomas L.; Steyvers, Mark (2004). Finding scientific topics. Proceedings

of the National Academy of Sciences of the United States of America, 101

Suppl 1, S. 5228–5235.

Gruzd, Anatoliy; Haythornthwaite, Caroline (2008). Automated Discovery and

Analysis of Social Networks from Threaded Discussions. International Net-

work of Social Network Analysis Conference. St. Pete Beach, Florida.

Hettinger, Lena; Jannidis, Fotis; Reger, Isabella; Hotho, Andreas (2016). Classifi-

cation of Literary Subgenres. DHd Tagung 2016. Leipzig.

Jannidis, Fotis; Krug, Markus; Reger, Isabella; Toepfer, Martin; Weimer, Lukas;

Puppe, Frank (2015). Automatische Erkennung von Figuren in deutschspra-

chigen Romanen. DHd Tagung 2015. Graz.

Jing, Hongyan; Kambhatla, Nanda; Roukos, Salim (2007). Extracting Social Net-

works and Biographical Facts From Conversational Speech Transcripts.

Proceedings of the 45th Annual Meeting of the Association of Computa-

tional Linguistics. Prague, S. 1040–1047.

Jockers, Matthew L. (2013). Macroanalysis. Urbana: University of Illinois Press

(Topics in the digital humanities).

Jockers, Matthew L.; Mimno, David (2013). Significant themes in 19th-century lit-

erature. In: Poetics 41 (6), S. 750–769. DOI: 10.1016/j.poetic.2013.08.005.

Juola, Patrick (2013). How a Computer Program Helped Show J.K. Rowling write

A Cuckoo’s Calling. In: Scientific American. Online verfügbar unter:

http://www.scientificamerican.com/article/how-a-computer-program-hel-

ped-show-jk-rowling-write-a-cuckoos-calling/, zuletzt geprüft am

01.08.2016.

73

Kafitz, Dieter (1978). Figurenkonstellation als Mittel der Wirklichkeitserfassung.

Kronberg/Ts.: Athenäum Verlag.

Keogh, Eamonn; Mueen, Abdullah (2011). Curse of Dimensionality. In: Claude

Sammut und Geoffrey I. Webb (Hg.): Encyclopedia of machine learning.

New York: Springer (Springer reference), S. 257–258.

Krug, Markus; Jannidis, Fotis; Reger, Isabella; Weimer, Lukas; Macharowsky, Lu-

isa; Puppe, Frank (2016a). Attribuierung direkter Reden in deutschen Ro-

manen des 18.-20. Jahrhunderts: Methoden zur Bestimmung des Sprechers

und des Angesprochenen. DHd Tagung 2016. Leipzig.

Krug, Markus; Jannidis, Fotis; Reger, Isabella; Weimer, Lukas; Macharowsky, Lu-

isa; Puppe, Frank (2016b). Comparison of Methods for the Identification of

Main Characters in German Novels. DH Conference 2016. Krakow.

Krug, Markus; Puppe, Frank; Jannidis, Fotis; Macharowsky, Luisa; Reger, Isabella;

Weimar, Lukas (2015). Rule-based Coreference Resolution in German His-

toric Novels. Proceedings of the 4th Workshop on Computational Linguis-

tics for Literature (CLfL). Denver, Colorado, USA: Association for Com-

putational Linguistics, S. 98–104.

Mantel, Nathan (1967). The Detection of Disease Clustering and a Generalized Re-

gression Approach. In: Cancer Research 27 (2), S. 209–220.

Mimno, David (2012). Computational Historiography: Data Mining in a Century

of Classics Journals. In: Journal on Computing and Cultural Heritage 5 (1),

S. 1–19. DOI: 10.1145/2160165.2160168.

Moretti, Franco (2011). Network Theory, Plot Analysis (Stanford Literary Lab Pam-

phlets, 2). Online verfügbar unter https://litlab.stanford.edu/LiteraryLab-

Pamphlet2.pdf, zuletzt geprüft am 21.07.2016.

Newman, Mark E. J. (2010). Networks. An Introduction. Oxford: Oxford University

Press.

74

Park, Gyeong-Mi; Kim, Sung-Hwan; Hwang, Hye-Ryeon; Cho, Hwan-Gue (2013).

Complex System Analysis of Social Networks Extracted from Literary Fic-

tions. In: International Journal of Machine Learning and Computing

(IJMLC), S. 107–111. DOI: 10.7763/IJMLC.2013.V3.282.

Pfeffer, Jürgen (2010). Visualisierung sozialer Netzwerke. In: Christian Stegbauer

(Hg.): Netzwerkanalyse und Netzwerktheorie. Wiesbaden: VS Verlag, S.

227–238.

Raschka, Sebastian; Olson, Randal S. (2015). Python machine learning. Birming-

ham: Packt Publishing (Community experience distilled).

Schöch, Christof (2015). Topic Modeling French Crime Fiction. DH Conference

2015. Sydney.

Schöch, Christof; Henny, Ulrike; Calvo, José; Schlör, Daniel; Popp, Stefanie

(2016). Topic, Genre, Text Topics im Textverlauf von Untergattungen des

spanischen und hispanoamerikanischen Romans (1880-1930). DHd Tagung

2016. Leipzig.

Trilcke, Peer (2013). Social Network Analysis (SNA) als Methode einer textempiri-

schen Literaturwissenschaft. In: Philip Ajouri (Hg.): Empirie in der Litera-

turwissenschaft. Münster: Mentis-Verl. (Poetogenesis, 8), S. 201–247.

Trilcke, Peer; Fischer, Frank; Kampkaspar, Dario (2015). Digitale Netzwerkanalyse

dramatischer Texte. DHd Tagung 2015. Graz.

Ward, Joe H. (1963). Hierarchical Grouping to Optimize an Objective Function.

In: Journal of the American Statistical Association 58 (301), S. 236–244.

Weimar, Klaus; Fricke, Harald; Müller, Jan-Dirk (2010). Reallexikon der deutschen

Literaturwissenschaft. Berlin: de Gruyter.

Woloch, Alex (2003). The One vs. the Many. Princeton: Princeton University Press.

75

10 Anhang

10.1 Korpus Auflistung aller im Korpus enthaltenen Werke, wie in Abschnitt 4.1 be-

schrieben.

Titel Autor Jahr

Barfüßele Auerbach, Berthold 1856

Der Idiot Dostojewski, Fjodor Michailo-

witsch

1868

Das Gemeindekind Ebner-Eschenbach, Marie von 1887

Ahnung und Gegenwart Eichendorff, Joseph von 1815

Herr Lorenz Stark Engel, Johann Jakob 1795

Madame Bovary Flaubert, Gustave 1857

Effi Briest Fontane, Theodor 1894

Irrungen, Wirrungen Fontane, Theodor 1887

Mathilde Möhring Fontane, Theodor 1906

Stine Fontane, Theodor 1890

Der Pojaz Franzos, Karl Emil 1905

Schloß Hubertus Ganghofer, Ludwig 1895

Die Wahlverwandtschaften Goethe, Johann Wolfgang 1809

Gräfin Faustine Hahn-Hahn, Ida Gräfin von 1840

Lichtenstein Hauff, Wilhelm 1826

Einhart der Lächler Hauptmann, Carl 1915

Hildegard von Hohenthal Heinse, Wilhelm 1795

Die unsichtbare Loge Jean Paul 1793

Der grüne Heinrich [Erste Fas-

sung]

Keller, Gottfried 1854

Der Sonnenwirt Kurz, Hermann 1854

Zwischen Himmel und Erde Ludwig, Otto 1856

Goldelse Marlitt, Eugenie 1866

Siegwart. Eine Klosterge-

schichte

Miller, Johann Martin 1776

76

Maler Nolten Mörike, Eduard 1832

Das Odfeld Raabe, Wilhelm 1888

Ekkehard Scheffel, Joseph Viktor von 1855

Florentin Schlegel, Dorothea 1801

Therese Schnitzler, Arthur 1928

Heidis Lehr- und Wanderjahre Spyri, Johanna 1880

Witiko Stifter, Adalbert 1865

Der Schimmelreiter Storm, Theodor 1888

Frau Sorge Sudermann, Hermann 1887

Anna Karenina Tolstoj, Lev Nikolaevic 1878

Das Gänsemännchen Wassermann, Jakob 1915

Hermann und Ulrike Wezel, Johann Karl 1780

10.2 Verwendete NLP-Komponenten Bei der Generierung des tabellarischen Formats, wie in Abschnitt 5.1 be-

schrieben, kamen folgende Natural-Language-Processing-Komponenten zum Ein-

satz.

Task Komponente

Tokenisierung OpenNLP27 Tokenizer

Satzerkennung OpenNLP Sentence Splitter

Paragraphenerkennung Anhand einfacher Zeilenumbrüche

Part-of-Speech-Tagging TreeTagger28

Morphologie RFTagger29, TIGER Morph30, Mate

Tools31

Lemmatisierung TreeTagger

Chunking TreeTagger

Dependency Parsing Mate Tools

27 https://opennlp.apache.org. 28 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger. 29 http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger. 30 http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html. 31 https://code.google.com/archive/p/mate-tools.

77

Named Entity Recognition NER nach Jannidis et al. (2015)

Coreference Resolution CR nach Krug et al. (2015)

10.3 Evaluationsgrundlage Die verwendete Evaluationsgrundlage wie in 4.2 beschrieben, aus Platz-

gründen in mehrere Teile aufgeteilt. Außerdem ist die zugehörige Excel-Tabelle

auf dem beiliegenden USB-Stick zu finden.

80

11 Eigenständigkeitserklärung Ich versichere, dass ich die Arbeit selbständig verfasst und keine anderen als die

angegebenen Quellen und Hilfsmittel benutzt habe. Sämtliche wörtlichen oder sinn-

gemäßen Übernahmen und Zitate sind kenntlich gemacht und nachgewiesen.

Ferner versichere ich, dass das Thema dieser Arbeit nicht identisch ist mit dem

Thema einer von mir bereits für eine andere Prüfung eingereichten Arbeit.

Ich erkläre weiterhin, dass ich die Arbeit nicht bereits an einer anderen Hochschule

als Prüfungsleistung eingereicht habe.

Datum, Unterschrift

Julius-Maximilians-Universität Würzburg · 4 . 1 Einleitung Anfang 2011 veröffentlichte Hugh...

Documents

Transcript of Julius-Maximilians-Universität Würzburg · 4 . 1 Einleitung Anfang 2011 veröffentlichte Hugh...