Eine korpusbasierte Geschichte des deutschsprachigen Romans
description
Transcript of Eine korpusbasierte Geschichte des deutschsprachigen Romans
Eine korpusbasierte Geschichte des deutschsprachigen Romans
Göttingen, 15.8.2012
Fotis Jannidis
Ziel
• Monographische Darstellung (vulgo: Buch)• Theoriebaustelle 1:
Kritik an der (Literatur-)Geschichte• Theoriebaustelle 2:
Modelle historiographischer Präsentation• Zwischenstand:
Patchwork von Mikronarrativen; Hypertext?
Komponenten (Mikronarrative)
• Epochen• Gattungsentwicklungen (Bildungsroman usw.)• Werkentwicklungen• Narrative Muster• Synchrone Feldanalyse• Ausdiff. lit. Kommunikationssysteme, z.B. Populäre
Lit.• Einzeltextinterpretation• …
Komponenten mit Korpusforschung
• Epochen• Gattungsentwicklungen (Bildungsroman usw.)• Werkentwicklungen• Narrative Muster• Synchrone Feldanalyse• Ausdiff. lit. Kommunikationssysteme, z.B. Populäre
Lit.• Einzeltextinterpretation• …
Forschungsstand: Material
• USA: Bsp: ca. 3.000 Romane des 19. Jh.• D: 650 Romane (TextGridRep)
Forschungsstand: Methoden
• Ngram-Verlauf in der Zeit• Stylometrie• Regelbasierte Analyse• Machinelles Lernen• Topic Modeling
The method
• John Burrows: Delta• Basis: most frequent words (mostly stopwords)• A measure for the relative stilistic distance
between texts• „the mean of the absolute differences between
the z-scores for a set of word-variables in a given text-group and the z-scores for the same set of word-variables in a target text“
Z-score
x is a raw score to be standardizedμ is the mean of the populationσ is the standard deviation of the population
Assigning authors of American novels (Hoover 2004)
Validity
• With texts longer than 2000 words Burrows‘ Delta is a good indicator for the correct author
• With shorter texts in 85% of all cases the correct author is one of the first five names
The tool
• R Script by Maciej Eder, Jan Rybicki
Some ‚results‘
Stand der Dinge: Eine Einschätzung
• Kalibrierung der Instrumente• Fruchtbare Verwendungsformen• Viel Platz zwischen Heilsversprechen und
Verteufelung
Probleme quantitativer Textanalyse
• Typische Probleme: Mangelndes historisches Wissen, unbrauchbare Texte, falsche Indikatoren, unzulänglich gehandhabte statistische Verfahren
• Wahrscheinlichkeitsaussagen in den Geisteswissenschaften
• Trivial?
Mapping Models
• Genre und Gender Konzepte
unddiederzusieicherindendassichmitnichtsoeindemvonesaufwaralswie
Narrative, descriptions of erotic actions and tableaux,
staging of bodies, language of seduction
Bag of Words
Mos
t fre
quen
t wor
ds
Quantitative Verfahren und die Literaturwissenschaft
• Ersatz oder Ergänzung?• Ein neues Paradigma?• Empirische Psychologie und korpusbasierte
Verfahren• Vs. oder Koop
Quantitative Ansätze basieren auf sehr diversen Kompetenzen. Das problem der Interdisziplinarität
Literatur
• John Burrows: Delta: A Measure for Stylistic Difference and A Guide to Likely Authorship. In: LLC 17,3 (2002).
• TextGridRephttp://textgridrep.de/repository.html
• The R Script for Stylometric Analyseshttps://sites.google.com/site/computationalstylistics/
• Ryan Heuser, Long Le-Khac: A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method. Stanford LabReport May 2012. http://litlab.stanford.edu/LiteraryLabPamphlet4.pdf