Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst-...

Post on 06-Apr-2015

104 views 1 download

Transcript of Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst-...

Peter Grzybek

http://www-gewi.uni-graz.at/quanta

Austrian Research Fund

Project #15485

Von der Ökonomie der Sprache zur Selbst-Regulation kultureller Systeme

Korpuslinguistik vs. Textanalyse

Exakte Literaturwissenschaft:

Zur Prosa Karel Čapeks

Was tun die Wörter im Vers miteinander?

Zur Poesie A.S. Puškins

Peter Grzybek

http://www-gewi.uni-graz.at/quanta

Austrian Research Fund

Project #15485

Exakte Literaturwissenschaft:

Zur Prosa Karel Čapeks

2. Gruppe (1913-17 / 1918-21)

1917 Boží muka Gottesmarter

1921 Trapné povídky Peinliche Geschichten

1922 Továrna na absolutno Die Fabrik für das Absolute

1924 Krakatit Krakatit

1. Gruppe

1916 Krakonošova zahrada Rübezahls Garten

1918 Zářivé hlubiny Leuchtende Tiefen

1. Gruppe

1916 Krakonošova zahrada Rübezahls Garten

1918 Zářivé hlubiny Leuchtende Tiefen

3. Gruppe

1929 Povídky z jedné kapsy Erzählungen aus der einen Tasche

1933 Hordubal Hordubal

1934 Povětroň Der Meteor

(1908-11)

(1910-16)

(1913-17)

(1918-21)

Drama = 4.56

Gedichte = 14.26

Zeitungen = 14.61

Naturwissenschaftl. Texte = 18.87

Gesetzestexte = 27.40

Satzlänge im Tschechischen (in Worten)

[nach Doležel 1965]

insgesamt:

= 16.03

Mittelwert: 1 = 2.09 2 = 2.10Mittelwert: 1 = 2.09 2 = 2.10

Streuung (Varianz): s² = 1.26 s² = 1.48Streuung (Varianz): s² = 1.26 s² = 1.48

Standardabweichung: s = 1.12 s = 1.22Standardabweichung: s = 1.12 s = 1.22

0 1 2 3 4 5 6 7

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Bednaja LizaVystrel

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

2

4

6

8

10

12

14 Stichprobe ROT

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

2

4

6

8

10

12

14 Stichprobe BLAU Stichprobe ROT

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

2

4

6

8

10

12

14 Stichprobe BLAU Stichprobe ROT Stichprobe GRÜN

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Dialog [e]

Dialog [t]

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Prosa [e]

Prosa [t]

Wortlängenhäufigkeit im Tschechischen nach Ludvíková (1972)

0 1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Čas (1909)

Čas [t]

Utkvění času (1913/17)

Utkvění času [t]

Rekord (1928)

Rekord [t]

Px = g(x)

( )a

g xx

Px-1

1!

a x

x xe a

P Px

Poisson-Verteilung

( )a bx

g xx

1

x n xx x

nP p q P

x

( )a

g xb x

( )a bx

g xc dx

Hyperbinomial-Verteilung

Hyperpoisson-Verteilung

Binomial-Verteilung

1( )

1 1(1; ; )

x

x xx

aP P

F b a b

11

xx x

n

xP q P

m x

x

1x n x

x x

nP p q P

x

1

x n xx x

nP p q P

x

Binomialverteilung

n = 3p = 0.25C=0.008

n = 5p = 0.17C=0.009

Rekord (1928)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r (i

n %

)

Rekord (1928)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r (i

n %

)

Erben: Lilie (1861)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r (i

n %

)

Erben: Lilie (1861)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r (i

n %

)

1x n x

x x

nP p q P

x

1

x n xx x

nP p q P

x

Binomialverteilung

n = 6p = 0.18C=0.035

Èapek: Noviny a vìda (1917)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rt e

r ( i

n %

)

n = 100p = 0.01C=0.059

n = 1000p = 0.001C=0.054

Èapek: Noviny a vìda (1917)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r (i

n %

)

Èapek: Noviny a vìda (1917)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r ( i

n %

)

Poisson-Verteilung

(C=0.0054)

Èapek: Noviny a vìda (1917)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r ( i

n %

)

Hyperpoisson-Verteilung

(C=0.0043)

Èapek: Noviny a vìda (1917)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r ( i

n %

)

Hyperpoisson-Verteilung

(C=0.0024)

Èapek: Rekord (1928)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rte

r ( i

n %

)

Hyperpoisson-Verteilung

(C=0.0119)

Erben: Lilie (1861)

1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50

Anz

ahl d

er W

ö rt e

r (i

n %

)

( Binomial-Verteilung: C=0.0019)

Was beeinflusst die Wortlänge und die Verteilung ihrer

Häufigkeit?

Faktoren: Zeit, Autor, Gattung, usw.

Zwei Optionen

verschiedene Modelle

Ein Modell – Variabilität der

Parameter

a b

Lilie 0.55 0.60

Rekord 0.71 0.77

Noviny 1.30 1.29

Literarische Prosa

9 Krakonošova zahrada5 Zaøívé hlubiny5 Boži Muka5 Trapné povídky5 Povídky z jedné kapsy2 Neruda5 Hrabal

Poetische Texte4 Máj (Mácha)13 Kytice (Erben)

Journalistik21 Čapek

= 74

1.1 M

2.2 M

1

2

M

M

2

3

M

M

Die drei Zentralmomente

3.3 M

y-Achse

x-Achse

0

x = M2 / M1

0

y = M3 / M2

Mittelwert

Streuung

Schiefe

xN

x1

)²(1

² xxN

s

3

1

1( )x x

N

“Čas” (1909)

599.01

2 M

M634.0

2

3 M

MM1 = 2.005

M2 = 1.202

M3 = 0.762

“Aristokracie”(1909)

532.01

2 M

M

681.02

3 M

M

I

1,00,500,00

S

1,5

1,0

,5

0,0

TYP

Poesie

Journalistik

Prosa

N Untergrenze Obergrenze

Poesie 17 1,78 1,73 1,84Prosa 36 1,94 1,91 1,97Journalistik 21 2,10 2,05 2,15

95%-Konfidenzintervall

Durchschnittliche Wortlänge (in Silben):

Poesie, Prosa, Journalistik

BandPovídky z jedné kapsyTrapné povídkyBo i Muka�Zaøívé hlubinyKrakonošova zahradaJournalistik

Tukey-B-Test N

Band 1 2 3Povídky z jedné kapsy 5 1,85Bo i Muka� 5 1,90 1,90Trapné povídky 5 1,91 1,91Zaøívé hlubiny 5 1,93 1,93Krakonošova zahrada 9 2,04 2,04J ournalistik 21 2,10

Untergruppe für a = .05.

Band 1 2 3Povídky z jedné kapsy 1,85Bo i Muka� 1,90 1,90Trapné povídky 1,91 1,91Zaøívé hlubiny 1,93 1,93Krakonošova zahrada 2,04 2,04J ournalistik 2,10

3. Gruppe

1929 Povídky z jedné kapsy Erzählungen aus der einen Tasche

2. Gruppe

1917 Boží muka Gottesmarter

1921 Trapné povídky Peinliche Geschichten

1. Gruppe

1916 Krakonošova zahrada Rübezahls Garten

1918 Zářivé hlubiny Leuchtende Tiefen

1. Gruppe

1916 Krakonošova zahrada Rübezahls Garten

1918 Zářivé hlubiny Leuchtende Tiefen

K KJ LP JT < 1920 1920

K 17 25 12 30 42

KJ 16 0 16 0 16

LP 17 16 26 7 33

JT 25 0 2 23 25

< 1920 12 16 26 2 281920 30 0 7 23 30 42 16 33 25 28 30  58

Erweiterung der Datenbasis:

Karel und/oder Josef Čapek

Unterschiedliche Wortlänge in verschiedenen Text-

Untergruppen

Typ N s sxLP-KJ 16 2,03 0,08 0,019

LP-K 17 1,89 0,05 0,012JT-K 25 2,10 0,10 0,020

25 1617N =

Autorschaft

KJ CapekK Capek

95

%-K

on

f.In

terv

all

M1

2,2

2,1

2,0

1,9

1,8

TYP

liter. Prosa

journ. Prosa

F I N I S

1 xbx Px

aP

bx

axg )(

(Conway-Maxwell-Poisson)

1 xx P

cx

aP

(Hyperpoisson)

1

xx Pdcx

bxaP

(Hyperpascal)

Poesie

Journalistik

liter. Prosa

Verteilungsmodelle

für slowakische Texte

Rúfus: Veèerný zvon (1978)

0 1 2 3 40

10

20

30

40

50

VZ [e] VZ [t]