Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst-...
-
Upload
gamhard-blose -
Category
Documents
-
view
104 -
download
1
Transcript of Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst-...
Peter Grzybek
http://www-gewi.uni-graz.at/quanta
Austrian Research Fund
Project #15485
Von der Ökonomie der Sprache zur Selbst-Regulation kultureller Systeme
Korpuslinguistik vs. Textanalyse
Exakte Literaturwissenschaft:
Zur Prosa Karel Čapeks
Was tun die Wörter im Vers miteinander?
Zur Poesie A.S. Puškins
Peter Grzybek
http://www-gewi.uni-graz.at/quanta
Austrian Research Fund
Project #15485
Exakte Literaturwissenschaft:
Zur Prosa Karel Čapeks
2. Gruppe (1913-17 / 1918-21)
1917 Boží muka Gottesmarter
1921 Trapné povídky Peinliche Geschichten
1922 Továrna na absolutno Die Fabrik für das Absolute
1924 Krakatit Krakatit
1. Gruppe
1916 Krakonošova zahrada Rübezahls Garten
1918 Zářivé hlubiny Leuchtende Tiefen
1. Gruppe
1916 Krakonošova zahrada Rübezahls Garten
1918 Zářivé hlubiny Leuchtende Tiefen
3. Gruppe
1929 Povídky z jedné kapsy Erzählungen aus der einen Tasche
1933 Hordubal Hordubal
1934 Povětroň Der Meteor
(1908-11)
(1910-16)
(1913-17)
(1918-21)
Drama = 4.56
Gedichte = 14.26
Zeitungen = 14.61
Naturwissenschaftl. Texte = 18.87
Gesetzestexte = 27.40
Satzlänge im Tschechischen (in Worten)
[nach Doležel 1965]
insgesamt:
= 16.03
Mittelwert: 1 = 2.09 2 = 2.10Mittelwert: 1 = 2.09 2 = 2.10
Streuung (Varianz): s² = 1.26 s² = 1.48Streuung (Varianz): s² = 1.26 s² = 1.48
Standardabweichung: s = 1.12 s = 1.22Standardabweichung: s = 1.12 s = 1.22
0 1 2 3 4 5 6 7
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Bednaja LizaVystrel
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
2
4
6
8
10
12
14 Stichprobe ROT
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
2
4
6
8
10
12
14 Stichprobe BLAU Stichprobe ROT
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
2
4
6
8
10
12
14 Stichprobe BLAU Stichprobe ROT Stichprobe GRÜN
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Dialog [e]
Dialog [t]
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Prosa [e]
Prosa [t]
Wortlängenhäufigkeit im Tschechischen nach Ludvíková (1972)
0 1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50Anzahl der Wörter (in %)
Čas (1909)
Čas [t]
Utkvění času (1913/17)
Utkvění času [t]
Rekord (1928)
Rekord [t]
Px = g(x)
( )a
g xx
Px-1
1!
a x
x xe a
P Px
Poisson-Verteilung
( )a bx
g xx
1
x n xx x
nP p q P
x
( )a
g xb x
( )a bx
g xc dx
Hyperbinomial-Verteilung
Hyperpoisson-Verteilung
Binomial-Verteilung
1( )
1 1(1; ; )
x
x xx
aP P
F b a b
11
xx x
n
xP q P
m x
x
1x n x
x x
nP p q P
x
1
x n xx x
nP p q P
x
Binomialverteilung
n = 3p = 0.25C=0.008
n = 5p = 0.17C=0.009
Rekord (1928)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r (i
n %
)
Rekord (1928)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r (i
n %
)
Erben: Lilie (1861)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r (i
n %
)
Erben: Lilie (1861)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r (i
n %
)
1x n x
x x
nP p q P
x
1
x n xx x
nP p q P
x
Binomialverteilung
n = 6p = 0.18C=0.035
Èapek: Noviny a vìda (1917)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rt e
r ( i
n %
)
n = 100p = 0.01C=0.059
n = 1000p = 0.001C=0.054
Èapek: Noviny a vìda (1917)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r (i
n %
)
Èapek: Noviny a vìda (1917)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r ( i
n %
)
Poisson-Verteilung
(C=0.0054)
Èapek: Noviny a vìda (1917)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r ( i
n %
)
Hyperpoisson-Verteilung
(C=0.0043)
Èapek: Noviny a vìda (1917)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r ( i
n %
)
Hyperpoisson-Verteilung
(C=0.0024)
Èapek: Rekord (1928)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rte
r ( i
n %
)
Hyperpoisson-Verteilung
(C=0.0119)
Erben: Lilie (1861)
1 2 3 4 5 6
Silben pro Wort
0
10
20
30
40
50
Anz
ahl d
er W
ö rt e
r (i
n %
)
( Binomial-Verteilung: C=0.0019)
Was beeinflusst die Wortlänge und die Verteilung ihrer
Häufigkeit?
Faktoren: Zeit, Autor, Gattung, usw.
Zwei Optionen
verschiedene Modelle
Ein Modell – Variabilität der
Parameter
a b
Lilie 0.55 0.60
Rekord 0.71 0.77
Noviny 1.30 1.29
Literarische Prosa
9 Krakonošova zahrada5 Zaøívé hlubiny5 Boži Muka5 Trapné povídky5 Povídky z jedné kapsy2 Neruda5 Hrabal
Poetische Texte4 Máj (Mácha)13 Kytice (Erben)
Journalistik21 Čapek
= 74
1.1 M
2.2 M
1
2
M
M
2
3
M
M
Die drei Zentralmomente
3.3 M
y-Achse
x-Achse
0
x = M2 / M1
0
y = M3 / M2
Mittelwert
Streuung
Schiefe
xN
x1
)²(1
² xxN
s
3
1
1( )x x
N
“Čas” (1909)
599.01
2 M
M634.0
2
3 M
MM1 = 2.005
M2 = 1.202
M3 = 0.762
“Aristokracie”(1909)
532.01
2 M
M
681.02
3 M
M
I
1,00,500,00
S
1,5
1,0
,5
0,0
TYP
Poesie
Journalistik
Prosa
N Untergrenze Obergrenze
Poesie 17 1,78 1,73 1,84Prosa 36 1,94 1,91 1,97Journalistik 21 2,10 2,05 2,15
95%-Konfidenzintervall
Durchschnittliche Wortlänge (in Silben):
Poesie, Prosa, Journalistik
BandPovídky z jedné kapsyTrapné povídkyBo i Muka�Zaøívé hlubinyKrakonošova zahradaJournalistik
Tukey-B-Test N
Band 1 2 3Povídky z jedné kapsy 5 1,85Bo i Muka� 5 1,90 1,90Trapné povídky 5 1,91 1,91Zaøívé hlubiny 5 1,93 1,93Krakonošova zahrada 9 2,04 2,04J ournalistik 21 2,10
Untergruppe für a = .05.
Band 1 2 3Povídky z jedné kapsy 1,85Bo i Muka� 1,90 1,90Trapné povídky 1,91 1,91Zaøívé hlubiny 1,93 1,93Krakonošova zahrada 2,04 2,04J ournalistik 2,10
3. Gruppe
1929 Povídky z jedné kapsy Erzählungen aus der einen Tasche
2. Gruppe
1917 Boží muka Gottesmarter
1921 Trapné povídky Peinliche Geschichten
1. Gruppe
1916 Krakonošova zahrada Rübezahls Garten
1918 Zářivé hlubiny Leuchtende Tiefen
1. Gruppe
1916 Krakonošova zahrada Rübezahls Garten
1918 Zářivé hlubiny Leuchtende Tiefen
K KJ LP JT < 1920 1920
K 17 25 12 30 42
KJ 16 0 16 0 16
LP 17 16 26 7 33
JT 25 0 2 23 25
< 1920 12 16 26 2 281920 30 0 7 23 30 42 16 33 25 28 30 58
Erweiterung der Datenbasis:
Karel und/oder Josef Čapek
Unterschiedliche Wortlänge in verschiedenen Text-
Untergruppen
Typ N s sxLP-KJ 16 2,03 0,08 0,019
LP-K 17 1,89 0,05 0,012JT-K 25 2,10 0,10 0,020
25 1617N =
Autorschaft
KJ CapekK Capek
95
%-K
on
f.In
terv
all
M1
2,2
2,1
2,0
1,9
1,8
TYP
liter. Prosa
journ. Prosa
F I N I S
1 xbx Px
aP
bx
axg )(
(Conway-Maxwell-Poisson)
1 xx P
cx
aP
(Hyperpoisson)
1
xx Pdcx
bxaP
(Hyperpascal)
Poesie
Journalistik
liter. Prosa
Verteilungsmodelle
für slowakische Texte
Rúfus: Veèerný zvon (1978)
0 1 2 3 40
10
20
30
40
50
VZ [e] VZ [t]