Wortverbindungen im Spiegel der Zeit

21
Wortverbindungen im Spiegel der Zeit aus X Gründen allen X zum Trotz

Transcript of Wortverbindungen im Spiegel der Zeit

Page 1: Wortverbindungen im Spiegel der Zeit

Wortverbindungen im Spiegel der Zeitaus X Gründenallen X zum Trotz

Page 2: Wortverbindungen im Spiegel der Zeit

Datengrundlage

• Der Spiegel (1947-2016)§ ca. 284 Millionen Token

• Die Zeit (1953-2016, mit ausgedehnten „Ausfällen“ 1994)§ ca. 368 Millionen Token

• Extraktion aller Vorkommen von§ [Aa]us X Gründen§ [Aa]lle[mnr] X zum Trotz§ X: maximal 4 Wörter – im Folgenden „Filler“§ Alle alternativen Schreibweisen

zusammengefasst.

Page 3: Wortverbindungen im Spiegel der Zeit

Fragestellungen

• Welches sind die häufigsten Filler?§ Wie verteilen sich die Filler insgesamt?

• Wird die Wortverbindung über die Zeit seltener oder häufiger?§ Welche Probleme entstehen, wenn über die Zeit die Größe der

Korpora variiert?§ Wie lassen sich diese Probleme angehen?

• Verändert sich die Verteilung der Filler über die Zeit?

Page 4: Wortverbindungen im Spiegel der Zeit

Wortverbindungen

Spiegel Zeit

aus X Gründen (Token) 12 685 19 361

aus X Gründen (Types) 2 140 3 081

allen X zum Trotz (Token) 1 536 2 535

allen X zum Trotz (Types) 1 143 1 724

Page 5: Wortverbindungen im Spiegel der Zeit

aus X Gründen

0.00%

2.50%

5.00%

7.50%

politischen

anderen

welchen

zweiguten

gesundheitlichen

wirtschaftlic

hen

finanziellen

taktischen

technischen

verschiedenen

diesen

humanitären

rechtlichen

religiösen

ideologischen

mehreren

persönlich

en

verständlich

en

irgendwelchen

ökonomischen

unerfindlich

en

vielerle

ivie

len

steuerlic

hen

moralischen

innenpolitischen

unterschiedlich

en

naheliegenden drei

sozialen

beruflichen

den gleichen

ganz anderen

historisc

hen

formalen

ähnlichen

optischen

strategisc

hen

psychologisc

hen

ethischen

wahltaktischen

all diesen

mancherlei

ökologischen

medizinisc

hen

verfassu

ngsrechtlic

hen

den versc

hiedensten

praktischen

privaten

Filler

% V

orko

mm

en in

alle

n Fi

llern

die

ser Q

uelle

QuelleSpiegel

Zeit

Sortiert nach GesamtvorkommenTOP50−Filler

Evtl. interessant: Gruppierung nach Fillertypen• adjektivisch• pronominal• quantifizierend (beispielhaft markiert)• …

Page 6: Wortverbindungen im Spiegel der Zeit

allen X zum Trotz

0.00%

1.00%

2.00%

3.00%

4.00%

5.00%

Unkenrufen

Widrigkeiten

Widerständen

Dementis

Warnungen

Beteuerungen

gegenteiligen Beteuerungen

Anschein

Gerüchten

Schwierigkeiten

Kritik

Anfeindungen

Bedenken

Bemühungen

Zweifeln

Befürchtungen

Rückschlägen

Vorurteilen

Einwänden

Prognosen

Gewalten

guten Vorsätze

n

Protesten

Anstrengungen

Lippenbekenntnissen

Anfechtungen

Erfahrungen

Schwüren

Ankündigungen

Drohungen

Versprechungen

Erwartungen

Hindernissen

Skeptikern

Verboten

Beschwörungen

düsteren Prognosen

Kassandrarufen

Krisen

Risiken

Spekulationen

Unterschieden

Voraussagen

Augenschein

bösen Erfahrungen

Enttäuschungen

Erfolgen

Gefahren

Mahnungen

Mißerfolgen

Filler

% V

orko

mm

en in

alle

n Fi

llern

die

ser Q

uelle

QuelleSpiegel

Zeit

Sortiert nach GesamtvorkommenTOP50−Filler

Weitere Gruppierung schon aufgrund geringer Trefferzahl nicht sinnvoll.Ausschließlich Filler der Form (Adj) NP(Plural)

Page 7: Wortverbindungen im Spiegel der Zeit

Entwicklung über die Zeit

30

40

50

60

70

80

1960 1980 2000

Anza

hl 'a

us X

Grü

nden

' in 1

Milli

on T

oken

QuelleSpiegel

Zeit

Variante 1: Normierte Vorkommen aus Gesamtkorpus

aus X Gründen

Page 8: Wortverbindungen im Spiegel der Zeit

Entwicklung über die Zeit

2.5

5.0

7.5

1960 1980 2000

Anza

hl 'a

llen

X zu

m T

rotz

' in 1

Milli

on T

oken

Normierte Vorkommen aus Gesamtkorpus

allen X zum Trotz

Page 9: Wortverbindungen im Spiegel der Zeit

Korpusgrößen

30

40

50

60

70

80

1960 1980 2000

Anza

hl 'a

us X

Grü

nden

' in 1

Milli

on T

oken

QuelleSpiegel

Zeit

Variante 1: Normierte Vorkommen aus Gesamtkorpus

2,500,000

5,000,000

7,500,000

10,000,000

1960 1980 2000

Korpusgröße

QuelleSpiegel

Zeit

• Ist die verminderte normierte Frequenz der Wortverbindung noch immer beeinflusst von der Korpusgröße?§ Wird die WV wirklich weniger verwendet, oder liegt es einfach

daran, dass die Normierungsgröße größer wird?

Page 10: Wortverbindungen im Spiegel der Zeit

Sampling

• Zwei „Korngrößen“ gesampelter Korpora:§ 1-Jahres-Samples§ 4-Jahres-Samples

• In Spiegel und Zeit wird jeweils die kleinste Zeiteinheit(1 Jahr oder 4 Jahre) als Sampling-Ziel gesetzt.

• Dann werden so lange komplette Texte aus den anderen Zeiteinheiten gezogen, bis die Zielgröße erreicht ist.

Page 11: Wortverbindungen im Spiegel der Zeit

0

500,000

1,000,000

1960 1980 2000

Korp

usgr

öße

1−Jahres−Samples; Gesamtgröße: 89,130,484Der Spiegel

0

1,000,000

2,000,000

1960 1980 2000

Korp

usgr

öße

1−Jahres−Samples; Gesamtgröße: 171,068,126Die Zeit

0

2,000,000

4,000,000

6,000,000

1947−1

950

1951−1

954

1955−1

958

1959−1

962

1963−1

966

1967−1

970

1971−1

974

1975−1

978

1979−1

982

1983−1

986

1987−1

990

1991−1

994

1995−1

998

1999−2

002

2003−2

006

2007−2

010

2011−2

014

2015−2

016

Korp

usgr

öße

4−Jahres−Samples; Gesamtgröße: 121,454,613Der Spiegel

0

3,000,000

6,000,000

9,000,000

12,000,000

1953−1

956

1957−1

960

1961−1

964

1965−1

968

1969−1

972

1973−1

976

1977−1

980

1981−1

984

1985−1

988

1989−1

992

1993−1

996

1997−2

000

2001−2

004

2005−2

008

2009−2

012

2013−2

016

Korp

usgr

öße

4−Jahres−Samples; Gesamtgröße: 189,455,895Die Zeit

Page 12: Wortverbindungen im Spiegel der Zeit

300

400

500

1947−1

950

1951−1

954

1955−1

958

1959−1

962

1963−1

966

1967−1

970

1971−1

974

1975−1

978

1979−1

982

1983−1

986

1987−1

990

1991−1

994

1995−1

998

1999−2

002

2003−2

006

2007−2

010

2011−2

014

2015−2

016

Jahresgruppe

Häu

figke

it

Der Spiegel, Variante 3: 4−Jahressamples

400

500

600

700

800

900

1953−1

956

1957−1

960

1961−1

964

1965−1

968

1969−1

972

1973−1

976

1977−1

980

1981−1

984

1985−1

988

1989−1

992

1993−1

996

1997−2

000

2001−2

004

2005−2

008

2009−2

012

2013−2

016

Jahresgruppe

Häu

figke

itDie Zeit, Variante 3: 4−Jahressamples

50

75

100

1960 1980 2000Jahr

Häu

figke

it

Der Spiegel, Variante 2: 1−Jahressamples

80

120

160

200

1960 1980 2000Jahr

Häu

figke

it

Die Zeit, Variante 2: 1−Jahressamples

• Verringerter Gebrauch von „aus X Gründen“ in beiden Sampling-Varianten noch immer nachweisbar

• Offenbar solider Effekt

Page 13: Wortverbindungen im Spiegel der Zeit

Filler über die Zeit

• „Allen X zum Trotz“ hat zu wenige Treffer, um verlässliche Aussagen über einen Zeitverlauf einzelner Filler zu treffen.

• Für „aus X Gründen“ ist das möglich...§ Normierungsgröße: Anzahl Vorkommen der Wortverbindung

• Die Korpusgröße ist somit nicht mehr ausschlaggebend.• Es wird ermittelt, wie sich die Gewichte der Filler innerhalb der Wortverbindung

verschieben.

§ Zusammenschau von normierten und rohen Fillerzahlen

Page 14: Wortverbindungen im Spiegel der Zeit

gesundheitlichen wirtschaftlichen finanziellen taktischen technischen

politischen anderen welchen zwei guten

1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000

0.00%

2.00%

4.00%

6.00%

0.00%

2.00%

4.00%

6.00%

0.0%

5.0%

10.0%

15.0%

0.00%

2.00%

4.00%

6.00%

0.00%

2.00%

4.00%

6.00%

8.00%

0.00%

1.00%

2.00%

3.00%

4.00%

0.00%

2.00%

4.00%

6.00%

8.00%

0.00%

2.00%

4.00%

0.0%

5.0%

10.0%

15.0%

20.0%

25.0%

0.00%

2.00%

4.00%

6.00%

8.00%

% V

orko

mm

en in

alle

n Fi

llern

die

ser Q

uelle

im J

ahr

QuelleSpiegel

Zeit

Sortiert nach GesamtvorkommenTOP20−Filler im Zeitverlauf: Normierte Frequenzen

gesundheitlichen wirtschaftlichen finanziellen taktischen technischen

politischen anderen welchen zwei guten

1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000 1960 1980 2000

0

5

10

15

0

4

8

12

0

5

10

15

20

0

5

10

15

0

10

20

0

4

8

12

0

5

10

15

20

0

5

10

15

0

10

20

30

0

5

10

15Vork

omm

en QuelleSpiegel

Zeit

Sortiert nach GesamtvorkommenTOP20−Filler im Zeitverlauf: Rohe Frequenzen

• Verallgemeinerbare Aussagen sind hier schwer abzuleiten.

• Schon kleine Schwankungen können zu relativ starken Ausreißern führen.§ Selbst für „aus politischen

Gründen“ kommen wir maximal auf 35 Instanzen pro Jahr.

• Worauf sind die (potentiellen) Entwicklungen zurückzuführen?§ Themenverschiebungen?

§ Verschiebungen in der Ausrichtung der Quelle (bspw. neue Ressorts)?

Page 15: Wortverbindungen im Spiegel der Zeit

Produktivität/Vielfalt/Diversität

• Diachron: Diversität über die Zeit• Kontrastiv: Diversität verschiedener Wortverbindungen

Page 16: Wortverbindungen im Spiegel der Zeit

Diversität über die Zeit

• Die relative Entropie zeigt uns, wie sicher wir uns sein können, welchen Filler wir bekommen, wenn wir zufällig einen ziehen.§ Je höher der Wert, desto höher die Unsicherheit.§ gegen 0: Völlig klar, welcher Filler gezogen wird§ gegen 1: Rein zufällig, welcher Filler gezogen wird

(à alle gleich häufig)

aus X Gründen

Page 17: Wortverbindungen im Spiegel der Zeit

Diversität über die Zeitaus X Gründen

1-Jahres-Samples

1-Jahres-Samples

• Tendentiell steigt die Entropie.• Die Anzahl unterschiedlicher Typen sinkt.

• Das legt den Verdacht nahe, dass sich weniger Typen gleichmäßiger verteilen.

Page 18: Wortverbindungen im Spiegel der Zeit

Diversität über die Zeitaus X Gründen

• Visueller Eindruck: Die häufigsten Typen heben sich in späteren Jahrgängen weniger von den restlichen Typen ab.§ Verteilung wird weniger ‚steil‘.

§ Weniger Typen verteilen sich ‚gleichmäßiger‘.

• Mechanismus, der Entropie steigenlässt.

Page 19: Wortverbindungen im Spiegel der Zeit

Vergleich von Wortverbindungen

[Aa]lle[mnr] X zum Trotz

[Aa]us X Gründen (Spiegel)

[Aa]us X Gründen (Zeit)

0.75

0.80

0.85

0.90

5000 10000 15000 20000Anzahl UWVs (Tokens)

Rel

ative

Ent

ropi

e

[Aa]lle[mnr] X zum Trotz

[Aa]us X Gründen (Spiegel)

[Aa]us X Gründen (Zeit)

0.75

0.80

0.85

0.90

2100 2300 2500 2700 2900 3100Anzahl UWVs (Types)

Rel

ative

Ent

ropi

e

[Aa]lle[mnr] X zum Trotz

[Aa]us X Gründen (Spiegel)

[Aa]us X Gründen (Zeit)

0.75

0.80

0.85

0.90

0.1 0.2 0.3 0.4 0.5 0.6Potential Productivity

Rel

ative

Ent

ropi

e

Page 20: Wortverbindungen im Spiegel der Zeit

Vergleich von Wortverbindungen

Page 21: Wortverbindungen im Spiegel der Zeit

Zusammenfassung

• Nicht alle Wortverbindungen eignen sich gleichermaßen für Analysen, die die zeitliche Dynamik in Betracht ziehen.§ Besonders relevant: Anzahl der Belege

• Korpusgröße kann auch auf die Normierung „durchschlagen“.§ Sampling? Bei Filler-Analysen: Normierung an Anzahl der Konstruktion?

• Diversität kann auf viele unterschiedliche Arten gemessen werden, die Maße korrelieren ganz erheblich!