Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der...

99
Statistik A Beschreibende Methoden und Wirtschaftsstatistik Prof. Dr. Alois Kneip Universität Bonn Wirtschaftswissenschaftlicher Fachbereich Statistische Abteilung Adenauerallee 24-26 53113 Bonn http://statistik.uni-bonn.de unter der Mitarbeit von Oualid Bada [email protected] 0–1

Transcript of Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der...

Page 1: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Statistik ABeschreibende Methodenund Wirtschaftsstatistik

Prof. Dr. Alois KneipUniversität BonnWirtschaftswissenschaftlicher FachbereichStatistische AbteilungAdenauerallee 24-2653113 Bonnhttp://statistik.uni-bonn.de

unter der Mitarbeit von Oualid Bada

[email protected] 0–1

Page 2: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Inhalt

1. Grundlagen

• Grundbegriffe der Statistik

• Datenmaterial in der statistischen Praxis

• Datengewinnung und Erhebungsarten

2. Univariate Deskription und Explora-tion von Daten

• Verteilungen und ihre Darstellungen

• Lagemaße

• Streuungsmaße

• Quantile und Boxplot

• Maße für Schiefe und Wölbung

• Lorenzkurven und Konzentrationsmaße

3. Bivariate Deskription und Explorati-on von Daten

• Kontingenztabellen

• Zusammenhangsanalyse in Kontingenztabellen

• Grafische Darstellung quantitativer Merkmale

[email protected] 0–2

Page 3: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

• Zusammenhangsmaße bei metrischen Merkmalen

• Lineare Einfachregression

• Erweiterungen der Einfachregression

4. Zeitreihen

• Grundlagen: grafische Darstellung, Komponenten-modelle

• Schätzung von Trendkomponenten

• Schätzung von Saisonkomponenten

5. Indexzahlen

• Grundlagen

• Preisindizes, Mengenindizes, Wertindizes

• Indexprobleme, Indexkriterien und Indexumrech-nungen

6. Einführung in die Wahrscheinlichkeits-theorie

Literatur:

• Fahrmeier, Künstler, Pigeot, Tutz: Statistik, Sprin-ger Verlag

[email protected] 0–3

Page 4: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Einige Institutionen derWirtschaftsstatistikAmtliche Statistik:

Statistisches Bundesamt

www.destatis.de

Statisches Amt der EU - EUROSTAT

epp.eurostat.ec.europa.eu/

Wirtschaftsforschungsinstitute:

Ifo-Institut (München)

www.ifo.de

Deutsches Institut f. Wi.-Forschung (Berlin)

www.diw-berlin.de

HWWA (Hamburg)

www.hwwa.de

Institut für Weltwirtschaft (Kiel)

www.uni-kiel.de/ifw

RWI (Essen)

www.rwi-essen.de

Institut für Wirtschaftsforschung (Halle)

www.iwh.uni-halle.de

[email protected] 0–4

Page 5: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

1 Grundlagen

1.1 Einführung

Was ist Statistik?

Ziel: Informationsgewinnung aus Daten

Voraussetzung: Vorliegen einer größeren Grundgesamt-heit

”Wenn ein Mensch stirbt, ist es ein Unglück, bei 100Toten ist es eine Katastrophe, bei 1000 Toten eineStatistik” (G. Calot)

Der Begriff ”Statistik” besitzt mehrere Bedeutungen:

• Ergebnis eines Zähl- oder Messprozesses; Resul-tate einer Erhebung (Statistische Jahrbücher, Ar-beitslosenstatistik, Bevölkerungsstatistik)

• Gesamtheit des methodischen Instrumen-tariums der statistischen Analyse und Infe-renz ⇒ eigener Wissenschaftszweig

[email protected] 1–1

Page 6: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Erkenntnisziele der Statistik

Statistische Deskription und Exploration

Die deskriptive Statistik dient zur beschreibenden

und grafischen Aufbereitung und Komprimierung von

Daten. Die explorative Statistik befasst sich mit

dem Auffinden von Strukturen und Zusammenhängen

innerhalb des Datenmaterials

⇒ Vorlesung Statistik I

Statistische Inferenz

Die induktive (oder schließende) Statistik ver-

sucht, über die erhobenen Daten hinaus allgemeinere

Schlussfolgerungen für umfassendere Grundgesamt-

heiten zu ziehen. Wichtige Werkzeuge sind die Wahr-

scheinlichkeitstheorie und stochastische Modelle.

⇒ Vorlesung Statistik II

[email protected] 1–2

Page 7: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Einkommensdaten• Quelle: U.K. Family Expenditure Survey

• Ungefähr 7000 britische Haushalte pro Jahr

• Für jeden Haushalt: Einkommen aus verschiede-nen Quellen, Ausgaben für verschiedene Güter,Alter, Familiengröße, Berufe, etc.

Verfügbares Einkommen im Jahr 1976 (76 von 7202Haushalten; Einheit: Pfund pro Woche):

66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.3958.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.8726.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.1050.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.2026.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.1250.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.5148.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.4851.21 33.52 71.21 55.21

[email protected] 1–3

Page 8: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Statistische Deskription: Für die gegebene Stich-probe von 7202 Haushalten

• Durchschnittseinkommen (arithmetisches Mittel): 58, 75

• Einkommensverteilung (Histogramm)

0 40 80 120 160 200 240 280

Einkommen

0.000

0.004

0.008

0.012

Induktive Statistik: Durchschnittseinkommen allerHaushalte in GB?⇒ Konstruktion eines 95% Konfidenzintervalls:

Durchschnittseinkommen in GB = 58, 75± 0, 84

[email protected] 1–4

Page 9: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Wozu braucht man Statistik?

• Politische Umfragen und Wahlprognosenz.B. Sonntagsfrage, Politbarometer

• Klinische und epidemologische Studienz.B. Extraktion von Risikofaktoren für bestimmteKrankheiten, Studien zur Überprüfung der Wirk-samkeit eines Medikaments

Statistik im volks- und betriebswirtschaftlichenBereich (Beispiele):

• Kreditwürdigkeitsprüfung und Insolvenzprognosez.B. Extraktion von relevanten Merkmalen, die eserlauben, die Kreditwürdigkeit eines Kunden ein-zustufen

• Marktforschungsstudienz.B. Exploration von Konsumgewohnheiten zur op-timalen Positionierung eines neuen Produkts aufdem Markt

• Analyse von Aktienkursen zur Steuerung von Ak-tienportfolios

• Einkommensstatistik, Bevölkerungsstatistik

[email protected] 1–5

Page 10: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

1.2 Grundbegriffe der Statistik

Statistische Einheit (Merkmalsträger):

Einzelobjekt einer statistischen Untersuchung,

an dem interessierende Größen erfasst werden

Grundgesamtheit (Statistische Masse):

Menge aller für die Fragestellung relevanten

statistischen Einheiten

Teilgesamtheit:Teilmenge der Grundgesamtheit

Stichprobe:

tatsächlich untersuchte Teilmenge

der Grundgesamtheit

[email protected] 1–6

Page 11: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Statistisches Merkmal (Variable):interessierende Größe, deren Ausprägungen an den

einzelnen statistischen Einheiten beobachtet werden

Merkmalsausprägung:

konkreter Wert des Merkmals für eine

bestimmte statistische Einheit

Merkmal Merkmalsausprägungen

X x1, x2, . . . , xn

[email protected] 1–7

Page 12: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel

statistische Einheit:

jeder Bürger von Bonn per 31.12.1995

Grundgesamtheit:

Bevölkerung von Bonn am 31.12.1995

Erfassungsmerkmale:

X1 - Alter

X2 - Geschlecht

X3 - Familienstand

X4 - monatliches Einkommen

. . .

mögliche Merkmalsausprägungen:

X1: 1, 13, 84, . . .

X2: männlich, weiblich

X3: ledig, verheiratet, geschieden, . . .

X4: 800, . . ., 2555.56, . . .

[email protected] 1–8

Page 13: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

1.2.1 Merkmalstypen

Eine grundlegende Unterscheidung erfolgt anhand desSkalenniveaus, auf dem ein Merkmal gemessen wird.

NominalskalaEin Merkmal ist nominalskaliert, wenn die

Ausprägungen Namen oder Kategorien sind,

die den Einheiten zugeordnet werden

Beispiele:Geschlecht, Familienstand, erlernter Beruf

Spezialfall: Ein Merkmal heißt dichotom (oder bi-när), falls es nur zwei sich gegenseitig ausschließendeAusprägungen aufweist.

Man beachte: Aus technischen Gründen wird oft ei-ne Kodierung durchgeführt, d.h. den Ausprägungenwerden Zahlen zugewiesen; diese Zahlen haben danneine reine Bezeichnungsfunktion (Rechenoperationennicht sinnvoll!); Nominalskalierung bleibt erhalten

Beispiele:Geschlecht: männlich=1, weiblich=2PKW-Farbtöne: grün=117, blau=440, . . .

[email protected] 1–9

Page 14: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Ordinalskala

Eine Ordinalskala liegt vor, wenn Merkmals-

ausprägungen nicht nur eine Verschiedenartigkeit,

sondern auch eine natürliche Rangfolge zum

Ausdruck bringen; Abstände zwischen den Aus-

prägungen sind jedoch nicht interpretierbar

Beispiele:Schulnotenmilitärischer DienstgradWind- und ErdbebenstärkenGüteklassen für Produktesozialer Status

[email protected] 1–10

Page 15: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Kardinalskala oder metrische Skala:

Eine Kardinalskala oder metrische Skala liegt vor,

wenn Merkmalsausprägungen durch zugeordnete

Zahlen sowohl Verschiedenartigkeit und Rangfolge,

als auch mess- und quantifizierbare Unterschiede

zum Ausdruck bringen

Metrisch skalierte Merkmale lassen sich zusätzlich inintervallskalierte und verhältnisskalierte Merkmale un-terteilen.

Intervallskala:

Eine Intervallskala liegt vor, wenn Abstände

(Differenzen) zwischen Merkmalsausprägungen

messbar und plausibel interpretierbar sind

• kein natürlicher Nullpunkt

• Quotienten nicht interpretierbar

Beispiele:Temperatur in

◦C, Kalenderzeitrechnung, Breiten- und

Längengrade der Erde

[email protected] 1–11

Page 16: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Verhältnisskala:

Eine Verhältnisskala liegt vor, wenn Quotienten

von Merkmalswerten berechenbar und plausibel

interpretierbar sind

• natürlicher Nullpunkt

• Quotientenbildung sinnvoll

Beispiele:Wertvolumen eines Warenkorbes, Längenmaße, Ge-wichtsmaße, Alter, Einkommen

Sinnvolle Berechnungen:

Skala auszählen ordnen Differenzen Quotienten

nominal ja nein nein nein

ordinal ja ja nein nein

intervall ja ja ja nein

verhältn. ja ja ja ja

[email protected] 1–12

Page 17: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Eine zusätzliche, eher grobe, Einteilung besteht in derUnterscheidung zwischen qualitativen und quanti-tativen Merkmalen. Hierbei existiert ein enger Bezugzum Skalenniveau.

Qualitative (kategoriale) Merkmale:

Unter qualitativen Merkmalen versteht man Größen,

deren Ausprägungen eine Qualität und nicht ein

Ausmaß widerspiegeln; qualitative Merkmale sind

entweder nominal- oder ordinalskaliert

Quantitative Merkmale:

Die Ausprägungen eines quantitativen Merkmals

geben eine Intensität bzw. ein Ausmaß wieder,

in dem die interessierende Größe realisiert ist;

metrisch skalierte Merkmale sind immer quantitativ

Achtung: Zwitterstellung mancher ordinalskalierter Merk-male (z.B. Schulnoten)

[email protected] 1–13

Page 18: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Eine weitere, praktisch relevante Unterscheidung vonMerkmalen basiert auf der Anzahl von Ausprägungen.

Diskretes Merkmal:Ein Merkmal heißt diskret, falls es nur endlich

oder abzählbar unendlich viele Ausprägungen

annehmen kann.

Beispiele: Geschlecht, Rasse, Anzahl der Autounfällein Bonn innerhalb eines Monats

Nominal- oder ordinalskalierte Merkmale sind immerdiskret

Stetiges Merkmal:Ein (metrisch skaliertes) Merkmal heißt stetig,

wenn alle Werte eines Intervalls mögliche

Ausprägungen sind.

Beispiele: Körpergröße, Menge des verkauften Ben-zins an einer Tankstelle pro Tag

[email protected] 1–14

Page 19: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

In der Praxis oft: Quasi-stetige Merkmale

Manche metrisch skalierten Merkmale sind zwar imPrinzip diskret, die Anzahl aller möglichen Ausprä-gungen ist jedoch so groß, dass es auch bei sehr großenGrundgesamtheiten äußerst unwahrscheinlich ist, dasszwei verschiedene statistische Einheiten die gleiche Aus-prägung (Zahlenwert) besitzen. Solche quasi-stetigenMerkmale werden in der Praxis wie stetige Merkmalebehandelt.

Beispiel: Monatliches Nettoeinkommen

Mögliche Ausprägungen:

x1 = 645, 53 Eurox2 = 3215, 60 Eurox3 = 1450, 35 Euro...

[email protected] 1–15

Page 20: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

1.3 Datenmaterial in der statistischenPraxis

In der Praxis können die für eine statistische Ana-lyse verwendeten Daten aus unterschiedlichen Quel-len stammen. Neben eigenen Erhebungen kann auchDatenmaterial verwendet werden, das dem Statistikervon amtlichen oder nichtamtlichen Institutionen zurVerfügung gestellt wurde.

• Primärstatistische Untersuchung:Die Erhebung wurde speziell im Hinblick auf diezu untersuchende Fragestellung durchgeführt

• Sekundärstatistische Untersuchung:Zur statistischen Analyse werden bereits vorhan-dene Originaldaten benutzt (z.B. aus statistischenJahrbüchern)

• Tertiärstatistische Untersuchung:Es werden bereits transformierte oder komprimier-te Daten (etwa in Form von Mittelwerten) zurAnalyse herangezogen

Auf den verschiedenen Ebenen kann das Datenmate-rial in unterschiedlicher Form vorliegen.

[email protected] 1–16

Page 21: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

1.3.1 Urliste, Häufigkeitdaten und gruppierteDaten

Die nachfolgende Unterscheidung hinsichtlich der Form derdurch die Daten gegebenen Informationen über ein interes-sierendes Merkmal ist von großer Bedeutung für praktischeBerechnungen.

Erhebung ⇒ Stichprobe des Umfangs n

1) Urliste (Rohdaten, Primärdaten):Es sind die Ausprägungen x1, . . . , xn eines interessie-renden Merkmals X für alle in der Stichprobe befind-lichen statistischen Einheiten gegeben.

Beispiel:Grundgesamtheit: Alle im WS 2009/2010 eingeschrie-benen Studierenden der Universität BonnStatistische Einheit: Ein im WS 2009/2010 eingeschrie-bener Student oder eine eingeschriebene Studentin derUniversität BonnStichprobe: n = 5 zufällig ausgewählte Studierende

Merkmal: Geschlecht (männlich= 0, weiblich= 1)Urliste: x1 = 0, x2 = 1, x3 = 1, x4 = 0, x5 = 1

Merkmal: AlterUrliste: x1 = 22, x2 = 20, x3 = 27, x4 = 25, x5 = 31

[email protected] 1–17

Page 22: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2) Häufigkeitsdaten: Es sind nur die relativenoder absoluten Häufigkeiten der einzelnen Ausprägun-gen eines diskreten Merkmals gegeben.

Beispiel:Grundgesamtheit: Alle im WS 2009/2010 eingeschrie-benen Studierenden der Universität BonnStatistische Einheit: Ein im WS 2009/2010 eingeschrie-bener Student oder eine eingeschriebene Studentin derUniversität BonnStichprobe: n = 5 zufällig ausgewählte Studierende

Merkmal: Geschlecht

beobachtete absolute Häufigkeiten in der Stichprobe:2 männliche Studierende, 3 weibliche Studierende

beobachtete relative Häufigkeiten in der Stichprobe:40% männlich, 60% weiblich

[email protected] 1–18

Page 23: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

3) Gruppierte Daten: Insbesondere bei sekundär-und tertiärstatistischen Untersuchungen liegen ursprüng-lich metrisch skalierte Merkmale oft in gruppierterForm vor.

Gruppierung: Einteilung eines metrisch

skalierten Merkmals in k Klassen

Klassen: benachbarte Intervalle

(c0, c1], (c1, c2)], . . . , (ck−1, ck]

Gruppierte Daten: Gegeben sind nur

die Häufigkeiten der Originalbeobachtungen

innerhalb der einzelnen Klassen

• c0, c1, c2, . . . , ck heißen Klassengrenzen

• Klassenbreiten:

δj = cj − cj−1

• Klassenmitten:

cj =cj + cj−1

2

[email protected] 1–19

Page 24: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel:Einkommensverteilung 1986 nach der Lohn- und Ein-kommenssteuerstatistik

Gesamtbetrag Steuerpflichtige Gesamtbetrag

der Einkünfte der Einkünfte

DM (1000) (Mill. DM)

1 - 4000 1445.2 2611.3

4000 - 8000 1455.5 8889.2

8000 - 12000 1240.5 12310.9

12000 - 16000 1110.7 15492.7

16000 - 25000 2762.9 57218.5

25000 - 30000 1915.1 52755.4

30000 - 50000 6923.7 270182.7

50000 - 75000 3876.9 234493.1

75000 -100000 1239.7 105452.9

100000-250000 791.6 108065.7

250000-500000 93.7 31433.8

500000- 1 Mill 26.6 17893.3

1 Mill - 2 Mill 8.3 11769.9

2 Mill - 5 Mill 3.7 10950.8

5 Mill -10 Mill 0.9 6041.8

10 Mill- mehr 0.5 10749.8

[email protected] 1–20

Page 25: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

1.3.2 Klassifizierung nach Datenarten

Im Rahmen von sekundär- und tertiärstatistischen Un-tersuchungen werden zu analysierende Merkmale inder Wirtschaftsstatistik oft im Hinblick auf die Artund Weise ihres Zustandekommens klassifiziert.

Mikrodaten (individuelle Daten): Statistische

Einheiten sind einzelne Haushalte, Firmen, etc.

Gemessene Merkmale geben Charakteristika

dieser Einheiten wieder.

Aggregierte Daten: Interessierende Merk-

male sind Maßzahlen, die durch geeignete Zu-

sammenfassung von Mikrodaten entstanden sind

Beispiel: Mittlerer Konsum aller Haushalte in Deutsch-land

[email protected] 1–21

Page 26: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Formen der Aggregation

1. Sachliche Aggregation

2. Räumliche Aggregation

3. Zeitliche Aggregation

Wichtige Maßzahlen: Indexzahlen, die

die zeitliche Entwicklung einer Gesamtheit

von Objekten wiedergeben. Sie enstehen durch

sinnvolle Aggregation von Einzelwerten.

Beispiele: Deutscher Aktienindex (Dax), Preisindizes,etc.

[email protected] 1–22

Page 27: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Eine weitere Klassifizierung erfolgt im Hinblick dar-auf, ob sich die Daten auf einen einzelnen, festgelegtenZeitpunkt beziehen, oder ob sie Informationen überdie Veränderungen eines Merkmals über einen länge-ren Zeitraum enthalten.

Querschnittsstudie: Für eine Stichprobe

von statistischen Einheiten werden ein oder

mehrere Merkmale zu einem festgelegten

Zeitpunkt erfaßt.

Beispiel: Unternehmensbefragung über aktuelle Auf-tragslage

Zeitreihe: Ein Objekt wird hinsichtlich

eines Merkmals über einen längeren Zeitraum

hinweg beobachtet, d.h. die Ausprägung des

Merkmals wird in verschiedenen Zeitperioden

erfaßt.

Beispiel: Monatlicher Gesamtkonsum aller deutschenHaushalte von 1991-2001

[email protected] 1–23

Page 28: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Panel (Längsschnittstudie): Für eine Stich-

probe von statistischen Einheiten wird die Ent-

wicklung von interessierenden Merkmal(en)

über einen gewissen Zeitraum hinweg

verfolgt

Beispiel: Sozio-ökonomisches Panel: 1984 vom DIWgestartete jährliche Wiederholungsbefragung von meh-reren tausenden Haushalten (mehrere hundert Varia-blen, z.B. Erwerbsstatus, Einkommen,...)

[email protected] 1–24

Page 29: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

1.4 Datengewinnung und Erhebungs-arten

Datenerhebung ist Grundlage jeder Statistik

Anforderungen an statistisches Datenmaterial:

Methodische Solidität

Vergleichbarkeit über längere Zeit

Vollständigkeit und Genauigkeit

Aktualität

Datenquellen:

Amtliche Daten

Nichtamtliche Daten

Eigene Datenerhebung

[email protected] 1–25

Page 30: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Datenerhebung: Sorgfältige Planung notwen-dig!

1. Genaue Formulierung der Fragestellung

2. Sorgfältige Abgrenzung der zu analysierenden Merk-male und der interessierenden statistischen Ein-heiten und Masse

3. Festlegung der adäquaten ErhebungsartBeispiele:

• schriftliche Befragung (Fragebogen)

• mündliche oder telefonische Befragung

• Beobachtung, Experiment

• automatische Erfassung

4. Festlegung der zur Auswertung geeigneten statis-tischen Methodik

5. Maßnahmen zum Datenschutz

Ziel von 3. und 4.: Repräsentativität der Ergebnisse

und Vermeidung von Fehlinterpretationen durch

weitestgehenden Ausschluss von Fehlerquellen

[email protected] 1–26

Page 31: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Vollerhebung: Die Merkmale jeder einzel-

nen statistischen Einheit in der Grundgesamtheit

werden erhoben

• Beispiel: Volkszählung

• Probleme der Vollerhebung: oft zeitraubend, undkostspielig; in vielen Fällen praktisch nicht durch-führbar

[email protected] 1–27

Page 32: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Teilerhebung: Ziehung einer Stichprobe

aus der interessierenden Grundgesamtheit

• wichtig: Umfang n der Stichprobe

• Problem: Zufallsschwankungen⇒ statistisch kontrollierbar (z.B. „Signifikanztests“)

Fehlerquellen:

• Fehlende Repräsentativität der Stichprobe durchsystematische Verzerrungen (ungeeignete Erhebungs-art)

• Fehlende oder falsche Daten

• Einfluss von Störvariablen

[email protected] 1–28

Page 33: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Wichtige Stichprobenverfahren:

Einfache Zufallsstichprobe: Aus der

interessierenden statistischen Masse wer-

den n Einheiten nach einem reinen Zufalls-

kriterium ausgewählt

Geschichtete Zufallsstichprobe: Die Grundge-

samtheit wird zunächst in sich nicht überlappende

Schichten zerlegt; aus jeder Schicht wird eine

einfache Zufallsauswahl getroffen

• Beispiel: Schichtung nach Geschlecht, sozialem Sta-tus oder Berufsgruppen

• Schichten: in sich homogen; untereinander hetero-gen

[email protected] 1–29

Page 34: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Klumpenstichprobe: Die Grundgesamtheit

zerfällt in untereinander ähnliche Teilgesamt-

heiten (Klumpen); Klumpen werden zufällig aus-

gewählt und innerhalb jedes Klumpens wird eine

Vollerhebung durchgeführt

• Beispiel: Studie des Weinkonsums in Rheinhessen;mögliche Klumpen: verschiedene Gemeinden

• Klumpen: in sich heterogen; untereinander homo-gen (verkleinerte Abbilder der Grundgesamtheit)

Mehrstufige Auswahlverfahren:

einfachste Form: wie Klumpenstichprobe, aber

innerhalb eines ausgewählten Klumpens wird eine

Zufallsstichprobe gezogen

[email protected] 1–30

Page 35: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Bewußte Auswahlverfahren(insbesondere in der Meinungsforschung)

Quotenauswahl: In vielen Fällen sind die Quo-

ten bekannt, mit denen gewisse Teilgesamtheiten

(Frauen, Männer, Studierende, Rentner,..) in der

Grundgesamtheit vertreten sind. Die Stichprobe

wird so ausgewählt, daß die entsprechenden

Quoten erhalten bleiben.

• Idee der Quotenauswahl: Erhöhung der Repräsen-tativität

[email protected] 1–31

Page 36: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2 Univariate Deskription und Ex-ploration von Daten

2.1 Verteilungen und ihre Darstellun-gen

Erhebung vom Umfang n:

beobachtete Ausprägungen x1, . . . , xn

eines Merkmals X

x1, . . . , xn werden als Urliste, Roh-

oder Primärdaten bezeichnet

Häufigkeit: Besetzungszahl einer Ausprägung

oder einer Klasse von Ausprägungen des Merkmals

[email protected] 2–1

Page 37: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.1.1 Diskrete Merkmale

Mögliche Ausprägungen von X: a1, a2, . . . , ak

Absolute und relative Häufigkeiten:

h(aj) = hj absolute Häufigkeit der Aus-

prägung aj , d.h. Anzahl der

xi aus x1, . . . , xn mit xi = aj

f(aj) = fj =hj

n relative Häufigkeit von aj

h1, . . . , hk absolute Häufigkeitsverteilung

f1, . . . , fk relative Häufigkeitsverteilung

⇒ Erstellung einer Häufigkeitstabelle auf der Basisder resultierenden Häufigkeitsdaten(a1, . . . , ak zusammen mit f1, . . . , fk bzw. h1, . . . , hk)

Anmerkung: Bei gegebener Urliste erfolgt die prak-tische Berechnung der hj durch einfache Auszählung.Falls die Informationen über das interessierende Merk-mal schon in Form von Häufigkeitsdaten gegeben sind,so entfällt natürlich die Berechnung von hj bzw. fj .

[email protected] 2–2

Page 38: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

BeispielUntersuchung der Erwerbstätigen in der Bundesrepu-blik Deutschland im April 1991

statistische Einheit: Ein Erwerbstätiger bzw. eine Er-werbstätige in der Bundesrepublik Deutschland im April1991

Merkmal: Stellung im Beruf (nominalskaliert); mög-liche Ausprägungen: Arbeiter(in), Angestellte(r), Be-amte(r), mithelfende(r) Familienangehörige(r)

Stellung Erwerbstätige relative

im Beruf in 1000 Häufigkeit

aj hj fj

Arbeiter 14568 0.389

Angestellte 16808 0.449

Beamte 2511 0.067

Selbstständige 3037 0.081

Mithelf. Fam.-ang. 522 0.014

Summe 37466 1.000

[email protected] 2–3

Page 39: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Grafische Darstellungen:

Stabdiagramm, Säulendiagramm, Balken-diagramm:

Stabdiagramm Trage über a1, . . . , ak je-

weils einen zur x-Achse senk-

rechten Strich (Stab) mit Höhe

h1, . . . , hk ( f1, . . . , fk ) ab.

Säulendiagramm wie Stabdiagramm, aber

mit Rechtecken statt Strichen.

Balkendiagramm wie Säulendiagramm, aber

mit vertikal gelegter x-Achse

Kreisdiagramm:

Flächen der Kreissektoren proportional

zu den Häufigkeiten.

Winkel des j-ten Kreissektors = fj · 360◦

[email protected] 2–4

Page 40: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

[email protected] 2–5

Page 41: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

BeispielHaushaltsgrößen im früheren Bundesgebiet

statistische Einheit: Haushalte

statistisches Merkmal: Haushaltsgröße

kardinalskaliert, diskret

Häufigkeiten: prozentual relativ

Haushaltsgröße 1900 1925 1950 1990

xj

1 7.1 6.8 19.5 35.0

2 14.7 17.7 25.3 30.2

3 17.0 22.5 23.0 16.7

4 16.8 19.7 16.2 12.8

5 und mehr 44.4 33.3 16.1 5.3

Summe 100 100 100 100

[email protected] 2–6

Page 42: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

[email protected] 2–7

Page 43: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.1.2 Stetige oder quasi-stetigeMerkmale

Eine einfache Repäsentation stetiger Merkmale erfolgtmit Hilfe eines Histogramms. Sie basiert auf einerGruppierung der Daten und einer Darstellung derresultierenden Häufigkeitsverteilung. Wenn das Da-tenmaterial nicht schon in gruppierter Form vorliegt,ist zur Konstruktion eines Histogramms eine geeig-netete Klasseneinteilung von dem Statistiker selbstdurchzuführen. Die zugehörigen Häufigkeiten sind danndurch Auszählen aus der Urliste zu bestimmen.

Gruppierung anhand von Klassen benachbarter Inter-valle

(c0, c1], (c1, c2], . . . , (ck−1, ck]

Klassenbreite:

δj = cj − cj−1 üblicherweise: δ := δ1 = · · · = δk

⇒ absolute und relative Häufigkeiten h1, . . . , hk undf1, . . . , fk

[email protected] 2–8

Page 44: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

HistogrammZeichne über (c0, c1], . . . , (ck−1, ck] Rechtecke mit

Breite: δj = cj − cj−1

Höhe: fj/δj ⇒ Fläche: fj

• Prinzip der Flächentreue:Die im Histogramm dargestellten Flächen sind gleichden relativen Häufigkeiten

• Das Histogramm liefert eine Darstellung der em-pirischen Verteilung der interessierenden Variable

• Bei der Konstruktion eines Histogramms aus einergegebenen Urliste benutzt man in aller Regel einefeste Klassenbreite δ; es gilt dann

cj = cj−1 + δ

Anmerkung: In der Praxis werden zahlreiche weitereVersionen des Histogramms benutzt, z.B. Histogrammemit Höhe hj/δj statt fj/δj . Der Unterschied besteht indiesem Fall einzig in einer veränderten Skalierung der ver-tikalen Achse.

[email protected] 2–9

Page 45: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

• Probleme bei der Konstruktion eines Histo-gramms (aus der Urliste):

– Wahl der Klassenbreite δ (und damit der An-zahl k von Klassen)

– Wahl des Anfangspunkts c0

• Vorgeschlagene Faustregeln: k = [√n], k = 2[

√n]

oder k = 10[log10 n]

Beispiel:

Statistische Einheit:

1986 befragte, in Privathaushalten lebende deutscheStaatsangehörige im Alter von mindestens 18 Jahren.

Statistisches Merkmal:

monatliches persönliches Nettoeinkommen (in DM)

Umfang der Stichprobe: n = 716

[email protected] 2–10

Page 46: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Klassenbreite: 800 DM Klassenbreite: 500 DM

Klassenbreite: 250 DM Klassenbreite: 100 DM

[email protected] 2–11

Page 47: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

nach Geschlecht, Klassenbreite: 500 DMM�annlich

Weiblich

[email protected] 2–12

Page 48: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.1.3 Eigenschaften vonHäufigkeitsverteilungen

Unimodale VerteilungDie Verteilung besitzt einen Gipfel, von dem

aus die Häufigkeiten flacher oder steiler zu

den Randbereichen hin verlaufen, ohne daß

ein zweiter deutlich ausgeprägter Gipfel

hervortritt

Unimodale Verteilung (symmetrisch)

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

10

h2

[email protected] 2–13

Page 49: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Bimodale bzw. multimodaleVerteilungDie Verteilung besitzt zwei bzw. mehrere

deutlich ausgeprägte Gipfel

Bimodale Verteilung

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

h4

[email protected] 2–14

Page 50: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Symmetrische VerteilungEs existiert eine Symmetrieachse, so daß die

rechte und die linke Hälfte der Verteilung an-

nähernd zueinander spiegelbildlich sind

Linkssteile VerteilungDie Verteilung fällt nach links deutlich

steiler und nach rechts langsamer ab

Rechtssteile VerteilungDie Verteilung fällt nach rechts deutlich

steiler und nach links langsamer ab

[email protected] 2–15

Page 51: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Linkssteile Verteilung

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

10

h1

Rechtssteile Verteilung

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

10

h3

[email protected] 2–16

Page 52: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.1.4 Die empirischeVerteilungsfunktion

Ein wichtiges Werkzeug zur Analyse von quantitativenMerkmalen ist die sogenannte empirische Verteilungs-funktion.

Absolute kumulierte Häufigkeitsverteilung:

H(x) = Anzahl der Werte xi mit xi ≤ x

Empirische Verteilungsfunktion:F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x

Eigenschaften:

• 0 ≤ F (x) ≤ 1

• F (x) = 0, falls x < x(1), wobei x(1) - kleinsterbeobachteter Wert

• F (x) = 1, falls x ≥ x(n), wobei x(n) - größterbeobachteter Wert

• F monoton wachsende Treppenfunktion

[email protected] 2–17

Page 53: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel:Preise (in Euro) für eine Pizza mit Salami und Pilzenin acht zufällig ausgewählten Pizzerien in Bonn

x1 x2 x3 x4 x5 x6 x7 x8

5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50

Empirische Verteilungsfunktion:

4.0 4.5 5.0 5.5 6.0 6.50.0

0.2

0.4

0.6

0.8

1.0

[email protected] 2–18

Page 54: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Konstruktion von F (x) anhand der Urliste x1, . . . , xn:

• Ordnen der Daten⇒ geordnete Urliste: x(1) ≤ x(2) ≤ · · · ≤ x(n)

• F (x) = 0, falls x < x(1)

• F (x(i)) = F (x(i−1)) +1n

F (x) = F (x(i)), falls x ∈ [x(i), x(i+1))

Achtung: Falls alle xi voneinander verschieden sind,wächst F (x) an jedem Beobachtungswert genau umden Betrag 1

n; sind zwei Beobachtungen gleich, so wächst

F (x) an dem entsprechenden Zahlenwert um den Be-trag 2

n, bei drei gleichen Beobachtungen um 3

n, etc.

• F (x) = 1, falls x ≥ x(n)

Konstruktion von F (x) bei Häufigkeitsdaten:X diskret mit Ausprägungen a1 < a2 < · · · < ak

F (x) = f(a1) + · · ·+ f(aj)

falls aj ≤ x und aj+1 > x

[email protected] 2–19

Page 55: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel:Haushaltsgrößen 1990 (siehe 2-6)

aj 1 2 3 4 5

fj 0, 35 0, 302 0, 167 0, 128 0, 053

Empirische Verteilungsfunktion:

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

[email protected] 2–20

Page 56: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Konstruktion einer empirischen Verteilungsfunk-tion bei gruppierten Daten:

k Klassen: (c0, c1], (c1, c2], . . . , (ck−1, ck]

zugehörige rel. Häufigkeiten: f1, . . . , fk

• F(x)=0 für x < c0, F (x) = 1 für x > ck

• Für alle i = 0, 1, . . . , k

F (ci) = Anteil der Originaldaten ≤ ci =i∑

j=1

fj

• lineare Interpolation zwischen den Klassengren-zen⇒ keine Treppenfunktion!

Anmerkung: Gruppierte Daten geben die Häufigkeitender Orginalbeobachtungen innerhalb der einzelnen Klassenwieder. An den Klassengrenzen ci entspricht F (ci) daherdem Wert der ”wahren” empirischen Verteilungsfunktionder ursprünglichen Beobachtungen. Innerhalb der Klassenexistieren keine Informationen, es ist jedoch offensichtlich,dass die wahre emp. Verteilungsfunktion innerhalb jederKlasse eine monoton wachsende, nicht konstante Funkti-on ist. Die vorgeschlagene lineare Interpolation basiert aufder Idee einer relativ gleichmäßigen Verteilung der Origi-nalbeobachtungen innerhalb der einzelnen Klassen.

[email protected] 2–21

Page 57: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Mietpreise in München

Mietpreise (in DM) von Wohnungen ohne zentrale Warm-wasserversorgung und mit einer Wohnfläche von höchstens50 qm (basierend auf einer Erhebung von n = 26 Wohnun-gen im Jahr 1994)

Klasse rel. Häufigkeit

100 - 200 0, 115

200 - 300 0, 230

300 - 400 0, 346

400 - 500 0, 154

500 - 600 0, 116

600 - 700 0, 039

Empirische Verteilungsfunktion:

0 200 400 6000.0

0.2

0.4

0.6

0.8

1.0

[email protected] 2–22

Page 58: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.2 Beschreibung von Verteilungen

2.2.1 Lagemaße

LagemaßeMaßzahlen zur Lage beschreiben das Zentrum der

Verteilung eines Merkmals

Einfachstes Lagemaß bei quantitativen Merkmalen:Arithmetisches Mittel

Arithmetisches Mittel xBei gegebener Urliste x1, . . . , xn:

x = 1n(x1 + · · ·+ xn) =

1n

∑ni=1 xi

Berechnung aus Häufigkeitsdaten:

x = a1f1 + · · ·+ akfk =∑k

i=1 aifi

Approximation aus gruppierten Daten :

x =∑k

i=1 cifi

[email protected] 2–23

Page 59: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Eigenschaften des arithmetischen Mittels:

• Null- oder Schwerpunktseigenschaftn∑

i=1

(xi − x) = 0

• Quadratische Minimierungseigenschaftn∑

i=1

(xi − x)2 <n∑

i=1

(xi − z)2

für alle z = x

• Lineare Transformation yi = a+ bxi:

y = a+ bx

• Addition zi = xi + yi:

z = x+ y

• Schichtenbildung: Eine Erhebungsgesamtheit vomUmfang n sei in r Schichten (Teilgesamtheiten)mit jeweiligen Umfängen n1, . . . , nr und arithme-tischen Mitteln x1, . . . , xr zerlegt:

x =1

n

r∑j=1

nj xj

[email protected] 2–24

Page 60: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Geordnete Urliste (für quantitative Merkmale):x1, . . . , xn werden der Größe nach geordnet

⇒ x(1) ≤ x(2) ≤ · · · ≤ x(n)

Median (Zentralwert) xmed

xmed = x(n+12

) für n ungerade

xmed =12[x(n

2) + x(n

2+1)] für n gerade

Eigenschaften:

• Mindestens 50% der Daten sind ≤ xmed

• Mindestens 50% der Daten sind ≥ xmed

• Robustheit: Im Gegensatz zum arithm. Mittel wirdder Wert des Medians nur wenig durch ”Ausrei-ßer”, d.h. extreme Beobachtungen, beeinflusst.

[email protected] 2–25

Page 61: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Berechnung des Medians für Häufigkeitsdaten:X diskret mit Ausprägungen a1 < a2 < · · · < ak

xmed = ai, wobei ai diejenige Ausprägung ist, für diedie Folge Fi zum ersten Mal 0.5 überschreitet.

Fi−1 =i−1∑j=1

fj < 0.5 < Fi =i∑

j=1

fj

(in seltenen Fällen: Fi = 0, 5 ⇒ xmed = (ai+ai+1)/2)

Berechnung des Medians für gruppierte Daten:

• Bestimme die Einfallsklasse des Medians als dieKlasse [(ci−1, ci], für die die Folge Fi zum erstenMal 0.5 überschreitet.

Fi−1 =i−1∑j=1

fj ≤ 0.5 < Fi =i∑

j=1

fj

• Setze

xmed = ci−1 +δi · (0.5− Fi−1)

fi

[email protected] 2–26

Page 62: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Haushaltsgrößen 1990

aj 1 2 3 4 5

fj 0, 35 0, 302 0, 167 0, 128 0, 053

⇒ xmed = 2

Grafische Bestimmung mit der empirischen Verteilungs-funktion:

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

xmed

[email protected] 2–27

Page 63: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Mietpreise in München

• Einfallsklasse des Medians (300, 400]

⇒ xmed = 344, 80

Grafische Bestimmung mit der empirischen Verteilungs-funktion:

0 200 400 6000.0

0.2

0.4

0.6

0.8

1.0

xmed

[email protected] 2–28

Page 64: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Modus xmod

Als Modus wird die Ausprägung mit der größten

Häufigkeit bezeichnet

• Der Modus ist im Gegensatz zu x und xmed auchfür nominalskalierte Merkmale ein sinnvolles La-gemaß

• Der Modus ist eindeutig, falls die Häufigkeitsver-teilung ein eindeutiges globales Maximum besitzt.

Bei stetigen Merkmalen: Approximative Bestimmungeines Modus nach geeigneter Gruppierung

Berechnung des Modus für gruppierte Daten:

• Bestimme die Modalklasse (cj−1, cj ]

(Klasse mit der größten Häufigkeit)

• Setze xmod = cj

Anwendung: Haushaltsgrößen 1990 : xmod = 1

[email protected] 2–29

Page 65: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Lageregeln:

Symmetrische Verteilungen x ≈ xmed ≈ xmod

Linkssteile Verteilungen x > xmed > xmod

Rechtssteile Verteilungen x < xmed < xmod

Stichprobe 1 Stichprobe 2 Stichprobe 3

aj h(aj) h(aj) h(aj)

1 8 1 1

2 10 2 2

3 8 4 2

4 6 8 4

5 5 10 5

6 4 8 6

7 2 4 8

8 2 2 10

9 1 1 8

x 3,57 5 6,43

xmed 3 5 7

xmod 2 5 8

[email protected] 2–30

Page 66: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Geometrisches Mittel xgeo

xgeo = (x1 · x2 · . . . · xn)1/n

• Voraussetzung: Verhältnisskalierte Merkmale mitpositiven Ausprägungen

• ln xgeo = 1n

∑ni=1 ln xi

Anwendung: Mittlerer Wachstumsfaktor

Anfangsbestand B0; B0, B1, . . . , Bn Zeitreihe von Be-standsdaten

• Wachstumsfaktor in Periode i

xi = Bi/Bi−1

• Wachstumsrate in Periode i

ri =Bi −Bi−1

Bi−1= xi − 1

[email protected] 2–31

Page 67: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

• Bn = B0 · (xgeo)n

Beispiel: Bruttosozialprodukt (BSP) der Bundesre-publik Deutschland in Preisen von 1985 (Mrd. DM)

Jahr BSP

t Bt xt

1980 0 1733,8 -

1981 1 1735,7 1,0011

1982 2 1716,5 0,9889

1983 3 1748,4 1,0186

1984 4 1802,0 1,0307

1985 5 1834,5 1,0180

1986 6 1874,4 1,0217

1987 7 1902,3 1,0149

1988 8 1971,8 1,0365

• xgeo = (1971, 8/1733, 8)1/8 = 1, 0162

• mittlere Wachstumsrate: xgeo − 1 = 1, 62%

[email protected] 2–32

Page 68: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Harmonisches Mittel xhar

xhar =1

1n

∑ni=1

1xi

Anwendung: Mittlere Geschwindigkeit

x1, . . . , xn Geschwindigkeit mit der Bauteile eine Pro-duktionslinie der Länge l durchlaufen

• Gesamtzeit: lx1

+ · · ·+ lxn

• Mittlere Geschwindigkeit:

xhar =l + · · ·+ l

lx1

+ · · ·+ lxn

Verallgemeinerung für unterschiedliche Streckenlän-gen li

xhar =l1 + · · ·+ lnl1x1

+ · · ·+ lnxn

[email protected] 2–33

Page 69: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.3 Streuungsmaße

Empirische Varianz undStandardabweichung

Die Varianz der Werte x1, . . . , xn ist

s2 = 1n

∑ni=1(xi − x)2

Standardabweichung von x1, . . . , xn: s =√s2

Modifizierte Definition (in der schließenden Statistikbevorzugt):

Stichprobenvarianz

s2 = 1n−1

∑ni=1(xi − x)2

[email protected] 2–34

Page 70: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

StreuungsparameterBeispiel:Monatliche Aufwendungen f�ur Freizeitg�uter undUrlaub (DM)Zweipersonenhaushalte:210, 250, 340, 360, 400, 430, 440, 450, 530, 630Æ Æ ÆÆ Æ ÆÆÆ Æ Æ

Vierpersonenhaushalte:340, 350, 360, 380, 390, 410, 420, 440, 460, 490��������� �

�x = 404 DM

[email protected] 2–35

Page 71: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Berechnung von s2 aus der Urliste:

Vereinfachte Formel

s2 =

(1

n

n∑i=1

x2i

)− x2

Berechnung von s2 aus Häufigkeitsdaten:

s2 =k∑

j=1

(aj − x)2fj =k∑

j=1

a2jfj − x2

Berechnung auf der Grundlage von gruppier-ten Daten:

s2 =

k∑j=1

(cj − x)2fj =

k∑j=1

c2jfj − x2

Sheppard-Korrektur bei konstanter Klassenbreite δ =

cj − cj−1:

s2 =k∑

j=1

(cj − x)2fj −δ2

12

[email protected] 2–36

Page 72: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Rechenregeln:

• Transformationsregel: Für yi = a+ bxi ist

s2y = b2s2x bzw. sy = |b|sx

• Standardisierung:

zi =xi − x

sx⇒ z = 0, s2z = 1

Tendenziell: s2 groß ⇔ große Streuung; s2 klein ⇔kleine Streuung;(Extremfall: s2 = 0 ⇒ alle Beobachtung sind gleich)

Aber: In einer gegebenen Anwendung ist der Wertvon s2 nur in Abhängigkeit von dem zugrundeliegen-den Maßstab interpretierbar!

Maßstabsunabhängiges Streuungsmaß (für verhältnis-skalierte Merkmale mit positiven Ausprägungen): Va-riationskoeffizient

Variationskoeffizientv = s/x

[email protected] 2–37

Page 73: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Geschichteter (gepoolter) Datensatz:

Zerlegung der Erhebungsgesamtheit in r Schichten

x1, . . . , xr

s21, . . . , s2r

n1, . . . , nr mit n = n1 + · · ·+ nr

Streuungszerlegung

s2 = 1n

∑rj=1 nj s

2j +

1n

∑rj=1 nj(xj − x)2

Gesamte Varianz

= Varianz innerhalb der Schichten

+ Varianz zwischen den Schichten

[email protected] 2–38

Page 74: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Quadratmeterpreise für Mietwohnungen

Erhebung von 1082 Mietwohnungen in München imJahr 1994

Merkmal: Mietpreis pro Quadratmeter (in DM)

Unterteilung (Schichtung) in kleine Wohnungen (bis50 qm), mittlere Wohnungen (51 bis 80 qm) und großeWohnungen (ab 81 qm)

Kleine Wohnungen: n1 = 270, x1 = 15, 30, s1 = 5, 61

Mittlere Wohnungen: n2 = 513, x2 = 12, 20, s2 = 4, 78

Große Wohnungen: n3 = 299, x3 = 11, 02, s3 = 4, 78

Hieraus ergibt sich: x = 12, 65, s2 = 27, 6

[email protected] 2–39

Page 75: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.4 Quantile und Boxplot

Quantile liefern wichtige Informationen über die Streu-ung und andere wichtige Charakteristika einer empi-rischen Verteilung.

Geordnete Urliste: x(1) ≤ x(2) ≤ . . . x(n)

p-Quantil: Wert xp mit 0 < p < 1, so daß

Anzahl xi≤xp

n≥ p und Anzahl xi≥xp

n≥ 1− p

xp = x([np]+1), wenn np nicht ganzzahlig

xp = (x(np) + x(np+1))/2, wenn np ganzzahlig

[np] ist die zu np nächste kleinere ganze Zahl.

[email protected] 2–40

Page 76: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

• Median: xmed = x0,5

• Unteres Quartil = 25%-Quantil = x0,25

• Oberes Quartil = 75%-Quantil = x0,75.

• Dezile: p = 10%, 20%, . . . , 90%

p-Quantil für gruppierte Daten:Analog zum Median wird ein p-Quantil definiert durch

xp = ci−1 + δip− Fi−1

fi

wobei i so bestimmt ist, daß

Fi−1 =i−1∑j=1

fj ≤ p < Fi =i∑

j=1

fj

[email protected] 2–41

Page 77: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Grafische Bestimmung von Quantilen mit Hilfeder empirischen Verteilungsfunktion

Urliste oder Häufigkeitsdaten:

4.0 4.5 5.0 5.5 6.0 6.5

0.0

0.2

0.4

0.6

0.8

1.0

x0,25 x0,75

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x0,25x0,75

Gruppierte Daten:

0 200 400 6000.0

0.2

0.4

0.6

0.8

1.0

x0,25 x0,75

[email protected] 2–42

Page 78: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

InterquartilsabstandQA = x0,75 − x0,25

• Der Interquartilsabstand ist ein häufig verwen-detes Streuungsmaß, dessen Wert nur wenig vonAusreißern beeinflusst wird. Ein großer/kleiner Wertvon QA signalisiert große/kleine Streuung der Da-ten.

Fünf-Punkte-Zusammenfassung:

Zusammenfassung einer Verteilung durch

xmin, x0,25, xmed, x0,75, xmax

Spannweite: R = xmax − xmin

Spannweite für gruppierte Daten: R = ck − c0

[email protected] 2–43

Page 79: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Graphische Darstellung einigerMa�zahlen der Lage und der VariationBoxplot (Box{Whisker{Plot, Schachtelzeichnung)

x0;25 � 3QAx0;25 � 1;5QA (lower fence)x0;25x0;75x0;75+1;5QA (upper fence)x0;75+3QA

x0;5 QAÆ?

Æ?

[email protected] 2–44

Page 80: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Boxplot:

• x0,25 - Anfang der Schachtel (”Box”)x0,75 - Ende der Schachtel (”Box”)⇒ QA - Länge der Schachtel (”Box”)

• xmed wird durch Strich in der Box markiert(manchmal wird auch x durch eine gestrichelteLinie markiert)

• Man bestimmt die ”Zäune”zl = x0,25 − 1, 5 ·QA

undzu = x0,75 + 1, 5 ·QA

• Zwei Linien (”Whiskers”) gehen zum kleinsten undgrößten Beobachtungswert innerhalb des Bereichs[zl, zu] der Zäune

• Beobachtungen außerhalb der ”Zäune” zl, zu wer-den einzeln eingezeichnet

Boxplots liefern Informationen über wichtige Charak-teristika einer Verteilung:

• Lage und Streuung

• Struktur (symmetrisch, rechtssteil, linkssteil)

• Existenz von Ausreißern

[email protected] 2–45

Page 81: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel:Geordnete Urliste (n=10):

0,1 0,1 0,2 0,4 0,5 0,7 0,9 1,2 1,4 1,9

Histogramm:

0.0 0.5 1.0 1.5 2.0

x

0.0

0.2

0.4

0.6

0.8

Boxplot:

0.0 0.5 1.0 1.5 2.0

x

[email protected] 2–46

Page 82: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

BeispielStundenlohn in US$

Gesamt Mann Frau

xmin=1 xmin=1 xmin=1.74997

xmax=44.5005 xmax=26.2903 xmax=44.5005

R=43.5005 R=25.2903 R=42.7505

x0.25=5.24985 x0.25=6.00024 x0.25=4.74979

x0.5=7.77801 x0.5=8.92985 x0.5=6.79985

x0.75=11.2504 x0.75=12.9994 x0.75=10.0001

QA=6.00065 QA=9.99916 QA=5.25031

x=9.02395 x=9.99479 x=7.87874

s2=26.408 s2=27.9377 s2=22.2774

s=5.13887 s=5.28562 s=4.7199

v=0.57 v=0.53 v=0.6

[email protected] 2–47

Page 83: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

010

2030

40

Stu

nden

lohn

Gesamt

[email protected] 2–48

Page 84: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

010

2030

40

Stun

denl

ohn

Frauen Maenner

[email protected] 2–49

Page 85: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.5 Maßzahlen für Schiefe

Schiefe (”Skewness”)Schiefemaße beschreiben Abweichungen einer

Verteilung von der Symmetrie

Qantilskoeffizient der Schiefe

gp =(x1−p−xmed)−(xmed−xp)

x1−p−xp

p = 0, 25: Quartilskoeffizient

Werte des Quantilskoeffizienten:

• gp = 0 für symmetrische Verteilungen

• gp > 0 für linkssteile Verteilungen

• gp < 0 für rechtsssteile Verteilungen

[email protected] 2–50

Page 86: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Momentenkoeffizient der Schiefe

gm = m3/s3 mit m3 =

1n

∑ni=1(xi − x)3

Werte des Momentenkoeffizienten: Qualitativ analogzu gp

Anmerkung: Momente einer empirischenVerteilung

• Für r = 1, 2, 3, . . . ist allgemein

Mr =1

n

n∑i=1

xri

das r − te Moment der Verteilung

• Das r − te zentrale Moment ist gegebendurch

mr =1

n

n∑i=1

(xi − x)r

[email protected] 2–51

Page 87: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.6 Konzentrationsmaße

2.6.1 Lorenzkurve und Gini-Koeffizient

Eine in den Wirtschaftswissenschaften relevante Fra-gestellung gilt der Konzentration von Merkmalsausprä-gungen auf Merkmalsträger

Marktkonzentration:

• starke Konzentration - wenige Anbieter erzielenden größten Teil des Gesamtumsatzes

• schwache Konzentration - Umsätze sind relativgleichmäßig auf eine große Zahl von Marktteilneh-mern verteilt

Analog: Einkommenskonzentration, Vermö-genskonzentration

Ziel: Wiedergabe der Stärke der Konzentration ineinem Kennwert bzw. einer Graphik

[email protected] 2–52

Page 88: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

• Man betrachtet metrische Merkmale mit nicht-negativen Ausprägungen

• Zur Vereinfachung: Meßwerte x1, . . . , xn bereitsgeordnet, d.h. x1 ≤ x2 ≤ · · · ≤ xn

• Gesamtmerkmalssumme:∑n

i=1 xi > 0

LorenzkurveFür die geordnete Urliste x1 ≤ x2 ≤ · · · ≤ xn

ergibt sich die Lorenzkurve als Streckenzug

durch die Punkte

(0, 0), (u1, v1), . . . , (un, vn) = (1, 1)

mit

uj =jn Anteil der Merkmalsträger,

vj =∑j

i=1 xi∑ni=1 xi

kumulierte relative Merkmalssumme

[email protected] 2–53

Page 89: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Marktkonzentration

Monatlicher Umsatz (in 1000 DM) der Möbelbranchein den Städten A, B und C:

Möbelhaus� Stadt A B C

1 40 180 60

2 40 5 50

3 40 5 40

4 40 5 30

5 40 5 20

o

o

o

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt A

[email protected] 2–54

Page 90: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

oo

oo

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt B

o

o

o

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt C

[email protected] 2–55

Page 91: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Interpretation der Lorenzkurve:

• Für jeden Punkt (uj , vj): Auf uj · 100% der klein-sten Merkmalsträger entfallen vj · 100% der Ge-samtmerkmalssumme

• Nullkonzentration: Alle statistischen Einheitenbesitzen die gleiche Merkmalsausprägung.⇒ uj = vj für all j = 1, . . . , n

⇒ Die Lorenkurve ist eine Gerade durch den Null-punkt mit Steigung 45◦ (Diagonale)

• Maximale Konzentration: Die gesamte Merk-malssumme entfällt auf eine einzige statistischeEinheit, die restlichen n − 1 Einheiten besitzendie Merkmalsausprägung 0

⇒ vj = 0 für j = 1, . . . , n− 1

• Allgemein: Die Konzentration ist umso stärker,je mehr die berechnete Lorenzkurve von der Dia-gonale abweicht (d.h. je größer die Fläche zwi-schen Diagonale und Lorenzkurve)

Eigenschaften:• Die Lorenzkurve ist stückweise linear (maximaln−1 Knicke) und monoton wachsend (Monotonie)

• Die Lorenzkurve besitzt eine nach unten gerichte-te Wölbung (Konvexität)

[email protected] 2–56

Page 92: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Lorenzkurve bei Nullkonzentration

o

o

o

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt A

Lorenzkurve bei maximaler Konzentration (n = 5)

0.0 0.2 0.4 0.6 0.8 1.0

u

0.0

0.2

0.4

0.6

0.8

1.0

v

[email protected] 2–57

Page 93: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Berechnung der Lorenzkurve aus Häufigkeitsdaten(a1 ≤ a2 ≤ · · · ≤ ak):

uj =

j∑i=1

hi/n =

j∑i=1

fi

vj =

∑ji=1 hiai∑ki=1 hiai

=

∑ji=1 fiai∑ki=1 fiai

Berechnung der Lorenzkurve für gruppierte Daten:

uj =

j∑i=1

fi

vj =

∑ji=1 fici∑ki=1 fici

[email protected] 2–58

Page 94: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Monatliche Haushaltsnettoeinkommen 1988,Bundesrepublik Deutschland (bis unter 25000 DM)

MHNE in DM Anteil der

Haushalte

fj

0 – 800 0,044

800 – 1400 0,166

1400 – 3000 0,471

3000 – 5000 0,243

5000 – 25000 0,076

Lorenzkurve:

0.0 0.2 0.4 0.6 0.8 1.0

u

0.0

0.2

0.4

0.6

0.8

1.0

v

[email protected] 2–59

Page 95: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Grundidee zur Definition eines (relativen) Konzen-trationsmaßes: Stärke der Konzentration entsprichtder Fläche zwischen Diagonale und Lorenzkurve

Gini-Koeffizient

G =Fläche zwischen Diagonale und Lorenzkurve

Fläche zwischen Diagonale und u-Achse= 2· Fläche zwischen Diagonale und Lorenzkurve

• Berechnung anhand der geordneten Urliste x1 ≤x2 ≤ · · · ≤ xn:

G =2∑n

i=1 ixi

n∑n

i=1 xi− n+ 1

n=

n+ 1

n− 2 · 1

n

n∑j=1

vj

• Berechnung aus Häufigkeitsdaten:

G =

∑ki=1(ui−1 + ui)fiai∑n

i=1 fiai= 1− 2 ·

k∑j=1

fj vj

mit vj =vj−1+vj

2

[email protected] 2–60

Page 96: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

• Berechnung aus gruppierten Daten:

G =

∑ki=1(ui−1 + ui)fici∑n

i=1 fici− 1 = 1− 2 ·

k∑j=1

fj vj

mit vj =vj−1+vj

2

Extreme Ausprägungen des Gini-Koeffizienten:

• Gmin = 0 bei Nullkonzentration, x1 = x2 = · · · =xn

• Gmax = n−1n bei maximaler Konzentration, x1 =

x2 = · · · = xn−1 = 0, xn > 0

Normierter Gini-Koeffizient(Lorenz-Münzner-Koeffizient)

G∗ = GGmax

= nn−1G

Wertebereich: G∗ ∈ [0, 1]

[email protected] 2–61

Page 97: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Beispiel: Marktkonzentration

G G∗

Stadt A 0 0

Stadt B 0.7 0.875

Stadt C 0.2 0.25

Achtung! Unterschiedliche Lorenzkurven können aufden gleichen Gini-Koeffizienten führen:

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

[email protected] 2–62

Page 98: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

2.6.2 Absolute Konzentrationsmaße

• Relative Konzentrationsmaße (Gini-Koeffizient):”Wieviel Prozent der Merkmalsträger teilen sichwieviel Prozent der Merkmalssumme?”

• Absolute Konzentrationsmaße: ”Wieviele Merk-malsträger teilen sich wieviel Prozent der Merk-malssumme?”

Die Konzentrationsrate gibt an, welcher Anteil vonden g größten Merkmalsträgern gehalten wird:

Konzentrationsrate CRg

CRg =∑n

i=n−g+1 pi, wobei pi = xi∑nj=1 xj

den Merkmalsanteil der i-ten Einheit bezeichnet

[email protected] 2–63

Page 99: Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription

Herfindahl-Index

H =∑n

i=1 p2i , wobei pi = xi∑n

j=1 xj

den Merkmalsanteil der i-ten Einheit bezeichnet

• Hmin = 1n bei Nullkonzentration, x1 = x2 = · · · =

xn

• Hmax = 1 bei maximaler Konzentration, x1 =

x2 = · · · = xn−1 = 0, xn > 0

• Wertebereich von H: 1n ≤ H ≤ 1

Beispiel: Marktkonzentration

H

Stadt A 0.2

Stadt B 0.8125

Stadt C 0.225

[email protected] 2–64