Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der...

Post on 22-Feb-2020

4 views 0 download

Transcript of Statistik A · Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der...

Statistik ABeschreibende Methodenund Wirtschaftsstatistik

Prof. Dr. Alois KneipUniversität BonnWirtschaftswissenschaftlicher FachbereichStatistische AbteilungAdenauerallee 24-2653113 Bonnhttp://statistik.uni-bonn.de

unter der Mitarbeit von Oualid Bada

Statistik_A@statistik.uni-bonn 0–1

Inhalt

1. Grundlagen

• Grundbegriffe der Statistik

• Datenmaterial in der statistischen Praxis

• Datengewinnung und Erhebungsarten

2. Univariate Deskription und Explora-tion von Daten

• Verteilungen und ihre Darstellungen

• Lagemaße

• Streuungsmaße

• Quantile und Boxplot

• Maße für Schiefe und Wölbung

• Lorenzkurven und Konzentrationsmaße

3. Bivariate Deskription und Explorati-on von Daten

• Kontingenztabellen

• Zusammenhangsanalyse in Kontingenztabellen

• Grafische Darstellung quantitativer Merkmale

Statistik_A@statistik.uni-bonn 0–2

• Zusammenhangsmaße bei metrischen Merkmalen

• Lineare Einfachregression

• Erweiterungen der Einfachregression

4. Zeitreihen

• Grundlagen: grafische Darstellung, Komponenten-modelle

• Schätzung von Trendkomponenten

• Schätzung von Saisonkomponenten

5. Indexzahlen

• Grundlagen

• Preisindizes, Mengenindizes, Wertindizes

• Indexprobleme, Indexkriterien und Indexumrech-nungen

6. Einführung in die Wahrscheinlichkeits-theorie

Literatur:

• Fahrmeier, Künstler, Pigeot, Tutz: Statistik, Sprin-ger Verlag

Statistik_A@statistik.uni-bonn 0–3

Einige Institutionen derWirtschaftsstatistikAmtliche Statistik:

Statistisches Bundesamt

www.destatis.de

Statisches Amt der EU - EUROSTAT

epp.eurostat.ec.europa.eu/

Wirtschaftsforschungsinstitute:

Ifo-Institut (München)

www.ifo.de

Deutsches Institut f. Wi.-Forschung (Berlin)

www.diw-berlin.de

HWWA (Hamburg)

www.hwwa.de

Institut für Weltwirtschaft (Kiel)

www.uni-kiel.de/ifw

RWI (Essen)

www.rwi-essen.de

Institut für Wirtschaftsforschung (Halle)

www.iwh.uni-halle.de

Statistik_A@statistik.uni-bonn 0–4

1 Grundlagen

1.1 Einführung

Was ist Statistik?

Ziel: Informationsgewinnung aus Daten

Voraussetzung: Vorliegen einer größeren Grundgesamt-heit

”Wenn ein Mensch stirbt, ist es ein Unglück, bei 100Toten ist es eine Katastrophe, bei 1000 Toten eineStatistik” (G. Calot)

Der Begriff ”Statistik” besitzt mehrere Bedeutungen:

• Ergebnis eines Zähl- oder Messprozesses; Resul-tate einer Erhebung (Statistische Jahrbücher, Ar-beitslosenstatistik, Bevölkerungsstatistik)

• Gesamtheit des methodischen Instrumen-tariums der statistischen Analyse und Infe-renz ⇒ eigener Wissenschaftszweig

Statistik_A@statistik.uni-bonn 1–1

Erkenntnisziele der Statistik

Statistische Deskription und Exploration

Die deskriptive Statistik dient zur beschreibenden

und grafischen Aufbereitung und Komprimierung von

Daten. Die explorative Statistik befasst sich mit

dem Auffinden von Strukturen und Zusammenhängen

innerhalb des Datenmaterials

⇒ Vorlesung Statistik I

Statistische Inferenz

Die induktive (oder schließende) Statistik ver-

sucht, über die erhobenen Daten hinaus allgemeinere

Schlussfolgerungen für umfassendere Grundgesamt-

heiten zu ziehen. Wichtige Werkzeuge sind die Wahr-

scheinlichkeitstheorie und stochastische Modelle.

⇒ Vorlesung Statistik II

Statistik_A@statistik.uni-bonn 1–2

Beispiel: Einkommensdaten• Quelle: U.K. Family Expenditure Survey

• Ungefähr 7000 britische Haushalte pro Jahr

• Für jeden Haushalt: Einkommen aus verschiede-nen Quellen, Ausgaben für verschiedene Güter,Alter, Familiengröße, Berufe, etc.

Verfügbares Einkommen im Jahr 1976 (76 von 7202Haushalten; Einheit: Pfund pro Woche):

66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.3958.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.8726.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.1050.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.2026.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.1250.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.5148.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.4851.21 33.52 71.21 55.21

Statistik_A@statistik.uni-bonn 1–3

Statistische Deskription: Für die gegebene Stich-probe von 7202 Haushalten

• Durchschnittseinkommen (arithmetisches Mittel): 58, 75

• Einkommensverteilung (Histogramm)

0 40 80 120 160 200 240 280

Einkommen

0.000

0.004

0.008

0.012

Induktive Statistik: Durchschnittseinkommen allerHaushalte in GB?⇒ Konstruktion eines 95% Konfidenzintervalls:

Durchschnittseinkommen in GB = 58, 75± 0, 84

Statistik_A@statistik.uni-bonn 1–4

Wozu braucht man Statistik?

• Politische Umfragen und Wahlprognosenz.B. Sonntagsfrage, Politbarometer

• Klinische und epidemologische Studienz.B. Extraktion von Risikofaktoren für bestimmteKrankheiten, Studien zur Überprüfung der Wirk-samkeit eines Medikaments

Statistik im volks- und betriebswirtschaftlichenBereich (Beispiele):

• Kreditwürdigkeitsprüfung und Insolvenzprognosez.B. Extraktion von relevanten Merkmalen, die eserlauben, die Kreditwürdigkeit eines Kunden ein-zustufen

• Marktforschungsstudienz.B. Exploration von Konsumgewohnheiten zur op-timalen Positionierung eines neuen Produkts aufdem Markt

• Analyse von Aktienkursen zur Steuerung von Ak-tienportfolios

• Einkommensstatistik, Bevölkerungsstatistik

Statistik_A@statistik.uni-bonn 1–5

1.2 Grundbegriffe der Statistik

Statistische Einheit (Merkmalsträger):

Einzelobjekt einer statistischen Untersuchung,

an dem interessierende Größen erfasst werden

Grundgesamtheit (Statistische Masse):

Menge aller für die Fragestellung relevanten

statistischen Einheiten

Teilgesamtheit:Teilmenge der Grundgesamtheit

Stichprobe:

tatsächlich untersuchte Teilmenge

der Grundgesamtheit

Statistik_A@statistik.uni-bonn 1–6

Statistisches Merkmal (Variable):interessierende Größe, deren Ausprägungen an den

einzelnen statistischen Einheiten beobachtet werden

Merkmalsausprägung:

konkreter Wert des Merkmals für eine

bestimmte statistische Einheit

Merkmal Merkmalsausprägungen

X x1, x2, . . . , xn

Statistik_A@statistik.uni-bonn 1–7

Beispiel

statistische Einheit:

jeder Bürger von Bonn per 31.12.1995

Grundgesamtheit:

Bevölkerung von Bonn am 31.12.1995

Erfassungsmerkmale:

X1 - Alter

X2 - Geschlecht

X3 - Familienstand

X4 - monatliches Einkommen

. . .

mögliche Merkmalsausprägungen:

X1: 1, 13, 84, . . .

X2: männlich, weiblich

X3: ledig, verheiratet, geschieden, . . .

X4: 800, . . ., 2555.56, . . .

Statistik_A@statistik.uni-bonn 1–8

1.2.1 Merkmalstypen

Eine grundlegende Unterscheidung erfolgt anhand desSkalenniveaus, auf dem ein Merkmal gemessen wird.

NominalskalaEin Merkmal ist nominalskaliert, wenn die

Ausprägungen Namen oder Kategorien sind,

die den Einheiten zugeordnet werden

Beispiele:Geschlecht, Familienstand, erlernter Beruf

Spezialfall: Ein Merkmal heißt dichotom (oder bi-när), falls es nur zwei sich gegenseitig ausschließendeAusprägungen aufweist.

Man beachte: Aus technischen Gründen wird oft ei-ne Kodierung durchgeführt, d.h. den Ausprägungenwerden Zahlen zugewiesen; diese Zahlen haben danneine reine Bezeichnungsfunktion (Rechenoperationennicht sinnvoll!); Nominalskalierung bleibt erhalten

Beispiele:Geschlecht: männlich=1, weiblich=2PKW-Farbtöne: grün=117, blau=440, . . .

Statistik_A@statistik.uni-bonn 1–9

Ordinalskala

Eine Ordinalskala liegt vor, wenn Merkmals-

ausprägungen nicht nur eine Verschiedenartigkeit,

sondern auch eine natürliche Rangfolge zum

Ausdruck bringen; Abstände zwischen den Aus-

prägungen sind jedoch nicht interpretierbar

Beispiele:Schulnotenmilitärischer DienstgradWind- und ErdbebenstärkenGüteklassen für Produktesozialer Status

Statistik_A@statistik.uni-bonn 1–10

Kardinalskala oder metrische Skala:

Eine Kardinalskala oder metrische Skala liegt vor,

wenn Merkmalsausprägungen durch zugeordnete

Zahlen sowohl Verschiedenartigkeit und Rangfolge,

als auch mess- und quantifizierbare Unterschiede

zum Ausdruck bringen

Metrisch skalierte Merkmale lassen sich zusätzlich inintervallskalierte und verhältnisskalierte Merkmale un-terteilen.

Intervallskala:

Eine Intervallskala liegt vor, wenn Abstände

(Differenzen) zwischen Merkmalsausprägungen

messbar und plausibel interpretierbar sind

• kein natürlicher Nullpunkt

• Quotienten nicht interpretierbar

Beispiele:Temperatur in

◦C, Kalenderzeitrechnung, Breiten- und

Längengrade der Erde

Statistik_A@statistik.uni-bonn 1–11

Verhältnisskala:

Eine Verhältnisskala liegt vor, wenn Quotienten

von Merkmalswerten berechenbar und plausibel

interpretierbar sind

• natürlicher Nullpunkt

• Quotientenbildung sinnvoll

Beispiele:Wertvolumen eines Warenkorbes, Längenmaße, Ge-wichtsmaße, Alter, Einkommen

Sinnvolle Berechnungen:

Skala auszählen ordnen Differenzen Quotienten

nominal ja nein nein nein

ordinal ja ja nein nein

intervall ja ja ja nein

verhältn. ja ja ja ja

Statistik_A@statistik.uni-bonn 1–12

Eine zusätzliche, eher grobe, Einteilung besteht in derUnterscheidung zwischen qualitativen und quanti-tativen Merkmalen. Hierbei existiert ein enger Bezugzum Skalenniveau.

Qualitative (kategoriale) Merkmale:

Unter qualitativen Merkmalen versteht man Größen,

deren Ausprägungen eine Qualität und nicht ein

Ausmaß widerspiegeln; qualitative Merkmale sind

entweder nominal- oder ordinalskaliert

Quantitative Merkmale:

Die Ausprägungen eines quantitativen Merkmals

geben eine Intensität bzw. ein Ausmaß wieder,

in dem die interessierende Größe realisiert ist;

metrisch skalierte Merkmale sind immer quantitativ

Achtung: Zwitterstellung mancher ordinalskalierter Merk-male (z.B. Schulnoten)

Statistik_A@statistik.uni-bonn 1–13

Eine weitere, praktisch relevante Unterscheidung vonMerkmalen basiert auf der Anzahl von Ausprägungen.

Diskretes Merkmal:Ein Merkmal heißt diskret, falls es nur endlich

oder abzählbar unendlich viele Ausprägungen

annehmen kann.

Beispiele: Geschlecht, Rasse, Anzahl der Autounfällein Bonn innerhalb eines Monats

Nominal- oder ordinalskalierte Merkmale sind immerdiskret

Stetiges Merkmal:Ein (metrisch skaliertes) Merkmal heißt stetig,

wenn alle Werte eines Intervalls mögliche

Ausprägungen sind.

Beispiele: Körpergröße, Menge des verkauften Ben-zins an einer Tankstelle pro Tag

Statistik_A@statistik.uni-bonn 1–14

In der Praxis oft: Quasi-stetige Merkmale

Manche metrisch skalierten Merkmale sind zwar imPrinzip diskret, die Anzahl aller möglichen Ausprä-gungen ist jedoch so groß, dass es auch bei sehr großenGrundgesamtheiten äußerst unwahrscheinlich ist, dasszwei verschiedene statistische Einheiten die gleiche Aus-prägung (Zahlenwert) besitzen. Solche quasi-stetigenMerkmale werden in der Praxis wie stetige Merkmalebehandelt.

Beispiel: Monatliches Nettoeinkommen

Mögliche Ausprägungen:

x1 = 645, 53 Eurox2 = 3215, 60 Eurox3 = 1450, 35 Euro...

Statistik_A@statistik.uni-bonn 1–15

1.3 Datenmaterial in der statistischenPraxis

In der Praxis können die für eine statistische Ana-lyse verwendeten Daten aus unterschiedlichen Quel-len stammen. Neben eigenen Erhebungen kann auchDatenmaterial verwendet werden, das dem Statistikervon amtlichen oder nichtamtlichen Institutionen zurVerfügung gestellt wurde.

• Primärstatistische Untersuchung:Die Erhebung wurde speziell im Hinblick auf diezu untersuchende Fragestellung durchgeführt

• Sekundärstatistische Untersuchung:Zur statistischen Analyse werden bereits vorhan-dene Originaldaten benutzt (z.B. aus statistischenJahrbüchern)

• Tertiärstatistische Untersuchung:Es werden bereits transformierte oder komprimier-te Daten (etwa in Form von Mittelwerten) zurAnalyse herangezogen

Auf den verschiedenen Ebenen kann das Datenmate-rial in unterschiedlicher Form vorliegen.

Statistik_A@statistik.uni-bonn 1–16

1.3.1 Urliste, Häufigkeitdaten und gruppierteDaten

Die nachfolgende Unterscheidung hinsichtlich der Form derdurch die Daten gegebenen Informationen über ein interes-sierendes Merkmal ist von großer Bedeutung für praktischeBerechnungen.

Erhebung ⇒ Stichprobe des Umfangs n

1) Urliste (Rohdaten, Primärdaten):Es sind die Ausprägungen x1, . . . , xn eines interessie-renden Merkmals X für alle in der Stichprobe befind-lichen statistischen Einheiten gegeben.

Beispiel:Grundgesamtheit: Alle im WS 2009/2010 eingeschrie-benen Studierenden der Universität BonnStatistische Einheit: Ein im WS 2009/2010 eingeschrie-bener Student oder eine eingeschriebene Studentin derUniversität BonnStichprobe: n = 5 zufällig ausgewählte Studierende

Merkmal: Geschlecht (männlich= 0, weiblich= 1)Urliste: x1 = 0, x2 = 1, x3 = 1, x4 = 0, x5 = 1

Merkmal: AlterUrliste: x1 = 22, x2 = 20, x3 = 27, x4 = 25, x5 = 31

Statistik_A@statistik.uni-bonn 1–17

2) Häufigkeitsdaten: Es sind nur die relativenoder absoluten Häufigkeiten der einzelnen Ausprägun-gen eines diskreten Merkmals gegeben.

Beispiel:Grundgesamtheit: Alle im WS 2009/2010 eingeschrie-benen Studierenden der Universität BonnStatistische Einheit: Ein im WS 2009/2010 eingeschrie-bener Student oder eine eingeschriebene Studentin derUniversität BonnStichprobe: n = 5 zufällig ausgewählte Studierende

Merkmal: Geschlecht

beobachtete absolute Häufigkeiten in der Stichprobe:2 männliche Studierende, 3 weibliche Studierende

beobachtete relative Häufigkeiten in der Stichprobe:40% männlich, 60% weiblich

Statistik_A@statistik.uni-bonn 1–18

3) Gruppierte Daten: Insbesondere bei sekundär-und tertiärstatistischen Untersuchungen liegen ursprüng-lich metrisch skalierte Merkmale oft in gruppierterForm vor.

Gruppierung: Einteilung eines metrisch

skalierten Merkmals in k Klassen

Klassen: benachbarte Intervalle

(c0, c1], (c1, c2)], . . . , (ck−1, ck]

Gruppierte Daten: Gegeben sind nur

die Häufigkeiten der Originalbeobachtungen

innerhalb der einzelnen Klassen

• c0, c1, c2, . . . , ck heißen Klassengrenzen

• Klassenbreiten:

δj = cj − cj−1

• Klassenmitten:

cj =cj + cj−1

2

Statistik_A@statistik.uni-bonn 1–19

Beispiel:Einkommensverteilung 1986 nach der Lohn- und Ein-kommenssteuerstatistik

Gesamtbetrag Steuerpflichtige Gesamtbetrag

der Einkünfte der Einkünfte

DM (1000) (Mill. DM)

1 - 4000 1445.2 2611.3

4000 - 8000 1455.5 8889.2

8000 - 12000 1240.5 12310.9

12000 - 16000 1110.7 15492.7

16000 - 25000 2762.9 57218.5

25000 - 30000 1915.1 52755.4

30000 - 50000 6923.7 270182.7

50000 - 75000 3876.9 234493.1

75000 -100000 1239.7 105452.9

100000-250000 791.6 108065.7

250000-500000 93.7 31433.8

500000- 1 Mill 26.6 17893.3

1 Mill - 2 Mill 8.3 11769.9

2 Mill - 5 Mill 3.7 10950.8

5 Mill -10 Mill 0.9 6041.8

10 Mill- mehr 0.5 10749.8

Statistik_A@statistik.uni-bonn 1–20

1.3.2 Klassifizierung nach Datenarten

Im Rahmen von sekundär- und tertiärstatistischen Un-tersuchungen werden zu analysierende Merkmale inder Wirtschaftsstatistik oft im Hinblick auf die Artund Weise ihres Zustandekommens klassifiziert.

Mikrodaten (individuelle Daten): Statistische

Einheiten sind einzelne Haushalte, Firmen, etc.

Gemessene Merkmale geben Charakteristika

dieser Einheiten wieder.

Aggregierte Daten: Interessierende Merk-

male sind Maßzahlen, die durch geeignete Zu-

sammenfassung von Mikrodaten entstanden sind

Beispiel: Mittlerer Konsum aller Haushalte in Deutsch-land

Statistik_A@statistik.uni-bonn 1–21

Formen der Aggregation

1. Sachliche Aggregation

2. Räumliche Aggregation

3. Zeitliche Aggregation

Wichtige Maßzahlen: Indexzahlen, die

die zeitliche Entwicklung einer Gesamtheit

von Objekten wiedergeben. Sie enstehen durch

sinnvolle Aggregation von Einzelwerten.

Beispiele: Deutscher Aktienindex (Dax), Preisindizes,etc.

Statistik_A@statistik.uni-bonn 1–22

Eine weitere Klassifizierung erfolgt im Hinblick dar-auf, ob sich die Daten auf einen einzelnen, festgelegtenZeitpunkt beziehen, oder ob sie Informationen überdie Veränderungen eines Merkmals über einen länge-ren Zeitraum enthalten.

Querschnittsstudie: Für eine Stichprobe

von statistischen Einheiten werden ein oder

mehrere Merkmale zu einem festgelegten

Zeitpunkt erfaßt.

Beispiel: Unternehmensbefragung über aktuelle Auf-tragslage

Zeitreihe: Ein Objekt wird hinsichtlich

eines Merkmals über einen längeren Zeitraum

hinweg beobachtet, d.h. die Ausprägung des

Merkmals wird in verschiedenen Zeitperioden

erfaßt.

Beispiel: Monatlicher Gesamtkonsum aller deutschenHaushalte von 1991-2001

Statistik_A@statistik.uni-bonn 1–23

Panel (Längsschnittstudie): Für eine Stich-

probe von statistischen Einheiten wird die Ent-

wicklung von interessierenden Merkmal(en)

über einen gewissen Zeitraum hinweg

verfolgt

Beispiel: Sozio-ökonomisches Panel: 1984 vom DIWgestartete jährliche Wiederholungsbefragung von meh-reren tausenden Haushalten (mehrere hundert Varia-blen, z.B. Erwerbsstatus, Einkommen,...)

Statistik_A@statistik.uni-bonn 1–24

1.4 Datengewinnung und Erhebungs-arten

Datenerhebung ist Grundlage jeder Statistik

Anforderungen an statistisches Datenmaterial:

Methodische Solidität

Vergleichbarkeit über längere Zeit

Vollständigkeit und Genauigkeit

Aktualität

Datenquellen:

Amtliche Daten

Nichtamtliche Daten

Eigene Datenerhebung

Statistik_A@statistik.uni-bonn 1–25

Datenerhebung: Sorgfältige Planung notwen-dig!

1. Genaue Formulierung der Fragestellung

2. Sorgfältige Abgrenzung der zu analysierenden Merk-male und der interessierenden statistischen Ein-heiten und Masse

3. Festlegung der adäquaten ErhebungsartBeispiele:

• schriftliche Befragung (Fragebogen)

• mündliche oder telefonische Befragung

• Beobachtung, Experiment

• automatische Erfassung

4. Festlegung der zur Auswertung geeigneten statis-tischen Methodik

5. Maßnahmen zum Datenschutz

Ziel von 3. und 4.: Repräsentativität der Ergebnisse

und Vermeidung von Fehlinterpretationen durch

weitestgehenden Ausschluss von Fehlerquellen

Statistik_A@statistik.uni-bonn 1–26

Vollerhebung: Die Merkmale jeder einzel-

nen statistischen Einheit in der Grundgesamtheit

werden erhoben

• Beispiel: Volkszählung

• Probleme der Vollerhebung: oft zeitraubend, undkostspielig; in vielen Fällen praktisch nicht durch-führbar

Statistik_A@statistik.uni-bonn 1–27

Teilerhebung: Ziehung einer Stichprobe

aus der interessierenden Grundgesamtheit

• wichtig: Umfang n der Stichprobe

• Problem: Zufallsschwankungen⇒ statistisch kontrollierbar (z.B. „Signifikanztests“)

Fehlerquellen:

• Fehlende Repräsentativität der Stichprobe durchsystematische Verzerrungen (ungeeignete Erhebungs-art)

• Fehlende oder falsche Daten

• Einfluss von Störvariablen

Statistik_A@statistik.uni-bonn 1–28

Wichtige Stichprobenverfahren:

Einfache Zufallsstichprobe: Aus der

interessierenden statistischen Masse wer-

den n Einheiten nach einem reinen Zufalls-

kriterium ausgewählt

Geschichtete Zufallsstichprobe: Die Grundge-

samtheit wird zunächst in sich nicht überlappende

Schichten zerlegt; aus jeder Schicht wird eine

einfache Zufallsauswahl getroffen

• Beispiel: Schichtung nach Geschlecht, sozialem Sta-tus oder Berufsgruppen

• Schichten: in sich homogen; untereinander hetero-gen

Statistik_A@statistik.uni-bonn 1–29

Klumpenstichprobe: Die Grundgesamtheit

zerfällt in untereinander ähnliche Teilgesamt-

heiten (Klumpen); Klumpen werden zufällig aus-

gewählt und innerhalb jedes Klumpens wird eine

Vollerhebung durchgeführt

• Beispiel: Studie des Weinkonsums in Rheinhessen;mögliche Klumpen: verschiedene Gemeinden

• Klumpen: in sich heterogen; untereinander homo-gen (verkleinerte Abbilder der Grundgesamtheit)

Mehrstufige Auswahlverfahren:

einfachste Form: wie Klumpenstichprobe, aber

innerhalb eines ausgewählten Klumpens wird eine

Zufallsstichprobe gezogen

Statistik_A@statistik.uni-bonn 1–30

Bewußte Auswahlverfahren(insbesondere in der Meinungsforschung)

Quotenauswahl: In vielen Fällen sind die Quo-

ten bekannt, mit denen gewisse Teilgesamtheiten

(Frauen, Männer, Studierende, Rentner,..) in der

Grundgesamtheit vertreten sind. Die Stichprobe

wird so ausgewählt, daß die entsprechenden

Quoten erhalten bleiben.

• Idee der Quotenauswahl: Erhöhung der Repräsen-tativität

Statistik_A@statistik.uni-bonn 1–31

2 Univariate Deskription und Ex-ploration von Daten

2.1 Verteilungen und ihre Darstellun-gen

Erhebung vom Umfang n:

beobachtete Ausprägungen x1, . . . , xn

eines Merkmals X

x1, . . . , xn werden als Urliste, Roh-

oder Primärdaten bezeichnet

Häufigkeit: Besetzungszahl einer Ausprägung

oder einer Klasse von Ausprägungen des Merkmals

Statistik_A@statistik.uni-bonn 2–1

2.1.1 Diskrete Merkmale

Mögliche Ausprägungen von X: a1, a2, . . . , ak

Absolute und relative Häufigkeiten:

h(aj) = hj absolute Häufigkeit der Aus-

prägung aj , d.h. Anzahl der

xi aus x1, . . . , xn mit xi = aj

f(aj) = fj =hj

n relative Häufigkeit von aj

h1, . . . , hk absolute Häufigkeitsverteilung

f1, . . . , fk relative Häufigkeitsverteilung

⇒ Erstellung einer Häufigkeitstabelle auf der Basisder resultierenden Häufigkeitsdaten(a1, . . . , ak zusammen mit f1, . . . , fk bzw. h1, . . . , hk)

Anmerkung: Bei gegebener Urliste erfolgt die prak-tische Berechnung der hj durch einfache Auszählung.Falls die Informationen über das interessierende Merk-mal schon in Form von Häufigkeitsdaten gegeben sind,so entfällt natürlich die Berechnung von hj bzw. fj .

Statistik_A@statistik.uni-bonn 2–2

BeispielUntersuchung der Erwerbstätigen in der Bundesrepu-blik Deutschland im April 1991

statistische Einheit: Ein Erwerbstätiger bzw. eine Er-werbstätige in der Bundesrepublik Deutschland im April1991

Merkmal: Stellung im Beruf (nominalskaliert); mög-liche Ausprägungen: Arbeiter(in), Angestellte(r), Be-amte(r), mithelfende(r) Familienangehörige(r)

Stellung Erwerbstätige relative

im Beruf in 1000 Häufigkeit

aj hj fj

Arbeiter 14568 0.389

Angestellte 16808 0.449

Beamte 2511 0.067

Selbstständige 3037 0.081

Mithelf. Fam.-ang. 522 0.014

Summe 37466 1.000

Statistik_A@statistik.uni-bonn 2–3

Grafische Darstellungen:

Stabdiagramm, Säulendiagramm, Balken-diagramm:

Stabdiagramm Trage über a1, . . . , ak je-

weils einen zur x-Achse senk-

rechten Strich (Stab) mit Höhe

h1, . . . , hk ( f1, . . . , fk ) ab.

Säulendiagramm wie Stabdiagramm, aber

mit Rechtecken statt Strichen.

Balkendiagramm wie Säulendiagramm, aber

mit vertikal gelegter x-Achse

Kreisdiagramm:

Flächen der Kreissektoren proportional

zu den Häufigkeiten.

Winkel des j-ten Kreissektors = fj · 360◦

Statistik_A@statistik.uni-bonn 2–4

Statistik_A@statistik.uni-bonn 2–5

BeispielHaushaltsgrößen im früheren Bundesgebiet

statistische Einheit: Haushalte

statistisches Merkmal: Haushaltsgröße

kardinalskaliert, diskret

Häufigkeiten: prozentual relativ

Haushaltsgröße 1900 1925 1950 1990

xj

1 7.1 6.8 19.5 35.0

2 14.7 17.7 25.3 30.2

3 17.0 22.5 23.0 16.7

4 16.8 19.7 16.2 12.8

5 und mehr 44.4 33.3 16.1 5.3

Summe 100 100 100 100

Statistik_A@statistik.uni-bonn 2–6

Statistik_A@statistik.uni-bonn 2–7

2.1.2 Stetige oder quasi-stetigeMerkmale

Eine einfache Repäsentation stetiger Merkmale erfolgtmit Hilfe eines Histogramms. Sie basiert auf einerGruppierung der Daten und einer Darstellung derresultierenden Häufigkeitsverteilung. Wenn das Da-tenmaterial nicht schon in gruppierter Form vorliegt,ist zur Konstruktion eines Histogramms eine geeig-netete Klasseneinteilung von dem Statistiker selbstdurchzuführen. Die zugehörigen Häufigkeiten sind danndurch Auszählen aus der Urliste zu bestimmen.

Gruppierung anhand von Klassen benachbarter Inter-valle

(c0, c1], (c1, c2], . . . , (ck−1, ck]

Klassenbreite:

δj = cj − cj−1 üblicherweise: δ := δ1 = · · · = δk

⇒ absolute und relative Häufigkeiten h1, . . . , hk undf1, . . . , fk

Statistik_A@statistik.uni-bonn 2–8

HistogrammZeichne über (c0, c1], . . . , (ck−1, ck] Rechtecke mit

Breite: δj = cj − cj−1

Höhe: fj/δj ⇒ Fläche: fj

• Prinzip der Flächentreue:Die im Histogramm dargestellten Flächen sind gleichden relativen Häufigkeiten

• Das Histogramm liefert eine Darstellung der em-pirischen Verteilung der interessierenden Variable

• Bei der Konstruktion eines Histogramms aus einergegebenen Urliste benutzt man in aller Regel einefeste Klassenbreite δ; es gilt dann

cj = cj−1 + δ

Anmerkung: In der Praxis werden zahlreiche weitereVersionen des Histogramms benutzt, z.B. Histogrammemit Höhe hj/δj statt fj/δj . Der Unterschied besteht indiesem Fall einzig in einer veränderten Skalierung der ver-tikalen Achse.

Statistik_A@statistik.uni-bonn 2–9

• Probleme bei der Konstruktion eines Histo-gramms (aus der Urliste):

– Wahl der Klassenbreite δ (und damit der An-zahl k von Klassen)

– Wahl des Anfangspunkts c0

• Vorgeschlagene Faustregeln: k = [√n], k = 2[

√n]

oder k = 10[log10 n]

Beispiel:

Statistische Einheit:

1986 befragte, in Privathaushalten lebende deutscheStaatsangehörige im Alter von mindestens 18 Jahren.

Statistisches Merkmal:

monatliches persönliches Nettoeinkommen (in DM)

Umfang der Stichprobe: n = 716

Statistik_A@statistik.uni-bonn 2–10

Klassenbreite: 800 DM Klassenbreite: 500 DM

Klassenbreite: 250 DM Klassenbreite: 100 DM

Statistik_A@statistik.uni-bonn 2–11

nach Geschlecht, Klassenbreite: 500 DMM�annlich

Weiblich

Statistik_A@statistik.uni-bonn 2–12

2.1.3 Eigenschaften vonHäufigkeitsverteilungen

Unimodale VerteilungDie Verteilung besitzt einen Gipfel, von dem

aus die Häufigkeiten flacher oder steiler zu

den Randbereichen hin verlaufen, ohne daß

ein zweiter deutlich ausgeprägter Gipfel

hervortritt

Unimodale Verteilung (symmetrisch)

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

10

h2

Statistik_A@statistik.uni-bonn 2–13

Bimodale bzw. multimodaleVerteilungDie Verteilung besitzt zwei bzw. mehrere

deutlich ausgeprägte Gipfel

Bimodale Verteilung

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

h4

Statistik_A@statistik.uni-bonn 2–14

Symmetrische VerteilungEs existiert eine Symmetrieachse, so daß die

rechte und die linke Hälfte der Verteilung an-

nähernd zueinander spiegelbildlich sind

Linkssteile VerteilungDie Verteilung fällt nach links deutlich

steiler und nach rechts langsamer ab

Rechtssteile VerteilungDie Verteilung fällt nach rechts deutlich

steiler und nach links langsamer ab

Statistik_A@statistik.uni-bonn 2–15

Linkssteile Verteilung

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

10

h1

Rechtssteile Verteilung

1 2 3 4 5 6 7 8 9

a

0

2

4

6

8

10

h3

Statistik_A@statistik.uni-bonn 2–16

2.1.4 Die empirischeVerteilungsfunktion

Ein wichtiges Werkzeug zur Analyse von quantitativenMerkmalen ist die sogenannte empirische Verteilungs-funktion.

Absolute kumulierte Häufigkeitsverteilung:

H(x) = Anzahl der Werte xi mit xi ≤ x

Empirische Verteilungsfunktion:F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x

Eigenschaften:

• 0 ≤ F (x) ≤ 1

• F (x) = 0, falls x < x(1), wobei x(1) - kleinsterbeobachteter Wert

• F (x) = 1, falls x ≥ x(n), wobei x(n) - größterbeobachteter Wert

• F monoton wachsende Treppenfunktion

Statistik_A@statistik.uni-bonn 2–17

Beispiel:Preise (in Euro) für eine Pizza mit Salami und Pilzenin acht zufällig ausgewählten Pizzerien in Bonn

x1 x2 x3 x4 x5 x6 x7 x8

5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50

Empirische Verteilungsfunktion:

4.0 4.5 5.0 5.5 6.0 6.50.0

0.2

0.4

0.6

0.8

1.0

Statistik_A@statistik.uni-bonn 2–18

Konstruktion von F (x) anhand der Urliste x1, . . . , xn:

• Ordnen der Daten⇒ geordnete Urliste: x(1) ≤ x(2) ≤ · · · ≤ x(n)

• F (x) = 0, falls x < x(1)

• F (x(i)) = F (x(i−1)) +1n

F (x) = F (x(i)), falls x ∈ [x(i), x(i+1))

Achtung: Falls alle xi voneinander verschieden sind,wächst F (x) an jedem Beobachtungswert genau umden Betrag 1

n; sind zwei Beobachtungen gleich, so wächst

F (x) an dem entsprechenden Zahlenwert um den Be-trag 2

n, bei drei gleichen Beobachtungen um 3

n, etc.

• F (x) = 1, falls x ≥ x(n)

Konstruktion von F (x) bei Häufigkeitsdaten:X diskret mit Ausprägungen a1 < a2 < · · · < ak

F (x) = f(a1) + · · ·+ f(aj)

falls aj ≤ x und aj+1 > x

Statistik_A@statistik.uni-bonn 2–19

Beispiel:Haushaltsgrößen 1990 (siehe 2-6)

aj 1 2 3 4 5

fj 0, 35 0, 302 0, 167 0, 128 0, 053

Empirische Verteilungsfunktion:

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Statistik_A@statistik.uni-bonn 2–20

Konstruktion einer empirischen Verteilungsfunk-tion bei gruppierten Daten:

k Klassen: (c0, c1], (c1, c2], . . . , (ck−1, ck]

zugehörige rel. Häufigkeiten: f1, . . . , fk

• F(x)=0 für x < c0, F (x) = 1 für x > ck

• Für alle i = 0, 1, . . . , k

F (ci) = Anteil der Originaldaten ≤ ci =i∑

j=1

fj

• lineare Interpolation zwischen den Klassengren-zen⇒ keine Treppenfunktion!

Anmerkung: Gruppierte Daten geben die Häufigkeitender Orginalbeobachtungen innerhalb der einzelnen Klassenwieder. An den Klassengrenzen ci entspricht F (ci) daherdem Wert der ”wahren” empirischen Verteilungsfunktionder ursprünglichen Beobachtungen. Innerhalb der Klassenexistieren keine Informationen, es ist jedoch offensichtlich,dass die wahre emp. Verteilungsfunktion innerhalb jederKlasse eine monoton wachsende, nicht konstante Funkti-on ist. Die vorgeschlagene lineare Interpolation basiert aufder Idee einer relativ gleichmäßigen Verteilung der Origi-nalbeobachtungen innerhalb der einzelnen Klassen.

Statistik_A@statistik.uni-bonn 2–21

Beispiel: Mietpreise in München

Mietpreise (in DM) von Wohnungen ohne zentrale Warm-wasserversorgung und mit einer Wohnfläche von höchstens50 qm (basierend auf einer Erhebung von n = 26 Wohnun-gen im Jahr 1994)

Klasse rel. Häufigkeit

100 - 200 0, 115

200 - 300 0, 230

300 - 400 0, 346

400 - 500 0, 154

500 - 600 0, 116

600 - 700 0, 039

Empirische Verteilungsfunktion:

0 200 400 6000.0

0.2

0.4

0.6

0.8

1.0

Statistik_A@statistik.uni-bonn 2–22

2.2 Beschreibung von Verteilungen

2.2.1 Lagemaße

LagemaßeMaßzahlen zur Lage beschreiben das Zentrum der

Verteilung eines Merkmals

Einfachstes Lagemaß bei quantitativen Merkmalen:Arithmetisches Mittel

Arithmetisches Mittel xBei gegebener Urliste x1, . . . , xn:

x = 1n(x1 + · · ·+ xn) =

1n

∑ni=1 xi

Berechnung aus Häufigkeitsdaten:

x = a1f1 + · · ·+ akfk =∑k

i=1 aifi

Approximation aus gruppierten Daten :

x =∑k

i=1 cifi

Statistik_A@statistik.uni-bonn 2–23

Eigenschaften des arithmetischen Mittels:

• Null- oder Schwerpunktseigenschaftn∑

i=1

(xi − x) = 0

• Quadratische Minimierungseigenschaftn∑

i=1

(xi − x)2 <n∑

i=1

(xi − z)2

für alle z = x

• Lineare Transformation yi = a+ bxi:

y = a+ bx

• Addition zi = xi + yi:

z = x+ y

• Schichtenbildung: Eine Erhebungsgesamtheit vomUmfang n sei in r Schichten (Teilgesamtheiten)mit jeweiligen Umfängen n1, . . . , nr und arithme-tischen Mitteln x1, . . . , xr zerlegt:

x =1

n

r∑j=1

nj xj

Statistik_A@statistik.uni-bonn 2–24

Geordnete Urliste (für quantitative Merkmale):x1, . . . , xn werden der Größe nach geordnet

⇒ x(1) ≤ x(2) ≤ · · · ≤ x(n)

Median (Zentralwert) xmed

xmed = x(n+12

) für n ungerade

xmed =12[x(n

2) + x(n

2+1)] für n gerade

Eigenschaften:

• Mindestens 50% der Daten sind ≤ xmed

• Mindestens 50% der Daten sind ≥ xmed

• Robustheit: Im Gegensatz zum arithm. Mittel wirdder Wert des Medians nur wenig durch ”Ausrei-ßer”, d.h. extreme Beobachtungen, beeinflusst.

Statistik_A@statistik.uni-bonn 2–25

Berechnung des Medians für Häufigkeitsdaten:X diskret mit Ausprägungen a1 < a2 < · · · < ak

xmed = ai, wobei ai diejenige Ausprägung ist, für diedie Folge Fi zum ersten Mal 0.5 überschreitet.

Fi−1 =i−1∑j=1

fj < 0.5 < Fi =i∑

j=1

fj

(in seltenen Fällen: Fi = 0, 5 ⇒ xmed = (ai+ai+1)/2)

Berechnung des Medians für gruppierte Daten:

• Bestimme die Einfallsklasse des Medians als dieKlasse [(ci−1, ci], für die die Folge Fi zum erstenMal 0.5 überschreitet.

Fi−1 =i−1∑j=1

fj ≤ 0.5 < Fi =i∑

j=1

fj

• Setze

xmed = ci−1 +δi · (0.5− Fi−1)

fi

Statistik_A@statistik.uni-bonn 2–26

Beispiel: Haushaltsgrößen 1990

aj 1 2 3 4 5

fj 0, 35 0, 302 0, 167 0, 128 0, 053

⇒ xmed = 2

Grafische Bestimmung mit der empirischen Verteilungs-funktion:

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

xmed

Statistik_A@statistik.uni-bonn 2–27

Beispiel: Mietpreise in München

• Einfallsklasse des Medians (300, 400]

⇒ xmed = 344, 80

Grafische Bestimmung mit der empirischen Verteilungs-funktion:

0 200 400 6000.0

0.2

0.4

0.6

0.8

1.0

xmed

Statistik_A@statistik.uni-bonn 2–28

Modus xmod

Als Modus wird die Ausprägung mit der größten

Häufigkeit bezeichnet

• Der Modus ist im Gegensatz zu x und xmed auchfür nominalskalierte Merkmale ein sinnvolles La-gemaß

• Der Modus ist eindeutig, falls die Häufigkeitsver-teilung ein eindeutiges globales Maximum besitzt.

Bei stetigen Merkmalen: Approximative Bestimmungeines Modus nach geeigneter Gruppierung

Berechnung des Modus für gruppierte Daten:

• Bestimme die Modalklasse (cj−1, cj ]

(Klasse mit der größten Häufigkeit)

• Setze xmod = cj

Anwendung: Haushaltsgrößen 1990 : xmod = 1

Statistik_A@statistik.uni-bonn 2–29

Lageregeln:

Symmetrische Verteilungen x ≈ xmed ≈ xmod

Linkssteile Verteilungen x > xmed > xmod

Rechtssteile Verteilungen x < xmed < xmod

Stichprobe 1 Stichprobe 2 Stichprobe 3

aj h(aj) h(aj) h(aj)

1 8 1 1

2 10 2 2

3 8 4 2

4 6 8 4

5 5 10 5

6 4 8 6

7 2 4 8

8 2 2 10

9 1 1 8

x 3,57 5 6,43

xmed 3 5 7

xmod 2 5 8

Statistik_A@statistik.uni-bonn 2–30

Geometrisches Mittel xgeo

xgeo = (x1 · x2 · . . . · xn)1/n

• Voraussetzung: Verhältnisskalierte Merkmale mitpositiven Ausprägungen

• ln xgeo = 1n

∑ni=1 ln xi

Anwendung: Mittlerer Wachstumsfaktor

Anfangsbestand B0; B0, B1, . . . , Bn Zeitreihe von Be-standsdaten

• Wachstumsfaktor in Periode i

xi = Bi/Bi−1

• Wachstumsrate in Periode i

ri =Bi −Bi−1

Bi−1= xi − 1

Statistik_A@statistik.uni-bonn 2–31

• Bn = B0 · (xgeo)n

Beispiel: Bruttosozialprodukt (BSP) der Bundesre-publik Deutschland in Preisen von 1985 (Mrd. DM)

Jahr BSP

t Bt xt

1980 0 1733,8 -

1981 1 1735,7 1,0011

1982 2 1716,5 0,9889

1983 3 1748,4 1,0186

1984 4 1802,0 1,0307

1985 5 1834,5 1,0180

1986 6 1874,4 1,0217

1987 7 1902,3 1,0149

1988 8 1971,8 1,0365

• xgeo = (1971, 8/1733, 8)1/8 = 1, 0162

• mittlere Wachstumsrate: xgeo − 1 = 1, 62%

Statistik_A@statistik.uni-bonn 2–32

Harmonisches Mittel xhar

xhar =1

1n

∑ni=1

1xi

Anwendung: Mittlere Geschwindigkeit

x1, . . . , xn Geschwindigkeit mit der Bauteile eine Pro-duktionslinie der Länge l durchlaufen

• Gesamtzeit: lx1

+ · · ·+ lxn

• Mittlere Geschwindigkeit:

xhar =l + · · ·+ l

lx1

+ · · ·+ lxn

Verallgemeinerung für unterschiedliche Streckenlän-gen li

xhar =l1 + · · ·+ lnl1x1

+ · · ·+ lnxn

Statistik_A@statistik.uni-bonn 2–33

2.3 Streuungsmaße

Empirische Varianz undStandardabweichung

Die Varianz der Werte x1, . . . , xn ist

s2 = 1n

∑ni=1(xi − x)2

Standardabweichung von x1, . . . , xn: s =√s2

Modifizierte Definition (in der schließenden Statistikbevorzugt):

Stichprobenvarianz

s2 = 1n−1

∑ni=1(xi − x)2

Statistik_A@statistik.uni-bonn 2–34

StreuungsparameterBeispiel:Monatliche Aufwendungen f�ur Freizeitg�uter undUrlaub (DM)Zweipersonenhaushalte:210, 250, 340, 360, 400, 430, 440, 450, 530, 630Æ Æ ÆÆ Æ ÆÆÆ Æ Æ

Vierpersonenhaushalte:340, 350, 360, 380, 390, 410, 420, 440, 460, 490��������� �

�x = 404 DM

Statistik_A@statistik.uni-bonn 2–35

Berechnung von s2 aus der Urliste:

Vereinfachte Formel

s2 =

(1

n

n∑i=1

x2i

)− x2

Berechnung von s2 aus Häufigkeitsdaten:

s2 =k∑

j=1

(aj − x)2fj =k∑

j=1

a2jfj − x2

Berechnung auf der Grundlage von gruppier-ten Daten:

s2 =

k∑j=1

(cj − x)2fj =

k∑j=1

c2jfj − x2

Sheppard-Korrektur bei konstanter Klassenbreite δ =

cj − cj−1:

s2 =k∑

j=1

(cj − x)2fj −δ2

12

Statistik_A@statistik.uni-bonn 2–36

Rechenregeln:

• Transformationsregel: Für yi = a+ bxi ist

s2y = b2s2x bzw. sy = |b|sx

• Standardisierung:

zi =xi − x

sx⇒ z = 0, s2z = 1

Tendenziell: s2 groß ⇔ große Streuung; s2 klein ⇔kleine Streuung;(Extremfall: s2 = 0 ⇒ alle Beobachtung sind gleich)

Aber: In einer gegebenen Anwendung ist der Wertvon s2 nur in Abhängigkeit von dem zugrundeliegen-den Maßstab interpretierbar!

Maßstabsunabhängiges Streuungsmaß (für verhältnis-skalierte Merkmale mit positiven Ausprägungen): Va-riationskoeffizient

Variationskoeffizientv = s/x

Statistik_A@statistik.uni-bonn 2–37

Geschichteter (gepoolter) Datensatz:

Zerlegung der Erhebungsgesamtheit in r Schichten

x1, . . . , xr

s21, . . . , s2r

n1, . . . , nr mit n = n1 + · · ·+ nr

Streuungszerlegung

s2 = 1n

∑rj=1 nj s

2j +

1n

∑rj=1 nj(xj − x)2

Gesamte Varianz

= Varianz innerhalb der Schichten

+ Varianz zwischen den Schichten

Statistik_A@statistik.uni-bonn 2–38

Beispiel: Quadratmeterpreise für Mietwohnungen

Erhebung von 1082 Mietwohnungen in München imJahr 1994

Merkmal: Mietpreis pro Quadratmeter (in DM)

Unterteilung (Schichtung) in kleine Wohnungen (bis50 qm), mittlere Wohnungen (51 bis 80 qm) und großeWohnungen (ab 81 qm)

Kleine Wohnungen: n1 = 270, x1 = 15, 30, s1 = 5, 61

Mittlere Wohnungen: n2 = 513, x2 = 12, 20, s2 = 4, 78

Große Wohnungen: n3 = 299, x3 = 11, 02, s3 = 4, 78

Hieraus ergibt sich: x = 12, 65, s2 = 27, 6

Statistik_A@statistik.uni-bonn 2–39

2.4 Quantile und Boxplot

Quantile liefern wichtige Informationen über die Streu-ung und andere wichtige Charakteristika einer empi-rischen Verteilung.

Geordnete Urliste: x(1) ≤ x(2) ≤ . . . x(n)

p-Quantil: Wert xp mit 0 < p < 1, so daß

Anzahl xi≤xp

n≥ p und Anzahl xi≥xp

n≥ 1− p

xp = x([np]+1), wenn np nicht ganzzahlig

xp = (x(np) + x(np+1))/2, wenn np ganzzahlig

[np] ist die zu np nächste kleinere ganze Zahl.

Statistik_A@statistik.uni-bonn 2–40

• Median: xmed = x0,5

• Unteres Quartil = 25%-Quantil = x0,25

• Oberes Quartil = 75%-Quantil = x0,75.

• Dezile: p = 10%, 20%, . . . , 90%

p-Quantil für gruppierte Daten:Analog zum Median wird ein p-Quantil definiert durch

xp = ci−1 + δip− Fi−1

fi

wobei i so bestimmt ist, daß

Fi−1 =i−1∑j=1

fj ≤ p < Fi =i∑

j=1

fj

Statistik_A@statistik.uni-bonn 2–41

Grafische Bestimmung von Quantilen mit Hilfeder empirischen Verteilungsfunktion

Urliste oder Häufigkeitsdaten:

4.0 4.5 5.0 5.5 6.0 6.5

0.0

0.2

0.4

0.6

0.8

1.0

x0,25 x0,75

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x0,25x0,75

Gruppierte Daten:

0 200 400 6000.0

0.2

0.4

0.6

0.8

1.0

x0,25 x0,75

Statistik_A@statistik.uni-bonn 2–42

InterquartilsabstandQA = x0,75 − x0,25

• Der Interquartilsabstand ist ein häufig verwen-detes Streuungsmaß, dessen Wert nur wenig vonAusreißern beeinflusst wird. Ein großer/kleiner Wertvon QA signalisiert große/kleine Streuung der Da-ten.

Fünf-Punkte-Zusammenfassung:

Zusammenfassung einer Verteilung durch

xmin, x0,25, xmed, x0,75, xmax

Spannweite: R = xmax − xmin

Spannweite für gruppierte Daten: R = ck − c0

Statistik_A@statistik.uni-bonn 2–43

Graphische Darstellung einigerMa�zahlen der Lage und der VariationBoxplot (Box{Whisker{Plot, Schachtelzeichnung)

x0;25 � 3QAx0;25 � 1;5QA (lower fence)x0;25x0;75x0;75+1;5QA (upper fence)x0;75+3QA

x0;5 QAÆ?

Æ?

Statistik_A@statistik.uni-bonn 2–44

Boxplot:

• x0,25 - Anfang der Schachtel (”Box”)x0,75 - Ende der Schachtel (”Box”)⇒ QA - Länge der Schachtel (”Box”)

• xmed wird durch Strich in der Box markiert(manchmal wird auch x durch eine gestrichelteLinie markiert)

• Man bestimmt die ”Zäune”zl = x0,25 − 1, 5 ·QA

undzu = x0,75 + 1, 5 ·QA

• Zwei Linien (”Whiskers”) gehen zum kleinsten undgrößten Beobachtungswert innerhalb des Bereichs[zl, zu] der Zäune

• Beobachtungen außerhalb der ”Zäune” zl, zu wer-den einzeln eingezeichnet

Boxplots liefern Informationen über wichtige Charak-teristika einer Verteilung:

• Lage und Streuung

• Struktur (symmetrisch, rechtssteil, linkssteil)

• Existenz von Ausreißern

Statistik_A@statistik.uni-bonn 2–45

Beispiel:Geordnete Urliste (n=10):

0,1 0,1 0,2 0,4 0,5 0,7 0,9 1,2 1,4 1,9

Histogramm:

0.0 0.5 1.0 1.5 2.0

x

0.0

0.2

0.4

0.6

0.8

Boxplot:

0.0 0.5 1.0 1.5 2.0

x

Statistik_A@statistik.uni-bonn 2–46

BeispielStundenlohn in US$

Gesamt Mann Frau

xmin=1 xmin=1 xmin=1.74997

xmax=44.5005 xmax=26.2903 xmax=44.5005

R=43.5005 R=25.2903 R=42.7505

x0.25=5.24985 x0.25=6.00024 x0.25=4.74979

x0.5=7.77801 x0.5=8.92985 x0.5=6.79985

x0.75=11.2504 x0.75=12.9994 x0.75=10.0001

QA=6.00065 QA=9.99916 QA=5.25031

x=9.02395 x=9.99479 x=7.87874

s2=26.408 s2=27.9377 s2=22.2774

s=5.13887 s=5.28562 s=4.7199

v=0.57 v=0.53 v=0.6

Statistik_A@statistik.uni-bonn 2–47

010

2030

40

Stu

nden

lohn

Gesamt

Statistik_A@statistik.uni-bonn 2–48

010

2030

40

Stun

denl

ohn

Frauen Maenner

Statistik_A@statistik.uni-bonn 2–49

2.5 Maßzahlen für Schiefe

Schiefe (”Skewness”)Schiefemaße beschreiben Abweichungen einer

Verteilung von der Symmetrie

Qantilskoeffizient der Schiefe

gp =(x1−p−xmed)−(xmed−xp)

x1−p−xp

p = 0, 25: Quartilskoeffizient

Werte des Quantilskoeffizienten:

• gp = 0 für symmetrische Verteilungen

• gp > 0 für linkssteile Verteilungen

• gp < 0 für rechtsssteile Verteilungen

Statistik_A@statistik.uni-bonn 2–50

Momentenkoeffizient der Schiefe

gm = m3/s3 mit m3 =

1n

∑ni=1(xi − x)3

Werte des Momentenkoeffizienten: Qualitativ analogzu gp

Anmerkung: Momente einer empirischenVerteilung

• Für r = 1, 2, 3, . . . ist allgemein

Mr =1

n

n∑i=1

xri

das r − te Moment der Verteilung

• Das r − te zentrale Moment ist gegebendurch

mr =1

n

n∑i=1

(xi − x)r

Statistik_A@statistik.uni-bonn 2–51

2.6 Konzentrationsmaße

2.6.1 Lorenzkurve und Gini-Koeffizient

Eine in den Wirtschaftswissenschaften relevante Fra-gestellung gilt der Konzentration von Merkmalsausprä-gungen auf Merkmalsträger

Marktkonzentration:

• starke Konzentration - wenige Anbieter erzielenden größten Teil des Gesamtumsatzes

• schwache Konzentration - Umsätze sind relativgleichmäßig auf eine große Zahl von Marktteilneh-mern verteilt

Analog: Einkommenskonzentration, Vermö-genskonzentration

Ziel: Wiedergabe der Stärke der Konzentration ineinem Kennwert bzw. einer Graphik

Statistik_A@statistik.uni-bonn 2–52

• Man betrachtet metrische Merkmale mit nicht-negativen Ausprägungen

• Zur Vereinfachung: Meßwerte x1, . . . , xn bereitsgeordnet, d.h. x1 ≤ x2 ≤ · · · ≤ xn

• Gesamtmerkmalssumme:∑n

i=1 xi > 0

LorenzkurveFür die geordnete Urliste x1 ≤ x2 ≤ · · · ≤ xn

ergibt sich die Lorenzkurve als Streckenzug

durch die Punkte

(0, 0), (u1, v1), . . . , (un, vn) = (1, 1)

mit

uj =jn Anteil der Merkmalsträger,

vj =∑j

i=1 xi∑ni=1 xi

kumulierte relative Merkmalssumme

Statistik_A@statistik.uni-bonn 2–53

Beispiel: Marktkonzentration

Monatlicher Umsatz (in 1000 DM) der Möbelbranchein den Städten A, B und C:

Möbelhaus� Stadt A B C

1 40 180 60

2 40 5 50

3 40 5 40

4 40 5 30

5 40 5 20

o

o

o

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt A

Statistik_A@statistik.uni-bonn 2–54

oo

oo

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt B

o

o

o

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt C

Statistik_A@statistik.uni-bonn 2–55

Interpretation der Lorenzkurve:

• Für jeden Punkt (uj , vj): Auf uj · 100% der klein-sten Merkmalsträger entfallen vj · 100% der Ge-samtmerkmalssumme

• Nullkonzentration: Alle statistischen Einheitenbesitzen die gleiche Merkmalsausprägung.⇒ uj = vj für all j = 1, . . . , n

⇒ Die Lorenkurve ist eine Gerade durch den Null-punkt mit Steigung 45◦ (Diagonale)

• Maximale Konzentration: Die gesamte Merk-malssumme entfällt auf eine einzige statistischeEinheit, die restlichen n − 1 Einheiten besitzendie Merkmalsausprägung 0

⇒ vj = 0 für j = 1, . . . , n− 1

• Allgemein: Die Konzentration ist umso stärker,je mehr die berechnete Lorenzkurve von der Dia-gonale abweicht (d.h. je größer die Fläche zwi-schen Diagonale und Lorenzkurve)

Eigenschaften:• Die Lorenzkurve ist stückweise linear (maximaln−1 Knicke) und monoton wachsend (Monotonie)

• Die Lorenzkurve besitzt eine nach unten gerichte-te Wölbung (Konvexität)

Statistik_A@statistik.uni-bonn 2–56

Lorenzkurve bei Nullkonzentration

o

o

o

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Stadt A

Lorenzkurve bei maximaler Konzentration (n = 5)

0.0 0.2 0.4 0.6 0.8 1.0

u

0.0

0.2

0.4

0.6

0.8

1.0

v

Statistik_A@statistik.uni-bonn 2–57

Berechnung der Lorenzkurve aus Häufigkeitsdaten(a1 ≤ a2 ≤ · · · ≤ ak):

uj =

j∑i=1

hi/n =

j∑i=1

fi

vj =

∑ji=1 hiai∑ki=1 hiai

=

∑ji=1 fiai∑ki=1 fiai

Berechnung der Lorenzkurve für gruppierte Daten:

uj =

j∑i=1

fi

vj =

∑ji=1 fici∑ki=1 fici

Statistik_A@statistik.uni-bonn 2–58

Beispiel: Monatliche Haushaltsnettoeinkommen 1988,Bundesrepublik Deutschland (bis unter 25000 DM)

MHNE in DM Anteil der

Haushalte

fj

0 – 800 0,044

800 – 1400 0,166

1400 – 3000 0,471

3000 – 5000 0,243

5000 – 25000 0,076

Lorenzkurve:

0.0 0.2 0.4 0.6 0.8 1.0

u

0.0

0.2

0.4

0.6

0.8

1.0

v

Statistik_A@statistik.uni-bonn 2–59

Grundidee zur Definition eines (relativen) Konzen-trationsmaßes: Stärke der Konzentration entsprichtder Fläche zwischen Diagonale und Lorenzkurve

Gini-Koeffizient

G =Fläche zwischen Diagonale und Lorenzkurve

Fläche zwischen Diagonale und u-Achse= 2· Fläche zwischen Diagonale und Lorenzkurve

• Berechnung anhand der geordneten Urliste x1 ≤x2 ≤ · · · ≤ xn:

G =2∑n

i=1 ixi

n∑n

i=1 xi− n+ 1

n=

n+ 1

n− 2 · 1

n

n∑j=1

vj

• Berechnung aus Häufigkeitsdaten:

G =

∑ki=1(ui−1 + ui)fiai∑n

i=1 fiai= 1− 2 ·

k∑j=1

fj vj

mit vj =vj−1+vj

2

Statistik_A@statistik.uni-bonn 2–60

• Berechnung aus gruppierten Daten:

G =

∑ki=1(ui−1 + ui)fici∑n

i=1 fici− 1 = 1− 2 ·

k∑j=1

fj vj

mit vj =vj−1+vj

2

Extreme Ausprägungen des Gini-Koeffizienten:

• Gmin = 0 bei Nullkonzentration, x1 = x2 = · · · =xn

• Gmax = n−1n bei maximaler Konzentration, x1 =

x2 = · · · = xn−1 = 0, xn > 0

Normierter Gini-Koeffizient(Lorenz-Münzner-Koeffizient)

G∗ = GGmax

= nn−1G

Wertebereich: G∗ ∈ [0, 1]

Statistik_A@statistik.uni-bonn 2–61

Beispiel: Marktkonzentration

G G∗

Stadt A 0 0

Stadt B 0.7 0.875

Stadt C 0.2 0.25

Achtung! Unterschiedliche Lorenzkurven können aufden gleichen Gini-Koeffizienten führen:

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

o

o

o

u

v

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Statistik_A@statistik.uni-bonn 2–62

2.6.2 Absolute Konzentrationsmaße

• Relative Konzentrationsmaße (Gini-Koeffizient):”Wieviel Prozent der Merkmalsträger teilen sichwieviel Prozent der Merkmalssumme?”

• Absolute Konzentrationsmaße: ”Wieviele Merk-malsträger teilen sich wieviel Prozent der Merk-malssumme?”

Die Konzentrationsrate gibt an, welcher Anteil vonden g größten Merkmalsträgern gehalten wird:

Konzentrationsrate CRg

CRg =∑n

i=n−g+1 pi, wobei pi = xi∑nj=1 xj

den Merkmalsanteil der i-ten Einheit bezeichnet

Statistik_A@statistik.uni-bonn 2–63

Herfindahl-Index

H =∑n

i=1 p2i , wobei pi = xi∑n

j=1 xj

den Merkmalsanteil der i-ten Einheit bezeichnet

• Hmin = 1n bei Nullkonzentration, x1 = x2 = · · · =

xn

• Hmax = 1 bei maximaler Konzentration, x1 =

x2 = · · · = xn−1 = 0, xn > 0

• Wertebereich von H: 1n ≤ H ≤ 1

Beispiel: Marktkonzentration

H

Stadt A 0.2

Stadt B 0.8125

Stadt C 0.225

Statistik_A@statistik.uni-bonn 2–64