Statistik I - Skript - WS 2003 (Powered by de

31

Transcript of Statistik I - Skript - WS 2003 (Powered by de

Page 1: Statistik I - Skript - WS 2003 (Powered by de

TECHNISCHE UNIVERSITÄT DARMSTADTInstitut für VolkswirtschaftslehreEmpirische Wirtschaftsforschung und MakroökonometrieProf. Dr. Uwe Hassler Sommersemester 03

Kurzskript zu Statistik I

Warnung: Die vorliegenden Seiten sind nur als kommentierte Formelsammlung zu verstehen. Sie sindbewuÿt knapp gehalten und ersetzen keinesfalls ein umfangreicheres Skript oder Lehrbuch.

Inhaltsverzeichnis1 Einführung 1

2 Darstellung und Beschreibung statistischer Daten 12.1 Grundbegrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Häugkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2.1 Diskrete Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2.2 Stetige Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.3 Maÿzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3.1 Lagemaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3.2 Streuungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.4 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.5 Bivariate Häugkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.6 Streudiagramm und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.7 Zufallsprinzip und Stichprobenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Wahrscheinlichkeitsrechnung 83.1 Zufallsvorgang und Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2 Verknüpfungen von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.3 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.5 Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4 Zufallsvariablen und Verteilungen 114.1 Grundbegrie und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.2 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.3 Stetige Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.4 Theoretische Maÿzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Page 2: Statistik I - Skript - WS 2003 (Powered by de

4.4.1 Lage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.4.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.5 Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.5.1 Diskrete Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.5.2 Stetige Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.6 Mehr zur Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.7 Summen und Mittel von Stichprobenvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 164.8 Asymptotische (approximative) Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . 17

5 Parameterschätzung 185.1 Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.2 Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5.2.1 Erwartungstreue und Ezienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.2.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5.3 Konstruktion von Schätzfunktionen (Momentenmethode) . . . . . . . . . . . . . . . . . . 21

6 Kondenzintervalle 216.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216.2 Kondenzintervalle für den Erwartungswert µ bei Normalverteilung . . . . . . . . . . . . . 226.3 Kondenzintervalle für einen Anteilswert p . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

7 Statistische Tests 257.1 Prinzipien des Testens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257.2 Tests auf µ bei Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277.3 Test auf einen Anteilswert p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297.4 Zweiseitige Tests und Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Literatur:

Bamberg, G., Baur, F., Statistik. 11. Au., Oldenbourg, 2000.Bleymüller, J., Gehlert, G., Gülicher, H., Statistik für Wirtschaftswissenschaftler. 10. Au., Vahlen, 1996.Fahrmeir, Künstler, Pigeot, Tutz, Statistik: Der Weg zur Datenanalyse. 2. Au., Springer, 1999.Hartung, J., Statistik. Lehr- und Handbuch der angewandten Statistik. 11. Au., Oldenbourg, 1998.Heike, H.-D., C. Tarcolea, Grundlagen der Statistik und Wahrscheinlichkeitsrechnung. Oldenbourg, 2000.Krämer, W., So lügt man mit Statistik. Campus, 1997.Lehn, J., Wegmann, H., Einführung in die Statistik. 3., überarbeitete Auage, Teubner, 2000.Lehn, J., Wegmann, H., Rettig, S., Aufgabensammlung zur Einführung in die Statistik. 2. Au., Teubner,1994.Mittelhammer, R. C., Mathematical Statistics for Economics and Business. Springer, 1996.Schlittgen, R., Einführung in die Statistik: Analyse und Modellierung von Daten. 9. Au., Oldenbourg,1999.

Page 3: Statistik I - Skript - WS 2003 (Powered by de

1 EinführungDie Statistik hat einen schlechten Ruf, den folgende Polemiken zum Ausdruck bringen:• Glaube keiner Statistik, die du nicht selbst gefälscht hast. Volksmund,• There are three kinds of lies: lies, damned lies, and statistics. Benjamin Disraeli.Dies ist wohl darin begründet, daÿ wir Statistik häug nutzen wie Betrunkene einen Laternenpfahl: vorallem zur Stütze unseres Standpunktes und weniger zum Beleuchten eines Sachverhalts, Andrew Lang.Andererseits erfreut sich die Statistik auch von unvermuteter Seite groÿer Wertschätzung:• Man hat behauptet, die Welt werde durch Zahlen regiert: das aber weiÿ ich, daÿ die Zahlen uns belehren,ob sie gut oder schlecht regiert werde. Goethe, Gespräche mit Eckermann,• A basic literacy in statistics will one day be as necessary for ecient citizenship as the ability to readand write. H.G. Wells.Tatsache ist, daÿ Statistik in vielen Bereichen des täglichen Lebens sowie der Wirtschaft und Wissenschaftzur Anwendung kommt. Einige Beispiele sind:• Mietspiegel• Einschaltquote beim Fernsehen• Wahlhochrechnungen• Analyse von Finanzmärkten• Marktforschung• Prognose des Wirtschaftswachstums• WetterDabei gibt es den Begri Statistik in einem doppeltem Wortsinn. Er wird zum einen im Sinne derAnsammlung quantitativer Informationen über bestimmte Sachverhalte verwendet, z.B. Arbeitslosensta-tistik, zum anderen als Begri für Methoden zur Erhebung, Darstellung und Analyse von Daten. DiesenMethoden sind die Lehrveranstaltungen Statistik I und II gewidmet. Im Prinzip haben wir• beschreibende oder deskriptive Statistik: Darstellung von Daten,• schlieÿende oder induktive Statistik: Statistische Schluÿfolgerungen auf der Basis von Modellen.Diese Unterscheidung erscheint in der Praxis oft künstlich, weil es von der Deskription zur Indukitonhäug nur ein (gewagter?) Schritt ist.

2 Darstellung und Beschreibung statistischer DatenNach der Klärung einiger Grundbegrie werden wir Häugkeitsverteilungen, Lage- und Streuungsmaÿeund Boxplots kennenlernen, die allgemein geeignet sind, in Daten vorhandene Information zu verdichten.Eine solche Informationsverdichtung ist üblicherweise der erste Schritt zu einem Schluÿ auf unbekannteEigenschaften einer interessierenden Grundgesamtheit. Danach wenden wir uns kurz ersten Verfahren zu,wie man Zusammenhänge zwischen mehreren Gröÿen messen kann.

2.1 Grundbegrie

Die Grundgesamtheit ist die Menge aller Personen, Einheiten oder Objekte, die im Hinblick auf einbestimmtes Untersuchungsziel relevant sind. Ein einzelnes Element dieser Grundgesamtheit heiÿt Merk-malsträger, und die interessierenden Eigenschaften werden als Merkmale oder Variablen bezeichnet und

1

Page 4: Statistik I - Skript - WS 2003 (Powered by de

häug mit X notiert. Ein konkreter Wert eines Merkmals heiÿt Merkmalsausprägung oder Realisation.Als Rohdaten bezeichnet man nicht geordnete, in der Erhebungsreihenfolge gegebene Daten (oder Beob-achtungen) x1, . . . , xn. Die Anzahl der Daten n wird gern als Stichprobenumfang bezeichnet. Ein geord-neter Datensatz beinhaltet der Gröÿe nach sortierte Beobachtungen, x(1) ≤ x(2) ≤ . . . ≤ x(n).Die Natur der Variablen bestimmt die statistischen Analysemöglichkeiten. Wir unterscheiden zwischendiskreten und stetigen Variablen:• diskret: endlich bzw. abzählbar viele Ausprägungen,

• stetig: alle Werte eines Intervalls möglich.Überdies ist das Skalenniveau eines Merkmals maÿgeblich:• nominal: reine Klasseneinteilung,

• ordinal: Ordnungsstruktur,

• metrisch: sinnvolle Abstände.Schlieÿlich können Merkmale eindimensional (oder univariat, z.B. Gewicht einer Person) oder mehrdi-mensional (z.B. bivariat, Gewicht und Körpergröÿe) sein.

2.2 Häugkeitsverteilungen

In diesem Abschnitt gehen wir von einem eindimensionalen Datensatz aus. Dieser kann in einer Häug-keitstabelle oder auch in Form einer Graphik dargestellt werden. Die Vorgehensweise ist für diskrete undstetige Variablen unterschiedlich, da man im diskreten Fall die Ausprägungen einzeln betrachten kann,während im stetigen Fall die Ausprägungen in Klassen eingeteilt werden. Hat eine diskrete Variable sehrviele einzelne Ausprägungen, so wird sie oft so behandelt, als wäre sie stetig. Genauso kann es auch sein,daÿ aufgrund einer sehr groben Messung ein stetiges Merkmal als diskret interpretiert wird.

2.2.1 Diskrete Merkmale

Wir betrachten ein diskretes Merkmal X mit den Ausprägungen1 x1, . . . , xk, wobei k die Anzahl derverschiedenen Realisationsmöglichkeiten ist, und einen dazu gehörigen Datensatz vom Umfang n.Die Anzahl der vorkommenden xi ist die absolute Häugkeit. Sie wird mit n(X = xi) oder ni bezeichnet.Setzt man die absolute Häugkeit in Relation zum Umfang des Datensatzes, so erhält man die relativeHäugkeit oder den Anteil der xi. Bezeichnet wird die relative Häugkeit mit h(X = xi) = hi = ni/n. Diekumulierte, relative Häugkeit ist in der Form h(X ≤ xi) =

∑ij=1 hj deniert, für x1 < x2 < · · · < xk.

Zusammengefaÿt werden die Häugkeiten in einer Häugkeitstabelle, wobei der Ausdruck F (xi) erstnachfolgend deniert wird:

i xi ni hi

∑ij=1 hj = F (xi)

......

......

...

Um sich schnell einen Überblick über die Häugkeitsverteilung eines Merkmals zu verschaen, ist diegraphische Darstellung der Daten sehr sinnvoll. Dabei gibt es eine Vielzahl von Möglichkeiten. Bei einemStab- bzw. Balkendiagramm werden auf der horizontalen Achse die Merkmalsausprägungen abgetragen

1Es besteht die Gefahr, die k Realisationsmöglichkeiten mit den n Realisationen notationell zu verwechseln; trotzdemschiene es etwas übertrieben, für die Ausprägungen ein eigenes Symbol einzuführen.

2

Page 5: Statistik I - Skript - WS 2003 (Powered by de

und auf der vertikalen Achse die relativen (oder absoluten) Häugkeiten in Form von Stäben oder Balken.Beim Kreis- bzw. Tortendiagramm entsprechen die Flächen der Kreissektoren bzw. der Tortenstückeden Häugkeiten.Um die kumulierten, relativen Häugkeiten graphisch darzustellen, muÿ man h(X ≤ x) für jeden x-Wertin ein Diagramm zeichnen. Das führt auf die empirische Verteilungsfunktion, die folgendermaÿen deniertist für x1 < x2 < . . . < xk :

F (x) = h(X ≤ x) =

0 für x < x1

∑ij=1 hj für xi ≤ x < xi+1, i = 1, . . . , k − 1

1 für x ≥ xk

Im diskreten Fall ist die empirische Verteilungsfunktion eine Treppenfunktion. Sie ist monoton steigendund beschränkt zwischen 0 und 1.

2.2.2 Stetige Merkmale

Es werde nun ein stetiges Merkmal X betrachtet. Die Realisationen dieser Variablen sind in k Klasseneingeteilt:

(x∗0, x∗1], (x

∗1, x

∗2], (x

∗2, x

∗3], . . . , (x

∗k−1, x

∗k].

Die Anzahl der Realisationen in der i-ten Klasse (x∗i−1, x∗i ] ist die absolute Häugkeit. Sie wird analog

zum diskreten Fall mit ni oder n(x∗i−1 < X ≤ x∗i ) bezeichnet. Die relative Häugkeit ergibt sich wiederumaus der Division durch n, den Umfang des Datensatzes, und beschreibt den Anteil der Realisationen inder i-ten Klasse: hi = ni/n. Die kumulierte, relative Häugkeit ist durch h(X ≤ x∗i ) =

∑ij=1 hj deniert.

Da bei unterschiedlichen Klassenbreiten relative Häugkeiten für die graphische Darstellung wenig aus-ssagekräftig sind, werden beim Übergang zur Häugkeitsdichte f die relativen Häugkeiten hi durch dieKlassenbreiten ∆i = x∗i − x∗i−1 dividiert. Die Häugkeitsdichte ist damit wie folgt deniert:

f(x) =

h(x∗i−1 < X ≤ x∗i )/∆i für x∗i−1 < x ≤ x∗i , i = 1, . . . , k

0 sonst

Damit ergibt sich zusammengefaÿt die nachstehende Häugkeitstabelle:

i x∗i−1 < X ≤ x∗i ni hi ∆i f(x)∑i

j=1 hj = F (x∗i )...

......

......

......

Das Histogramm ist die graphische Darstellung der Häugkeitsdichte f , die auf der vertikalen Achseabgetragen wird. Die x-Werte benden sich auf der horizontalen Achse des Koordinatensystems. Eswerden beim Histogramm Blöcke der Fläche hi und der Breite ∆i auf die Klassenmitten der Klassengestellt, in die die jeweiligen Beobachtungen fallen.Die empirische Verteilungsfunktion bei klassierten Daten ist deniert durch:

F (x) = h(X ≤ x) =

0 für x ≤ x∗0∑i−1

j=1 hj + (x− x∗i−1) · f(x∗i ) für x∗i−1 < x ≤ x∗i , i = 1, . . . , k

1 für x > x∗k

3

Page 6: Statistik I - Skript - WS 2003 (Powered by de

Für die Klassenobergrenzen x∗i , i = 1, . . . , k, entspricht F (x∗i ) den kumulierten, relativen Häugkeiten∑ij=1 hj , wie auch schon der Häugkeitstabelle zu entnehmen ist. Eine andere Darstellung der empirischen

Verteilungsfunktion ist

F (x) = F (x∗i−1) + (x− x∗i−1) · f(x∗i ) für x∗i−1 < x ≤ x∗i , i = 1, . . . , k.

Die empirische Verteilungsfunktion ist eine stetige, aus Geradenstücken zusammengesetzte, monotonwachsende Funktion mit Werten zwischen 0 und 1.

2.3 Maÿzahlen

Zur Beschreibung der Häugkeitsverteilung eines Merkmals sind aber nicht nur die Häugkeitstabel-len und entsprechende graphische Darstellungen wichtig, sondern auch Maÿzahlen, die beschreiben, umwelchen Wert herum sich die Verteilung bendet (Lage) und wie die Werte schwanken (Streuung).Weiterhin wird ein eindimensionales Merkmal unterstellt.

2.3.1 Lagemaÿe

Das arithmetisches Mittel x (Mittelwert oder Durchschnitt) ist die bekannteste Maÿzahl zur Beschreibungder Lage einer Verteilung. Es wird je nach Datengrundlage auf folgende Weise berechnet:

x =1n

n∑

i=1

xi (aus Rohdaten)

x ≈k∑

i=1

mi · hi (aus Häugkeitstabelle, stetig, approximativ),

wobei mi die Klassenmitte der i-ten Klasse ist: mi =x∗i−1 + x∗i

2.

Für das arithmetische Mittel gelten folgende Regeln:• Lineartransformation der Daten yi = a + b xi, i = 1, . . . , n : y = a + b x

• Summe von Daten in der Form zi = xi + yi, i = 1, . . . , n : z = x + y

Ein weiteres Lagemaÿ ist der Median oder 50%-Punkt, x0.50 . Er halbiert den geordneten Datensatzx(1), . . . , x(n). Bei ungeradem Umfang n ist der Median der mittlere Wert im geordneten Datensatz undbei geradem n der Mittelwert aus den beiden mittleren Werten.

x0.5 =

x((n+1)/2) n ungerade12 (x(n/2) + x(n/2+1)) n gerade

Im Unterschied zum arithmetischen Mittel x ist der Median robuster gegenüber Ausreiÿern in den Datenund für die Beschreibung der Lage einer Verteilung in vielen Fällen besser geeignet.

2.3.2 Streuungsmaÿe

Die mittlere quadratische Abweichung d2 ist ein Maÿ für die Streuung der Daten, wobei Streuung einrelativer Begri ist und der numerische Wert von der Skalierung des Merkmals abhängt. Formal handelt

4

Page 7: Statistik I - Skript - WS 2003 (Powered by de

es sich um das arithmetische Mittel der quadrierten, um x zentrierten Daten. Je nach Datengrundlagewird d2 gemäÿ folgender Formeln berechnet:

d2 =1n

n∑

i=1

(xi − x)2 (aus Rohdaten)

d2 ≈k∑

i=1

(mi − x)2 · hi (aus Häugkeitstabelle, stetig, approximativ),

wobei mi wiederum die Klassenmitte der i-ten Klasse ist.In vielen Fällen lassen sich mittlere quadratische Abweichungen besser mit der folgenden Zerlegungsformelberechnen.

d2 = x2 − x2,

wobei x2 das arithmetische Mittel der quadrierten Daten ist, d.h. x2 = 1n

∑ni=1 x2

i für die Rohdaten undanalog für die Berechnung aus Häugkeitstabellen.Bei linearen Transformationen der Daten in der Form yi = a + b xi gilt für die mittlere quadratischeAbweichung:

d2y = b2d2

x

2.4 Quantile

Betrachtet man nicht nur den Median oder 50%-Punkt, sondern beliebige Prozentpunkte oder Quantile,so bendet man sich sowohl bei einer Lage- als auch zum Teil schon bei einer Streuungsbetrachtung derVerteilung.Für die Rohdaten seien an dieser Stelle nur der 25%-Punkt (unteres Quartil) x0.25 und der 75%-Punkt(oberes Quartil) x0.75 erwähnt. Um diese Werte zu bestimmen, geht man folgendermaÿen vor. Der Daten-satz wird halbiert, wobei im Falle eines ungeraden Stichprobenumfangs n, der Median der Daten sowohlder untere Datenhälfte als auch der oberen Datenhälfte zugeschlagen wird. Das untere Quartil x0.25 istdann der Median der unteren Hälfte des Datensatzes und das obere Quartil x0.75 der Median der oberenHälfte.Für klassierte Daten werden beliebige Prozentpunkte oder p-Quantile betrachtet. Für 0 < p ≤ 1 undF (x∗i−1) < p ≤ F (x∗i ) ergibt sich das p-Quantil in der folgenden Form:

xp = x∗i−1 +p− F (x∗i−1)

f(x∗i ).

Ein weiteres Streuungsmaÿ ist der sog. Interquartilsabstand

IQR = x0.75 − x0.25,

der wie auch schon der Median im Vergleich zum Mittelwert bei Ausreiÿern robuster als die mittlerequadratische Abweichung ist.

Der Boxplot ist eine übersichtliche graphische Darstellungsform eines univariaten Datensatzes. Man be-kommt unter anderem einen Eindruck über Lage, Streuung und Schiefe von Daten sowie insbesondere

5

Page 8: Statistik I - Skript - WS 2003 (Powered by de

beim Vergleich mehrerer Datensätze über Unterschiede hinsichtlich dieser Merkmale. Die grundlegen-de Form des Boxplots basiert auf fünf Kennzahlen eines Datensatzes, dem Minimum x(1), dem unterenQuartil x0.25, dem Median x0.50, dem oberen Quartil x0.75 und dem Maximum x(n). Diese Werte sind auseinem geordneten Datensatz ohne groÿe Rechnung leicht zu bestimmen. Durch die Art der graphischenDarstellung und die leichte Berechenbarkeit ermöglicht es einem der Boxplot, schnell einen eektivenÜberblick über die Daten zu bekommen. Das Grundschema eines Boxplots sieht folgendermaÿen aus:

x(1) x0.25 x0.50 x0.75 x(n)

x

Vom unteren bis zum oberen Quartil wird eine Schachtel (box) gezeichnet. Diese wird durch den Medianunterteilt. Vom unteren Quartil bis zum Minimum sowie vom oberen Quartil bis zum Maximum zeichnetman Schnurrhaare (engl: whisker). Boxplot ist nämlich eigentlich die Kurzform von Box-and-Whisker-Plot.

2.5 Bivariate Häugkeitsverteilungen

An jeweils einem Objekt werden nunmehr zwei diskrete Merkmale X und Y mit relativ wenigen Ausprä-gungen gemessen. Es liegen also n Beobachtungspaare vor. Die gemeinsame Verteilung wird in Form einerzweidimensionalen Häugkeitstabelle, auch Kontingenztabelle oder Kreuztabelle genannt, betrachtet.Für die Häugkeiten wählen wir die folgende Notation, wobei X die Realisationen x1, . . . , xk und Y dieAusprägungen y1, . . . , ym hat:

• absolute Häugkeit:nij = n(X = xi, Y = yj)

• relative Häugkeit:hij = h(X = xi, Y = yj) = nij/n

• absolute Randhäugkeit:ni• = n(X = xi) =

∑mj=1 nij (i-te Zeile) und

n•j = n(Y = yj) =∑k

i=1 nij (j-te Spalte)

• relative Randhäugkeit:hi• = h(X = xi) =

∑mj=1 hij (i-te Zeile) und

h•j = h(Y = yj) =∑k

i=1 hij (j-te Spalte)

In der Kontingenztabelle sind noch einmal exemplarisch die absoluten Häugkeiten in allgemeiner Formdargestellt.

6

Page 9: Statistik I - Skript - WS 2003 (Powered by de

X\Y y1 y2 . . . ym Σ

x1 n11 n12 . . . n1m n1•

x2 n21 n22 . . . n2m n2•...

...... . . . ...

...

xk nk1 nk2 . . . nkn

Page 10: Statistik I - Skript - WS 2003 (Powered by de

• −1 ≤ r ≤ 1 (Normierung),

• r = 1 :Die Punkte liegen exakt auf einer steigenden Geraden (perfekter positiv linearer Zusammenhang),

• r = −1 :Die Punkte liegen exakt auf einer fallenden Geraden (perfekter negativ linearer Zusammenhang),

• r = 0 :Es besteht kein linearer Zusammenhang, aber möglicherweise trotzdem ein nicht-linearer Zusam-menhang zwischen X und Y .

Je stärker der (positive oder negative) lineare Zusammenhang zwischen zwei Variablen ist, desto gröÿer istder Absolutbetrag des Korrelationskoezienten. Es sei nochmals betont, daÿ die Korrelation lediglich einMaÿ für den linearen Zusammenhang von zwei Merkmalen darstellt, und daÿ darüber hinaus Korrelationund Kausalität nicht gleichgesetzt werden dürfen.

2.7 Zufallsprinzip und Stichprobenauswahl

Interessiert ist man eigentlich an der Grundgesamtheit. Eine Totalerhebung aber kann• zu aufwendig (Zeit oder Geld) oder

• technisch unmöglich (Alkoholkontrolle!)sein. Deshalb werden typischerweise nur Stichproben gezogen. Dabei ist darauf zu achten, daÿ die Stich-probe repräsentativ für die Grundgesamtheit ist und zufällig erhoben wird. Natürlich ist dann der sta-tistische Schluÿ von der Stichprobe auf die Grundgesamtheit mit Unsicherheit behaftet. Wie kann dieseUnsicherheit quantiziert werden? Wie groÿ muÿ der Stichprobenumfang sein, damit die Unsicherheitinnerhalb vorgegebener Grenzen bleibt? Die Beantwortung solcher Fragen verlangt Grundbegrie derWahrscheinlichkeitsrechnung als Fundament für die Erfassung des Zufalls.

3 Wahrscheinlichkeitsrechnung

3.1 Zufallsvorgang und Ereignisse

Ein Zufallsvorgang führt zu einem von mehreren, sich gegenseitig ausschlieÿenden Ergebnissen. Vor derDurchführung ist ungewiÿ, welches Ergebnis tatsächlich eintreten wird. Von einem Zufallsexperimentspricht man, wenn der Vorgang unter gleichen Randbedingungen wiederholbar ist. Die ErgebnismengeΩ = ω1, ω2, . . . ist die Menge aller möglichen Ergebnisse ωi eines Zufallsvorgangs. Teilmengen von Ω

heiÿen Ereignisse und die speziellen Teilmengen ωi Elementarereignisse.

3.2 Verknüpfungen von Ereignissen

Weil Ereignisse im mathematischen Sinne Mengen sind, bedarf es Kenntnisse der Mengenlehre, um mitEreignissen operieren zu können. Einige Ereignisse als Mengen bzw. als Verknüpfungen von Mengen seienan dieser Stelle vorgestellt:

8

Page 11: Statistik I - Skript - WS 2003 (Powered by de

Leere Menge: oder ∅ Unmögliches Ereignis

Teilmenge: A ⊆ B = x |x ∈ A ⇒ x ∈ B Wenn A eintritt, tritt auch B ein

Komplementärmenge: A = x |x 6∈ A A tritt nicht ein

Schnittmenge: A ∩B = x |x ∈ A und x ∈ B A und B treten ein

A ∩B = ∅ A und B schlieÿen sich gegenseitig aus bzw.

A und B sind disjunkt

Vereinigungsmenge: A ∪B = x |x ∈ A oder x ∈ B Mindestens eines der Ereignisse A und B

tritt ein

Dierenzmenge: A \B = x |x ∈ A und x 6∈ B A tritt ein, aber nicht BAuÿerdem seien hier noch einmal kurz einige Rechenregeln für Mengen dargestellt:Kommutativgesetz: A ∩B = B ∩A, A ∪B = B ∪A

Assoziativgesetz: (A ∩B) ∩ C = A ∩ (B ∩ C)

(A ∪B) ∪ C = A ∪ (B ∪ C)

Distributivgesetz: A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C)

A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C)

Regel von de Morgan: (A ∪B) = A ∩B

(A ∩B) = A ∪B

3.3 Wahrscheinlichkeiten

Vor der Durchführung eines Zufallsvorganges ist ungewiÿ, ob ein bestimmtes Ereignis eintreten wird odernicht. Allerdings möchte man in vielen Fällen etwas über die Chance für das Eintreten eines bestimmtenEreignisses sagen können. Die Chance wird dabei mit einer Zahl bewertet. Diese Bewertung durch eineZahl bezeichnet man als Wahrscheinlichkeit, wenn sie bestimmten Anforderungen, den Axiomen vonKolmogorov, genügt. Wir bezeichnen die Wahrscheinlichkeit für das Eintreten eines Ereignisses A mitP(A).Axiome von Kolmogorov:1) P(A) ≥ 0,

2) P(Ω) = 1,

3) P(A ∪B) = P(A) + P(B), falls A ∩B = ∅.Die Axiome von Kolmogorov lassen sich dadurch motivieren, daÿ man sich die Wahrscheinlichkeit fürdas Eintreten eines Ereignisses A als die Zahl vorstellt, gegen welche die relative Häugkeit h(A) beiwachsender Zahl von Wiederholungen eines Zufallsexperiments konvergiert.

Aus den Axiomen lassen sich Rechenregeln für Wahrscheinlichkeiten ableiten:

9

Page 12: Statistik I - Skript - WS 2003 (Powered by de

a) P(∅) = 0

b) P(A) = 1− P(A)

c) P(A) ≤ P(B), falls A ⊆ B

d) P(A ∪B) = P(A) + P(B)− P(A ∩B)

e) P(A ∩B) = P(A \B) = P(A)− P(A ∩B)

Von besonderer Bedeutung in vielen Anwendungen ist ein Zufallsexperiment mit Ω = ω1, . . . , ωN,bei dem alle Elementarereignisse gleichwahrscheinlich sind, d.h. P(ωi) = 1

N gilt. Es wird als Laplace-Experiment oder auch als Gleichmöglichkeitsmodell bezeichnet. Für die Laplace-Wahrscheinlichkeit einesEreignisses A gilt:

P(A) =|A||Ω| =

Anzahl der für A günstigen ErgebnisseAnzahl aller möglichen Ergebnisse (N)

.

3.4 Bedingte Wahrscheinlichkeiten

Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung des Eintretens des EreignissesB, mit P(B) > 0, ist

P(A |B) =P(A ∩B)P(B)

.

Die Axiome von Kolmogorov gelten entsprechend für bedingte Wahrscheinlichkeiten P(• |B).Aus der Denition der bedingten Wahrscheinlichkeit folgt unmittelbar der sog. Multiplikationssatz :

P(A ∩B) = P(A |B) · P(B).

Man spricht von einer disjunkten Zerlegung der Ergebnismenge Ω, wenn Ω = A1 ∪ A2 ∪ . . . ∪ Ak gilt,wobei Ai ∩Aj = ∅ für alle i 6= j, d.h. je zwei Mengen sind immer paarweise disjunkt.Beim Satz der totalen Wahrscheinlichkeit geht man davon aus, daÿ A1, . . . , Ak eine disjunkte Zerlegungvon Ω darstellt, wobei P(Ai) > 0 für alle i ist. Dann gilt für B ⊂ Ω:

P(B) =k∑

i=1

P(B |Ai) · P(Ai).

In engem Zusammenhang mit dem Satz der totalen Wahrscheinlichkeit steht der Satz von Bayes, der wiefolgt lautet:

P(Aj |B) =P(B |Aj)P(Aj)∑ki=1 P(B |Ai)P(Ai)

=P(B |Aj)P(Aj)

P(B), j = 1, . . . , k,

wobei P(B) > 0 gilt.

3.5 Unabhängigkeit zweier Ereignisse

Zwei Ereignisse A und B, mit P(A) > 0 und P(B) > 0, heiÿen (stochastisch) unabhängig, wenn gilt:

P(A ∩B) = P(A) · P(B) bzw.

P(A |B) = P(A) bzw.

P(B |A) = P(B).

10

Page 13: Statistik I - Skript - WS 2003 (Powered by de

4 Zufallsvariablen und Verteilungen

4.1 Grundbegrie und Beispiele

In vielen Fällen ist man nicht an den eigentlichen Ergebnissen eines Zufallsvorgangs interessiert, sonderneher an Zahlen, die mit den Ergebnissen verbunden sind. Eine Abbildung X, die jedem Ergebnis ω derErgebnismenge Ω genau eine Zahl x ∈ R zuordnet, heiÿt Zufallsvariable. Für das Ereignis X nimmt denWert x an schreiben wir

X = x = ω |ω ∈ Ω und X(ω) = x.

Analog lassen sich weitere Ereignisse wie X ≤ x darstellen. Als Verteilungsfunktion F der Zufallsvaria-blen X bezeichnen wir die Abbildung, die jedem reellen x folgende Wahrscheinlichkeit zuordnet:

F (x) = P(X ≤ x), x ∈ R.

Denitionsgemäÿ gilt, daÿ die Verteilungsfunktion1) monoton wächst, d.h. x1 < x2 ⇒ F (x1) ≤ F (x2),

2) durch 0 und 1 beschränk ist: 0 ≤ F (x) ≤ 1.Genau wie bei Merkmalen unterscheiden wir diskrete und stetige Zufallsvariablen. Eine Zufallsvariableheiÿt diskret, wenn sie nur endlich viele Werte annehmen kann, oder nur soviele, wie es natürliche Zahlengibt; stetig heiÿt sie dagegen, wenn sie alle Werte aus einem reellen Intervall annehmen kann.

4.2 Diskrete Zufallsvariablen

Die Wahrscheinlichkeitsfunktion f(x) einer diskreten Zufallsvariablen X mit den Realisationen x1, x2, . . .

ist für x ∈ R deniert durch:

f(x) =

P(X = xi) = pi x = xi ∈ x1, x2, . . .0 sonst

.

Durch die Wahrscheinlichkeitsfunktion läÿt sich die Verteilungsfunktion für eine diskrete ZufallsvariableX berechnen als:

F (x) = P(X ≤ x) =∑

xi≤x

f(xi).

Die Verteilungsfunktion einer diskreten Zufallsvariablen ist eine rechtsseitig stetige Treppenfunktion. DieHöhe des Sprungs, den die Verteilungsfunktion F an der Stelle a macht, ist gleich der WahrscheinlichkeitP(X = a).

4.3 Stetige Variablen

Bei einer stetigen Variablen ist jeder Zwischenwert aus einem Intervall [ a, b ] als Realisation möglich;dabei können die Intervallgrenzen auch ∞ bzw. −∞ sein (wobei es sich dann natürlich um oene In-tervalle handelt). Da eine stetige Zufallsvariable also überabzählbar viele Werte annehmen kann, ist zurBerechnung einer Wahrscheinlichkeit P(x1 < X ≤ x2) ein Aufsummieren einzelner Wahrscheinlichkeitennicht möglich. Statt dessen berechnet man Wahrscheinlichkeiten durch Integrale.

11

Page 14: Statistik I - Skript - WS 2003 (Powered by de

Die Funktion f(x) sei stetig und für alle x ∈ R nicht negativ. Dann heiÿt f (Wahrscheinlichkeits-)Dichte(oder Dichtefunktion) von X, falls für beliebige Zahlen x1 < x2 gilt:

P(x1 < X ≤ x2) =∫ x2

x1

f(x) dx.

In Analogie zum Histogramm, bei dem die Fläche der einzelnen Blöcke die relativen Häugkeiten reprä-sentiert, entspricht nun die Fläche unter der Dichtefunktion der Wahrscheinlichkeit.Eigenschaften der Dichtefunktion:

a) f(x) ≥ 0

b)∫ +∞

−∞f(x) dx = 1

Für eine stetige Zufallsvariable X gilt:

P(x1 ≤ X ≤ x2) = P(x1 < X ≤ x2) = P(x1 ≤ X < x2) = P(x1 < X < x2)

undP(X = x) = 0 für jedes x ∈ R.

Die Verteilungsfunktion einer stetigen Zufallsvariablen X berechnet sich wie folgt:

F (x) = P(X ≤ x) =∫ x

−∞f(t) dt.

4.4 Theoretische Maÿzahlen

In Analogie zur Empirie unterscheiden wir auch in der Theorie wiederum Maÿzahlen für die Lage unddie Streuung einer Verteilung.

4.4.1 Lage

Der Erwartungswert E(X) bzw. µx einer Zufallsvariablen X, dessen empirisches Pendant das arithmetischeMittel x ist, wird für den diskreten und stetigen Fall folgendermaÿen deniert:

E(X) =k∑

i=1

xiP(X = xi) (diskret),

E(X) =∫ ∞

−∞xf(x) dx (stetig),

wobei im diskreten Fall durchaus k = ∞ sein kann. Der Erwartungswert hat folgende Eigenschaften:• Lineartransformation Y = a + bX : E(Y ) = E(a + bX) = a + bE(X),

• Summe zweier Zufallsvariablen, Z = X + Y : E(Z) = E(X + Y ) = E(X) + E(Y ).

Als weiteres Lagemaÿ hatten wir in der Empirie den Median oder 50%-Punkt kennengelernt, der auchin analoger Weise in der Theorie deniert ist. Allerdings betrachten wir an dieser Stelle gleich beliebigeQuantile oder Prozentpunkte xp, die in der Empirie ebenfalls existieren. Wir beschränken uns aber aufstetige Zufallsvariablen:

F (xp) =∫ xp

−∞f(t) dt = p, 0 < p < 1.

Der Median ist demnach x0.50, von unterem und oberem Quartil (25%- und 75%-Punkt) spricht man fürx0.25 und x0.75.

12

Page 15: Statistik I - Skript - WS 2003 (Powered by de

4.4.2 Streuung

Die Varianz Var(X) bzw. σ2x einer Zufallsvariablen X als Maÿ für die Streuung ist für diskrete und stetige

Zufallsvariablen wie folgt deniert:

Var(X) =k∑

i=1

(xi − E(X))2P(X = xi) (diskret),

Var(X) =∫ ∞

−∞(x− E(X))2f(x) dx (stetig),

wobei wieder k = ∞ zugelassen ist. Motivieren läÿt sich diese Denition genauso wie die der mittlerenquadratischen Abweichung d2

x, die das empirische Analogon zur Varianz darstellt. Wie bei der mittlerenquadratischen Abweichung gilt der entsprechende Zerlegungssatz:

Var(X) = E(X2)− E(X)2.

Die Varianz hat folgende Eigenschaften:

• Lineartransformation einer Zufallsvariablen Y = a + bX : Var(Y ) = Var(a + bX) = b2Var(X),

• Summe von zwei unabhängigen Zufallsvariablen X und Y in der Form Z = X + Y :Var(Z) = Var(X + Y ) = Var(X) + Var(Y ).

Um die Quadrierung in der Formel der Varianz zu relativieren und ein gut interpretierbares Maÿ für dieStreuung zu erhalten, ist es sinnvoll die Standardabweichung σx zu betrachen:

σx =√

Var(X).

Ein ebenfalls schon in Abschnitt 2 eingeführtes Streuungsmaÿ ist der Interquartilsabstand. Seine Denitionlautet: IQR = x0.75 − x0.25.

Eine weitere Möglichkeit, die Sreuung einer speziell stetigen Zufallsvariablen zu messen, ist das zentraleSchwankungsintervall zum Niveau 1−α. In Worten ist dieses so deniert: mit Wahrscheinlichkeit α wer-den Werte auÿerhalb des Schwankungsintervalls angenommen werden, und genauer: jeweils mit Wahr-scheinlichkeit α/2 treten kleinere Werte als die untere Intervallgrenze und Werte oberhalb der oberenIntervallgrenze auf. Mittels der Quantile xα/2 und x1−α/2 mit

P(X < xα/2) = P(X > x1−α/2) = α/2, 0 < α < 1,

ist daher das zentrale Schwankungsintervall einer stetigen Zufallsvariablen gerade durch[xα/2, x1−α/2

]

gegeben.

4.5 Verteilungsmodelle

Es sollen nun einige wichtige, in der Praxis häug eingesetzte Verteilungsmodelle betrachtet werden. DieDarstellung der Verteilungen enthält überblicksartig das Verteilungssymbol, die jeweilige Wahrscheinlichkeits-oder Dichtefunktionen sowie Formeln für den zugehörigen Erwartungswert und die Varianz.

13

Page 16: Statistik I - Skript - WS 2003 (Powered by de

4.5.1 Diskrete Verteilungsmodelle

Diskrete Gleichverteilung (für die ersten k natürlichen Zahlen 1, 2, . . . , k)

X ∼ DG(k)

P(X = x) =1k

mit x = 1, 2, . . . k

E(X) =k + 1

2und Var(X) =

k2 − 112

Bernoulli-Verteilung (Grundbaustein der Binomialverteilung)

X ∼ Be(p)

P(X = x) = px (1− p)1−x mit x = 0 oder 1 und 0 < p < 1

E(X) = p und Var(X) = p(1− p)

Das bedeutet, X kann nur die Werte 0 und 1 annehmen, und zwar mit den WahrscheinlichkeitenP(X = 0) = 1− p und P(X = 1) = p.

BinomialverteilungEine binomialverteilte Zufallsvariable X ergibt sich als Summe von n unabhängig, identisch verteiltenBernoullivariablen (Xi ∼ Be(p)):

X =n∑

i=1

Xi ∼ Bi(n, p)

P(X = x) =(

n

x

)px(1− p)(n−x), x = 0, 1, . . . , n

E(X) = np und Var(X) = np(1− p)

Poissonverteilung

X ∼ Po(λ), λ > 0

P(X = x) = e−λ λx

x!, x = 0, 1, . . .

E(X) = λ und Var(X) = λ

4.5.2 Stetige Verteilungsmodelle

Stetige Gleichverteilung (auf dem Intervall [ a, b ])

X ∼ SG(a, b)

f(x) =

1b− a

a ≤ x ≤ b

0 sonst

E(X) =a + b

2und Var(X) =

(b− a)2

12

14

Page 17: Statistik I - Skript - WS 2003 (Powered by de

Exponentialverteilung

X ∼ Ex(λ), λ > 0

f(x) =

λe−λx x ≥ 0

0 sonst

E(X) =1λ

und Var(X) =1λ2

Normalverteilung (C.F. Gauÿ)

X ∼ N(µ, σ2), σ > 0

f(x) =1√2πσ

exp

(−1

2

(x− µ

σ

)2)

, x ∈ R

E(X) = µ und Var(X) = σ2

Standardnormalverteilung: Spezialfall mit µ = 0 und σ = 1, Z ∼ N(0, 1). Es gilt

X ∼ N(µ, σ2) ⇒ Z =X − µ

σ∼ N(0, 1).

Die Verteilungsfunktion von Z hat die Bezeichung:

Φ(z) = P(Z ≤ z), z ∈ R.

4.6 Mehr zur Normalverteilung

Die Normalverteilung ist die für uns wichtigste stetige Verteilung. Bei

f(x) =1√2πσ

e−12 ( x−µ

σ )2

, σ > 0,

handelt es sich um eine symmetrische, glockenförmige Dichte, deren Maximum bei x = µ und derenWendepunkte bei x = µ ± σ liegen. Ihre Lage wird über das µ und ihre Breite über das σ gesteuert.Aufgrund der Symmetrie der Normalverteilung stimmen Median x0.50 und Erwartungswert E(X) überein.Die Schwierigkeit bei der Berechnung von Wahrscheinlichkeiten bei Normalverteilung besteht darin, daÿsich die Dichte der Normalverteilung nicht elementar integrieren läÿt, da zu der Funktion g(x) = e−x2

keine Stammfunktion bekannt ist. Die Wahrscheinlichkeiten sind deshalb tabelliert oder müssen nähe-rungsweise mit dem Computer berechnet werden. Allerdings beziehen sich die Wahrscheinlichkeitstabellenimmer auf die sog. Standardnormalverteilung. Durch Standardisierung läÿt sich aber jede beliebige Nor-malverteilung in eine Standardnormalverteilung transformieren:

X ∼ N(µ, σ2) ⇒ Z =X − µ

σ∼ N(0, 1) .

Aufgrund ihrer besonderen Bedeutung erhält die Verteilungsfunktion der Standardnormalverteilung eineeigene Bezeichung. Es bezeichnet Φ die Verteilungfunktion von Z mit Φ(z) = P (Z ≤ z), ihre Werte sindin Tabelle C der Tabellensammlung dargestellt. Für Φ gilt: Φ(−z) = 1 − Φ(z) (Symmetrieeigenschaft).Zur Berechnung von Normalverteilungswahrscheinlichkeiten geht man folgendermaÿen vor:

P (X ≤ x) = P

(Z ≤ x− µ

σ

)= Φ

(x− µ

σ

),

15

Page 18: Statistik I - Skript - WS 2003 (Powered by de

wobei der Φ-Wert aus der Tabelle abgelesen oder mit dem Computer berechnet wird.Um die Prozentpunkte oder Quantile xp einer Normalverteilung zu bestimmen, bedarf es der Prozentpunk-te der Standardnormalverteilung zp, für die P (Z ≤ zp) = Φ(zp) = p gilt. Aufgelistet sind die p-Quantileder Standardnormalverteilung in Tabelle D der Tabellensammlung. Für eine beliebige Normalverteilungerhält man die Quantile durch die Umkehrung der Standardisierung:

xp = µ + zp · σ.

In vielen Fällen ist man aber nicht nur an einzelnen Prozentpunkten, sondern an Schwankungsbereichenfür normalverteilte Zufallsvariablen interessiert.

Ein zentrales Schwankungsintervall (ZSI) der Länge 2 k σ ist bei der Normalverteilung folgendermaÿendeniert:

ZSI = [µ− k · σ, µ + k · σ] , k > 0.

Die Wahrscheinlichkeit, daÿ X Werte aus diesem Intervall annimmt, beträgt:

Φ(k)− Φ(−k) = 2Φ(k)− 1.

Dies gilt unabhängig von den konkreten Parameterwerten µ und σ. Es werden zwei Arten von zentralenSchwankungsintervallen betrachtet:

a) Vorgabe eines Wertes für k, z.B. k = 0.5, 1, 2 oder 3,

b) Vorgabe einer Wahrscheinlichkeit, z.B. 1− α = 0.90, 0.95 oder 0.99.

Im ersten Fall a) spricht man für k = 1 von einem einfachen, für k = 2 von einem zweifachen und fürk = 3 von einem dreifachen zentralen Schwankungsintervall. Unabhängig von der Parameterkonstellationder Normalverteilung enthalten diese drei Intervalle immer mit folgenden Wahrscheinlichkeiten Werteeiner normalverteilten Zufallsvariablen X.

k 1 2 3

P (X ∈ [µ± k · σ]) 68,3% 95,4% 99,7%

Im zweiten Fall b) werden die zentralen Schwankungsintervalle so konstruiert, daÿ X mit einer Wahr-scheinlichkeit von 1− α Werte im ZSI annimmt und dementsprechend mit einer Wahrscheinlichkeit vonα nicht:

ZSI =[µ− z1−α/2 · σ, µ + z1−α/2 · σ

].

4.7 Summen und Mittel von Stichprobenvariablen

Die Grundlage für die folgenden Kapitel bildet nicht eine einzelne Zufallsvariable X. Vielmehr faÿt maneine beobachtete Stichprobe mit den konkreten Zahlenwerten x1, x2, . . . , xn vom Umfang n als Realisiationsogenannter Stichprobenvariablen X1, . . . , Xn auf. Wir unterstellen für das folgende eine Zufallsstichprobe,was bedeuten soll, daÿ diese Zufallsvariablen stochastisch unabhängig und identisch verteilt sind. Letzteresbedeutet, daÿ man für die gesamte Grundgesamtheit ein und dasselbe Verteilungsmodell unterstellt;ersteres heiÿt, daÿ jede Beobachtung unabhängig von den anderen nach dem Zufallsprinzip gezogen wird.Für eine solche Zufallsstichprobe schreibt man auch Xi ∼ i.i.d.F für i = 1, . . . , n, wobei F eine beliebige

16

Page 19: Statistik I - Skript - WS 2003 (Powered by de

Verteilung bezeichnet und i.i.d. die Abkürzung für den englischen Ausdruck independently identicallydistributed (unabängig, identisch verteilt) ist.Ein Beispiel für eine Summe unabhängig und identisch verteilter Zufallsvariablen ist die Binomialver-teilung. Sind nämlich Xi unabhängig identisch Bernoulli-verteilt mit dem Parameter p (Xi ∼ Be(p),i = 1, 2, . . . , n), so ist die Summe bekanntlich binomialverteilt mit den Parametern n und p:

X =n∑

i=1

Xi ∼ Bi(n, p) .

Erwartungswert und Varianz ergeben sich dann wie bekannt als

E(X) = np = nE(Xi) , V ar(X) = np(1− p) = nV ar(Xi) .

Entsprechende Formeln für Erwartungswert und Varianz beliebiger Zufallsvariablen (d.h. ohne die Annah-me der Bernoulli-Verteilung) gelten allgemein für Summen von Stichprobenvariablen. Seien X1, . . . , Xn

unabhängig und identisch verteilt mit Erwartungswert E(Xi) = µ und Varianz V ar(Xi) = σ2, so gilt:

E

(n∑

i=1

Xi

)= nµ , V ar

(n∑

i=1

Xi

)= nσ2 .

In der Praxis sind wir meist nicht an der Summe selbst, sondern an dem darauf basierenden arithmeti-schen Mittel interessiert: X = 1

n

∑ni=1 Xi. Speziell bei Bernoulli-verteilten Stichprobenvariablen hat X

folgende Bedeutung. Sei Xi gleich 1 genau dann, wenn ein Ereignis A eintritt. Dann zählt die Summe∑ni=1 Xi, wie oft das Ereignis bei einer Stichprobe vom Umfang n eintritt, d.h. diese Summe gleicht der

absoluten Häugkeit, mit der A (oder Xi = 1) eintritt. Daher gibt X gerade die relative Häugkeit desEintretens an, oder den Anteil der eingetretenen Fälle in Relation zu allen n Beobachtungen. Aber auchbei anderen Problemstellungen wird das arithmetische Mittel eine zentrale Rolle spielen. Daher interes-sieren wir uns für Erwartungswert und Varianz des Mittels von n unabhängig und identisch verteiltenStichprobenvariablen mit Erwartungswert E(Xi) = µ und Varianz V ar(Xi) = σ2. Aus den Formeln fürErwartungswert und Varianz von Summen folgt sofort:

E(X) = µ , V ar(X) = σ2x =

σ2

nbzw. σx =

σ√n

(√

n-Gesetz) .

Speziell eine Linearkombination normalverteilter Zufallsvariablen ist wiederum normalverteilt, so daÿ sichfür X bei Normalverteilung ergibt:

X ∼ N

(µ,

σ2

n

).

Durch entsprechende Standardisierung,

Z =X − µ

σ/√

n∼ N(0, 1) ,

oder deren Umkehrung lassen sich Wahrscheinlichkeiten und Prozentpunkte von X wie bei einer ge-wöhnlichen Normalverteilung unter Zuhilfenahme der entsprechenden Wahrscheinlichkeiten oder Prozent-punkte der Standardnormalverteilung berechnen.

4.8 Asymptotische (approximative) Normalverteilung

Bisher wurde die Verteilung von∑n

i=1 Xi und von X unter Normalverteilung betrachtet. Nun soll keinespezielle Verteilungsannahme mehr unterstellt werden. Das Verzichten auf die Normalverteilungsannahme

17

Page 20: Statistik I - Skript - WS 2003 (Powered by de

hat aber seinen Preis: Statt dessen müssen wir unterstellen, daÿ der Stichprobenumfang n gegen ∞strebt (Asymptotik), bzw. daÿ die Verteilungsaussagen für

∑ni=1 Xi und X für groÿen aber endlichen

Stichprobenumfang nur näherungsweise gelten (Approximation).Zentraler Grenzwertsatz (ZGS):X1, . . . , Xn seien identisch verteilte, unabhängige Zufallsvariablen mit E(Xi) = µ und V ar(Xi) = σ2,i = 1, . . . , n. Dann gilt für die standardisierte Summe: Zn mit

Zn =∑n

i=1 Xi − nµ√nσ

konvergiert für wachsendes n gegen eine Standardnormalverteilung. Man schreibt dafür

Zna∼ N(0, 1)

und sagt Zn ist asymptotisch oder approximativ standardnormalverteilt.

Die Bedeutung des zentralen Grenzwertsatzes besteht vor allem darin, daÿ für∑n

i=1 Xi und X einfache,näherungsweise Berechnungen von Wahrscheinlichkeiten durchgeführt werden können, ohne die Vertei-lung der Xi und die exakte Verteilung der Stichprobenfunktionen kennen zu müssen. Insbesondere fürstetige und symmetrische Verteilung sind Wahrscheinlichkeitsberechnungen über die Normalverteilungim Rahmen des ZGS auch bei geringen Stichprobenumfängen schon erstaunlich genau.Da auch X auf einer Summe von Stichprobenvariablen basiert, läÿt sich der ZGS entsprechend anwenden:

Zn =X − µ

σ/√

n

a∼ N(0, 1).

Wahrscheinlichkeiten für die betrachtete Stichprobenfunktion lassen sich mit Hilfe des ZGS wie folgtnäherungsweise berechnen:

P

(n∑

i=1

Xi ≤ y

)) ≈ Φ

(y − nµ√

)bzw. P (X ≤ w) ≈ Φ

(w − µ

σ/√

n

).

Als eine wichtige spezielle Anwendung liefert der ZGS die Möglichkeit der approximativen Berechnung vonBinomialverteilungswahrscheinlichkeiten. Eine binomialverteilte Zufallsvariable X erfüllt die Vorausset-zungen des ZGS. Der Erwartungswert lautet, wie oben wiederholt, np, und die Varianz beträgt np(1−p).Es gilt also:

Zn =∑n

i=1 Xi − np√np(1− p)

=X − p√

p(1− p)/n

a∼ N(0, 1).

Als Faustregel für eine gute Approximation ist zu beachten, daÿ np ≥ 10 und n(1− p) ≥ 10 sein sollten.

5 ParameterschätzungMit der Ziehung von Stichproben und der Bildung bestimmter Stichprobenfunktionen möchte man mög-lichst gute Schlüsse über die Grundgesamtheit ziehen. Dabei unterstellt man für ein interessierendesMerkmal eine Verteilungsannahme. Unbekannt ist hingegen der Wert der Parameter der Verteilung, z.Bdas µ und σ bei Annahme der Normalverteilung, das λ bei einer Poissonverteilung. Der mit Unsicherheitbehaftete Schluÿ aus einer Stichprobe (Empirie) auf Parameter eines unterstellten Verteilungsmodellsder Grundgesamtheit (Theorie) macht das Wesen statistischen Schätzens aus. Wir geben hier nur eineEinführung.

18

Page 21: Statistik I - Skript - WS 2003 (Powered by de

5.1 Schätzfunktionen

Eine Funktion g(X1, . . . , Xn) der Stichprobenvariablen, g: Rn → R, heiÿt Stichprobenfunktion oder Schätz-funktion oder auch Statistik. Sie verdichtet die Information aus der Stichprobe vom Umfang n und sollden Rückschluÿ auf einen unbekannten Parameter θ, θ ∈ R erlauben.

Theorie Empirie

θ (unbek. Parameter) Info←− g(X1, . . . , Xn)

z.B. geeignete Funktion gesucht

µ bei Normalverteilung ←− X = 1n

∑ni=1 Xi

σ2 bei Normalverteilung ←− D2 = 1n

∑ni=1(Xi −X)2

p bei Bernoulliverteilung ←− X = 1n

∑ni=1 Xi

λ bei Poissonverteilung ←− ?

λ bei Exponentialverteilung ←− ?

Wir bezeichnen wieder mit Kleinbuchstaben xi die Realisationen (xi ∈ R) einer Zufallsvariablen Xi.Der Zahlenwert g(x1, . . . , xn) fungiert dann als Schätzung für einen Parameter θ. Im Unterschied zumSchätzwert g(x1, . . . , xn) ist die Schätzfunktion g(X1, . . . , Xn) eine Zufallsvariable. Alternativ schreibtman häug für eine Funktion, die einen Parameter θ schätzen soll:

θ(X1, . . . , Xn) oder kurz θ.

Dabei steht die Kurzschreibweise θ sowohl für die Zufallsvariable θ(X1, . . . , Xn) als auch für den konkretenSchätzwert θ(x1, . . . , xn). Bei der Schätzung unbekannter Parameter aus einer Stichprobe stellen sich zweiwesentliche Fragen:

a) Welche Eigenschaften haben statistische Schätzungen (siehe Abschnitt 5.2)?

b) Wie kann man Schätzfunktionen konstruieren (siehe Abschnitt 5.3)?

5.2 Eigenschaften von Schätzfunktionen

Um Schätzfunktionen beurteilen und auswählen zu können, braucht man Eigenschaften, die etwas darüberaussagen, wie gut eine Schätzfunktion ist. Von einer Schätzfunktion für einen Parameter erwartet man, daÿsie im Schnitt den wahren Parameterwert trit. Diese Eigenschaft wird mit Erwartungstreue bezeichnet.Auÿerdem sollte eine Schätzfunktion für einen Parameter aber nicht nur erwartungstreu oder zumindestnäherungsweise erwartungstreu sein, sondern auch mit wachsendem Stichprobenumfang immer präziserwerden. Dieses Phänomen wird Konsistenz genannt.

5.2.1 Erwartungstreue und Ezienz

Eine Schätzfunktion θ für den Parameter θ wird erwartungstreu oder auch unverzerrt genannt, wenn gilt

E(θ) = θ.

Die Dierenz zwischen dem Erwartungswert der Schätzfunktion und dem Parameter heiÿt Bias (Verzer-rung):

b(θ) = E(θ)− θ.

19

Page 22: Statistik I - Skript - WS 2003 (Powered by de

Gilt für eine Schätzfunktionlim

n→∞E(θ) = θ,

so nennt man sie asymptotisch erwartungstreu.Natürlich ist in der Praxis nicht nur wichtig, im Mittel den unbekannten Parameter richtig zu schätzen;darüber hinaus spielt auch eine Rolle, wie stark eine Schätzfunktion um den wahren Parameterwert streut.Dies miÿt man selbstverständlich mit der Varianz. Wollen wir zwei erwartungstreue Schätzfunktionen θ1

und θ2 miteinander vergleichen, so spricht man davon, daÿ θ1 ezienter ist als θ2, wenn gilt:

V ar(θ1) < V ar(θ2).

5.2.2 Konsistenz

Eine Schätzfunktion θ für den Parameter θ wird (schwach) konsistent genannt, wenn für ein beliebigespositives ε > 0 gilt:

limn→∞

P(|θ − θ| ≤ ε

)= 1 .

Hinreichend dafür ist (starke) Konsistenz, nämlich dass

limn→∞

E(θ) = θ und limn→∞

V ar(θ) = 0

gilt. Eine stark konsistente Schätzfunktion ist also asymptotisch erwartungstreu, und ihre Varianz strebtmit wachsendem Stichprobenumfang gegen Null.Als Kriterium zur Beurteilung von Schätzfunktionen kann man auch den mittleren quadratischen Fehler(MSE - mean squared error) heranziehen. Er ist folgendermaÿen deniert:

MSE(θ) = E[(θ − θ)2

]

und läÿt sich auch in der folgenden Form darstellen:

MSE(θ) =(E(θ)− θ

)2

+ V ar(θ).

Damit kann man die Bedingungen für starke Konsistenz einer Schätzfunktion kompakt durch den MSE

formulieren:lim

n→∞MSE(θ) = 0.

Einen Überblick über einige weit verbreitete Schätzfunktionen und ihre Eigenschaften bietet folgendeTabelle.

20

Page 23: Statistik I - Skript - WS 2003 (Powered by de

Beispiele für Schätzfunktionen

Verteilung Parameter Schätzfunktion Erwartungstreue Konsistenz

Normalverteilung µ µ = X ja ja

Normalverteilung σ2 σ21 = D2 = 1

n

∑ni=1(Xi −X)2 asympt. ja

σ22 = S2 = 1

n−1

∑ni=1(Xi −X)2 ja ja

Bernoulliverteilung p p = X ja ja

Poissonverteilung λ λ = X ja ja

Exponentialverteilung λ λ1 =1X

asympt. ja

λ2 =n− 1∑ni=1 Xi

ja ja

Stet. Gleichvtlg. auf [0, b] b b = 2 ·X ja ja

Disk. Gleichverteilung k k = 2 ·X − 1 ja ja

5.3 Konstruktion von Schätzfunktionen (Momentenmethode)

Einige Schätzfunktionen sind für bestimmte Parameter naheliegend, aber grundsätzlich gilt für Schätz-funktionen, daÿ sie nicht vom Himmel fallen. Insofern braucht man Konstruktionsprinzipien für Schätz-funktionen. Solche Prinzipien sind u.a. dieMomentenmethode (MM) und dieMaximum-Likelihood-Methode(ML). Im Gegensatz zur MM-Methode soll die ML-Methode hier allerdings nur erwähnt und nicht weiterbesprochen werden, auch wenn der ML-Methode in der Statistik eine zentrale Bedeutung zukommt.Die Momentenmethode basiert im einfachsten Fall nur eines Parameters θ auf der Gegenüberstellung vonErwartungswert und arithmetischem Mittel (die man auch theoretisches und empirisches Moment nennt,daher der Name). Nehmen wir an, der Erwartungswert µ einer Verteilung hängt als Funktion h von demunbekannten Parameter θ ab: µ = h(θ). Dann setzt man das empirische Mittel dem theoretischen gleich,X = h(θ), und löst diese Gleichung nach θ. Dies liefert den Momentenschätzer:

θMM = h−1(X) .

Die in obiger Tabelle angegebenen Schätzfunktionen für k bei diskreter Gleichverteilung, b bei stetigerGleichverteilung und für λ bei Poissonverteilung sind alle nach der Momentenmethode konstruiert. Auchλ1 bei der Exponentialverteilung ist ein solcher Momentenschätzer.

6 Kondenzintervalle

6.1 Einführung

Eine Schätzfunktion θ für einen unbekannten Parameter θ liefert i.d.R. nicht exakt den wahren Parame-terwert. Auch wenn θ ein sehr guter Schätzer für θ ist, weiÿ man im allgemeinen nicht, wie weit dieSchätzung vom wahren Wert entfernt liegt. Nach dem Prinzip Man trit eine Fliege kaum mit einerStecknadel, sondern besser mit einer Fliegenklatsche erfolgt der Übergang von der Punktschätzung zurIntervallschätzung. Die Konstruktion eines Kondenzintervalls basiert auf einer entsprechenden Punkt-schätzung, um die dann ein Sicherheitsbereich gelegt wird. Dieser Sicherheitsbereich wird nicht belie-big gewählt, sondern orientiert sich an der Standardabweichung und Verteilung der Schätzfunktion und

21

Page 24: Statistik I - Skript - WS 2003 (Powered by de

zwar so, daÿ das Konndenzintervall (KI) [θu, θo] den unbekannten Parameter θ mit einer vorgegebenenWahrscheinlichkeit von 1− α überdeckt:

θu = gu(X1, . . . , Xn) und θo = go(X1, . . . , Xn) mit θu < θo ,

P (θu ≤ θ ≤ θo) = 1− α .

Ein so konstruiertes Kondenzintervall zum Kondenzniveau 1 − α überdeckt den wahren Parameterθ mit einer Wahrscheinlichkeit von 1 − α. Man beachte, daÿ die Intervallgrenzen Zufallsvariablen sind.Für eine konkrete Stichprobe x1, . . . , xn erhält man dagegen das realisierte Kondenzintervall mit denGrenzen gu(x1, . . . , xn) und go(x1, . . . , xn).Das Festlegen des Kondenzniveaus 1 − α beinhaltet ein Abwägen zwischen der Aussagesicherheit undder Aussagekraft eines Kondenzintervalls: Je gröÿer das Kondenzniveau ist, desto länger fällt in allerRegel das Kondenzintervall aus. Um das Kondenzniveau kontrollieren zu können, unterstellen wir fürdas folgende eine Zufallsstichprobe, d.h. X1, . . . , Xn sind unabhängig und identisch verteilt (i.i.d.).

6.2 Kondenzintervalle für den Erwartungswert µ bei Normalverteilung

Sehr häug werden Durchschnittswerte µ, z.B. bei Renditen, Einkommen oder dem Energieverbrauch,geschätzt. Unterstellt man für die betrachtete Zufallsvariable X eine Normalverteilung, so lassen sich beider Bestimmung des Kondenzintervalls für µ zwei Fälle unterscheiden: σ2 bekannt und σ2 unbekannt.

Kondenzintervall für µ (σ2 bekannt)Im Falle einer Schätzung von µ unter Normalverteilung mit bekanntem σ2 hat X die Verteilung N(µ, σ2

n ).Damit gilt für das standardisierte X:

P

(−z1−α

2≤ X − µ

σ/√

n≤ z1−α

2

)= 1− α ⇒ P

(X − z1−α

2

σ√n≤ µ ≤ X + z1−α

2

σ√n

)= 1− α .

Als Kondenzintervall für µ (σ2 bekannt) ergibt sich damit zu einem Niveau von 1− α:

KI1−α =[

X − z1−α2

σ√n

; X + z1−α2

σ√n

].

Ein so konstruiertes KI überdeckt mit Wahrscheinlichkeit 1− α den wahren Parameter µ.Die Länge des Kondenzintervalls für µ ist L = 2z1−α

2

σ√n. Daraus ergeben sich einige Folgerungen:

• Steigt der Stichprobenumfang n, dann wird die Länge L geringer.

• Steigt das Kondenzniveau 1− α, dann steigt die Länge L ebenfalls.

• Steigt die Standardabweichung σ, dann wird die Länge L gröÿer.

Insbesondere aus dem ersten Zusammenhang zwischen Stichprobenumfang n und Länge L läÿt sich dieFrage ableiten, wie groÿ der Stichprobenumfang mindestens sein muÿ, damit ein Kondenzintervall einevorgegebene Länge nicht überschreitet. Um diese Frage zu beantworten, wird die Gleichung für die Längedes Kondenzintervalls nach n aufgelöst, so daÿ man folgendes Resultat erhält:

n ≥ 4z21−α

2

σ2

L2.

22

Page 25: Statistik I - Skript - WS 2003 (Powered by de

Kondenzintervall für µ (σ2 unbekannt)Wir haben zunächst einmal die Situation betrachtet, daÿ σ2 bekannt ist. Das ist in der Praxis aber nursehr selten der Fall, so daÿ die Annahme σ2 ist unbekannt sicher realistischer ist. Wenn σ2 unbekannt ist,muÿ es geschätzt werden, sinnvollerweise durch den erwartungstreuen Schätzer S2 = 1

n−1

∑ni=1(Xi−X)2.

Die Ersetzung von σ durch S wirkt sich allerdings auf die Verteilung und damit auf die Gestalt desKondenzintervalls aus.

t-VerteilungEs seien X1, . . . , Xn normalverteilte Zufallsvariablen einer Zufallsstichprobe mit Xi ∼ N(µ, σ2). Dann istaus Abschnitt 2.2 bekannt für das arithmetische Mittel:

Z =√

nX − µ

σ∼ N(0, 1) .

Ersetzt man σ durch die erwartungstreue Schätzfunktion S =√

1n−1

∑ni=1(Xi −X)2,

T =√

nX − µ

S,

so schwankt die Zufallsvariable S naturgemäÿ um den wahren Wert σ. Diese durch die Schätung derStandardabweichung verursachte Unsicherheit schlägt sich darin nieder, daÿ T stärker als Z um denErwartungswert 0 streut, d.h. T folgt keiner Normalverteilung, sondern einer sogenannten t-Verteilungmit ν = n− 1 Freiheitsgraden:

T =√

nX − µ

S∼ t(n− 1) .

Die hier nicht angegebene Dichtefunktion einer t(ν)-Verteilung hängt also von dem Parameter ν ab,ν = 1, 2, . . .. Prinzipiell hat die t-Verteilung eine sehr ähnliche Gestalt wie die Standardnormalverteilung:die Dichte ist symmetrisch um den Erwartungswert und Median Null und besitzt die charakteristischeGlockenform, hat allerdings im Vergleich zur Standardnormalverteilung mehr Wahrscheinlichkeitsmassean den Rändern (stärkere Streuung). Die Quantile sind in Abhängigkeit der Freiheitsgrade ν in TabelleE tabelliert. Wegen der Symmetrie gilt für das (1− p) -Quantil

t(ν)1−p = −t(ν)p .

Durch Vergleich der Tabellen D und E sieht man weiterhin, daÿ für groÿe Anzahl an Freiheitsgraden gilt:t(ν)p ≈ zp. Es stimmt in der Tat, daÿ die t-Verteilung mit wachsendem ν die Standardnormalverteilungapproximiert. Also gilt für obige Statistik T wie beim ZGS für groÿen Stichprobenumfang:

T =√

nX − µ

S

a∼ N(0, 1) .

Damit haben wir ein allgemeines Prinzip aufgedeckt: Wann immer im folgenden die t(ν)-Verteilung einerStatistik T auftaucht, basiert dies auf der Annahme einer normalverteilten Zufallsstichprobe; alternativkann man diese Annahme fallen lassen, bzw. durch die Annahme eines groÿen Stichprobenumfangs erset-zen. Für groÿen Stichprobenumfang ist dann diese Statistik T näherungsweise standardnormalverteilt.

Zur Konstruktion eines Kondenzintervalls für µ bei unbekanntem σ verwendet man also die Prozent-punkte t(n− 1)1−α

2der t-Verteilung:

KI1−α =[X − t(n− 1)1−α/2

S√n

,X + t(n− 1)1−α/2S√n

].

Es sei noch einmal überblicksartig die Konstruktion eines KI für µ unter Normalverteilung dargestellt:

23

Page 26: Statistik I - Skript - WS 2003 (Powered by de

Kondenzintervall für µ

unter Normalverteilung

bei bekanntem σ

a) Kondenzniveau 1− α festlegen

b) z1−α2bestimmen

c) x berechnen

d) Kondenzintervall aufstellen:[x− z1−α

2

σ√n; x + z1−α

2

σ√n

]

bei unbekanntem σ

a) Kondenzniveau 1− α festlegen

b) t(n− 1)1−α2bestimmen

c) x und s berechnen

d) Kondenzintervall aufstellen:[x− t(n− 1)1−α

2

s√n; x + t(n− 1)1−α

2

s√n

]

6.3 Kondenzintervalle für einen Anteilswert p

Wir betrachten nur noch eine weitere Art von Kondenzintervallen, nämlich für Anteilswerte p. Sie sindin vielen Anwendungsbereichen von groÿer Bedeutung, z.B. bei der Ermittlung von Einschaltquoten imFernsehen, bei der Schätzung des Anteils der Wähler einer bestimmten Partei oder der Ermittlung desBekanntheitsgrades eines Produktes. Dieser Anteilswert entspricht der Wahrscheinlichkeit, mit der dieBernoulli-verteilten Stichprobenvariablen den Wert 1 annehmen, P (Xi = 1) = p, i = 1, . . . , n.Als Schätzfunktion für einen Anteilswert p verwenden wir die relative Häugkeit aus der Stichprobe,welche gerade mit dem arithmetischen Mittel übereinstimmt, p = X. Von p wissen wir, daÿ es sich umeine erwartungstreue und konsistente Schätzfunktion für p handelt. Die Varianz von p ist p(1−p)

n . ZurKonstruktion eines Kondenzintervalls für p gehen wir von der Punktschätzung p aus, um die wir denSicherheitsbereich legen. Wie im Falle eines Kondenzintervalles für µ müssen wir jetzt die Verteilungvon p kennen.Die exakte Verteilung und vor allem ihre Prozentpunkte sind für p nur sehr mühsam zu bestimmen. Daes sich bei der Schätzfunktion p aber um einen Mittelwert von unabhängigen Bernoulli-Variablen handeltund damit im wesentlichen um eine Summe, läÿt sich der zentrale Grenzwertsatz anwenden. Damit istdas standardisierte p näherungsweise standardnormalverteilt:

p− E(p)√Var(p)

=p− p√p(1−p)

n

a∼ N(0, 1) .

Diese Approximation ist um so besser, je näher p bei 0.5 liegt und je gröÿer n ist. Als Faustregel werdenoft n ≥ 100 oder np ≥ 10 und n(1 − p) ≥ 10 angegeben. Da p in der Varianz von p allerdings nichtbekannt ist, wird es dort durch den konsistenten Schätzer p ersetzt. Damit lautet das approximativeKondenzintervall zum Niveau 1− α:

KI1−α =

[p− z1−α/2

√p(1− p)

n, p + z1−α/2

√p(1− p)

n

].

Auch an dieser Stelle sei die Bestimmung eines KI für p noch einmal zusammengefaÿt:

24

Page 27: Statistik I - Skript - WS 2003 (Powered by de

Kondenzintervall für p

(Berechnung approximativ über die Normalverteilung)

a) Kondenzniveau 1− α festlegen

b) z1−α2bestimmen

c) p berechnen

d) Kondenzintervall aufstellen:[p− z1−α

2

√p(1−p)

n ; p + z1−α2

√p(1−p)

n

]

Wie auch schon im Falle des Konndenzintervalls für µ bei bekanntem σ2 stellt sich die Frage, wie groÿder Stichprobenumfang mindestens sein muÿ, damit das Kondenzintervall für p eine vorgebene Längenicht überschreitet. Die Länge des Kondenzintervalls für p ist L = 2z1−α

2

√p(1−p)

n . Der erforderlicheStichprobenumfang ergibt sich durch Auösen nach n:

n ≥ 4z21−α

2

p(1− p)L2

.

Die Schwierigkeit besteht nun darin, daÿ p vor der Untersuchung nicht bekannt ist und damit der Ausdruckp(1− p) nicht zur Verfügung steht. Zwei Lösungsmöglichkeiten bieten sich an:

a) Verwendung von Kenntnissen über p aus früheren Untersuchungen, sofern sie existieren,

b) p so wählen, daÿ p(1− p) maximal wird, um auf der sicheren Seite zu sein, d.h. p = 0.5 wählen.

7 Statistische TestsDie bisherige Betrachtung bezog sich auf die Schätzung von Parametern (Punktschätzung und Intervall-schätzung). Nun sollen Vermutungen, Behauptungen oder Hypothesen über Verteilungen oder Parameteranhand von Stichproben untersucht werden. Diesen Bereich der Statistik nennt man (statistisches) Testen.Wir leisten hier nur eine kleine Einführung. Viele für die Praxis wichtige Tests werden erst in StatistikII vorgestellt.

7.1 Prinzipien des Testens

Ausgangspunkt für das Testen ist eine Hypothese H, oft auch als Nullhypothese H0 bezeichnet, z.B.

• Einkommen und Parteipräferenz sind unabhängig,

• groÿe Unternehmen sind erfolgreicher als kleine,

• Mädchen und Jungen haben gleiche mathematische Fähigkeiten,

• ein bestimmter Autotyp verbraucht höchstens 5 Liter pro 100 km,

und die zugehörige Alternativ- oder Gegenhypothese G oder entsprechend H1. Die Schwierigkeit bestehtin der Praxis oft in der sog. Operationalisierung, d.h. der Umsetzung der Hypothese, so daÿ sie mitstatistischen Methoden überprüft werden kann.

25

Page 28: Statistik I - Skript - WS 2003 (Powered by de

Ähnlich wie in einer Situation vor Gericht bestehen beim statistischen Testen zwei Ebenen, die der Realität(die Hypothese H oder die Hypothese G trit zu) und die der Entscheidung (die Hypothese H wirdabgelehnt oder nicht). Im Falle des Gerichts bezöge sich die Realitätsebene auf die Frage Was passiertewirklich? und die Entscheidungsebene auf das Urteil Schuldig oder unschuldig. Ein statistischer Testist eine Entscheidungsregel, bei der auf Basis einer Stichprobe unter bestimmten Verteilungsannahmenmit Hilfe einer Teststatistik bzw. Prüfgröÿe eine Entscheidung über eine Hypothese getroen wird. Dabeikönnen Fehlentscheidungen auftreten, wie das folgende Diagramm zeigt:

Realität H GEntscheidung ist richtig ist richtig

für richtige Fehler 2. ArtH Entscheidung (β-Fehler)

gegen Fehler 1. Art richtigeH (α-Fehler) Entscheidung

In der Praxis weiÿ man i.d.R. nicht, ob man richtig oder falsch entschieden hat. Man kann lediglich Wahr-scheinlichkeitsaussagen über die Fehlentscheidungen treen. Das setzt voraus, daÿ man ein bestimmtesVerteilungsmodell für die Zufallsstichprobe unterstellt. Auf Basis dieser Stichprobe wird eine spezielleStichprobenfunktion gebildet: die Teststatistik. Eine konkrete Stichprobe liefert damit einen Wert für dieTeststatistik. Dabei gibt es Werte, die für und andere die gegen die Hypothese H sprechen. Lediglichdie in bezug auf die Hypothese H extremsten Werte der Teststatistik werden zu einer Ablehnung vonH führen, da aufgrund von Zufallsschwankungen gewisse Abweichungen toleriert werden müssen. Woaber die Grenze zu diesem Ablehnbereich liegt, kann erst bestimmt werden, wenn man die Verteilungder Teststatistik unter H kennt und wenn man den Anteil α der extremsten Werte, den man nicht mehrbereit ist zu tolerieren, festlegt. Die Grenzen des Ablehnbereiches oder auch kritischen Bereiches lassensich auf Basis der Verteilung der Teststatistik und dem festgelegten α bestimmen. Fällt der Wert derTeststatistik in diesen kritischen Bereich, wird die Hypothese H abgelehnt (oder verworfen), ansonstenwird sie beibehalten. Damit ist α die Wahrscheinlichkeit, mit der der Fehler 1. Art (Entscheidung gegendie Hypothese H, obwohl diese richtig ist) höchstens auftreten kann. Man nennt α auch das sog. Signi-kanzniveau des Tests. Da die Wahrscheinlichkeit des α-Fehlers beim Testen im Vorfeld festgelegt wird,sollte man die Hypothesen so wählen, daÿ die schlimmere der beiden Fehlentscheidungen dem Fehler 1.Art entspricht. Allerdings führt eine Verringerung von α zu einer Erhöhung von β, der Wahrscheinlichkeitfür den Fehler 2. Art, die Hypothese H nicht abzulehnen, obwohl sie falsch ist. Es ist also nicht möglich,beide Fehlerwahrscheinlichkeiten gleichzeitig zu minimieren. Durch das Festlegen des Signikanzniveausist α bekannt, wohingegen β unbekannt ist. Angenommen der zu testende Parameter sei θ, so hängt dieWahrscheinlichkeit für den Fehler 2. Art von θ in der Form β(θ) ab und kann auch nur in Abhängigkeitvon θ berechnet werden. Zur Beurteilung von Tests verwendet man i.d.R. aber nicht β(θ) sondern die sog.Güte des Tests 1− β(θ). Die Güte gibt in Abhängigkeit von θ die Wahrscheinlichkeit an, H abzulehnen,wenn H auch falsch ist. Sie wird um so gröÿer, je weiter θ von der Hypothese H entfernt ist. Verschie-dene Tests für ein Testproblem werden bei gegebenem Signikanzniveau nach ihrer Güte beurteilt. Manist daran interessiert einen Test mit möglichst hoher Güte zu verwenden.Ein Testablaufschema sieht folgendermaÿen aus:

a) Modell und Hypothesen,

b) Teststatistik und ihre Verteilung unter H,

26

Page 29: Statistik I - Skript - WS 2003 (Powered by de

c) Signikanzniveau und kritischer Bereich,

d) Entscheidungsregel und Testentscheidung.

Die beiden folgenden Abschnitte behandeln nun Tests, bei denen sich die Hypothese auf die Parametereines Merkmals bezieht (Einstichprobenfall). Testet man aus einer Stichprobe auf einen unbekanntenParameter θ, so unterscheiden wir zweiseitige von einseitigen Testproblemen:

• H : θ = θ0 gegen G : θ 6= θ0 (zweiseitiges Testproblem),

• H : θ ≤ θ0 gegen G : θ > θ0 und H : θ ≥ θ0 gegen G : θ < θ0 (einseitige Testprobleme).

Die Darstellungen für die Tests beschränken sich überwiegend auf das Testschema (Modell, Hypothesen,Teststatistik, Verteilung unter H und Entscheidungsregel). Um das Signikanzniveau α kontrollieren zukönnen, unterstellen wir für das folgende eine Zufallsstichprobe, d.h. X1, . . . , Xn sind unabhängig undidentisch verteilt (i.i.d.).

7.2 Tests auf µ bei Normalverteilung

Im vorigen Kapitel wurden zwei Arten von Kondenzintervallen für µ vorgestellt: Der Fall σ bekannt undder Fall σ unbekannt. Diese beiden Fälle werden nun ebenfalls beim Testen unterschieden.Beim Test auf µ unterstellen wir zunächst ein Modell, in dem unsere Stichprobenvariablen normalverteiltsind mit bekannter Varianz σ2. Es lassen sich je nach Fragestellung drei Arten von Hypothesen testen:

• H : µ = µ0 gegen G : µ 6= µ0 (zweiseitiges Testproblem),

• H : µ ≤ µ0 gegen G : µ > µ0 und H : µ ≥ µ0 gegen G : µ < µ0 (einseitiges Testproblem).

Zur Überprüfung dieser Hypothesen verwenden wir als Teststatistik X bzw. die unter der Hypothese H

standardisierte Variante Z = X−µ0σ/√

n, um eine einfache Entscheidungsregel zu erhalten. Gilt für den wahren

Parameterwert, daÿ er mit µ0 übereinstimmt, µ = µ0, so ist die Teststatistik Z standardnormalverteilt,was im Falle der zweiseitigen Hypothese bei gegebenem Signikanzniveau α zu folgender Entscheidungs-regel für das Ablehnen von H führt: Z < −z1−α/2 oder Z > z1−α/2. Inhaltlich bedeutet das, daÿ sowohlzu kleine als auch zu groÿe Werte der Teststatistik zur Ablehnung von H führen, und zwar so, daÿ gera-de mit Wahrscheinlichkeit α die Hypothese abgelehnt wird, wenn sie richtig ist. Wir sagen dann, X istsignikant (zum Niveau α) kleiner (oder gröÿer) als der hypothetische Wert µ0, weshalb die Hypotheseverworfen wird.Alternativ kann die Testentscheidung auch über den sog. p -Wert (in Englisch p -value für probabilityvalue) erfolgen. Der p -Wert ist dabei die Wahrscheinlichkeit, unter der (Null-)Hypothese H den beob-achteten Wert der Teststatistik oder einen in Richtung der Gegenhypothese G noch extremeren Wert zuerhalten. Groÿe p -Werte sprechen also dafür, daÿ die Empirie mit der Hypothese H vereinbar ist, weshalbman diese nicht verwerfen sollte. Kleine p -Werte hingegen sagen, daÿ das Auftreten der beobachtetenRealisation x unwahrscheinlich ist, wenn die Hypothese H stimmt, weshalb man dann dazu neigt, sie zuverwerfen. Die Entscheidungsregel lautet also:

p ≤ α ⇒ H ablehnen .

Computerprogramme geben im allgemeinen beim Testen den p -Wert an, da auf diese Art und Weise keinkritischer Wert in Abhängigkeit von α berechnet werden muÿ, sondern eine Entscheidung durch einen

27

Page 30: Statistik I - Skript - WS 2003 (Powered by de

einfachen Vergleich des p -Wertes mit α getroen werden kann. Allerdings besteht darin auch die Gefahreiner nachträglichen Korrektur des α in Richtung einer gewünschten Testentscheidung. Ein Vorteil in derAngabe von p -Werten liegt in der Vergleichbarkeit mehrerer Tests für ein Testproblem. Grundsätzlich istaber immer darauf zu achten, wie in einem Computerprogramm die Hypothese speziziert ist (zweiseitigbzw. einseitig mit Gröÿer- oder Kleiner-Relation), da möglicherweise der angegebene p -Wert für dieTestentscheidung gemäÿ der Hypothesenart entsprechend umgerechnet werden muÿ.

Der Testablauf auf µ bei bekanntem σ wird in folgendem Schema zusammengefaÿt:

Test auf µ (σ bekannt)

Modell: Xi ∼ N(µ, σ2), i = 1, . . . , n, σ bekannt

Hypothesen: a) H : µ = µ0 gegen G : µ 6= µ0

b) H : µ ≤ µ0 gegen G : µ > µ0

c) H : µ ≥ µ0 gegen G : µ < µ0

Teststatistik: Z =X − µ0

σx=

X − µ0

σ/√

n=√

nX − µ0

σ

Verteilung unter µ = µ0: Z ∼ N(0, 1)

Testentscheidung: a) |Z| > z1−α/2

H ablehnen, wenn b) Z > z1−α

c) Z < −z1−α

Nach dem unrealistischen Fall, daÿ σ2 bekannt ist, soll nun der Test auf µ für Fall eines unbekannten σ2

vorgestellt werden. Dieser Test wird als (Einstichproben-) t-Test bezeichnet. Dabei wird σ2 analog zu derVorgehensweise bei Kondenzintervallen erwartungstreu durch S2 geschätzt.Testschema:

t-Test auf µ (σ unbekannt)

Modell: Xi ∼ N(µ, σ2), i = 1, . . . , n, σ unbekannt

Hypothesen: a) H : µ = µ0 gegen G : µ 6= µ0

b) H : µ ≤ µ0 gegen G : µ > µ0

c) H : µ ≥ µ0 gegen G : µ < µ0

Teststatistik: T =X − µ0

S/√

n=√

nX − µ0

S

Verteilung unter µ = µ0: T ∼ t(ν) mit ν = n− 1

Testentscheidung: a) |T | > t(n− 1)1−α/2

H ablehnen, wenn b) T > t(n− 1)1−α

c) T < −t(n− 1)1−α

Ohne Annahme normalverteilter Stichprobenvariablen gilt für groÿes n wie oben ausgeführt, daÿ T unterµ = µ0 approximativ standardnormalverteilt ist, T

a∼ N(0, 1). Entsprechend kann die t-Statistik T füreinen approximativen Normalverteilungstest verwendet werden.

28

Page 31: Statistik I - Skript - WS 2003 (Powered by de

7.3 Test auf einen Anteilswert p

In Analogie zu den Kondenzintervallen für p basiert auch der Test für p auf einer Approximation derTeststatistik mittels des zentralen Grenzwertsatzes. Wiederum unterscheiden wir zweiseitige und einseitigeTestprobleme. Die Prüfgröÿe basiert auf der relativen Häugkeit p, die gerade gleich dem arithmetischenMittel der Stichprobenvariablen ist.Testschema:

Test auf p

Modell: Xi ∼ Be(p), i = 1, . . . , n

Hypothesen: a) H : p = p0 gegen G : p 6= p0

b) H : p ≤ p0 gegen G : p > p0

c) H : p ≥ p0 gegen G : p < p0

Teststatistik: Z =p− p0

σp=

p− p0√p0(1−p0)

n

=√

np− p0√

p0(1− p0)

Verteilung unter H: Za∼ N(0, 1)

Testentscheidung: a) |Z| > z1−α/2

H ablehnen, wenn b) Z > z1−α

c) Z < −z1−α

7.4 Zweiseitige Tests und Kondenzintervalle

Zweiseitige Parametertestprobleme können auch über Kondenzintervalle entschieden werden. Betrachtenwir den Test auf µ bei unbekanntem σ, H : µ = µ0 gegen G : µ 6= µ0, mit der Prüfgröÿe T und derEntscheidungsregel: Lehne H ab, wenn |T | > t(n−1)1−α/2 ist. Dieser Test zum Signikanzniveau α kannauch wie folgt durchgeführt werden. Sei KI1−α ein Kondenzintervall zum Kondenzniveau 1 − α wieaus Abschnitt 6.2; lehne dann H (zum Signikanzniveau α) ab, wenn KI1−α den hypothetischen Wert µ0

nicht überdeckt. Die Regel mittels der Prüfgröÿe T und die Regel mittels des Kondenzintervall führen,wie man zeigen kann, zu identischen Entscheidungen. Entsprechendes gilt auch bei bekanntem σ oder beidem zweiseitigen Testproblem über einen Anteilswert p.

29