Skriptum Statistik I und II

114
Skriptum für die Vorlesungen Statistik I und II im Studienjahr 2002/2003 Gerhard Arminger und Mitarbeiter © 2002 bei den Verfassern, überarbeitete und neugesetzte Fassung

description

Skriptum für die Vorlesungen Statistik I und II im Studienjahr 2002/2003.Gerhard Arminger und Mitarbeiter.

Transcript of Skriptum Statistik I und II

Page 1: Skriptum Statistik I und II

Skriptum für die VorlesungenStatistik I und II im Studienjahr 2002/2003

Gerhard Armingerund Mitarbeiter

© 2002 bei den Verfassern, überarbeitete und neugesetzte Fassung

Page 2: Skriptum Statistik I und II

Vorwort

Studiert man Sozial- oder Wirtschaftswissenschaften, stellt man sehr bald mit Erschrecken fest, daßdas Fach Mathematik, dem man sich endgültig nach der Schule entronnen glaubte, in Mathematik- undStatistik-Lehrveranstaltungen der Hochschulen wieder auftaucht. Wenn man auch zunächst geneigt ist,dies der Böswilligkeit von Studienplanern und Hochschullehrern anzulasten, so überzeugt man sich durcheinen Blick auf andere Fakultäten, daß neben den klassischen Naturwissenschaften auch andere Fächer, dievon der Biologie und Medizin bis zu Geographie und Geschichtsforschung reichen, zunehmend von dieserMathematisierung betroffen sind. Unter allen mathematischen Disziplinen, die in Substanzwissenschaftenpraktisch angewendet werden, zeichnen sich die Wahrscheinlichkeitstheorie und Statistik wohl durch diegrößte Verbreitung und Anwendungshäufigkeit aus.

Was hat das für einen Grund? Man erkannte, daß die einfachen Wenn-Dann-Beziehungen, aus denenwissenschaftliche Erklärungen bestehen, meistens unzulässige Vereinfachungen darstellen: Beim Be-obachten und Experimentieren erleben wir immer wieder, daß Vorgänge, die unter scheinbar gleichenBedingungen ablaufen, zu verschiedenen, aber ähnlichen Resultaten führen. Der Schritt vom Wenn zumDann ist mit Ungewißheit belastet; der Zufall verdeckt die Struktur von Wirkungszusammenhängen. Andie Stelle von Wenn-Dann-Aussagen treten Aussagen über Wahrscheinlichkeiten von Ereignissen.

Untersuchungsgegenstand der Statistik sind Vorgänge, deren Resultate nicht mit Sicherheit vorherseh-bar sind und die man daher alsZufallsexperimentebezeichnet. In diesem Sinne ist jede Messung, derenResultate streuen, z.B. die Ausbildung der individuellen Körpergröße oder das Steueraufkommen einerRegion ein Zufallsexperiment. Bemerkenswert ist nun aber, daß die Ergebnisse solcher Zufallsexperi-mente nicht regellos (chaotisch) anfallen. Sie lassen vielmehr Gesetzmäßigkeiten erkennen, die freilichnicht als einfache Wenn-Dann-Aussagen darstellbar sind: Niemand weiß beispielsweise das Datum sei-nes Todes. Eine Generation stirbt aber im Verlauf eines Jahrhunderts in ganz gesetzmäßiger Weise ab.Die Menschen sind verschieden groß, ihre Körpergrößen sind aber nicht regellos verteilt. Wir wissen,daß Zwerge und Riesen nicht häufiger sind als Mittelwüchsige. Extreme Resultate des Wachstumsvor-ganges sind seltener als Durchschnittsresultate. Die Gesetzmäßigkeitenzufälliger Ereignissegeben demUnvorhersehbaren einen Rahmen, machen Unsicherheit kalkulierbar. Durch geeignete Maßnahmen kannman Unsicherheit verringern. Das Fachgebiet der Statistik umfaßt einen Großteil der dazu verwendetenMethoden.

Dieses Skriptum ist als Hilfsmittel zum leichteren Studium gedacht. Es ersetztnicht den Besuch derVorlesung und die regelmäßige Vorbereitung auf die Übungen, indem manselbstdie gestellten Übungs-aufgaben durchrechnet. Schriftliches Üben ist die wichtigste Voraussetzung für das Erlernen statistischerMethoden wie auch anderer Wissenschaften. Dies wurde bereits vonChristian Fürchtegott Gellert(1715 - 1769) erkannt. Er schreibt in seiner Vorlesung:Von den Fehlern der Studierenden bei der Erler-nung der Wissenschaften, insbesonderheit der Akademien: „ Ja, meine Herren, daß wir unsere Kraft zudenken und unsere Gedanken ausdrücken, so wenig durch schriftliche Versuche stärken, dieses ist derletzte Fehler, den ich noch berühren will; ein unvergeblicher Fehler! “. Die jetzige Studentengenerationist nicht die erste, die mit Statistik zu kämpfen hat. Im Lehrplan des Vereinigten Friedrichswerdener undFriedrichstädter Gymnasiums Berlin für die Prima im Jahre 1795/1796 findet man: Mittwoch: 10 - 11Uhr: Geographie und Statistik. Zum Schluß seiGeorg Christoph Lichtenberg mit der zeitlosen Klageeines Mathematikprofessors zitiert: „ Es ist unglaublich, wie unwissend die studierende Jugend auf Uni-versitäten kommt. Wenn ich nur zehn Minuten rechne oder geometrisiere, so schläft ein viertel derselbensanft ein“.

ii

Page 3: Skriptum Statistik I und II

Inhaltsverzeichnis

1 Deskriptive Statistik 11.1 Grundbegriffe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Absolute und relative Häufigkeiten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Empirische Verteilungsfunktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Deskriptive Lagemaße. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Streuungsmaße. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Grundbegriffe der Wahrscheinlichkeitsrechnung 102.1 Zufällige Ereignisse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .122.3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit. . . . . . . . . . . . . . 132.4 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

3 Diskrete Verteilungen 173.1 Grundlagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .173.2 Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .20

4 Stetige Verteilungen 244.1 Grundlagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .244.2 Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26

5 Mehrdimensionale Verteilungen 295.1 Diskrete Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .295.2 Stetige Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32

6 Grenzwertsätze 356.1 Linearkombination von Zufallsvariablen. . . . . . . . . . . . . . . . . . . . . . . . . . 356.2 Stochastische Ungleichungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356.3 Schwaches Gesetz der großen Zahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . 366.4 Zentraler Grenzwertsatz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37

7 Grundbegriffe der mathematischen Statistik 387.1 Grundgesamtheit und Stichprobe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387.2 Stichprobenfunktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38

8 Punkt und Intervallschätzung 418.1 Punktschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .418.2 Schätzverfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .428.3 Intervallschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44

9 Signifikanztests 479.1 Aufbau von Signifikanztests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479.2 Fehler erster Art und zweiter Art. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489.3 Signifikanztests für spezielle Fragestellungen. . . . . . . . . . . . . . . . . . . . . . . 50

10 Korrelation und Regression 5510.1 Einfache Korrelation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5510.2 Klassisches Regressionsmodell. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5710.3 Einfache Zeitreihenanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6610.4 Verallgemeinerungen des klassischen Regressionsmodells. . . . . . . . . . . . . . . . . 6810.5 Varianz- und Kovarianzanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

iii

Page 4: Skriptum Statistik I und II

11 Abhängigkeit zwischen qualitativen und ordinalen Merkmalen 7311.1 Assoziationsmaße für qualitative Merkmale. . . . . . . . . . . . . . . . . . . . . . . . 7311.2 Derχ2-Test auf statistische Unabhängigkeit. . . . . . . . . . . . . . . . . . . . . . . . 7611.3 Assoziationsmaße und Tests für ordinale Merkmale. . . . . . . . . . . . . . . . . . . . 76

12 Wirtschafts- und Sozialstatistik 7912.1 Datenbasis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7912.2 Bevölkerungsstatistik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7912.3 Erwerbsstatistik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8512.4 Indexrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .86

Anhang 91Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91Das Summenzeichen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .92Exponentialfunktion und Logarithmus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93Differential- und Integralrechnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94Matrizenrechnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .96Griechisches Alphabet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102

Literatur 103

Tabellen 104Die Standardnormalverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104Quantile dert-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105Quantile derχ2-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10695%-Quantile derFn1,n2;0.95-Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107Verteilungsfunktion der Poisson-Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . .109

iv

Page 5: Skriptum Statistik I und II

v

Page 6: Skriptum Statistik I und II

1 Deskriptive Statistik

1.1 Grundbegriffe

Bei statistischen Erhebungen (z.B.Volkszählung, Mikrozensus,Arbeitsstättenzählung, Einkommens- undVerbrauchsstichprobe) fallen in der Regel Tausende von Einzeldaten an. Diese im einzelnen unüber-schaubare Datenmenge wird durch die Methoden der deskriptiven Statistik auf möglichst wenige, aberaussagefähige Zahlen reduziert. Wichtige Beispiele sind absolute und relative Häufigkeiten, empirischeVerteilungsfunktionen, Mittelwerte und Indexzahlen. Die Darstellung der Daten durch Zahlen wird durchgraphische Darstellungen und Tabellen unterstützt.

Grundlage aller statistischen Überlegungen sind diestatistischen Einheiten, die als TrägerstatistischerMerkmalefungieren. Die für eine Untersuchung relevanten Einheiten faßt man zu einerGrundgesamt-heit zusammen. Eine ausgewählte Teilmenge der Grundgesamtheit bezeichnet man alsStichprobe. EineGrundgesamtheit ist nach sachlichen, zeitlichen, räumlichen und inhaltlichen Kriterien abzugrenzen. Vonjedem beliebigen Objekt muß entschieden werden können, ob es zur Grundgesamtheit gehört oder nicht.

Beispiel: Die ’deutsche Bevölkerung’ ist keine wohldefinierte Grundgesamtheit. Hingegen ist dieMenge ’Einwohner der Bundesrepublik Deutschland am 1.1.1990 um 12 Uhr MEZ eine sachlich, räumlichund zeitlich genau abgegrenzte Menge von Individuen und kann daher als Grundgesamtheit dienen.

Statistische Mengen (Grundgesamtheiten oder Stichproben), die auf einen Zeitpunkt (z.B. auf einenStichtag) bezogen sind, heißenBestandsmassen(z.B. Einwohner der DDR am 1. Okt. 1990); Massen,die auf einen Zeitraum bezogen sind, heißenBewegungsmassen(z.B. Geburten in der BundesrepublikDeutschland vom 1.1.1989 bis zum 31.12.1989).

An jeder statistischen Einheit werden Merkmale oder Variable festgestellt, z.B. bei Personen das Alter,das Einkommen, der Beruf, das Geschlecht etc. Merkmale sind nur dann für statistische Zwecke brauchbar,wenn die Ausprägungen eines Merkmals zwei Eigenschaften aufweisen. Erstens, die Merkmalsausprä-gungen schließen einander aus. Zweitens, jeder statistischen Einheit kann eine Merkmalsausprägungzugeordnet werden.

Beispiel: Das MerkmalA Religionsbekenntnis mit den Ausprägungen{A1 = katholisch,A2 = pro-testantisch} ist kein statistisches Merkmal, da es die zweite Bedingung nicht erfüllt. Hingegen ist dasMerkmalB Religionsbekenntnis mit{B1 = katholisch,B2 = protestantisch,B3 = sonstige} als statisti-sches Merkmal zu verwenden.

Die Zuordnung von Merkmalsausprägungen zu statistischen Einheiten bezeichnet man alsMessung.Die sorgfältige Durchführung einer Messung ist ein zentrales Problem jederWissenschaft. Die Messungenwerden für jede statistische Einheit durchgeführt und auf einerUrliste notiert. Verwaltet werden dieseDatensätzeheute mit Hilfe von EDV-gestützten Datenbanken. Wir geben ein Beispiel für eine Urlistean. Es bezieht sich auf eine Stichprobe der Wohnbevölkerung in der Bundesrepublik Deutschland zum1.1.2000.

Nummer Geschlecht Beruf Alter Kinderzahl

1 weiblich Kauffrau 42 22 weiblich Studentin 23 03 männlich Schlosser 33 unbekannt4 männlich Beamter 59 4...

......

......

n weiblich unbekannt 29 0

An diesem Beispiel ist zu erkennen, daß der Begriff der Messung in der Statistik allgemeiner ist alsin der Umgangssprache, in der als Messung die Zuordnung einer Zahl zu einer Untersuchungseinheitverstanden wird. In der Statistik wird ausgehend von der Urliste ebenfalls jeder Person für jede Variableeine Zahl zugeordnet. Diese Zahlen werden jedoch zunächst nur als Kodierungen verwendet und habennur für bestimmte Variable eine numerische Bedeutung. Die Kodierung von Merkmalsausprägungen mußin einem Kodierungsschlüssel festgelegt werden. Bei dieser Kodierung können auch Zusammenfassungender Merkmalsausprägungen erfolgen. Für das Beispiel verwenden wir folgende Kodierung:

1

Page 7: Skriptum Statistik I und II

Variable Merkmalsausprägung Kodierung

Geschlecht männlich 1weiblich 2

unbekannt -9999

Beruf Arbeiter 1Angestellter 2

Sonstige 3unbekannt -9999

Alter x = Altersangabe in Jahren x

unbekannt -9999

Kinderzahl x = Kinderzahl x

unbekannt -9999

Führt man diese Kodierung durch, erhält man die sogenannte Datenmatrix, bei der alle Messungen mitZahlen angegeben sind und die fehlenden Werte mit -9999 gekennzeichnet sind.

Nummer Geschlecht Beruf Alter Kinderzahl

1 2 2 42 22 2 3 23 03 1 1 33 -99994 1 3 59 4...

......

......

n 2 -9999 29 0

1.1.1 Skalenniveau

Für die Verwendung statistischer Maßzahlen, die im nächsten Abschnitt diskutiert werden, ist die Unter-scheidung von Merkmalen nach ihrem Meß– oder Skalenniveau von großer Bedeutung.

• Nominales Meßniveau: Wenn sich die Merkmalsausprägungen eines statistischen Merkmals für ei-ne statistische Untersuchung beliebig umordnen lassen, liegt ein nominal oder qualitativ skaliertesMerkmal vor. Typische Beispiele sind Geschlecht oder Beruf. Die Zahlen, die Merkmalsausprä-gungen dieser Variablen zugeordnet werden, haben keine inhaltliche Bedeutung, Rechnungen wieAddition und Subtraktion oder Vergleiche durch Ordnungsrelationen sind inhaltlich bedeutungslos.

• Ordinales Meßniveau: Wenn sich die Merkmalsausprägungen eines statistischen Merkmals nacheinem Kriterium ordnen lassen, die Abstände zwischen den Merkmalsausprägungen aber nichtbekannt sind, so liegt ein ordinales Merkmal vor. Die Zahlen, die als Kodierungen diesen Merk-malsausprägungen zugeordnet sind, müssen zwar die Rangfolge der Merkmalsausprägungen wie-dergeben, dieAbstände zwischen den Kodierungen können aber beliebig gewählt werden. TypischeBeispiele sind Schulnoten mit den Merkmalsausprägungen ’sehr gut’, ’gut’, ’befriedigend’, ’ausrei-chend’und ’mangelhaft’ oder Befragungen in den Sozial- und Wirtschaftswissenschaften, in denenSkalen mit Ausprägungen der Form ’stimme zu’, ’teils teils’, ’lehne ab’, den befragten Personenvorgelegt werden. Wiederum sind Rechnungen wie Addition und Subtraktion bedeutungslos. Ambesten macht man sich dieses Faktum bei den Schulnoten klar, für deren Merkmalsausprägungendie Kodierung{1,2,3,4,5,6} genauso zulässig ist wie die Kodierung{0,2/3,5,99.9,375,1000}.Die Berechnung eines Mittelwertes führt jedoch zu völlig unterschiedlichen Ergebnissen.Aus dieserÜberlegung folgt, daß die Durchschnittsnoten, die für die Zuweisung von Studienplätzen berechnetwerden, aus der Sicht des Statistikers unsinnig sind.

• Quantitatives Meßniveau: Wenn sich die Merkmalsausprägungen eines statistischen Merkmals so-wohl ordnen lassen als auch die Abstände zwischen den Merkmalsausprägungen sich angebenlassen, spricht man von quantitativen oder metrischen Merkmalen. Weisen sie darüber hinaus einen

2

Page 8: Skriptum Statistik I und II

natürlichen Nullpunkt auf, liegt eineRatio– oderVerhältnisskalavor. Die Kodierung dieser Merk-male muß sowohl die Ordnung als auch die Abstände zwischen den Merkmalen wiedergeben. DieBildung von Summen und Differenzen ist inhaltlich bedeutungsvoll. Typische Beispiele metrischskalierter Merkmale sind Häufigkeiten (z.B. Kinderzahl in einer Familie, Zahl der Autounfälle aneiner Kreuzung) oder Variable mit beliebig feiner Einteilung der Merkmalsausprägungen wie Alter,Größe und Gewicht. Eine wichtige Unterscheidung ist die Unterteilung der metrischen Merkmalein stetige Merkmale(z.B. Alter, Größe, Gewicht), in denen die Merkmalsausprägungen beliebigeWerte der reellen Zahlenachse annehmen können, unddiskrete Merkmale, in denen nur bestimmteMerkmalsausprägungen inR (reelle Zahlen) angenommen werden können. Beispiele sind die obengenannten Häufigkeiten. Ist ein diskretes Merkmal sehr fein unterteilt (z. B. Geldbeträge in Cent),wird das diskrete Merkmal wie ein stetiges Merkmal behandelt und daher als quasistetig bezeichnet.

1.2 Absolute und relative Häufigkeiten

Zur Analyse der Daten einer statistischen Erhebung faßt man zunächst für jedes einzelne Merkmal dieDaten zusammen, indem aus jeweils einer Spalte der Datenmatrix dieabsoluten Häufigkeitenjeder Merk-malsausprägung berechnet werden. Früher erfolgte diese Berechnung durch Strichlisten, heute werdenComputer für die Datenverarbeitung eingesetzt.

Beispiel: Für die qualitative VariableA Religionsbekenntnis mit den Ausprägungen und Kodierungen{A1 = römisch-katholisch= 1, A2 = protestantisch= 2, A3 = konfessionslos= 3, A4 = sonstigesBekenntnis= 4, A5 = unbekannt= −9999} liege folgende Kodierung der Urliste vor:

2 3 1 1 3 2 1 4 − 9999 − 9999 3 1 1 1 4 3 2 2 1 1 − 9999 1 2 4 3 2

Die Berechnung der absoluten Häufigkeitenhm für jede MerkmalsausprägungAm ergibt die Tabelle:

Häufigkeitstabelle zum Religionsbekenntnis

Merkmalsausprägung Symbol Kodierung absolute relativeHäufigkeit Häufigkeit

m (hm) (pm)

1 römisch katholisch A1 1 9 0.3462 protestantisch A2 2 6 0.2313 konfessionslos A3 3 5 0.1924 sonstiges Bekenntnis A4 4 3 0.1155 unbekannt A5 -9999 3 0.115

Summe∑

26 1.000

Neben den absoluten Häufigkeitenhm,m = 1, . . . ,5 stehen die relativen Häufigkeitenpm, die aus denhm für alleM Merkmalsausprägungen berechnet werden:

pm = hm

M∑m=1

hm

z.B. p1 = 9

9 + 6 + 5 + 3 + 3= 9

26= 0.34615 (1.1)

Die Gesamtzahl der Elemente wird mitN in der Grundgesamtheit und mitn in der Stichprobe bezeichnet,so daß gilt:

h• =M∑

m=1

hm = N (in einer Grundgesamtheit) (1.2)

h• =M∑

m=1

hm = n (in einer Stichprobe) (1.3)

3

Page 9: Skriptum Statistik I und II

Die Summe der relativen Häufigkeiten muß 1 ergeben. Die Bedeutung der relativen Häufigkeiten liegtin der Tatsache, daß mit ihnen Grundgesamtheiten oder Stichproben unterschiedlicher Größe verglichenwerden können.

Die graphische Darstellung eines qualitativen oder ordinalen Merkmals oder eines metrischen Merk-mals mit wenigen Ausprägungen erfolgt durch einStabdiagrammoder einKreisdiagramm. Im Stab-diagramm werden auf der Abszisse die MerkmalsausprägungenAm und auf der Ordinate die relativenHäufigkeitenpm aufgetragen. Im Kreisdiagramm werden die Winkelαm (in Grad◦) der Kreissektorenproportional zu den relativen Häufigkeitenpm gewählt:

αm = pm · 360 (1.4)

Beispiel: Auf die Frage nach ihrer Parteipräferenz gaben 50 StudentenAntworten, die sich in folgenderHäufigkeitstabelle zusammenfassen lassen:

Tabelle: Parteipräferenzen

Merkmalsausprägung Symbolhi pi αi

CDU/CSU A1 21 0.42 151.5SPD A2 19 0.38 136.8FDP A3 4 0.08 28.8GRÜNE A4 6 0.12 43.2

Im Unterschied zu qualitativen, ordinalen oder diskreten Merkmalen liegen bei stetigen oder quasistetigenmetrischen Merkmalen häufig so viele verschiedene Merkmalsausprägungen vor, daß bei einer einfachenHäufigkeitsauszählung keine Reduktion der Datenfülle erreicht wird. In diesem Fall ist es erforderlich, dieMerkmalsausprägungen zu Klassen zusammenzufassen, die ein neues metrisches Merkmal mit wenigerMerkmalsausprägungen ergeben. Als Beispiel betrachten wir das Merkmal Brenndauer (in Stunden) an200 Leuchtstoffröhren, für die z.B. folgende Werte auftreten:

127.53 144.27 443.17 99.40 207.89 . . .

Zur Berechnung der absoluten und relativen Häufigkeiten werden für jede Klassek = 1, . . . , K eine untereKlassengrenzeak und eine obere Klassengrenzeak+1 bestimmt. Der realisierte Wertxi der Stichprobeoder der Grundgesamtheit wird der Klassek zugewiesen, wennxi ein Element des halboffenen Intervalls(ak, ak+1] ist.

Tabelle: Brenndauer von Leuchtstoffröhren (in Stunden)

untere obereak Klassengrenze Klassengrenze Klassenmittehk pk fk

1 0 100 50 27 0.135 0.001352 100 200 150 49 0.245 0.002453 200 300 250 37 0.185 0.001854 300 400 350 28 0.140 0.001405 400 1000 700 59 0.295 0.00049∑

200 1.000

Man beachte, daß die Abstände zwischen den Klassengrenzen nicht gleich sind. Sie betragen jeweils 100in den ersten 4 Klassen und 600 in der fünften Klasse. Durch diese Klassenbildung läßt sich die Brenn-dauer als neues statistisches Merkmal mit 5 Ausprägungen auffassen, dessen Merkmalsausprägungen dieKlassenmittenck sind, durch die das metrische Skalenniveau der Variablen Brenndauer beibehalten wird.(Die Klassenmitte wird als repräsentativer Wert einer Klasse gewählt.) Man beachte, daß das metrischeSkalenniveau nur dann erhalten bleibt, wenn keine offenen Klassen (d.h.a1 = −∞ oderaK = +∞)verwendet werden. Offene Klassen sollten daher vermieden werden. Die Anzahl der Klassen sollte sogewählt werden, daß die Darstellung sowohl in tabellarischer- als auch in graphischer Form übersichtlichbleibt.

4

Page 10: Skriptum Statistik I und II

Die graphische Darstellung erfolgt wiederum durch Stabdiagramme, bei denen die Klassenmittenck auf der Abszisse und die relativen Häufigkeitenpk auf der Ordinate fürk = 1, . . . , K aufgetragenwerden. Eine zweite Möglichkeit ist die Darstellung durch Histogramme. Das Histogramm besteht ausRechtecken, die über den Intervallen(ak, ak+1] errichtet werden. Die Fläche des Rechtecks entspricht derrelativen Häufigkeitpk . Da die Intervalle(ak, ak+1] der Länge nach variieren können, müssen die Höhenfk der Rechtecke wie folgt berechnet werden:

fk = pk

ak+1 − ak

, k = 1, . . . , K (1.5)

Die Rechteckshöhe ist nicht identisch mit der relativen Häufigkeit, da die Breite der Klasse berücksich-tigt wird. In der letzten Tabelle ist die Höhe der einzelnen Klassen angegeben, so daß unmittelbar dasHistogramm erstellt werden kann. Liegt eine offene Klasse vor, kann kein Histogramm gezeichnet werden.

1.3 Empirische Verteilungsfunktion

Ist ein Merkmal metrisch, so läßt sich aus den relativen Häufigkeiten die empirische Verteilungsfunktionberechnen. Das metrische Merkmal werde mitX bezeichnet, der Wertx ist ein beliebiger Wert ausR.Die empirische VerteilungsfunktionFX(x) des MerkmalsX an der Stellex gibt an, wie groß die relativeHäufigkeit ist, daß die VariableX einen Wert≤ x annimmt. Die Verteilungsfunktion ist definiert durch:

FX(x) = 1

h•

M∑m=1

hm · Im(x) (1.6)

Die FunktionIm(x) ist die Indikatorfunktion. Sie nimmt den Wert 1 an, wenn der zuhm zugehörige Wertxi (i-te Merkmalsausprägung der VariablenX) ≤ x ist und nimmt den Wert 0 an, wennxi > x ist. Wennalle Meßwertexi unterschiedlich sind, erhält manhm = 1 undM = h• = n . Daraus folgt:

FX(x) = 1

M

M∑m=1

Im(x) (1.7)

Für die empirische Verteilungsfunktion der Brenndauer von Leuchtstoffröhren erhält man:

Tabelle: empirische Verteilungsfunktion der Brenndauer

untere obereak Klassengrenze Klassengrenze Klassenmittepk Fk(ak+1)

1 0 100 50 0.135 0.1352 100 200 150 0.245 0.3803 200 300 250 0.185 0.5654 300 400 350 0.140 0.7055 400 1000 700 0.295 1.000

Man beachte, daß die empirische Verteilungsfunktion einer Klassek immer an der oberen Klassengrenzeak+1 durch Summierung der relativen Häufigkeiten berechnet wird. Für die Werte der Klassek, dieunterhalb der oberen Klassengrenzeak+1 liegen, ist daher die Verteilungsfunktion zu groß. Für beliebigeWertex wird daher zwischen der unteren und der oberen Klassengrenze (unter der Annahme, daß dieWerte innerhalb einer Klasse gleich verteilt sind) linear interpoliert. Wennx in der Klassek liegt, gilt:

FX(x) = FX(ak) +(FX(ak+1) − FX(ak)

)(ak+1 − ak)

· (x − ak) (1.8)

Man beachte, daß die empirische Verteilungsfunktion nur für metrische Variablen definiert ist. Liegt eineordinale Variable vor, so lassen sich zwar dieK MerkmalsausprägungenA1 < A2 < . . . < AK ord-nen, die Lage dieser Merkmalsausprägungen aufR ist aber nicht bekannt. Trotzdem werden in manchen

5

Page 11: Skriptum Statistik I und II

Anwendungen die relativen Häufigkeiten auch für ordinale Häufigkeiten wie im letzten Beispiel kumu-liert. Diese kumulierte FunktionH : {A1, . . . , AM} −→ [0,1] bezeichnet man als kumulierte relativeHäufigkeit:

H(Am) =m∑

j=1

pj für m = 1, . . . ,M (1.9)

1.4 Deskriptive Lagemaße

Die gesamte statistische Information über ein Merkmal ist in den relativen Häufigkeiten enthalten. DieserInformationsgehalt läßt sich jedoch häufig – ohne Informationsverlust – durch wenige Kennzahlen dar-stellen. Die wichtigsten dieser Kennzahlen sind Lage- und Streuungsmaße. Wir gehen zunächst auf dieLagemaße ein.

1.4.1 Der Modus

Der ModusoderModalwert ist die häufigste Ausprägung einer Verteilung. Er wird mitM bezeichnet.Liegt eine metrische Variable in gruppierter Form vor, ist die häufigste Ausprägung dieModalklasse.Im Beispiel zur Parteipräferenz ist der Modus die Ausprägung CDU/CSU. Der Modus kann sowohl fürqualitative als auch für ordinale als auch für metrische Variable verwendet werden.

1.4.2 Der Median

Als MedianoderZentralwertbezeichnet man den Wertx0.5, für den gilt:

FX(x0.5) = 0.5 (1.10)

Der Median teilt die Grundgesamtheit oder Stichprobe in zwei gleiche Hälften. Die erste Hälfte besitztMerkmalsausprägungen≤ x0.5, die zweite Hälfte besitzt Merkmalsausprägungen≥ x0.5 . Zur Berechnungvonx0.5 werden die Wertex1, . . . , xn einer metrischen Variablen zunächst geordnet, so daß gilt:

x[1] ≤ x[2] ≤ . . . ≤ x[i] ≤ . . . ≤ x[n] (1.11)

Ist die Zahln ungerade, so ist

x0.5 = x[(n+1)/2] (1.12)

Ist die Zahln gerade, so wird der Median definiert als:

x0.5 = 1

2

(x[n/2] + x[n/2+1]

)(1.13)

Beispiel: Gegeben sei eine Stichprobe von monatlichen Einkommen (in EUR) von Studenten:

698 712 519 832 1316 497 781 1213 550 437

Die geordnete Liste der Einkommen ist:

437 497 519 550 698 712 781 832 1213 1316 (1.14)

Die Stichprobengrößen ist 10. Der Median ist daher:

x0.5 = (x[5] + x[6])/2 = (698+ 712)/2 = 705 (1.15)

Liegen die Daten nur in klassifizierter Form wie im Beispiel über die Brenndauer von Leuchtstoffröh-ren vor, so muß zunächst die Klassek bestimmt werden, in der der Median liegt. Diese Klasse heißtMedianklasse. Für sie gilt:

k ist Medianklasse⇐⇒ FX(ak) < 0.5 ≤ FX(ak+1) (1.16)

6

Page 12: Skriptum Statistik I und II

Hat man die Medianklassek ermittelt, kann unter der Annahme der Gleichverteilung der Werte innerhalbdieser Klasse der Median linear interpoliert werden:

x0.5 = ak + (ak+1 − ak)(FX(ak+1) − FX(ak)

) · (0.5 − FX(ak)) (1.17)

Beispiel: Aus der Häufigkeitstabelle der Brenndauer von Leuchtstoffröhren erhält man als Median-klassek = 3, da gilt:

F(a3 = 200) = 0.380< 0.5 ≤ 0.565= F(a4 = 300) (1.18)

Daraus läßt sichx0.5 berechnen:

x0.5 = 200+ 300− 200

0.565− 0.380· (0.500− 0.380) = 264.864 (1.19)

Liegt eine ordinale Skala vor, so läßt sich nur eine Ausprägung bestimmen, für die gilt:

H(Ak−1) < 0.5 ≤ H(Ak) (1.20)

Diese AusprägungAk kann als Medianausprägung oder kurz als Median des ordinalen Merkmals Abezeichnet werden.

1.4.3 Quantile

Der Begriff des Medians läßt sich auf den Begriff desα-Quantilsverallgemeinern. Gibt man einen Wertα ∈ [0,1] vor, so läßt sich für ein metrisches MerkmalX der Wertxα bestimmen, für den gilt:

FX(xα) = α (1.21)

Wichtige Spezialfälle sind die Quartile{x0.25, x0.75} und die Dezile{x0.1, x0.2, . . . , x0.9}. Die Quantilewerden wie der Median durch Auszählen bei Vorliegen einer geordneten Liste{x[1], . . . , x[n]} bestimmt.Dasxα-Quantil ist für eine geordneten Liste{x[1], . . . , x[n]} wie folgt definiert.

xα =

x[k] , falls n · α keine ganze Zahl ist, gilt:k ist die aufn · α folgendeganze Zahl

12

(x[k] + x[k+1]

), falls n · α eine ganze Zahl ist, gilt:k = n · α

(1.22)

Bei klassifizierten Daten werden die Quantile durch lineare Interpolation bestimmt.Beispiel: Das Unternehmen, das die im letzten Beispiel untersuchten Leuchtstoffröhren herstellt, möch-

te die Garantiezeit für die Brenndauer der Leuchtstoffröhren so festsetzen, daß maximal 15% der Röhrenersetzt werden müssen. Dieser Wert ist das 0.15-Quantil der Verteilung. Die Klasse, in der dieses Quantilliegt, istk = 2, da gilt:

F(100) = 0.135< 0.150≤ 0.380= F(200) (1.23)

Das 0.15 Quantil wird durch lineare Interpolation ermittelt:

x0.15 = 100+ 200− 100

0.380− 0.135· (0.15− 0.135) = 106.123 (1.24)

Das Unternehmen kann daher als Garantiedauer einen Wert von 106 Stunden festsetzen.

1.4.4 Das arithmetische Mittel

Das bekannteste Lagemaß für eine metrischeVariableX ist dasarithmetische Mittelx. Die Beobachtungen{x1, . . . , xn} werden gemittelt, d.h.:

x = 1

n

n∑i=1

xi (ungewichtetes Mittel) (1.25)

Treten bestimmte Merkmalsausprägungen häufiger als einmal auf, so läßt sich die Berechnung vereinfa-chen, indem die Merkmalsausprägungenxm mit hm multipliziert werden:

x = 1

h•

M∑m=1

xm · hm =M∑

m=1

xm · pm (gewichtetes Mittel) (1.26)

7

Page 13: Skriptum Statistik I und II

Auf die letzte Gleichung muß immer dann zurückgegriffen werden, wenn die Daten nur in klassifizierterForm vorliegen. Dann sind die Wertexm die Klassenmitten.

Beispiel: Die mittlere Brenndauer der Leuchtstoffröhren läßt sich als gewichtetes arithmetisches Mittelberechnen:

x = 50 · 0.135+ 150· 0.245+ 250· 0.185+ 350· 0.140+ 700· 0.295= 345.25 (1.27)

Das arithmetische Mittel kann nicht für ordinale und qualitative Merkmale berechnet werden, da für diesedie Addition nicht definiert ist.

Sowohlx0.5 als auchx charakterisieren die Lage derVerteilung vonX. Häufig sindx0.5 undx die Werte,um die sich die meisten Werte der Verteilung anordnen. Das arithmetische Mittel ist zwar das gebräuch-lichste Lagemaß; es empfiehlt sich aber, immer auch den Median zu berechnen, da dieser unempfindlichergegenüber Ausreißern als das arithmetische Mittel ist.

1.5 Streuungsmaße

Zusätzlich zur Lage der Verteilung ist man an der Streuung der Verteilung interessiert. Die Streuungbesagt, ob sich die Wertexi, i = 1, . . . , n einer metrischen VariablenX eng um einen Wert gruppieren,oder ob sie weit von diesem Wert entfernt liegen.

1.5.1 Die Spannweite

Das einfachste Streuungsmaß ist die SpannweiteR. Liegen die Daten als geordnete Liste{x[1], . . . , x[n]}vor, so ist:

R = x[n] − x[1] (1.28)

Die Spannweite hat den Nachteil, daß nur zwei extreme Werte zur Berechnung der Streuung verwendetwerden, so daß nur ein kleiner Teil der Information der Daten ausgenützt wird.

1.5.2 Varianz– und Standardabweichung

Um alle Werte in die Berechnung der Streuung einzubeziehen, liegt es nahe, die Summe aller Differenzenzwischenxi, i = 1, . . . , n und x zu bilden. Es gilt jedoch:

n∑i=1

(xi − x) =n∑

i=1

xi − x · n = 0 (1.29)

Dieser Nachteil läßt durch Verwendung von Absolutbeträgen oder Quadraten vermeiden. Als empirischeVarianzs2 wird die durchschnittliche quadrierte Abweichung vom Mittelwert verwendet, bei der großeAbweichungen überproportional gewichtet werden. Liegt eine Grundgesamtheit vor, so gilt:

s2 = 1

N

N∑j=1

(xj − x)2 (1.30)

Für eine Stichprobe gilt:

s2 = 1

n − 1

n∑i=1

(xi − x)2 (1.31)

Die unterschiedlichen Definitionen werden in der statistischen Methodenlehre begründet.Sind die Daten gruppiert oder klassifiziert, müssen die obigen Formeln durch Gewichtung modifiziertwerden:

s2 =K∑

k=1

(xk − x)2pk (für eine Grundgesamtheit) (1.32)

8

Page 14: Skriptum Statistik I und II

s2 = n

n − 1

K∑k=1

(xk − x)2pk (für eine Stichprobe) (1.33)

Die Varianz ist immer positiv. Um auf die ursprüngliche Maßeinheit zu kommen, verwendet man dieStandardabweichung:

s = √s2 (1.34)

Beispiel: Die Varianz und die Standardabweichung der Brenndauer von Leuchtstoffröhren sind auseiner Stichprobe vonn = 200 aus der angegebenen Häufigkeitstabelle zu berechnen. Das arithmetischeMittel ist gegeben mit:x = 345.25, siehe Gleichung (1.27).

Tabelle: Berechnung der Varianz

xk pk (xk − x)2 (xk − x)2pk

50 0.135 87172.563 11768.296150 0.245 38122.563 9340.028250 0.185 9072.563 1678.424350 0.140 22.563 3.159700 0.295 125847.563 37125.031∑

1.000 59914.937

Die empirische Varianz der Stichprobe beträgt:

s2 = 200

199· 59914.937= 60216.018[Stunden2] (1.35)

Die Standardabweichung ist dann:

s = 245.389[Stunden]In diesem Beispiel findet man daher eine starke Streuung der Brenndauern um den Mittelwert. Manbeachte, daßs2 unds genauso wiex nur für metrische Variablen definiert sind.

1.5.3 Der Variationskoeffizient

Zum Zweck des Vergleichs von Streuungen aus verschiedenen Grundgesamtheiten oder Stichprobenbenötigt man ein dimensionsloses Maß der Streuung. Ein solches Maß ist der Variationskoeffizient fürpositive metrische VariableX.

v = s

x(für x unds aus der Grundgesamtheit oder aus der Stichprobe) (1.36)

Beispiel: Mittelwert und Standardabweichung des Brotpreises für ein kg Brot in der BundesrepublikDeutschland betragenx = 3.25 EUR,s2 = 1.96 EUR2, in der Schweizx = 5 CHF, s2 = 4.6 CHF2.In welchem Land streut der Brotpreis stärker? In beiden Ländern streut, gemessen am Durchschnitt, derBrotpreis ungefähr gleich, da gilt:

vD =√

1.96

3.25= 0.431≈ vCH =

√4.6

5= 0.429 (1.37)

1.5.4 Der Quartilsabstand

Als Alternative zur Standardabweichung läßt sich auch derQuartilsabstandq verwenden:

q = (x0.75 − x0.25

)(1.38)

Das Maßq gibt die Länge eines Intervalls an, auf dem die mittleren 50% der Verteilung liegen. Als Übungberechne manq für das Beispiel mit der Brenndauer der Leuchtstoffröhren.

9

Page 15: Skriptum Statistik I und II

2 Grundbegriffe der Wahrscheinlichkeitsrechnung

Die Wahrscheinlichkeitsrechnung ist ein Teilgebiet der Mathematik, das sich mit der Untersuchung derGesetzmäßigkeiten von Ereignissen befaßt, deren Eintreffen vom Zufall abhängt. Zu den Grundbegriffender Wahrscheinlichkeitsrechnung zählen Zufallsexperimente, Ereignisse und Wahrscheinlichkeit.

2.1 Zufällige Ereignisse

Untersuchungsgegenstand der Wahrscheinlichkeitsrechnung sindZufallsexperimente. Unter einem Zu-fallsexperiment versteht man ein Experiment, das beliebig oft unter identischen Bedingungen wiederholtwerden kann. Dieses Experiment hat eine bestimmte Anzahl unterschiedlicher Ergebnisse, die zufallsbe-dingt sind, d.h. im voraus nicht eindeutig bestimmt werden können.

Beispiele:• Bei einem Würfelwurf ist nicht vorhersehbar, wieviele Augen{1,2, . . . ,6} die Kopfseite des Wür-

fels zeigen wird. Das Ergebnis eines Würfelwurfes – die oben liegende Augenzahl – bezeichnetman als zufälliges Ereignis.

• Besteht das Zufallsexperiment aus der Ziehung einer Karte aus einem Skat-Kartenspiel (32 Karten),so kann das zufällige Ereignis durch ein zweidimensionales Merkmal beschrieben werden, nämlichdurch die Farbe{Kreuz, Pik, Herz, Karo} und durch das Bild{7,8, . . . ,König, As}.

• In einem Materiallager bilden die Abgänge der verschiedenen Produkte pro Monat ein Zufallsex-periment. Dieses Experiment wiederholt sich monatlich. Das zufällige Ereignis (Versuchsausgang)wird mehrdimensional durch die Höhe der Abgänge der einzelnen Produkte beschrieben.

Allerdings ist anzumerken, daß gerade in den Sozial- und Wirtschaftswissenschaften auch nicht repro-duzierbare Phänomene als Zufallsexperimente modelliert werden. Über die inhaltliche Bedeutung deszufälligen Ereignisses kommen wir jetzt zur mathematischen Begriffsbestimmung. Gegeben sei ein Zu-fallsexperiment, dessen Ausgang durch ein ein- bzw. mehrdimensionales Merkmal beschrieben wird.

Definition:1. Jeder Wert, den ein Merkmal annehmen kann, (jeder mögliche Ausgang eines Zufallsexperiments)

heißtElementarereignis(Symbolω).

2. Die Menge aller Elementarereignisse heißtEreignisraum(Merkmalsraum, Stichprobenraum; Sym-bol *).

3. Jede TeilmengeA des Ereignisraums* nennt man einEreignis. A ⊂ *.

4. Man spricht vomEintreffen des EreignissesA, wenn das bei einem Versuch realisierte Elementar-ereignisω ein Element aus der MengeA ist (ω ∈ A).

Ereignisse werden gewöhnlich mit großen lateinischen Buchstaben gekennzeichnet, die häufig noch miteinem Index versehen sind (A1, A2 …), um die Ereignisse durchzunumerieren. Elementarereignissewerden dagegen mit kleinen griechischen Buchstaben gekennzeichnet, die auch indiziert sein können.ωi ∈ A heißt: das Elementarereignisωi ist Element des EreignissesA.

Beispiel: Wir betrachten zunächst ein Experiment mit einem Würfel. Die 6 Elementarereignisse sinddie Augenzahleni = 1, . . . ,6. Der Ereignisraum* ist {1,2, . . . ,6}. Wir definieren die Ereignisse:

Ai : Es werdeni Augen gewürfelt.Ai = {i}A : Es wird eine gerade Augenzahl gewürfelt.A = {2,4,6}B : Es wird eine ungerade Augenzahl gewürfelt.B = {1,3,5}

A3 tritt also dann ein, wenn eine 3 gewürfelt wird, undA tritt ein, wenn eine 2, 4 oder 6 gewürfelt wird.Beispiel: Wird ein Experiment mit zwei Würfeln durchgeführt, so sind die 36 Elementarereignisse die

Kombinationen der Augenzahlen der beiden Würfel. Zum Beispiel bedeutetω = (2,4), daß der ersteWürfel 2 und der zweite Würfel 4 Augen zeigt.

10

Page 16: Skriptum Statistik I und II

Weitere Beispiele für Ereignisse sind:

A : Mit dem ersten Würfel wurden 3 Augen gewürfelt,A = {(3, j)|j = 1, . . . ,6}.B : Mit beiden Würfeln werden gerade Augenzahlen geworfen,

B = {(i, j)|i = 2,4 oder 6, j = 2,4 oder 6}.Beispiel: Bei der Untersuchung über die Lebensdauer einer Glühbirne besteht die Menge der möglichen

Ausgänge aus allen nichtnegativen reellen Zahlen:* = {x|x ≥ 0}.A sei das Ereignis, daß eine Glühbirnemindestens 100 Stunden brennt:A = {x|x ≥ 100}. Wenn die Birne nach 90 Stunden ausfällt, so istA

nicht eingetroffen.

2.1.1 Verknüpfungsoperationen zwischen Ereignissen

Im folgenden seienA,B,Ai ⊂ *, i ∈ N, ohne daß dies extra erwähnt wird.Definition:1. Das EreignisA ∪ B tritt genau dann ein, wenn entwederA oderB eintreten oder beide Ereignisse

A undB gleichzeitig eintreten.A ∪ B heißt Vereinigungsereignis vonA undB.

2. Das EreignisA ∩ B tritt genau dann ein, wenn sowohlA als auchB eintritt. A ∩ B heißt Durch-schnittsereignis vonA undB.

3. Das Ereignis∩∞i=1Ai = A1 ∩ A2 ∩ . . . tritt ein, wenn alleAi eintreten (wenn das realisierte

Elementarereignis Element allerAi ist, für allei ∈ N gilt: ω ∈ Ai).

Beispiel: In einemWürfelexperiment mit einemWürfel seien die EreignisseAundC wie folgt definiert:A : Es wird eine gerade Augenzahl gewürfelt,C : Es wird eine 2 oder 3 gewürfelt. Dann istA ∩ C = {2}undA ∪ C = {2,3,4,6}.

Definition:1. Zwei EreignisseA undB heißengleich (in ZeichenA = B), wennA genau dann realisiert wird,

wennB realisiert wird. Dies impliziert, daßA undB dieselben Elementarereignisse enthalten.

2. Tritt mit dem EreignisA auch das EreignisB ein, so zieht das EreignisA das EreignisB nach sich.In ZeichenA ⊂ B.

Das EreignisU1, daß mit einemWürfel eineAugenzahl größer als 6 geworfen wird, kann ebenso unmöglicheintreten wie das EreignisU2, daß eine Zahl zwischen 1 und 2 gewürfelt wird. Nach Definition sind dieseEreignisse gleich. Es gibt nur ein unmögliches Ereignis.

Definition:1. Das Ereignis { } (oder auch∅) heißtunmögliches Ereignis(es tritt nie ein).

2. * heißt dassichere Ereignis(es tritt immer ein).

3. Das Ereignis, das genau dann eintritt, wennA nichteintritt, heißt das zuA komplementäre EreignisAc.

4. Zwei EreignisseA und B schließen einander aus(sind unverträglichoder disjunkt), wenn ihrgemeinsames Auftreten unmöglich ist, also wennA ∩ B = ∅.

5. Die EreignisseA1, . . . , An heißenZerlegungvon *, wenn in einem Versuch genau eines dieserEreignisse realisiert werden muß.A1, . . . , An bilden eine Zerlegung, wenn gilt:a)A1 ∪ . . . ∪ An = *

b) Ungleiche Ereignisse schließen einander paarweise aus, d.h.Ai ∩ Aj = ∅ für alle Paarei �= j .

Beispiel: Wir betrachten wieder ein Würfelexperiment mitA = {1,3,5} undB = {2,4,6}. DieEreignisseA und B schließen einander aus, da es keine Augenzahl gibt, die sowohl gerade als auchungerade ist. Da aber entweder eine gerade oder ungerade Augenzahl auftreten muß, giltAc = B undBc = A. Da zueinander komplementäre Ereignisse wegenA ∪ Ac = * immer eine Zerlegung bilden,sindA undB eine Zerlegung von*. A1, . . . , A6 bilden eine weitere Zerlegung.

11

Page 17: Skriptum Statistik I und II

2.1.2 Potenzmenge

Sind in einem Zufallsexperiment nur endlich viele Versuchsausgänge möglich, so besteht die Menge allerEreignisse aus derPotenzmengevon*, d.h. aus der Menge aller möglichen Teilmengen von* (die leereMenge∅ und die Menge* selbst sind auch Teilmengen von*). Besteht* ausn Elementarereignissen,so gibt es 2n verschiedene Ereignisse (Teilmengen). Für* = {1,2,3} ist die Potenzmenge gegeben mit:P(*) = {{∅}, {1}, {2}, {3}, {1,2}, {1,3}, {2,3}, {1,2,3}}.

2.2 Wahrscheinlichkeit

Mit der Ausnahme des unmöglichen Ereignisses besteht für alle Ereignisse die Möglichkeit, in einemZufallsexperiment aufzutreten. Die Ereignisse besitzen nun einen bestimmten Wahrscheinlichkeitsgradder Realisierung, der durch eine Zahl zwischen 0 und 1 repräsentiert wird. So weist im fairen Würfelex-periment z.B. das EreignisA (gerade Augenzahl) eine größere Wahrscheinlichkeit auf als das EreignisC (Augenzahl 2 oder 3). Wenn man ein Zufallsexperiment mit einem Zehn-Pfennig-Stück durchführt, sounterstellt man für ’Zahl’und ’Wappen’dieselbe Wahrscheinlichkeit. Üblicherweise wird ein Wahrschein-lichkeitsmaßP so normiert, daß die WahrscheinlichkeitP des sicheren Ereignisses gleich 1 ist. Daherwird in einem Zufallsexperiment mit einer Münze den Ausprägungen Zahl und Wappen die Wahrschein-lichkeit 0.5 zugewiesen. In der Umgangssprache ist der Wahrscheinlichkeitsbegriff subjektiv. Wenn manStudent S zweiWochen vor der Statistik-Klausur sagt, er werde wahrscheinlich die Klausur bestehen, so istdies nur eine qualitative Aussage, da eine quantitative Aussage über die Wahrscheinlichkeit des Ereignis-ses {S besteht Statistik-Klausur} fehlt. Bevor wir zur mathematischen Definition der Wahrscheinlichkeitkommen, werden zwei Interpretationsmodelle der Wahrscheinlichkeit vorgestellt.

2.2.1 A-priori-Modelle

A-priori-Modelle beruhen auf dem Prinzip vom unzureichenden Grund (auch Indifferenzprinzip): Hat mankeine Veranlassung, einen bestimmten Ausgang eines Zufallsexperiments für wahrscheinlicher als einenanderen zu halten, so wird man alleAusgänge für gleichmöglich ansehen. Besteht der Ereignisraum* ausN,N < ∞, Elementarereignissen, so ist die Wahrscheinlichkeit, daß ein bestimmtes Elementarereignisrealisiert wird, gleich 1/N . Somit berechnet man die WahrscheinlichkeitP(A) eines EreignissesA durchP(A) = K/N , wobeiK die Anzahl der inA enthaltenen Elementarereignisse ist. Der Vorteil der A-priori-Modelle besteht darin, daß man die Wahrscheinlichkeit durch Abzählen der Elementarereignisseausrechnen kann. Der Nachteil liegt darin, daß es in den Wirtschafts- und Sozialwissenschaften seltenSituationen gibt, auf die man das Indifferenzprinzip anwenden kann.

2.2.2 Die Häufigkeitsinterpretation

Unter der (empirischen)Wahrschewinlichkeit eines Ereignisses versteht man die relative Häufigkeit diesesEreignisses in einer (theoretisch unendlich) langen Versuchsreihe. Die relative Häufigkeitpn = m

n istder Quotient aus der Anzahlm des Eintreffens des Ereignisses inn Versuchen. Nach einer weiterenDurchführung des Experiments erhält man:

pn+1 =

m+1n+1 = n

n+1 pn + 1n+1 wenn das Ereignis eingetreten ist

mn+1 = n

n+1 pn wenn es nicht eingetreten ist(2.1)

Man erkennt, daß dieÄnderung der relativen Häufigkeit durch denAusgang eines weiteren Experimentsumso geringer ist, je größern ist. Die Fluktuation der Folgep1, p2, . . . nimmt ab. Strebt die relativeHäufigkeit eines Ereignisses mit wachsendemn zu einem Grenzwert, so bezeichnet man diesen Grenzwertals Wahrscheinlichkeit dieses Ereignisses.

Münzversuch:pn(’Zahl’) → P(’Zahl’),wennn → ∞ (2.2)

Diese Interpretation bietet den Vorteil, daß man die Wahrscheinlichkeit durch eine endliche Messungapproximieren kann. Es wird keinA-priori-Modell benötigt. Die Genauigkeit der Messung läßt sich durch

12

Page 18: Skriptum Statistik I und II

Versuchswiederholungen beliebig heraufsetzen. Die Wahrscheinlichkeit kann auf diese Weise allerdingsnur bestimmt werden, wenn das Zufallsexperiment beliebig oft wiederholbar ist. Darin besteht der Nachteildieses Ansatzes.

Zur formalen Behandlung wird der Wahrscheinlichkeitsbegriff axiomatisch (d.h. durch Festlegung)eingeführt. Die Axiomatisierung der Wahrscheinlichkeit wurde durch den russischen MathematikerKol-mogoroff (1933) durchgeführt, der die Wahrscheinlichkeit indirekt durch Angabe gewünschter Eigen-schaften und Relationen definiert hat.

Definition:(Axiome vonKolmogoroff) Eine FunktionP(A), die jedem EreignisA ⊂ * einen WertP(A) so zuordnet, daß die folgenden Bedingungen gelten, heißt einWahrscheinlichkeitsmaßauf derGesamtheit der zu einem Zufallsexperiment gehörenden Ereignisse.

1. 0 ≤ P(A) ≤ 1 für alle EreignisseA

2. P(∅) = 0, P (*) = 1

3. (a) SchließenA undB einander aus, so gilt:

P(A ∪ B) = P(A) + P(B)

(b) Sind die abzählbar unendlich vielen EreignisseA1, A2, . . . paarweise disjunkt, so gilt:

P(∪∞

i=1Ai

) = P (A1 ∪ A2 ∪ · · ·) =∞∑i=1

P(Ai)

Bemerkung: Gilt für das EreignisP(A) = 0, so folgt darausnicht, daßA das unmögliche Ereignisist. Aus den Axiomen vonKolmogoroff lassen sich folgende Eigenschaften der Wahrscheinlichkeitherleiten:

Satz:1. Für das komplementäre Ereignis vonA gilt: P(Ac) = 1 − P(A)

2. Gilt für zwei EreignisseA undB A ⊂ B, so istP(A) ≤ P(B)

3. Für zwei beliebige EreignisseA undB gilt: P(A∪B) = P(A)+P(B)−P(A∩B) (Additionssatz)

4. Bilden die EreignisseA1, . . . , An eine Zerlegung von*, so gilt:

n∑i=1

P(Ai) = 1

Beispiel: Besitzt jede Augenzahl in einem Würfelexperiment die Wahrscheinlichkeit 1/6, und istE

das Ereignis, daß keine 6 gewürfelt wird, so istP(E) = 1 − P(Ec) = 1 − 1/6; dennEc tritt ein, wenneine 6 gewürfelt wird.

2.3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit

Bisher sind nur Wahrscheinlichkeiten von Ereignissen ohne Berücksichtigung weiterer Bedingungen be-handelt worden. Oft interessiert man sich aber für die Wahrscheinlichkeit eines EreignissesA unter derzusätzlichen Voraussetzung, daß ein bestimmtes EreignisB eintritt oder schon eingetreten ist. Man möch-te z.B. wissen, mit welcher Wahrscheinlichkeit ein Fernseher noch 2 Jahre funktioniert, wenn man weiß,daß er bereits 5 Jahre störungsfrei gelaufen ist. Ein zweites Beispiel ist die Berechnung der Wahrschein-lichkeit, daß von den Frauen der Belegschaft eines Unternehmens mindestens eine befördert wird. DasEreignisA ist dann das Ereignis ’mindestens eine Person wird befördert’ undB ist das Ereignis ’weib-lich’. Muß man also bei der Berechnung vonP(A) eine Bedingung berücksichtigen, die einen Einfluß aufdie Wahrscheinlichkeit vonA ausübt, so spricht man von einer bedingten Wahrscheinlichkeit.Definition:

P(A|B) =

P(A ∩ B)

P (B)falls P(B) > 0

0 fallsP(B) = 0(2.3)

heißtbedingte Wahrscheinlichkeit von A, gegeben, daß B eintrifft oder eingetroffen ist.

13

Page 19: Skriptum Statistik I und II

Beispiel: Wie groß ist die Wahrscheinlichkeit in einem Würfelexperiment, mit einem Würfel eineAugenzahl kleiner als 3 zu werfen, wenn bekannt ist, daß eine gerade Augenzahl gewürfelt worden ist?Es istP(A|B) zu berechnen, wobeiA = {1,2} undB = {2,4,6} ist. WegenP(A ∩ B) = P({2}) = 1/6undP(B) = 1/2 folgt P(A|B) = 1/3 .

Beispiel: ImWürfelexperiment mit zweiWürfeln besitzt jede Kombination vonAugenzahlen dieWahr-scheinlichkeit 1/36. Es seiA das Ereignis, daß mit dem zweiten Würfel eine 1, undB, daß mit dem erstenWürfel eine ungerade Augenzahl gewürfelt wird, alsoA = {(i, j)|i = 1, . . . ,6, j = 1}, B = {(i, j)|i =1,3,5, j = 1, . . . ,6, }. Es istP(A) = 1/6 undP(B) = 1/2. WegenA ∩ B = {(1,1), (3,1), (5,1)}folgt:

P(A|B) = 3/36

1/2= 1

6(2.4)

Das EreignisB hat also keinen Einfluß auf die Wahrscheinlichkeit vonA , was auch erwartet wird, da dieEreignisseA undB zwei verschiedene Würfel betreffen.

Definition: Man bezeichnet zwei EreignisseA, B eines Zufallsexperiments alsstochastisch unabhän-gig, wenn das Eintreten des einen die Eintrittswahrscheinlichkeit des anderen nicht beeinflußt:

P(A|B) = P(A), falls P(B) > 0 (2.5)

Aus dieser Definition und der Definition der bedingten Wahrscheinlichkeit folgt der nächste Satz.Satz: A undB sind genau dann stochastisch unabhängig, wenn gilt:

P(A ∩ B) = P(A) · P(B) (2.6)

Beweis:

P(A|B) = P(A) ⇐⇒ P(A ∩ B)

P (B)= P(A) ⇐⇒ P(A ∩ B) = P(A) · P(B) (2.7)

Dieser Satz zeigt, daß bei stochastisch unabhängigen Ereignissen dieWahrscheinlichkeit des gemeinsamenEintretens beider Ereignisse gleich dem Produkt der Einzelwahrscheinlichkeiten ist.

Aus der allgemeinen Definition der bedingten Wahrscheinlichkeit kann die folgendeMultiplikations-regelhergeleitet werden:

P(A ∩ B) = P(A|B) · P(B) (2.8)

Aus der Multiplikationsregel lassen sich die Formel für die vollständigeWahrscheinlichkeit und die Formelvon Bayes herleiten.

Satz von der vollständigen Wahrscheinlichkeit: Bilden die EreignisseE1, . . . En eine Zerlegung von*, so gilt für ein beliebiges EreignisA:

P(A) =n∑

i=1

P(A|Ei) · P(Ei) (2.9)

Satz von Bayes: Bilden die EreignisseE1, . . . , En eine Zerlegung von*, so gilt für ein beliebigesEreignisA mit P(A) > 0:

P(Ei |A) = P(A|Ei) · P(Ei)n∑

j=1

P(A|Ej) · P(Ej)

für i = 1, . . . , n (2.10)

Beweis: Nach der Multiplikationsregel istP(A|Ei) · P(Ei) = P(A ∩ Ei) und nach dem Satz dervollständigen Wahrscheinlichkeit ist

∑nj=1 P(A|Ej) · P(Ej) = P(A).

P(Ei) wird als a-priori-Wahrscheinlichkeit des EreignissesEi und P(Ei |A) wird als a-posteriori-Wahrscheinlichkeit vonEi bezeichnet. Dieser Satz kann also dazu verwendet werden, ein unbekanntea-posteriori-Wahrscheinlichkeit mit Hilfe von a priori Wahrscheinlichkeiten und bedingten Wahrschein-lichkeiten zu berechnen.

Beispiel: Eine Firma baut 3 verschiedene elektronische Bauteile. Durchschnittlich sind 2% der Bauteiledes ersten Typs, 5% des zweiten und 3% des dritten Ausschuß. Wie groß ist die Wahrscheinlichkeit, daß

14

Page 20: Skriptum Statistik I und II

ein zufällig aus der Produktion ausgewähltes Bauteil Ausschuß ist, wenn der Anteil des ersten Typs andem Produktionsausstoß 20%, der des zweiten 30% und der des dritten 50% beträgt? StehtA für dasEreignis, daß ein Bauteil defekt ist, undEi dafür, daß das Teil vom Typi ist, so ergibt der Satz für dietotale Wahrscheinlichkeit:

P(A) =3∑

i=1

P(Ei) · P(A|Ei) = 0.2 · 0.02+ 0.3 · 0.05+ 0.5 · 0.03 = 0.034 (2.11)

Ein Kunde beschwert sich, daß das ihm gelieferte Bauteil defekt ist, ohne den Typ des Bauteils anzugeben.Wie groß ist die Wahrscheinlichkeit, daß das Bauteil eines des ersten Typs ist? Nach dem Satz vonBayeserhält man:

P(E1|A) = P(A|E1) · P(E1)

3∑i=1

P(A|Ei) · P(Ei)

= 0.02 · 0.2

0.034= 0.118 (2.12)

2.4 Zufallsvariable

Werden allen möglichen Ausgängen eines Zufallsexperiments (allen Elementarereignissen) durch eineFunktion Zahlen zugeordnet, spricht man von einer eindimensionalen Zufallsvariablen, die wir mitX, YoderZ bezeichnen. Wird ein Zahlentupel (X1, . . . , Xk) zugeordnet, so sprechen wir von einer mehrdi-mensionalen Zufallsvariablen oder einem Zufallsvektor.

Beispiel: Eine Münze wird dreimal geworfen. Die Menge der Elementarereignisse ist:

* = {WWW, ZWW, WZW, WWZ, ZZW, ZWZ, WZZ, ZZZ} (2.13)

wobeiW für Wappen undZ für Zahl stehen. Nach dem Indifferenzprinzip hat jedes Elementarereignisdie Wahrscheinlichkeit 1/8. Die ZufallsvariableX sei nun als die Häufigkeit von Wappen definiert. DerWertebereich vonX ist dann{0,1,2,3}. Die Wahrscheinlichkeiten für die einzelnen Werte werden durchdie Wahrscheinlichkeitsverteilung auf* induziert. Daher gilt:P(X = x) = P({ω ∈ *|X(ω) = x}).

x 0 1 2 3 1

P(X = x)1

8

3

8

3

8

1

81

Weitere Beispiele für Zufallsvariable sind:

• die Brenndauer einer Glühbirne (stetig)

• die Anzahl der Auftragseingänge eines Betriebs während eines Monats (diskret)

• die Dauer einer Reparatur in einer Werkstatt (stetig).

• die Anzahl der abgeschlossenen Versicherungsverträge einer Agentur (diskret)

Definition:

1. Eine Zufallsvariable heißt diskret, wenn ihr Wertebereich endlich oder abzählbar unendlich ist.

2. Eine Zufallsvariable heißt stetig, wenn ihre möglichen Werte wenigstens ein Intervall der reellenZahlenR ausfüllen und kein Elementarereignis positive Wahrscheinlichkeit besitzt.

Durch Zufallsvariable wird eine Wahrscheinlichkeit auf dem Wertebereich (üblicherweise Intervalle)induziert. Wir schreiben

PX(I) = P(X ∈ I ) = P({ω|X(ω) ∈ I }). (2.14)

für TeilmengenI von R. Falls keine Mißverständnisse auftreten können, schreibt man auchP(I) stattPX(I).

15

Page 21: Skriptum Statistik I und II

Beispiel: Beschreibt die ZufallsvariableX die Brenndauer einer Glühbirne in Std., so istPX(100, ∞)

die Wahrscheinlichkeit, daß die Glühbirne länger als 100 Stunden brennt. Man beachte, daß die Wahr-scheinlichkeit auf dem beiderseitig offenen Intervall(100, ∞) berechnet wird.

Beispiel: Eine Münze wird dreimal geworfen.X sei die Häufigkeit von Wappen undY sei die Anzahlder Versuche, bevor das erste Wappen erscheint. Falls bei keinem Versuch Wappen geworfen wird, so sollY gleich 3 gesetzt werden. Der Wertebereich des Zufallsvektors(X, Y ) ist: {(0,3), (1,0), (1,1), (1,2), (2,0),(2,1), (3,0)}. Das Paar (2,0) tritt beiWZW undWWZ ein.(X, Y ) besitzt folgende Wahrscheinlichkeits-verteilung:

x

y 0 1 2 3

0 - 18

14

18

1 - 18

18 -

2 - 18 - -

3 18 - - -

16

Page 22: Skriptum Statistik I und II

3 Diskrete Verteilungen

3.1 Grundlagen

Der WertebereichM einer diskreten ZufallsvariablenX ist abzählbar. Besitzt ein Zufallsexperiment alsMenge der Ausgänge die Menge der ganzen Zahlen, so ist* = Z. Die WahrscheinlichkeitsverteilungPX(A) aufM wird durch ihrediskrete Dichte(Wahrscheinlichkeitsfunktion) beschrieben:

pj = PX({j}) = P(X = j) = P({ω ∈ *|X(ω) = j}) für alle j ∈ M (3.1)

pj ist die Wahrscheinlichkeit, daß die ZufallsvariableX die Ausprägungj annimmt. IstA ⊂ M, danngilt:

PX(A) =∑j∈A

pj (3.2)

Für diskrete Dichten gilt (falls* = Z):

pj ≥ 0 für allej ∈ Z und∞∑

j=−∞pj = 1 (3.3)

Eine Verteilung wird durch die Verteilungsfunktion vollständig repräsentiert.Definition: Ist PX(A) die Wahrscheinlichkeitsverteilung einer ZufallsvariablenX, so heißt:

FX(x) = PX((−∞, x]) = P(X ≤ x), x ∈ R (3.4)

die Verteilungsfunktionvon PX(A). Man beachte, daßFX(x) eine Stufenfunktion darstellt und aufR

definiert ist. Im folgenden schreiben wir nurP(A) undF(x) stattPX(A) bzw. FX(x), da wir nur eineZufallsvariable behandeln und daher Mißverständnisse ausgeschlossen sind.

Satz: Die Verteilungsfunktion einer diskreten Zufallsvariablen wird durch folgende Eigenschaftencharakterisiert:

1. F(x) steigt monoton

2. F(x) =∑j≤x

pj

3. limx→−∞ F(x) = 0, lim

x→∞ F(x) = 1

4. F(j) − F(j − 1) = pj für j ∈ Z

Beispiel: Die Verteilungsfunktion der ZufallsvariablenX, die die Anzahl der im dreifachen Münzwurfgeworfenen Wappen beschreibt, ist:

F(x) =

0 für x < 0

18 für 0 ≤ x < 1

48 für 1 ≤ x < 2

78 für 2 ≤ x < 3

1 für 3 ≤ x

(3.5)

Zur Charakterisierung einer Zufallsvariablen genügen häufig einzelne Kennzahlen, sogenannte Vertei-lungsparameter.

Definition: Es seig(X) : R → R eine reellwertige Funktion. Dann ist der Erwartungswert vong(X)

durch folgenden Ausdruck gegeben:

E(g(X)) =∑j∈M

g(j) · pj (3.6)

17

Page 23: Skriptum Statistik I und II

Beispiel: Eine Telefonvermittlung kann maximal 10 Gespräche pro Minute vermitteln.Wird dieAnzahlder Anrufe durch die ZufallsvariableX beschrieben und istg(x) = 0 falls x ≤ 10 undg(x) = 1 fallsx > 10, so beschreibtg(X), ob die Vermittlung überlastet ist oder nicht.E(g(X)) ist in diesem Fall dieWahrscheinlichkeit, daß die Vermittlung mehr als 10 Anrufe erhält.

Definition:1. E(X) heißt Erwartungswert und wird mit dem Symbolµ bezeichnet.

E(X) =∑j∈M

xj · pj

2. E((X − µ)2) heißt Varianz (Streuung) vonX und wird mitV (X), σ 2(X) oderσ 2 bezeichnet.

E((X − µ)2) =∑j∈M

(xj − µ)2 · pj

3. σ(X) = √σ 2(X) heißt Standardabweichung vonX

Eine zusätzliche Charakterisierung derVerteilung einer ZufallsvariablenX läßt sich durch die sogenanntenMomente vornehmen.

Definition:

E((X − a)k) =∑j∈M

(xj − a)kpj k = 1,2, . . .heißtk-tes Moment uma (3.7)

E(Xk) heißtk-tes gewöhnliches Moment(a = 0) (3.8)

E((X − µ)k) heißtk-tes zentrales Moment(a = µ) (3.9)

Das erste gewöhnliche MomentE(X) ist der Erwartungswert. Das zweite zentrale MomentE((X −µ)2)

ist die Varianz vonX.Definition: DerMomentkoeffizient der Schiefeeiner ZufallsvariablenX wird durchS(X) definiert:

S(X) = E((X − µ)3)

σ 3(X)= E(X3) − 3E(X2)µ + 2µ3

σ 3(X)(3.10)

IstS(X) negativ (positiv), so ist die Verteilung der Zufallsvariablen linksschief (rechtsschief). Ist ihr WertNull, so liegt eine symmetrische Verteilung vor. DerMomentkoeffizient der Wölbungwird durchW(X)

definiert:

W(X) = E((X − µ)4)

σ 4(X)− 3 = E(X4) − 4µE(X3) + 6µ2E(X2) − 3µ4

σ 4(X)− 3 (3.11)

IstW(X) > 0, heißt dieVerteilung leptokurtisch. IstW(X) = 0, heißt sie mesokurtisch und istW(X) < 0,heißt sie platykurtisch.

Für Erwartungswerte und Varianzen gelten folgende Rechenregeln.Satz: Für reellwertige Zufallsfunktioneng1(X) undg2(X) gilt, sofern die Erwartungswerte existieren:1. E(g1(X) + g2(X)) = E(g1(X)) + E(g2(X))

2. E(c · g1(X)) = c · E(g1(X)) für jede Konstantec ∈ R

Mit Hilfe des letzten Satzes lassen sich folgende Regeln für den Erwartungswert und dieVarianz herleiten.Satz: Es seiena, b ∈ R. Dann gilt:1. E(a + bX) = a + bE(X) (Linearitätsregel)

2. σ 2(a + bX) = b2 · σ 2(X)

3. σ 2(X) = E(X2) − µ2 (Verschiebungssatz)

18

Page 24: Skriptum Statistik I und II

Beweis: Der Beweis des ersten Teils des Satzes sei dem Leser überlassen. Wir beweisen den Verschie-bungssatz:

σ 2(X) = E((X − µ)2) = E(X2 − 2µX + µ2)

= E(X2) − 2µE(X) + µ2

= E(X2) − 2µµ + µ2 (3.12)

= E(X2) − 2µ2 + µ2

= E(X2) − µ2

Beispiel: Im A-priori Modell, das auch Laplace-Modell genannt wird, gehen wir davon aus, daß derEreignisraum endlich viele Elementarereignisse besitzt und jedes Elementarereignis dieselbe Chance desEintretens besitzt. Ist die Anzahl der Elementarereignisse gleichN , so besitzt jedes Elementarereignisdie Wahrscheinlichkeit1

N. Beispiele für Laplace-Modelle sind: Roulette mitN = 37, Würfelexperiment

mit einem Würfel (N = 6), einfacher Münzwurf (N = 2) oder das zufällige Ziehen aus einer Mengemit N Elementen. Gehören die Elementarereignissexj , j = 1, . . . , N zur Menge der ganzen Zahlen,so wird eine diskrete Zufallsvariable definiert, deren Verteilungsfunktion und Parameter folgendermaßenberechnet werden:

F(x) = 1

N· (Anzahl derxj ≤ x) (3.13)

E(X) = 1

N

N∑j=1

xj (3.14)

σ 2(X) = 1

N

N∑j=1

(xj − µ)2 = 1

N

N∑j=1

x2j

− µ2 (3.15)

Im Würfelexperiment mit einem Würfel istµ = 3.5 undσ 2 = 2.916. Zusätzlich zum Erwartungswert istnoch der Median als Lagemaß gebräuchlich, der mitx oderx0.5 bezeichnet wird.

Definition: Der Median (bezeichnet mitx oderx0.5) teilt den Wertebereich vonX in zwei Bereiche, diegleich wahrscheinlich sind, auf. Formal wird der Medianx dadurch definiert, daß folgende Gleichungengleichzeitig erfüllt sind:

P(X ≤ x) ≥ 0.5 undP(X ≥ x) ≥ 0.5 (3.16)

Beispiel: Gegeben seiX mit VerteilungsfunktionF(x):

X = x 1 2 3 4 5

F(x) = P(X ≤ x) 0.15 0.25 0.45 0.85 1.0P(X ≥ x) 1.0 0.85 0.75 0.55 0.15

Der einzige Wert, der beide Gleichungen erfüllt, ist 4. Daher gilt:x = 4.Beispiel: Gegeben seiX mit VerteilungsfunktionF(x) (Würfelwurf):

X 1 2 3 4 5 6

F(x) = P(X ≤ x) 1/6 2/6 3/6 4/6 5/6 1P(X ≥ x) 1 5/6 4/6 3/6 2/6 1/6

Die obigen Gleichungen werden in diesem Beispiel durch alle Wertex ∈ [3,4] erfüllt. Man spricht dahervon einer Medianklasse. Als charakteristischer Wert der Medianklasse wird das arithmetische Mittel ausUnter- und Obergrenze der Medianklasse ausgewählt und wiederum als Median bezeichnet. In diesemBeispiel gilt daher:

x = 1

2(3 + 4) = 3.5 (3.17)

19

Page 25: Skriptum Statistik I und II

Definition: Seiα ∈ (0,1). Dasα-Quantilxα der Verteilung vonX wird durch die folgenden Gleichun-gen definiert:

P(X ≤ xα) ≥ α undP(X ≥ xα) ≥ 1 − α (3.18)

Spezialfälle: Der Median (α = 0.5), das untere Quartil (α = 0.25), das obere Quartil (α = 0.75)sowie die Dezile (α = 0.1, α = 0.2 · · · , α = 0.9).

3.2 Spezialfälle

Zur Darstellung diskreter Verteilungen muß derBinomial-Koeffizienteingeführt werden.

3.2.1 Kombinatorik

n Objekte lassen sich auf 1· 2 · 3 · 4 . . . · (n − 1) · n = n! (n-Fakultät) Arten anordnen. Jede Anordnungdern Objekte oder vonn Zahlen wird als Permutation bezeichnet. 0! wird durch 1 festgelegt.

Beispiel: Es gibt 3! = 1 · 2 · 3 = 6 Permutationen von den 3 Objekten: 1,2,3.

1 2 31 1 2 32 1 3 23 2 1 34 2 3 15 3 1 26 3 2 1

Einen Spezialfall erhält man, wenn die Plätze ringförmig verteilt sind. Beispielsweise, wenn man alleMöglichkeiten suchtn Personen an einen runden Tisch zu setzen. Diesen Spezialfall nennt manRing-permutation. Er wird durch(n − 1)! berechnet.

Stehen weniger alsn Plätze zur Verfügung, um dien Objekte anzuordnen, dann ergeben sich fürk < n

Plätze:

n!(n − k)! (3.19)

Permutationen. Man beachte, daß dieReihenfolge der Plätze dabei unterschieden wird. Wie man erkennenkann, ist die gewöhnliche Permutation (n!) lediglich ein Spezialfall mitn = k.

Soll zusätzlich dieReihenfolge der Plätze nicht beachtet werden, dann spricht man von einerKombi-nation. Sie wird berechnet als:(

n

k

)= n · (n − 1) . . . (n − k + 1)

k! = n!k!(n − k)! n, k ≥ 0,

(n

k

)= 0 für k > n (3.20)

(n

k

)wird als Binomialkoeffizient bezeichnet. Durch Einsetzen erhält man die Regeln:

1.

(n

k

)=(

n

n − k

)(Symmetrie-Eigenschaft)

2.

(n

k

)+(

n

k + 1

)=(n + 1

k + 1

)(Pascal’sches Dreieck)

Beispiel: Wieviele Möglichkeiten gibt es, aus einem Verein mit 25 Mitgliedern einen Vorstand, deraus 3 Personen besteht, zu wählen (Ämterhäufung ausgeschlossen)?

n = 25, k = 3,

(n

k

)=(

25

3

)= 25 · 24 · 23

1 · 2 · 3= 25 · 4 · 23 = 2300 (3.21)

Sollenn Objekte aufn Plätzen verteilt werden, wobeik1 Objekte des Typs 1,k2 des Typs 2, ...,kp Objektedes Typsp, mit n = ∑p

i=1 ki , dann existieren:

n!k1! · k2! · · · · · kp! (3.22)

20

Page 26: Skriptum Statistik I und II

Permutationen. Man beachte, daß sich die Kombination als Spezialfall mitp = 2 darstellen läßt.Von einerVariation spricht man, wennn Objekte aufk Plätzen verteilt werden sollen, wobei jedes

Objekt mehrere Plätze einnehmen darf. Die Anzahl der Variationsmöglichkeiten sindnk. Beispielsweisebeträgt die Anzahl der möglichen Ausgänge eines Wurfes mit zwei Würfelnnk = 62 = 36.

3.2.2 Die Bernoulli-Verteilung

Modellexperiment: Ein Zufallsexperiment besteht aus einem einzigen Versuch, in dem ein bestimmtesEreignisA eintritt oder nicht. Wir definieren die folgende Zufallsvariable:

X(ω) ={

0 falls ω �∈ A

1 falls ω ∈ A(3.23)

HatA die Wahrscheinlichkeitπ , so besitztX die Dichte:

p0 = 1 − π, p1 = π (3.24)

Die wichtigsten Parameter sind:µ = π, σ 2 = π(1 − π), S(X) = (1 − 2π)/√

π(1 − π)

3.2.3 Die Binomialverteilung

Ein Bernoulli-Experiment wirdn malunabhängig und unter gleichen Bedingungendurchgeführt.Beispiel: Eine Urne enthält schwarze und weiße Kugeln im Verhältnisπ : (1 − π). Der Urne werden

n Kugelnmit Zurücklegenentnommen. Die AnzahlX der dabei gezogenen schwarzen Kugeln istBn,π

verteilt. Das Ziehen mit Zurücklegen sichert, daß jeder Versuch unter gleichen Bedingungen durchgeführtwird, d.h. bei jedem Versuch ist der Anteil an schwarzen Kugeln in der Urne konstant.

Eine diskrete ZufallsvariableX ist binomialverteiltBn,π mit den Parameternn und π , wenn dieWahrscheinlichkeitsfunktion definiert ist durch:

pk = P(X = k) =(n

k

)πk(1 − π)n−k, k = 0, . . . , n, n > 0, 0 ≤ π ≤ 1 (3.25)

Die wichtigsten Parameter sind:

µ = nπ, σ 2 = nπ(1 − π), S(x) = (1 − 2π)/√

nπ(1 − π) (3.26)

Wird ein Versuchn mal unabhängig unter gleichen Bedingungen durchgeführt und kann in jedem Versuchdas EreignisA mit der Wahrscheinlichkeitπ eintreten, so ist dieAnzahlX derVersuche mit dem EintretenvonA ∼ Bn,π verteilt.

3.2.4 Die hypergeometrische Verteilung

Ein Bernoulli-Experiment wirdn mal hintereinander durchgeführt wobei die Wahrscheinlichkeitπ fürdas Eintreten eines ElementarereignissesA sich nach dem Schema des folgenden Modellexperimentesverändern kann: Eine Urne enthältN Kugeln, von denenA schwarz undN−Aweiß sind. Der Urne werdenohne Zurücklegenn Kugeln entnommen. DieAnzahlX der dabei gezogenen schwarzen Kugeln istHN,A,n

verteilt. Das Ziehen ohne Zurücklegen bewirkt, daß jede Ziehung unter verschiedenen Bedingungenerfolgt. Die hypergeometrische VerteilungHN,A,n besitzt die Wahrscheinlichkeitsfunktion:

pk = P(X = k) =

(A

k

)(N − A

n − k

)(N

n

) , k = 0, . . . , n, mit n ≤ A undn ≤ N − A (3.27)

Ihre wichtigsten Parameter sind:

π = A

N, E(X) = µ = n

A

N= nπ, V (X) = σ 2 = n

A

N

(1 − A

N

)(N − n

N − 1

)= nπ(1 − π)

(N − n

N − 1

)

21

Page 27: Skriptum Statistik I und II

Man beachte, daß der Erwartungswert zu dem der Binomialverteilung identisch ist, sich dieVarianz jedochum die sogenannteEndlichkeitskorrektur(N − n)/(N − 1) unterscheidet.

Beispiel: In der Schule beträgt die Anzahl der Schüler in der ersten Klasse 120, davon 70 Knaben und50 Mädchen. Für einen Schulversuch werden 12 Kinder ausgewählt. Wie wahrscheinlich ist es, daß exaktdas gleiche Verhältnis Jungen zu Mädchen wie in der ersten Klasse auftritt? Dieses Modell entspricht demZiehen ohne Zurücklegen.X sei Anzahl der Knaben im Schulversuch.X ist H120,70,12 verteilt.

P(X = 7) =

(70

7

)(50

5

)(

120

12

) = 1 · 1987745· 109 · 2.118760· 106

1.0542857· 1016= 0.2409 (3.28)

3.2.5 Die Poisson-Verteilung

Eine ZufallsvariableX besitzt einePoissonverteilungPλ, wenn sie die Wahrscheinlichkeitsfunktion

pk = P(X = k) = e−λ · λk

k! , k = 0,1,2, . . . , n (3.29)

mit einem Erwartungswert vonλ > 0 besitzt. (λ wird hier Intensitätsparametergenannt). Die Varianz istλ und der Momentkoeffizient der Schiefe ist 1/

√λ.

Beispiel: Eine Brandschutzversicherung hat ermittelt, daß in einem bestimmten Gebiet im langjährigenDurchschnittλ = 1.5 Schadensfälle über 100 000 DM auftreten. Um die notwendigen Reserven zukalkulieren, möchte sie die Anzahlc der Schadensfälle berechnen, so daßP(X > c) ≤ 0.05 ist.

Es gilt:P(X > c) = 1 − P(X ≤ c) = 1 − F(c) (3.30)

Daher mußc so bestimmt werden, daßF(c) ≥ 0.95 ist. Zu diesem Zweck bildet man die Verteilungs-funktion.

F(c) =c∑

k=0

P(X = k) =c∑

k=0

e−λ λk

k! =c∑

k=0

e−1.5 · 1.5k

k! (3.31)

Die Werte der Verteilungsfunktion der Poissonverteilung mitλ = 1.5 sind:

k 0 1 2 3 4

pk 0.223 0.334 0.251 0.125 0.047F(k) 0.223 0.557 0.808 0.933 0.980

F(4) = 0.98 ≥ 0.95 . Die Versicherung muß daher Reserven für 4 Schadensfälle aufbringen, um ihrRisiko unter 5% zu halten.

Im folgenden wollen wir die ersten zwei gewöhnlichen Momente der Poissonverteilung herleiten,um darausµ undσ 2 zu berechnen. Für diese Rechnung wird die Reihenentwicklung vonex verwendet:ex = ∑∞

j=0xj

j !

E(X) =∞∑

j=−∞j · pj

=∞∑

j=0

j · e−λ λj

j !

= e−λ

∞∑j=1

j · λj−1

j (j − 1)!λ (3.32)

= e−λ · λ∞∑

j=1

λj−1

(j − 1)!

E(X) = e−λλ

∞∑j=0

λj

j ! = e−λλeλ = λ

22

Page 28: Skriptum Statistik I und II

E(X2) =∞∑

j=0

j2e−λ λj

j !

= e−λ

∞∑j=1

jλj

(j − 1)!

= e−λ

∞∑j=1

((j − 1) + 1))λj

(j − 1)!

= e−λ

∞∑

j=1

(j − 1)λj

(j − 1)! +∞∑

j=1

λj

(j − 1)!

(3.33)

= e−λ

∞∑

j=2

λj

(j − 2)! + λ

∞∑j=1

λj−1

(j − 1)!

= e−λ

λ2

∞∑j=2

λj−2

(j − 2)! + λeλ

= e−λ

(λ2eλ + λeλ

)E(X2) = λ2 + λ

Daraus folgt:σ 2 = λ2 + λ − λ2 = λ (3.34)

Praktisch können die folgenden Näherungen verwendet werden:

Verteilung Näherung Voraussetzung

HN,A,n Bn,

AN

n ≤ N

10

HN,A,n Pn· A

N

n ≤ N

10und

A

N≤ 1

10

Bn,π Pnπ π ≤ 1

10

Beispiel: Da im Beispiel für die hypergeometrische Verteilung die Parametern = 12, N = 120derHN,A,n -Verteilung die Bedingungn ≤ N/10 erfüllen, können wir mit der Binomialverteilung dieWahrscheinlichkeit annähernd bestimmen. Mitn = 12 undπ = A/N = 7/12 erhalten wir:

P(X = 7) =(

12

7

)·(

7

12

)7

·(

5

12

)5

= 792· 0.023· 0.0126= 0.2295 (3.35)

23

Page 29: Skriptum Statistik I und II

4 Stetige Verteilungen

4.1 Grundlagen

Der WertebereichM einer stetigen ZufallsvariablenX ist gleichR (Menge der reellen Zahlen) oder einIntervall vonR. Die WahrscheinlichkeitsverteilungPX(A) wird für das EreignisA = (−∞, x] durcheinestetig differenzierbare Verteilungsfunktionbeschrieben:

FX(x) =∫ x

−∞f(t) dt = PX(A) (4.1)

Satz: Für die VerteilungsfunktionFX(x) einer stetigen ZufallsvariablenX und die dazu korrespondie-rende DichtefunktionfX(x) gilt:

1. F(x) steigt monoton

2. limx→−∞F(x) = 0, lim

x→∞F(x) = 1

3. F′(x) = ∂F (x)

∂x= f(x)

4. f (x) ≥ 0

5.∫ ∞

−∞f(x) dx = 1

Man beachte, daß die Dichtefunktionf(x) keineWahrscheinlichkeitsfunktion ist, wie bei diskreten Ver-teilungen, und daßf(x) durchaus größer als 1 sein kann (z.B. bei der Dreiecksverteilung). Die Wahr-scheinlichkeitP(X = x) ist außerdem bei stetigen Verteilungen immer 0. Ist ein EreignisA ein IntervallA = (a, b], so ist:

PX(A) = P(a < X ≤ b) =∫ b

a

f(x) dx (4.2)

Dies entspricht dem Flächeninhalt unter der Funktionf(x) im Intervall(a, b]. Wir schreiben im folgendennurP(A) undF(x) stattPX(A) undFX(x).

Beispiel: Eine ZufallsvariableX mit der Dichte:

f(x) ={

1 für x ∈ [0,1]0 sonst

(4.3)

heißt über dem Intervall [0,1] gleichverteilt.Satz: Es seig(x) : R −→ R eine reellwertige Funktion. Dann ist der Erwartungswert vong(X)

definiert durch:

E(g(X)) =∫ ∞

−∞g(x) f(x) dx (4.4)

Wichtige Spezialfälle:1. E(X) heißt Erwartungswert vonX (Symbolµ).

E(X) =∫ ∞

−∞x f(x) dx

2. E((X − µ)2) heißt Varianz vonX (Symbole:V (X), σ 2(X) undσ 2).

E((X − µ)2) =∫ ∞

−∞(x − µ)2f(x) dx

σ(X) = √σ 2(X) heißt Standardabweichung vonX

24

Page 30: Skriptum Statistik I und II

3. E((X − a)k) heißtk-tes Moment uma.

E((X − a)k) =∫ ∞

−∞(x − a)kf(x) dx

E(Xk) heißtk-tes gewöhnliches Moment(a = 0).E((X − µ)k) heißtk-tes zentrales Moment(a = µ).

Die Sätze über die Rechenregeln für Erwartungswerte von diskreten Zufallsvariablen gelten auch fürstetige Zufallsvariablen.

Beispiel: Für die Gleichverteilung über [0,1] wollen wir die ersten 4 Momente und die Momentenko-effizienten der Schiefe und der Wölbung berechnen.

E(X) =∫ ∞

−∞xf(x) dx =

∫ 1

0x dx = 0.5 (4.5)

E(X2) =∫ ∞

−∞x2f(x) dx =

∫ 1

0x2 dx = x3

3

∣∣∣∣10

= 1

3(4.6)

E(X3) =∫ ∞

−∞x3f(x) dx =

∫ 1

0x3 dx = x4

4

∣∣∣∣10

= 1

4(4.7)

E(X4) =∫ ∞

−∞x4f(x) dx =

∫ 1

0x4 dx = x5

5

∣∣∣∣10

= 1

5(4.8)

E((X − µ)2) = E(X2) − µ2 = 1

3− 1

4= 1

12(4.9)

E((X − µ)3) = E(X3) − 3E(X2)µ + 2µ3 = 1

4− 3

1

3· 1

2+ 2

(1

2

)3

= 0 (4.10)

E((X − µ)4) =∫ 1

0

(x − 1

2

)4

dx = 1

5

(x − 1

2

)5∣∣∣∣∣1

0

= 1

5

(1

2

)5

− 1

5

(−1

2

)5

= 0.0125 (4.11)

S(X) = 0, W(X) = 0.0125

0.08332− 3 = −1.2 (4.12)

Die Verteilung ist symmetrisch und platykurtisch.Bemerkung: Quantile für stetige Variable werden analog zu Quantilen von diskreten Zufallsvariablen

definiert.

4.1.1 Lineare Transformation stetiger Zufallsvariablen

Satz: Die ZufallsvariableY = aX + b mit a �= 0 undb als Konstante besitzt die Verteilungsfunktion

FY (y) =

FX

(y − b

a

), falls a > 0

1 − FX

(y − b

a

), falls a < 0

(4.13)

Beweis:

1. a > 0:

FY (y) = P(Y ≤ y) = P(aX + b ≤ y) = P

(X ≤ y − b

a

)= FX

(y − b

a

)2. a < 0:

FY (y) = P(aX + b ≤ y) = P

(X ≥ y − b

a

)= P

(X >

y − b

a

)= 1 − FX

(y − b

a

)

25

Page 31: Skriptum Statistik I und II

4.2 Spezialfälle

4.2.1 Die Gleichverteilung

Wir haben bereits die Gleichverteilung über dem Intervall[0,1] kennengelernt. Diese Definition kannauf beliebige endliche Intervalle übertragen werden. Eine ZufallsvariableX heißt gleichverteilt auf demIntervall [a, b], wenn sie die Dichte besitzt:

f (x) =

1

b − afür a ≤ x ≤ b

0 sonst(4.14)

Die Dichte ist daher konstant. Die wichtigsten Momente sind:

µ = a + b

2, σ 2 = (b − a)2

12, S(X) = 0 (4.15)

Um den Erwartungswert und die Varianz herzuleiten, transformieren wirX in Y = (X − a)/(b − a).Y ist dann über[0,1] gleichverteilt. DaX = (b − a)Y + a ist, erhält man nach dem Satz über Dichtentransformierter Zufallsvariablen:

E(X) = (b − a)E(Y ) + a = (b − a)

2+ a = (a + b)

2(4.16)

σ 2(X) = (b − a)2σ 2(Y ) = 1

12(b − a)2 (4.17)

Die Verteilungsfunktion ist somit:

F(x) =

0 für x < a

(x − a)/(b − a) für a ≤ x ≤ b

1 für x > b

(4.18)

Daher folgt füra ≤ a1 ≤ b1 ≤ b :P(a1 ≤ X ≤ b1) = (b1 − a1)/(b − a) (4.19)

Die Wahrscheinlichkeit in diesem Intervall wird somit in vollem Umfang durch die Intervallängeb1 − a1

determiniert.

4.2.2 Die Exponentialverteilung

Eine Zufallsvariable besitzt eine Exponentialverteilung, wenn sie die folgende Dichte hat:

f (x) ={

λ · e−λx für x ≥ 00 für x < 0

(4.20)

Der Parameterλ > 0 beschreibt die ’Sterbe-’ oder allgemeiner die ’Übergangsrate’. Die Verteilungsfunk-tion ist gegeben durch:

F(x) ={

1 − e−λx für x ≥ 00 für x < 0

(4.21)

Die zentralen Parameter sind:

µ = 1

λ, σ 2 = 1

λ2, S(X) = 2

λ3(4.22)

Die Exponentialverteilung wird auch ’Verteilung ohne Gedächtnis’ genannt. Es gilt nämlich fürs ≥ 0undt ≥ 0:

P(X ≤ s + t |X ≥ t) = P(X ≤ s) (4.23)

26

Page 32: Skriptum Statistik I und II

4.2.3 Die Normal- oder Gaußverteilung

Eine ZufallsvariableX genügt einer NormalverteilungN(µ, σ 2), wenn sie die Dichte:

φ(x) = f (x) = 1√2πσ

exp

{−(x − µ)2

2σ 2

}für − ∞ < x < ∞ (4.24)

mit µ ∈ R undσ > 0 besitzt. Die Verteilung vonX wird also durch 2 Parameter gekennzeichnet und zwardurch den Erwartungswertµ und die Varianzσ 2. Die Momentkoeffizienten der Schiefe und Wölbung sindNull. Ist der Erwartungswertµ = 0 und die Varianzσ 2 = 1, so nennt manX standardnormalverteilt(N(0,1)). Die Verteilungsfunktion der Standardnormalverteilung wird mit<(z) bezeichnet, die Dichtemit φ(z).

<(z) =∫ z

−∞φ(z)dz =

∫ z

−∞1√2π

exp

{−x2

2

}dx, − ∞ < z < ∞ (4.25)

Da<(z) analytisch nicht exakt bestimmt werden kann, sind die Funktionswerte auf Seite104für z ≥ 0tabelliert.

-4 -3 -2 -1 0 1 2 3 4z

................................................................................................................................................................................

.......................................

............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Dichte einerN(0,1)-Verteilung

0.00

0.04

0.08

0.12

0.16

0.20

0.24

0.28

0.32

0.36

0.40 φ(z)

Für negativez können die Symmetrieeigenschaften

1. f (z) = f (−z)

2. P(Z ≤ z) = P(Z ≥ −z)

3. <(−z) = 1 − <(z)

zur Berechnung verwendet werden.Satz: Für die Verteilungsfunktion einerN(µ, σ 2) verteilten Zufallsvariablen gilt:

1. F(x) = <(x − µ

σ

)= <(z)

2. P(|X − µ| > c) = 2(1 − <

( cσ

)), für c > 0

3. P(a ≤ X ≤ b) = <(b − µ

σ

)− <

(a − µ

σ

), für a < b

27

Page 33: Skriptum Statistik I und II

Beweis:1. Zu zeigen ist, daß<(z) ∼ N(0,1) verteilt ist. Jede beliebige NormalverteilungX:

X ∼ N(µ, σ 2) kann standardisiert werden:Z = x − µ

σ= x

σ− µ

σ= 1

σ︸︷︷︸b

x −µ

σ︸︷︷︸a

Z ist eine lineare Transformation vonX, so daß gilt:

Z = a + bX a = −µ

σb = 1

σ

E(a + bX) = a + bE(X) = −µ

σ+ 1

σµ = −µ

σ+ µ

σ= 0

V (a + bX) = b2σ 2(X) = 1

σ 2σ 2 = 1

⇒ Z ∼ N(0,1)

2. P(|X − µ| > c) = P(−c > X − µ) + P(X − µ > c)

= P

(X − µ

σ≤ −c

σ

)+ 1 − P

(X − µ

σ≤ c

σ

)= <

(−c

σ

)+ 1 − <

( c

σ

)= 2

(1 − <

( c

σ

))3. P(a ≤ X ≤ b) = P(X ≤ b) − P(X < a)

= P

(X − µ

σ≤ b − µ

σ

)− P

(X − µ

σ<

a − µ

σ

)= <

(b − µ

σ

)− <

(a − µ

σ

)Für dieα-Quantile gilt die folgende Regel: Istzα dasα-Quantil derN(0,1) Verteilung, so ist

xα = µ + zα · σ (4.26)

dasα-Quantil derN(µ, σ 2) -Verteilung. Man beachte, daß die Berechnung desα-Quantils einer stetigenVerteilung der Berechnung der Umkehrfunktion der entsprechenden Verteilungsfunktion entspricht (α =F−1(xα)). Die Multiplikation mitσ und die Addition vonµ entspricht in diesem Fall der Umkehrung derTransformation( x−µ

σ).

Beispiel: X seiN(75,36) verteilt. Gesucht istP(X ≤ 87). Nach dem letzten Satz ist:

P(X ≤ 87) = F(87) = <

(87− 75

6

)= <(2) = 0.97725 (4.27)

Ferner ist dasα = 0.99865 Quantil zu bestimmen. Anwendung der Rechenregel für Quantile ergibt:x0.99865 = µ + σ · z0.99865 = 75+ 6 · 3 = 93.

Beispiel: Der Durchmesser von bestimmten Drehteilen aus einer automatischen Fertigung muß zwi-schen 9.5 und 12 cm liegen. Andernfalls gehört das Drehteil zum Ausschuß. Wie groß ist die Wahrschein-lichkeit, daß ein Drehteil den gestellten Anforderungen genügt, wenn der Durchmesser mitµ = 10.27undσ 2 = 1.44 normalverteilt ist.

P(9.5 ≤ X ≤ 12) = <

(12− 10.27

1.2

)− <

(9.5 − 10.27

1.2

)(4.28)

= <(1.44) − <(−0.63) = 0.925− (1 − 0.736) = 0.661

4.2.4 Näherung der Poisson- und Binomialverteilung durch die Normalverteilung

Poisson:Pµ ∼ N(µ,µ), für µ ≥ 10.Binomial:Bn,π ∼ N(nπ, nπ(1 − π)) für alle nπ(1 − π) ≥ 10.

Beispiel: In einer Telefonzentrale eines Konzerns werden durchschnittlich 25 Anrufe pro Minutegezählt. Wie groß ist die Wahrscheinlichkeit, daß mehr als 30 Anrufe in einer Minute gezählt werden,wenn die Anzahl der Anrufe poissonverteilt ist? Daµ = 25 ist, ist die AnzahlX der Anrufe in derbeobachteten Minute annäherndN(25,25) verteilt. Man erhält:

P(X > 30) = P

(X − 25

5>

30− 25

5

)= 1 − <(1) = 1 − 0.8413= 0.1587 (4.29)

28

Page 34: Skriptum Statistik I und II

5 Mehrdimensionale Verteilungen

Bei vielen Fragestellungen der Statistik werdenmehrereZufallsvariablen als ErgebniseinesZufallsexperi-ments betrachtet. So kann man etwa bei einer Untersuchung von Haushalten dieVariablen Haushaltsgröße(X), Haushaltseinkommen (Y ), Konsumausgaben (Z) usw. untersuchen.

Beispiel: Ein Verlag publiziert 6 Wochenzeitschriften.X1, . . . , X6 seien die Anzahlen der verkauftenZeitschriften pro Woche. (X1, . . . , X6) ist eine 6-dimensionale Zufallsvariable.

Beispiel: BeschreibtX1 die Liegezeit undX2 die zu löschende Ladung eines Schiffes, so ist (X1, X2)ein 2-dimensionaler stetiger Zufallsvektor. Der VektorX = (X1, . . . , Xk) heißtk-dimensionale Zufalls-variable oder Zufallsvektor mitk Komponenten.

5.1 Diskrete Verteilungen

Betrachtet man den Ausgang eines Zufallsexperiments, der durch dask-dimensionale Merkmal (X1, . . .

Xk) beschrieben wird, dann heißt diek-dimensionale Zufallsvariable (X1, . . . , Xk) diskret, falls ihr Wer-tebereich endlich oder abzählbar unendlich, z. B. gleichZ

k oder einer Teilmenge vonZk ist. Die Zufalls-variable heißt stetig, falls ihr Wertebereich überabzählbar unendlich ist und kein Punkt aus demR

k einepositive Wahrscheinlichkeit besitzt.

DieWahrscheinlichkeitsfunktion eines diskretenk-dimensionalen Zufallsvektors wird durch eine Dich-te mitk Argumenten beschrieben.

p(x1, . . . , xk) = P(X1 = x1 ∩ X2 = x2 ∩ · · · ∩ Xk = xk) = P(X1 = x1, X2 = x2, . . . , Xk = xk)

Für eine diskrete Dichte gelten folgende Eigenschaften:

1. 0 ≤ p(x1, . . . , xk) ≤ 1

2.∑xk

. . .∑x1

p(x1, . . . , xk) = 1; mit xi ∈ Z

3. P(A) = P((X1, . . . , Xk) ∈ A) =∑

(x1...xk)∈A

p(x1, . . . , xk)

Die Verteilungsfunktionist gegeben durch:

F(x1, . . . , xk) = P(X1 ≤ x1, . . . , Xk ≤ xk) =∑

Xk≤xk

. . .∑

X1≤x1

p(x1, . . . , xk) (5.1)

5.1.1 Randverteilungen

Wir beschränken uns auf den Fallk = 2; Randverteilungen höherer Ordnung werden analog gebildet.(X1, X2) sei eine 2-dimensionale diskrete Zufallsvariable mit der Dichtep(x1, x2) und der Verteilungs-funktionF(x1, x2). Die eindimensionalen Randdichten und Randverteilungen sind definiert durch:

p1(x1) = P(X1 = x1) =∞∑

i=−∞p1(x1, x2i) (5.2)

F1(x1) = P(X1 ≤ x1) = F(x1, ∞) (5.3)

p2(x2) = P(X2 = x2) =∞∑

j=−∞p2(x1j , x2) (5.4)

F2(x2) = P(X2 ≤ x2) = F(∞, x2) (5.5)

Sie entsprechen also den eindimensionalen Dichten und Verteilungen, wenn man die jeweils anderenVariablen unberücksichtigt läßt.

29

Page 35: Skriptum Statistik I und II

5.1.2 Bedingte Verteilungen und bedingte Dichten

Als Folge der Definition der bedingten Wahrscheinlichkeit

P(A|B) = P(A ∩ B)/P (B) (5.6)

erhält man die Definition einer bedingten Verteilung (zweidimensionaler Fall):

FX1|X2(x1|x2) = F(x1, x2)

F2(x2)(5.7)

Die bedingte Dichte ist gegeben durch:

pX1|X2(x1|x2) = p(x1, x2)

p2(x2)(5.8)

Beispiel: Für einen psychologischen Test, der aus zwei Teilen mit 2 bzw. 3 Aufgaben besteht, werdendie Wahrscheinlichkeiten, daß jeweils 0 bis 2 bzw. 0 bis 3 Aufgaben gemeinsam gelöst werden, wie folgtangegeben:

X

Y 0 1 2 3 pY (yj )

0 0.10 0.05 0.05 0.00 0.21 0.10 0.10 0.15 0.05 0.42 0.05 0.05 0.10 0.20 0.4

pX(xi) 0.25 0.20 0.30 0.25 1.0

Die Verteilungsfunktion von (X, Y ) an der Stelley1 = 0, x2 = 2 istF(0,2) = 0.1 + 0.05+ 0.05 = 0.2.

5.1.3 Unabhängigkeit

Zwischen den Komponenten einesk-dimensionalen Zufallsvektors können Zusammenhänge bestehen.Ein wichtiger Spezialfall ist diestochastische Unabhängigkeit. Gilt für einen diskreten Zufallsvektor(X1, . . . , Xk) die Aussage:

p(x1, . . . , xk) = p1(x1) · . . . · pk(xk) (5.9)

so heißenX1, . . . , Xk stochastisch unabhängig.Satz: X1, . . . , Xk sind genau dann stochastisch unabhängig, wenn gilt:

F(x1, . . . , xk) = FX1(x1) · . . . · FXk(xk) (5.10)

Im letzten Beispiel sindX1 undX2 nicht stochastisch unabhängig, denn es gilt:

F(0,2) = 0.2 �= F1(0) · F2(2) = 0.2 · 0.75 = 0.15 (5.11)

5.1.4 Kovarianz und Korrelation

(X1, . . . , Xk) sei eink-dimensionaler diskreter Zufallsvektor. Die Funktion:

µi = E(Xi) =∑xk

. . .∑x1

xi · p(x1, . . . , xk) =∑xi∈R

xi · pi(xi) (5.12)

heißt Erwartungswert der ZufallsvariablenXi, (i = 1, . . . , k), wobeipi(xi) die marginale Wahrschein-lichkeitsfunktion ist. Die Funktion:

σii = σ 2(Xi) = E((Xi − µi)2) =

∑xi∈R

(xi − µi)2pi(xi) (5.13)

30

Page 36: Skriptum Statistik I und II

heißt Varianz vonXi . Die Funktion:

σij = E((Xi − µi)(Xj − µj))

=∑xk∈R

. . .∑x1∈R

(xi − µi)(xj − µj) · p(x1, . . . , xk) (5.14)

heißtKovarianzder ZufallsvariablenXi undXj (i �= j ). Die Matrix1 = (σij )i,j=1,...,k heißtKovarianz-matrix der Zufallsvariablen (X1, . . . , Xk). Für die Kovarianz gilt:

σij = E[(Xi − E(Xi)) · (Xj − E(Xj))]= E[(XiXj − Xi · E(Xj) − E(Xi) · Xj + E(Xi) · E(Xj)]= E(XiXj) − E(Xi) · E(Xj) − E(Xi) · E(Xj) + E(Xi) · E(Xj) (5.15)

= E(XiXj) − E(Xi) · E(Xj)

Damit ergibt sich die zur praktischen Berechnung einfachere Formel:

σij = m∑

i=1

n∑j=1

xixjp(xi, xj )

− µi · µj (5.16)

DerWert der Kovarianz hängt von den Einheiten ab, in denenxi undxj gemessen werden. Zur Normierungverwendet man den Korrelationskoeffizienten:

ρij = σij√σii σjj

= σij√σ 2i σ 2

j

(5.17)

Damit gilt: ρij ∈ [−1,1]Satz: SindXi undXj stochastisch unabhängig (und damit auchlinear unabhängig), so gilt:

σij = 0 !⇒ ρij = 0 (5.18)

Besteht eine exakte lineare Beziehung zwischenXi undXj , so gilt:

|ρij | = 1 (5.19)

Ein positiver Korrelationskoeffizient nahe bei 1 weist auf einen starken positiven linearen Zusammenhanghin, während ein negativer Korrelationskoeffizient auf einen negativen linearen Zusammenhang deutet.Zur inhaltlichen Interpretation von Korrelationskoeffizienten beachte man die Ausführungen auf Seite56.Für die beiden psychologischen Tests gilt:

µ1 = 1.2, µ2 = 1.55, σ11 = 0.56, σ22 = 1.2475 und

σ12 = E(X1X2) − µ1µ2 ⇒ 2.25− 1.2 · 1.55 = 0.39 (5.20)

Kovarianzmatrix und Korrelationskoeffizient:

1 =(

σ11 σ12

σ21 σ22

)=(

0.56 0.390.39 1.2475

)(5.21)

ρ12 = 0.39√0.56 · 1.2475

= 0.4666 (5.22)

Die Kovarianzmatrix1 enthält die Kovarianzenσij = Cov(Xi,Xj ), i = 1, . . . , k, j = 1, . . . , k. DieHauptdiagonalelemente entsprechen dabei den Varianzenσii = σ 2

i . Daher ist die Kovarianzmatrix immersymmetrisch.

5.1.5 Die Multinomialverteilung

Beispiel: Ein wichtiges Beispiel für einek dimensionale diskreteVerteilung ist die Multinomialverteilungmit der Dichte:

p(x1, . . . , xk) = n!x1!x2! . . . xk!π

x11 π

x22 . . . π

xk

k (5.23)

mit 0 ≤ xi ≤ n, x1+. . .+xk = n, 0 < πi < 1 undπ1+. . .+πk = 1. Mit einem Erwartungswert:µi = nπi ,einerVarianzen:σii = nπi(1−πi) 1 ≤ i ≤ k und Kovarianzen:σij = −nπiπj i, j = 1, . . . , k undi �= j .Als Spezialfall der Multinomialverteilung ergibt sich fürk = 2 die Binomialverteilung.

31

Page 37: Skriptum Statistik I und II

5.2 Stetige Verteilungen

Die Wahrscheinlichkeitsverteilung einer stetigenk-dimensionalen Zufallsvariablen (X1, . . . , Xk) wirddurch dieDichtef (x1, . . . , xk) beschrieben, für die gilt:

P(a1 ≤ X1 ≤ b1, . . . , ak ≤ Xk ≤ bk) =∫ bk

ak

. . .

∫ b1

a1

f(x1, . . . , xk) dx1 . . . dxk (5.24)

Dabei seienai ≤ bi, für alleai, bi ∈ R, i = 1, . . . , n. Die Dichtef (x1, . . . , xk) erfüllt folgende Bedin-gungen:

1. f(x1, . . . , xk) ≥ 0

2.∫ ∞

−∞. . .

∫ ∞

−∞f(x1, . . . , xk) dx1 . . . dxk = 1

Die Verteilungsfunktionist gegeben durch:

F(x1, . . . , xk) = P(X1 ≤ x1, . . . , Xk ≤ xk) =∫ xk

−∞. . .

∫ x1

−∞f(t1, . . . , tk) dt1 . . . dtk (5.25)

5.2.1 Randverteilungen

Wir beschränken uns wieder auf den Fallk = 2. Die Dichten und Verteilungsfunktionen der beidenRandverteilungen des stetigen Zufallsvektors (X1, X2) sind gegeben durch:

f1(x1) =∫ ∞

−∞f(x1, x2) dx2, F1(x1) = P(X1 ≤ x1) = F(x1, ∞) (5.26)

f2(x2) =∫ ∞

−∞f(x1, x2) dx1, F2(x2) = P(X2 ≤ x2) = F(∞, x2) (5.27)

5.2.2 Die zweidimensionale Gleichverteilung

Die Dichte der 2-dimensionalen gleichverteilten Zufallsvariablen (X1, X2) über dem Rechteck[a1, b1] ×[a2, b2] ist wie folgt definiert:

f (x1, x2) =

1

(b1 − a1)(b2 − a2)für a1 ≤ x1 ≤ b1 unda2 ≤ x2 ≤ b2

0 sonst(5.28)

Die Randdichten sind gegeben durch:

f1(x1) =∫ b2

a2

1

(b1 − a1)(b2 − a2)dx2 = 1

(b1 − a1)(b2 − a2)

∫ b2

a2

1dx2 = 1

b1 − a1(5.29)

Analog erhält manf2(x2) = 1

b2 − a2. Die Randverteilungen sind also eindimensionale Gleichverteilun-

gen.

5.2.3 Unabhängigkeit

Die stetigen ZufallsvariablenX1, . . . , Xk heißenstochastisch unabhängig, wenn gilt:

f (x1, . . . , xk) = f1(x1) · . . . · fk(xk) (5.30)

Im letzten Beispiel sindX1 undX2 stochastisch unabhängig, daf (x1, x2) = f1(x1) · f2(x2).

32

Page 38: Skriptum Statistik I und II

5.2.4 Kovarianz und Korrelation

(X1, . . . , Xk) sei ein stetiger Zufallsvektor. Erwartungswert undVarianz der KomponenteXi sind gegebendurch:

µi = E(Xi)=∫ ∞

−∞. . .

∫ ∞

−∞xif(x1, . . . , xk)dxk . . . dx1 =

∫ ∞

−∞xifi(xi) dxi (5.31)

σii =E(Xi − µi)2 =∫ ∞

−∞. . .

∫ ∞

−∞(xi − µi)

2f(x1, . . . , xk)dxk . . . dx1 =∫ ∞

−∞(xi − µi)

2fi(xi)dxi (5.32)

Die Kovarianz der beiden VariablenXi,Xj ist gegeben durch:

σij = E((Xi − µi)(Xj − µj)) (5.33)

=∫ ∞

−∞

∫ ∞

−∞(xi − µi)(xj − µj)f(xi, xj ) dxidxj (5.34)

Die Kovarianzmatrix von(X1, . . . , Xk) ist gegeben durch:

1 =

σ11 σ12 · · · σ1k

σ21 σ22 · · · σ2k...

.... . .

...

σk1 σk2 · · · σkk

(5.35)

Der Korrelationskoeffizient zwischenXi undXj ist definiert durch:

ρij = σij√σii σjj

(5.36)

5.2.5 Diek-dimensionale Normalverteilung

Als Beispiel für einek-dimensionale stetige Verteilung geben wir die Dichte derk-dimensionalen Nor-malverteilung an. SeiX ein k-dimensionaler Spaltenvektor mit Erwartungswertµ und Kovarianzmatrix1. Die Determinante wird mit|1| und die Inverse der Kovarianzmatrix mit1−1 bezeichnet. Daher sei|1| > 0.

µ = µ1

...

µk

, 1 =

σ11 σ12 · · · σ1k

σ21 σ22 · · · σ2k...

.... . .

...

σk1 σk2 · · · σkk

(5.37)

Die Dichte derk-variaten Normalverteilung im Punktx ist dann gegeben durch:

f (x1, . . . , xk) = (2π)− k2 · |1|− 1

2 · exp

{−1

2(x − µ)T· 1−1 · (x − µ)

}(5.38)

Bemerkung: Wie aus der Dichte ersichtlich ist, gilt im Fall der Normalverteilung:

σij = 0 für i �= j ⇐⇒ Xi undXj sind stochastisch unabhängig (5.39)

1 wird in diesem Fall eine Diagonalmatrix, d.h. die Dichte kann als Produkt der marginalen Dichtengeschrieben werden.

f (x1, . . . , xk) = f1(x1) · . . . · fk(xk) (5.40)

Im Falle einer bivariaten Normalverteilung, alsok = 2, erhält man mitρ = ρ12 als Kovarianzmatrix:

1 =(

σ11 σ12

σ12 σ22

)=(

σ 21 ρσ1σ2

ρσ1σ2 σ 22

)(5.41)

33

Page 39: Skriptum Statistik I und II

Determinante:

|1| = σ 21σ

22 · (1 − ρ2) (5.42)

Inverse:

1−1 = 1

σ 21σ

22 · (1 − ρ2)

·(

σ 22 −ρσ1σ2

−ρσ1σ2 σ 21

)(5.43)

σ 2i bezeichnet dieVarianzen vonXi, i = 1,2.ρ ist der Korrelationskoeffizient vonX1 undX2.Als Dichte

einer bivariaten Normalverteilung erhält man:

f (x1, x2) = (2π)−1 · |1| −12 · exp

{−1

2(x1 − µ1, x2 − µ2) · 1−1

(x1 − µ1x2 − µ2

)}= (5.44)

1

2πσ1σ2√

1 − ρ2exp

{− 1

2(1 − ρ2)

[(x1 − µ1

σ1

)2

− 2ρ

((x1 − µ1)

σ1

)((x2 − µ2)

σ2

)+(

x2 − µ2

σ2

)2]}

34

Page 40: Skriptum Statistik I und II

6 Grenzwertsätze

6.1 Linearkombination von Zufallsvariablen

Ein Zufallsexperiment wirdn-mal unabhängig wiederholt. Diese Standardformulierung bedeutet, daß ent-weder ein Experimentn-mal durchgeführt wird odernExperimente (ohne gegenseitige Beeinflussung) eineinziges Mal durchgeführt werden. Man kann zeigen, daß diese unterschiedlichen Auffassungen mathe-matisch identisch sind. Formal wird dieses Experiment durch eine Folge vonn stochastisch unabhängigenZufallsvariablenX1, . . . , Xn beschrieben mit existierenden Erwartungswertenµi und Varianzenσ 2

i . Fürdie Linearkombination:

Z = a1X1 + . . . + anXn (6.1)

gilt der folgende Satz:

1. E(Z) =n∑

i=1

aiµi

2. V (Z) =n∑

i=1

a2i σ

2i

Beispiel: SeienX1, . . . , Xn stochastisch unabhängig identisch verteilt. Seix das arithmetische Mittel:

X = 1

n

n∑i=1

Xi (6.2)

Setzen wira1 = . . . = an = 1n , so ist:

X = 1

nX1 + . . . + 1

nXn = a1X1 + . . . + anXn (6.3)

Also gelten die Aussagen:

E(X) = µ ·n∑

i=1

ai = µ ·n∑

i=1

1

n= µ, σ 2(X) = σ 2 ·

n∑i=1

a2i = σ 2 ·

n∑i=1

1

n2= 1

nσ 2 (6.4)

6.2 Stochastische Ungleichungen

6.2.1 Die Ungleichung von Markov

Satz: Es seiX eine nicht-negative Zufallsvariable mit ErwartungswertE(X). Dann ist für jede positiveZahl ε die folgende Ungleichung erfüllt:

P(X ≥ ε) ≤ E(X)

ε(6.5)

Beweis:

1. X diskret

E(X) =∞∑

j=0

j · pj ≥∑j≥ε

j · pj ≥∑j≥ε

ε · pj = ε∑j≥ε

pj = ε · P(X ≥ ε)

2. X stetig

E(X) =∫ ∞

0x · f (x) dx ≥

∫ ∞

ε

x · f (x) dx ≥∫ ∞

ε

ε · f (x) dx = ε ·∫ ∞

ε

f (x) dx = ε · P(X ≥ ε)

Beispiel: Die durchschnittliche Anzahl von Anträgen bei einer Behörde ist 5. Wie groß ist eine obereSchranke der Wahrscheinlichkeit, daß 10 oder mehr Anträge eintreffen?

P(X ≥ 10) ≤ E(X)

10= 5

10= 1

2(6.6)

35

Page 41: Skriptum Statistik I und II

6.2.2 Die Ungleichung von Tschebyscheff

Satz: Existiert für eine ZufallsvariableX mit ErwartungswertE(X) zusätzlich dieVarianzσ 2(X), so folgtfür alle ε > 0 :

P(|X − µ| ≥ ε) ≤ σ 2(X)

ε2(6.7)

Da die Ungleichung vonTschebyscheff eine Aussage über die Wahrscheinlichkeit einer Abweichungvom Mittelwert macht, muß für eineAbschätzung vonP(X ≥ k) zuerst eine entsprechende Transformati-on durchgeführt werden. Da hier eine Maximalwahrscheinlichkeit berechnet wird, kann die Ungleichungvon Tschebyscheff auch für einseitige Abweichungen vom Mittelwert verwendet werden.

Beweis: Es giltP(|X − µ| ≥ ε) = P((X − µ)2 ≥ ε2). Die Anwendung des Satzes vonMarkov aufdie Zufallsvariable(X − µ)2 ergibt:

P((X − µ)2 ≥ ε2) ≤ E((X − µ)2)

ε2= σ 2(X)

ε2(6.8)

Beispiel: Der Bedarf an Teilen eines bestimmten Typs in einem Produktionsbetrieb wird durch dieZufallsvariableX beschrieben. Aus Erfahrung ist bekannt, daßE(X) gleich 45 undσ 2(X) = 5 ist. Mitwelcher Wahrscheinlichkeit liegt der Bedarf zwischen 40 und 50 Teilen?

P(40 < X < 50) = P(|X − 45| < 5) = 1 − P(|X − 45| ≥ 5)

= P(|X − 45| ≥ 5) ≤ 5

25= 0.2

(6.9)

Die Wahrscheinlichkeit, daß der Bedarf zwischen 40 und 50 Teilen liegt, ist mindestens 0.8.

6.3 Schwaches Gesetz der großen Zahlen

Satz:(Schwaches Gesetz der großen Zahlen)Existiert für stochastisch unabhängige und identisch verteilteZufallsvariablenXi, i = 1,2, . . .der Erwartungswertµund dieVarianzσ 2, dann gilt für das arithmetischeMittel X und für beliebig kleineε > 0 die Aussage:

limn→∞ P(|Xn − µ| ≥ ε) = 0 (6.10)

Fürn → ∞ ist also die Wahrscheinlichkeit einerAbweichung des Wertesx vom Mittelwertµ um mehr alseine Konstanteε gleich Null. Man spricht von einerKonvergenz nach Wahrscheinlichkeit. Dieser Satz istein Spezialfall des folgenden allgemeinen Satzes:Xi, i ∈ N, seien stochastisch unabhängige und identischverteilte Zufallsvariablen.g(x) sei eine reellwertige Funktion.µg = E(g(Xi)) und σ 2

g = σ 2(g(Xi))

existieren. Es seigX der Mittelwert: gX = 1n

∑ni=1 g(Xi). Dann gilt die folgende Aussage für beliebig

kleineε > 0.

limn→∞ P(|gX − µg| ≥ ε) = 0 (6.11)

Beweis:

σ 2(gX) = 1

n2

n∑i=1

σ 2(g(Xi)) = 1

n2n · σ 2g = 1

nσ 2g (6.12)

Aus derTschebyscheff-Ungleichung folgt:

P(|gX − µg)| ≥ ε) ≤ σ 2(gX)

ε2= 1

n · ε2· σ 2

g (6.13)

Daraus folgt:

limn→∞ P(|gX − µg| ≥ ε) = 0 (6.14)

Ein Zufallsexperiment wirdnmal unabhängig wiederholt. Tritt imi-tenVersuch das EreignisAauf, nimmtdie ZufallsvariableXi den Wert 1 an, sonst den Wert 0. SeiXi Bernoulli-verteilt mitµ = P(A) = π

undσ 2(Xi) = π(1 − π). Die relative Häufigkeit vonA in n Versuchen ist gegeben durch:

pn = X = 1

n

n∑i=1

Xi (6.15)

36

Page 42: Skriptum Statistik I und II

Man beachte, daßpn die relative Häufigkeit ist, die wir bereits in der deskriptiven Statistik kennengelernthaben.

Satz:(Theorem vonBernoulli) Es seipn die relative Häufigkeit eines Ereignisses inn unabhängigenWiederholungen eines Zufallsexperiments undπ die Wahrscheinlichkeit des Ereignisses. Dann gilt:

limn→∞ P(|pn − π | ≥ ε) = 0 (6.16)

Dies bedeutet, daß die Wahrscheinlichkeit einer beliebig kleinenAbweichung der relativen Häufigkeit vonder Wahrscheinlichkeit eines Ereignisses bei wachsendemn immer kleiner wird. Daher läßt sich im Fallunabhängiger Zufallsexperimente der formal eingeführte Wahrscheinlichkeitsbegriff inhaltlich erklären.Auch in der Praxis kann man die Ergebnisse sinnvoll verwenden, denn aufgrund der Gesetze kann manParameter einer Verteilung (konsistent) schätzen.

6.4 Zentraler Grenzwertsatz

Das Gesetz der großen Zahl besagt,daßdas arithmetische MittelX gegen den Mittelwertµ konvergiert.Der Zentrale Grenzwertsatz gibt nun Auskunft darüber,wie X gegenµ konvergiert. Unter den gleichenVoraussetzungen wie im vorigen Abschnitt gilt nun:

Satz: Zentraler Grenzwertsatz vonLindeberg - Levy Xi, i ∈ N, sei eine Folge von stochastischunabhängigen und identisch verteilten Zufallsvariablen mit Erwartungswertµ und Varianzσ 2. Dann giltfür die FolgeSn der standardisierten Partialsummen der ZufallsvariablenXi :

Sn =∑n

i=1 Xi − nµ√nσ

= √n · X − µ

σ(6.17)

limn→∞ FSn

(x) = <(x) für alle x ∈ R (6.18)

Hier bezeichnetFSndie Verteilungsfunktion vonSn und< die Standardnormalverteilung. Es folgt, daß

X ∼ N(µ, σ 2/n) für n → ∞. Man spricht in solchen Fällen von einerKonvergenz nach Verteilung. Abn ≥ 30 istSn in guter Näherung normalverteilt. Für die Anwendbarkeit des zentralen Grenzwertsatzes istnur die Existenz von Erwartungswert und Varianz wichtig, die Gestalt der Verteilung spielt keine Rolle.

Beispiel: Wir untersuchen die Wahrscheinlichkeitsverteilung der AnzahlX von Wappen in 10 Münz-würfen (Werfen mit einer fairen Münze). DaP (’Wappen’)= 1/2 ist, istX ∼ B10;0.5 verteilt. Wir erhaltendie folgende Verteilungsfunktion und vergleichen sie mit derN(5,2.5) Verteilungsfunktion.

j 0 1 2 3 4 5 6 7 8 9

F(j) 0 0.01 0.05 0.17 0.38 0.62 0.83 0.95 0.99 1.00

<

((j − 5)√

2.5

)0 0.01 0.03 0.10 0.26 0.50 0.74 0.90 0.97 0.99

37

Page 43: Skriptum Statistik I und II

7 Grundbegriffe der mathematischen Statistik

7.1 Grundgesamtheit und Stichprobe

Als Grundgesamtheit bezeichnen wir die Gesamtheit aller Merkmalsträger, die in einer statistischenUntersuchung auftreten können. Beispiele für Grundgesamtheiten sind

• die Zahl der Einwohner der Bundesrepublik Deutschland am 1.1.1990 (endliche Grundgesamtheit).

• Ein Würfelexperiment mit einem Würfel läßt sich beliebig oft unter den gleichen Bedingungenwiederholen (unendliche Grundgesamtheit).

Wird aus der Grundgesamtheit ein Element zufällig ausgewählt (d.h. jedes Element besitzt dieselbe Chan-ce, ausgewählt zu werden) und der Wert des zu untersuchenden Merkmals gemessen, so kann der Wertx als Realisation einer ZufallsvariablenX aufgefaßt werden. Für ein IntervallI ist alsoP(X ∈ I ) dieWahrscheinlichkeit dafür, daß ein Element aus der Grundgesamtheit ausgewählt wird, dessen Merkmals-wert in I liegt. Wir bezeichnen daher die Verteilung vonX auch als Verteilung der Grundgesamtheit aufdem MerkmalX. Die Verteilungsparameter (Erwartungswert, Median,. . .) und die Verteilungsfunktionder Grundgesamtheit charakterisieren die ZufallsvariableX. In den meisten Fällen sind diese Parameterjedoch unbekannt. Unsere Aufgabe ist es, Aussagen über diese Parameter zu machen.

Eine Möglichkeit zur Lösung dieser Aufgabe ist die Durchführung einer Totalerhebung, bei der beijedem Objekt die Merkmalsausprägung gemessen wird. Allein aus finanziellen Gründen ist dies meistensnicht durchführbar. Eine Erhebung der Grundgesamtheit wird unsinnig, wenn mit der Untersuchung dieZerstörung des Objekts verbunden ist (Lebensdauer von Glühbirnen). Daher muß man sich oft damitbegnügen, einige Objekte aus der Grundgesamtheit auszuwählen. Werdenn Objekte herausgegriffen,so sprechen wir von einerStichprobe vom Umfangn. Werden dien Objekte unabhängig voneinandergezogen, so daß jedes Element die gleiche Chance besitzt ausgewählt zu werden, sprechen wir voneiner Zufallsstichprobe, die bei endlicher Grundgesamtheit einem Ziehen mit oder ohne Zurücklegenentspricht. In einer endlichen Grundgesamtheit ist bei einmaliger Ziehung die Wahrscheinlichkeit, daßdas zufällig ausgewählte Element den Merkmalswertx besitzt, gleich der relativen Häufigkeit vonx inder Grundgesamtheit. Weiter stimmt die aus allenN Werten der endlichen Grundgesamtheit gebildeteempirische Verteilungsfunktion mit der Verteilungsfunktion der Grundgesamtheit überein.

7.2 Stichprobenfunktionen

Will man die durchschnittliche Kinderzahl der deutschen Familie feststellen, so kann man entwedereine Totalerhebung durchführen oder sich mit einer Stichprobe begnügen. In beiden Fällen wird dasarithmetische Mittel berechnet. Dieses repräsentiert bei der Totalerhebung die mittlere Kinderzahl derGrundgesamtheit, bei der Stichprobe hingegen die mittlere Kinderzahl einer speziellen, aber zufällig aus-gewählten Teilmenge der Grundgesamtheit. Der Stichprobenmittelwert kann sich deshalb vom Mittelwertder Grundgesamtheit unterscheiden. Bei wiederholter Stichprobenentnahme erhalten wir eineVerteilungvon Stichprobenmittelwerten, die von der Verteilung der Grundgesamtheit abhängt. Die Analyse die-ser Verteilung hilft uns, die Genauigkeit des Stichprobenverfahrens zu beurteilen bzw. Maßnahmen zurVerbesserung der Genauigkeit zu entwickeln.

Maßzahlen wie Erwartungswert und Varianz, die die Grundgesamtheit charakterisieren, werden alsParameterbezeichnet. Eine ZufallsvariableZ = g(X1, . . . , Xn) (eine Funktion der ZufallsvariablenX1, . . . , Xn der Stichprobe), heißt eineStichprobenfunktionoder auchStatistik. Mit Hilfe von Statistikenkann auf die Parameter der Grundgesamtheit geschlossen werden. Dies ist Gegenstand derInferenz-statistik. Man kann Statistiken zu folgenden Zwecken benutzen:

1. Zur Schätzung von Parametern der Grundgesamtheit.

2. Zur Schätzung eines Intervalls, das mit einer vorgegebenen Sicherheitswahrscheinlichkeit den wah-ren Parameter überdeckt.

3. Zur Überprüfung einer Hypothese, ob ein Parameter in einer bestimmten Region liegt.

4. Zur Prognose

38

Page 44: Skriptum Statistik I und II

7.2.1 Arithmetisches Mittel

Der Mittelwert einer Zufallsstichprobe (arithmetisches Mittel) wird mitX bezeichnet. FürX gilt:

X = 1

n

n∑i=1

Xi, E(X) = µ, σ 2(X) = 1

nσ 2(X) (7.1)

Beweis: Die ZufallsvariablenXi einer Zufallsstichprobe (X1 . . . Xn) sind unabhängig voneinander undwie das MerkmalX verteilt. Daher gilt die Behauptung:

Ist die Grundgesamtheit∼ N(µ, σ 2) verteilt, so istX ∼ N(µ, σ 2/n) verteilt.Ist der Umfangn der Stichprobe hinreichend groß, so istX annähernd normalverteilt.

Dies gilt auch dann, wenn die ZufallsvariableXi nicht normalverteilt ist (Zentraler Grenzwertsatz). Isteine Grundgesamtheit endlich, wird häufig eine StichprobeohneZurücklegen erhoben. In diesem Fall sinddie ZufallsvariablenXi , die das Ergebnis deri-ten Ziehung repräsentieren, nicht voneinander unabhängig.Besitzt die GrundgesamtheitN Elemente, so ist beim Ziehen ohne Zurücklegen:

E(X) = µ, σ 2(X) = σ 2(X)

n· N − n

N − 1(7.2)

Wegen(N −n)/(N −1) < 1 streut die StatistikX beim Ziehen ohne Zurücklegen weniger stark als beimZiehen mit Zurücklegen, jedoch geht dieser Vorteil für großeN wegen limN→∞(N − n)/(N − 1) = 1verloren.

Beispiel: Das Durchschnittseinkommen einer Gruppe von unselbständig Erwerbstätigen beträgt 1900DM im Monat mit Standardabweichungσ = 200 DM. Man bestimme ein approximatives Intervall umµ,in dem mit Wahrscheinlichkeit 0.96 der StichprobenmittelwertX einer Zufallsstichprobe vom Umfangn = 400 liegt: Wegenn = 400 ≥ 30 ist X annäherndN(1900,40 000/400) = N(1900,100) verteilt.Gesucht istc mit P(1900− c ≤ X ≤ 1900+ c) = 0.96.

<

(1900+ c − µ

σ(X)

)− <

(1900− c − µ

σ(X)

)= 0.96 ⇐⇒ <

( c

10

)− <

(−c

10

)= 0.96 (7.3)

Aus der Normalverteilungstabelle erhält man<(2.06) = 0.98. Daraus folgt:<(2.06)−<(−2.06) = 0.96und somitc = 10 · 2.06 = 20.6. Das gesuchte approximative Intervall ist daher[1879.4,1920.6] .

7.2.2 Die relative Häufigkeit

Interessiert uns nur die Wahrscheinlichkeitπ eines EreignissesA und setzen wirXi = 1, fallsA im i-tenVersuch realisiert wird, undXi = 0 sonst, so erhält man als Spezialfall des arithmetischen Mittels dierelative Häufigkeit eines EreignissesA in einer Stichprobe vom Umfangn.

pn = 1

n

n∑i=1

Xi (7.4)

Der Erwartungswert vonpn ist gleich der Wahrscheinlichkeitπ vonA:

E(pn) = π (7.5)

Da in einer Zufallsstichprobe jedesXi die Varianzπ(1 − π) besitzt, gilt:

σ 2(pn) = π(1 − π)

n(7.6)

Fürnπ(1 − π) ≥ 10 istpn annähernd normalverteilt:

pn ∼ N

(π,

π(1 − π)

n

)(7.7)

In einer endlichen Grundgesamtheit besitztpn beimZiehen ohne Zurücklegenden Erwartungswertπ unddie Varianz:

σ 2(pn) = π(1 − π)

n

(N − n

N − 1

)(7.8)

39

Page 45: Skriptum Statistik I und II

7.2.3 Stichprobenvarianz

Die Varianz einer ZufallsvariablenX wird aus einer Zufallsstichprobe durch die Stichprobenvarianzgeschätzt:

S2 = 1

n − 1

n∑i=1

(Xi − X)2 (7.9)

Die StichprobenvarianzS2 besitzt in einer Zufallsstichprobe den Erwartungswertσ 2.

E(S2) = σ 2 (7.10)

Ist die Grundgesamtheit normalverteilt, so ist der Ausdruck:

(n − 1) · S2

σ 2= 1

σ 2

n∑i=1

(Xi − X)2 (7.11)

χ2-verteilt mit m = n − 1 Freiheitsgraden (kurzχ2n−1 verteilt). Dieχ2-Verteilung besitzt eine positive

Dichtef (x) über 0≤ x < ∞ und hängt von einem Parameterm, m = 1,2, . . . (Freiheitsgrade) ab. Siebesitzt den Erwartungswertµ = m und die Varianzσ 2 = 2m. Für eineχ2

m verteilte ZufallsvariableX istabm ≥ 30 der Ausdruck:

√2X − √

2m − 1 annäherndN(0,1) verteilt. (7.12)

Und für dasα-Quantilxα der Verteilung vonX gilt in diesem Fall:

xα ≈ 1

2(zα + √

2m − 1)2 (7.13)

Dabei istzα dasα-Quantil derN(0,1) Verteilung.

7.2.4 Gewöhnliche Stichprobenmomente

Die gewöhnlichen Stichprobenmomente um 0:

Mk = 1

n

n∑i=1

Xki (7.14)

besitzen als Erwartungswert die gewöhnlichen Momente der GrundgesamtheitE(Xk).

40

Page 46: Skriptum Statistik I und II

8 Punkt und Intervallschätzung

8.1 Punktschätzung

Eine Punktschätzung liegt vor, wenn aufgrund einer Stichprobe durch eine Statistikg(X1, . . . , Xn) einSchätzerϑ für einen unbekannten Parameterϑ der Verteilung der Grundgesamtheit festgelegt wird.X

undS2 sind Punktschätzer fürµ bzw.σ 2.Beispiel: Der Medianx0.5 der Stichprobenwertex1, . . . , xn ist ein Punktschätzer für den Median der

Grundgesamtheitx0.5. Er wird folgendermaßen berechnet: Zunächst werden dien Stichprobenwerte derGröße nach geordnet.

x[1] ≤ x[2] ≤ . . . ≤ x[n] (8.1)

Dann istx0.5 definiert durch:

x0.5 ={

x[n+1

2

] falls n ungerade ist (der Wert in der Mitte)

12(x[ n

2 ] + x[ n2 +1]) falls n gerade ist (arithmetisches Mittel der mittleren Werte)

(8.2)

Ist die Verteilung einer Grundgesamtheit symmetrisch umµ, so istx0.5 auch ein inhaltlich sinnvollerPunktschätzer für den Erwartungswertµ. Schätzer werden nachGütekriterien, z. B. Erwartungstreue,Effizienz und Konsistenz, beurteilt.

8.1.1 Erwartungstreue (Unverzerrtheit)

Ein Punktschätzerϑ für einen Parameterϑ heißt erwartungstreu, wenn gilt:

E(ϑ) = ϑ (8.3)

Beispiel:

ϑ = X (ist erwartungstreu fürµ) (8.4)

ϑ = S2 = 1

n − 1

n∑i=1

(Xi − X)2 (ist erwartungstreu fürσ 2) (8.5)

ϑ = 1

n

n∑i=1

(Xi − X)2 (ist nicht erwartungstreu fürσ 2) (8.6)

8.1.2 Effizienz

Es seienϑ1 und ϑ2 erwartungstreu fürϑ . ϑ1 ist wirksamer (effizienter) alsϑ2, wenn er eine kleinereVarianz besitzt:

V (ϑ1) < V (ϑ2) (8.7)

d.h. ein Schätzer ist umso wirksamer, je geringer seine Streuung ist.Beispiel: In einerN(µ, σ 2) verteilten Grundgesamtheit sind sowohlX als auchX0.5 erwartungstreue

Schätzer fürµ. Es gilt:

V (X) = 1

n· σ 2 < V (X0.5) = π

2· 1

nσ 2 (8.8)

Daher gilt:X ist wirksamer alsX0.5

Mit Hilfe der sogenannten Informationsungleichung vonRao-Cramér kann man berechnen, wie großdie Varianz des wirksamsten aller unverzerrten Schätzer ist.

41

Page 47: Skriptum Statistik I und II

8.1.3 Konsistenz

ϑ ist konsistent fürϑ , wenn gilt:

limn→∞ P(|ϑn − ϑ | > ε) = 0 für alleε > 0 (8.9)

d.h. der Schätzerϑ konvergiert fürn → ∞ nach Wahrscheinlichkeit gegen den Wertϑ .

8.2 Schätzverfahren

8.2.1 Momentenmethode

Lassen sich die unbekannten Parameterϑi als Funktionengi(m1, . . . , mr) der (auch unbekannten) ge-wöhnlichen Momentemk = E(Xk) darstellen, so heißt die Stichprobenfunktion:

ϑi = gi(M1, . . . ,Mr) (8.10)

Momentenschätzer fürϑi , wobei:

Mk = 1

n

n∑i=1

Xki (8.11)

die Stichprobenmomente sind. Die Momentenschätzer sind im allgemeinen nicht effizient.

8.2.2 Maximum-Likelihood-Methode

Wird eine Grundgesamtheit durch einen unbekannten Parameterϑ charakterisiert, so hängt die Dichtevom unbekannten Parameterϑ ab:

f (x|ϑ) im stetigen Fall

p(j |ϑ) = P(X = j |ϑ) im diskreten Fall(8.12)

Beispiel: Ist die Grundgesamtheit exponentialverteilt, so gilt:

f (x|ϑ) = f (x|λ) = f (x) = λe−λx für x ≥ 0 (8.13)

Ist die Grundgesamtheit poissonverteilt, so gilt:

p(x|ϑ) = p(x|λ) = px = e−λ λx

x! , x ∈ N (8.14)

Liegt eine unabhängige Zufallsstichprobe vom Umfangn vor, so besitzt (X1, . . . , Xn) die Dichte:

f (x1, . . . , xn) = f (x1) · f (x2) · . . . · f (xn) im stetigen Fall bzw. (8.15)

p(x1, . . . , xn) = p(x1) · p(x2) · . . . · p(xn) im diskreten Fall. (8.16)

Bei der Likelihoodfunktion rückt der Parameter in den Vordergrund, die Werte der Stichprobe werden alsgegeben aufgefaßt. Die Likelihoodfunktion stimmt mit der Dichte der Stichprobe überein. Im Gegensatzzur Dichte werden die Parameter als variabel und die Realisierungenxi als fest aufgefaßt.

L(ϑ) = L(ϑ |x1, . . . , xn) ={

f (x1|ϑ) · . . . · f (xn|ϑ) im stetigen Fallp(x1|ϑ) · . . . · p(xn|ϑ) im diskreten Fall

(8.17)

Likelihoodprinzip nachFisher: Für das Stichprobenergebnis (x1, . . . , xn) wählt man denjenigen Wertϑals Schätzwert fürϑ aus, für den die Likelihoodfunktion am größten ist. Der so konstruierte SchätzerheißtMaximum-Likelihood-Schätzer.

Im diskreten Fall ist für den so berechneten Wertϑ die Wahrscheinlichkeit für die Beobachtungx1, . . . , xn am größten, im stetigen Fall ist fürϑ die Dichtef (x1, . . . , xn) an den beobachteten Wertenam größten.

42

Page 48: Skriptum Statistik I und II

Beispiel: Eine Urne enthalte schwarze und weiße Kugeln mit Anteilenπ und 1−π . Bei einer Zufalls-stichprobe vonn Kugeln aus der Urne werdenk schwarze Kugeln gezogen. Die AnzahlX der schwarzenKugeln istBn,π verteilt. Daher ist die Likelihoodfunktion gegeben durch:

L(π) =(n

k

)· πk(1 − π)n−k (8.18)

Der Wert π ist nun so zu bestimmen, daßL(π) ein Maximum annimmt. Man beachte, daß bei derBestimmung der Likelihoodfunktion durch die Produktbildung der einzelnen Dichten der Zufallsvariablendie Unabhängigkeit vorausgesetzt wird.

Bei der Bestimmung des Maximums geht man zweckmäßigerweise von der zur Basise logarithmiertenLikelihoodfunktion aus, um Produkte zu Summen zu transformieren, die einfacher differenziert werdenkönnen. Da der Logarithmus eine streng monotone Funktion ist, nimmt die logarithmierte Likelihood-funktion an der gleichen Stelle wie die ursprüngliche Funktion das Maximum an. Man erhält:

ln L(π) = ln

(n

k

)+ ln πk + ln (1 − π)n−k (8.19)

= ln

(n

k

)+ k · ln π + (n − k) ln (1 − π) (8.20)

Ableiten nachπ und Nullsetzen der Ableitung ergibt:

∂ ln L(π)

∂π= 0 + k · 1

π+ (n − k) · 1

1 − π(−1) = 0 (8.21)

Daraus folgt:π = kn . Die relative Häufigkeitpn = k

n ist daher der Maximum-Likelihood-Schätzer fürπ

(es handelt sich tatsächlich um ein Maximum).L(π) nimmt fürn = 10 undk = 3 folgende Werte an:

π 0.1 0.2 0.3 0.4 0.5 0.7L(π) 0.06 0.20 0.27 0.21 0.12 0.01

Beispiel: Der Maximum-Likelihood-Schätzer für den Parameterµ einerN(µ, σ 2)-Verteilung sollbestimmt werden, wobeiσ 2 als bekannt vorausgesetzt wird. Die Likelihood-Funktion ist aufgrund derUnabhängigkeit der Stichprobe:

L(µ) =n∏

i=1

1√2πσ

· exp

(−(xi − µ)2

2σ 2

)(8.22)

Die Log-Likelihood-Funktion (logarithmierte Likelihoodfunktion) ist:

ln L(µ) =n∑

i=1

(ln

1√2πσ

− (xi − µ)2

2σ 2

)(8.23)

Die erste Ableitung nachµ ist:

∂ ln L(µ)

∂µ=

n∑i=1

− 1

2σ 2· 2 · (xi − µ) · (−1) =

n∑i=1

xi − µ

σ 2(8.24)

Nullsetzen und Auflösen nachµ ergibt:

1

σ 2

n∑i=1

(xi − µ

)= 0(n∑

i=1

xi

)− nµ = 0

nµ =n∑

i=1

xi

µML = 1

n

n∑i=1

xi = x

(8.25)

43

Page 49: Skriptum Statistik I und II

8.2.3 Methode der kleinsten Quadrate

Beispiel: Aus den Beobachtungswertenx1, . . . , xn soll der Erwartungswertµ der Grundgesamtheit sogeschätzt werden, daß die Summe der Quadrate der Abstände der Beobachtungenxi vonµ durch:

n∑i=1

(xi − µ)2 → Min (8.26)

minimiert wird. Ableiten der Summe nachµ und Nullsetzen der Ableitung ergibt:

∂µ

n∑i=1

(xi − µ)2 =n∑

i=1

2(xi − µ) · (−1) = 0 (8.27)

Daraus folgt:

µKQS = 1

n

n∑i=1

xi (8.28)

x ist also der Kleinste-Quadrate-Schätzer fürµ.

8.3 Intervallschätzung

Bei der Punktschätzung ist im allgemeinen die Wahrscheinlichkeit, daß der Schätzerϑ mit dem wah-ren Parameterϑ übereinstimmt, gleich Null. Daher konstruieren wir ein Intervall, das zu vorgegebenerWahrscheinlichkeit 1− α den wahren, aber unbekannten Parameterϑ einschließt.

Definition: Unter einemKonfidenzintervallfür ϑ zur SicherheitS = 1 − α, 0 < α < 1, verstehenwir ein Intervall [ϑ, ϑ ], dessen Grenzenϑ und ϑ Zufallsvariablen sind, für die gilt:

P(ϑ ≤ ϑ ≤ ϑ) = 1 − α (8.29)

Die SicherheitS = 1 − α heißt auchKonfidenzniveauoderVertrauenswahrscheinlichkeit. Es gibtein-undzweiseitigeKonfidenzintervalle. Die Länge 2d = ϑ − ϑ heißtGenauigkeitder Konfidenzschätzungin einem zweiseitigen Konfidenzintervall. Unter einemeinseitigen Konfidenzintervallzur SicherheitS =1 − α verstehen wir ein Zufallsintervall(−∞, ϑ] bzw. [ϑ, ∞) mit:

P(ϑ ≤ ϑ) = 1 − α bzw. P(ϑ ≤ ϑ) = 1 − α. (8.30)

Die Intervallgrenzenϑ undϑ sind also identisch mit denα- und 1− α-Quantilen der zugrundeliegendenVerteilung. Bei zweiseitigen Konfidenzintervallen, entsprechen hingegen sie denα

2 - und 1− α2 -Quantilen.

8.3.1 Konfidenzintervall für µ bei normalverteilter Grundgesamtheit und bekannter Varianz σ 2

Ein symmetrisches Konfidenzintervall fürµ zu S = 1 − α wird folgendermaßen konstruiert. Da jedesElement der GrundgesamtheitN(µ, σ 2) verteilt ist, istX ∼ N(µ, σ 2/n) verteilt. Daher ist dieGaußsta-tistik:

X − µ

σ· √

n ∼ N(0,1) (8.31)

normalverteilt. Somit gilt:

P

(zα

2≤ X − µ

σ· √

n ≤ z1− α2

)= 1 − α, (8.32)

wobeizα/2 bzw.z1−α/2 dieα/2 bzw. 1− α/2 Quantile derN(0,1) Verteilung sind. Daraus folgt:

zα2

≤ x − µ

σ· √

n ≤ z1−α/2 (8.33)

⇐⇒ zα2

≤ x − µ

σ· √

n undx − µ

σ· √

n ≤ z1− α2

(8.34)

44

Page 50: Skriptum Statistik I und II

⇐⇒ µ ≤ x − σ√n

· zα2

und µ ≥ x − σ√n

· z1− α2

(8.35)

Wegenzα/2 = −z1−α/2 erhält man das zweiseitige Konfidenzintervall zur SicherheitS = 1 − α(x − σ√

n· z1− α

2≤ µ ≤ x + σ√

n· z1− α

2

)(8.36)

Die einseitigen KonfidenzintervallezurS = 1 − α sind:[x − σ√

n· z1−α, ∞

)und

(−∞, x + σ√

n· z1−α

](8.37)

Beispiel: Um den durchschnittlichen Benzinverbrauch pro 100 km eines neuen Modells zu ermitteln,läßt eine Automobilfirma mit 25 Versuchswagen Testfahrten durchführen. Die Firma interessiert sich fürdas Konfidenzintervall zuS = 0.95 für den durchschnittlichen Benzinverbrauchµ pro 100 km. Es wirdangenommen, daß der Verbrauch normalverteilt ist mitσ = 0.9F/100km. Der Durchschnittsverbrauchaller 25 Testwagen war 9.1F/100km. Daraus folgt:

µ = x − z0.975

σ√n

= 9.1 − 1.96 · 0.9

5= 8.75 (8.38)

µ = x + z0.975

σ√n

= 9.1 + 1.96 · 0.9

5= 9.45 (8.39)

8.3.2 Konfidenzintervall für µ bei normalverteilter Grundgesamtheit und unbekannter Varianz

Die unbekannte Varianzσ 2 wird durch die Stichprobenvarianz:

S2 = 1

n − 1

n∑i=1

(Xi − X)2 (8.40)

geschätzt. Bei normalverteilter Grundgesamtheit ist diet-Statistik:

tG = X − µ

S· √

n (8.41)

t-verteilt mitn − 1 Freiheitsgraden.Die t-Verteilung (auchStudent-Verteilung1 genannt) besitzt eine Dichtef (x) über−∞ < x < ∞

und einem Parameterm = 1,2, . . ., der als Freiheitsgrad bezeichnet und durchdf (degrees of freedom)abgekürzt wird. Diet-Verteilung ist symmetrisch um den Erwartungswertµ = 0 und besitzt die Varianzσ 2 = m/(m − 2). Ist m ≥ 30, so kann diet-Verteilung durch die Normalverteilung angenähert werden.Das Konfidenzintervall fürµ zur SicherheitS = 1 − α ist:(

x − t1− α2 ;n−1 · s√

n≤ µ ≤ x + t1− α

2 ;n−1 · s√n

)(8.42)

t1− α2 ;n−1 ist das 1− α/2 Quantil dert Verteilung mitn − 1 Freiheitsgraden. Die einseitigen Konfidenzin-

tervalle sind:(x − t1−α;n−1 · s√

n, ∞)

bzw.

(−∞, x + t1−α;n−1 · s√

n

)(8.43)

1Unter dem PseudonymStudent veröffentlichte 1907/1908William Sealy Gosset (∗13.6.1876, †16.10.1937) diet-Verteilung

45

Page 51: Skriptum Statistik I und II

8.3.3 Konfidenzintervall für µ bei großen Stichproben

Ist der Umfangn der Stichprobe≥ 30, so istX annähernd normalverteilt. Bei bekannter Varianzσ 2 lautetdas Konfidenzintervall fürµ zuS = 1 − α:(

x − z1− α2

· σ√n

≤ µ ≤ x + z1− α2

· σ√n

)(8.44)

wobeiz1−α/2 das 1− α/2 Quantil derN(0,1) Verteilung ist.Ist die Varianzσ 2 unbekannt, so kannσ 2 durchs2 geschätzt werden, das2 für σ 2 konsistent ist. In

diesem Fall ist das Konfidenzintervall fürµ zuS = 1 − α:(x − z1− α

2· s√

n≤ µ ≤ x + z1− α

2· s√

n

)(8.45)

8.3.4 Konfidenzintervall für π eines EreignissesA mit P(A) = π

Ist π die Wahrscheinlichkeit eines EreignissesA, so istpn (relative Häufigkeit vonA in einer Stichprobevom Umfangn) eine Statistik fürπ . Fürnπ(1 − π) ≥ 10 istp annäherndN(π, π(1 − π)/n) verteilt.Das Konfidenzintervall fürπ zur SicherheitS = 1 − α ist:(

p − z1− α2

·√

p(1 − p)

n≤ π ≤ p + z1− α

2·√

p(1 − p)

n

)(8.46)

Bemerkung: Wie an den vorangegangenen Beispielen zu sehen ist, steigt bei gleichbleibendem Kon-fidenzniveau die Präzision der Schätzung mit wachsendem Stichprobenumfang. Wenn der Stichproben-umfang vervierfacht wird, verdoppelt sich die Präzision.

8.3.5 Konfidenzintervall für σ 2 bei normalverteilter Grundgesamtheit

Die Statistik:

S2 = 1

n − 1

n∑i=1

(Xi − X)2 (8.47)

ist ein erwartungstreuer Schätzer fürσ 2. Der Ausdruck:

(n − 1) · S2

σ 2(8.48)

ist χ2-verteilt mitn − 1 Freiheitsgraden. Das zweiseitige Konfidenzintervall fürσ 2 zuS = 1 − α ist:((n − 1) · s2

χ21− α

2 ;n−1

≤ σ 2 ≤ (n − 1) · s2

χ2α2 ;n−1

)(8.49)

Beispiel: Ein Papierband wird von einer Maschine in ca. 24 cm lange Stücke geschnitten. Um dieStreuung der Länge zu ermitteln, wurde an 24 zufällig ausgewählten Stücken die Länge nachgemessen.Man erhielts2 = 0.88 cm2 . Es soll das Konfidenzintervall fürσ 2 zuS = 0.99 berechnet werden:

σ 2 = (n − 1)s2

χ20.995;23

= 23 · 0.88

44.2= 0.46 (8.50)

σ 2 = (n − 1)s2

χ20.005;23

= 23 · 0.88

9.26= 2.19 (8.51)

46

Page 52: Skriptum Statistik I und II

9 Signifikanztests

Bisher haben wir Schätzverfahren (Punkt- und Intervallschätzungen) für unbekannte Parameter einerGrundgesamtheit behandelt. In vielen konkreten Problemstellungen muß jedoch zwischen zwei Hypo-thesen entschieden werden.

Beispiele:• Hypothese: Ein pharmazeutisches Präparat hat die beabsichtigte Wirkung. Gegenhypothese: Es hat

nicht die gewünschte Wirkung.

• Hypothese: Ein neues Verfahren zur Herstellung von Glühbirnen bewirkt eine Verlängerung derLebensdauer gegenüber einem alten Verfahren. Gegenhypothese: Die nach dem neuen Verfahrenhergestellten Birnen besitzen keine längere Lebensdauer.

9.1 Aufbau von Signifikanztests

Einestatistische Hypotheseist eine Vermutung über die Wahrscheinlichkeitsverteilung der Grundgesamt-heit, die in den meistenAnwendungen alsVermutung über einen unbekannten Parameterϑ formuliert wird.Die zu untersuchende:H0-Hypothese wird alsNullhypothesebezeichnet, während die relevante Alterna-tive alsAlternativhypotheseH1 bezeichnet wird. Eine Entscheidungsvorschrift, die aufgrund der Werteeiner Stichprobe angibt, wann fürH0 bzw.H1 zu entscheiden ist, heißtSignifikanztest. DerAnnahmebe-reich ist die Menge aller möglichen Datenkonstellationen, die zur Entscheidung für die NullhypotheseH0 führen. Derkritische BereichoderAblehnungsbereichist die Menge der Datenkonstellationen, die zurAnnahme vonH1 führen.

Es müssen zwei HypothesenH0 undH1, die sich durch disjunkte Parameterbereiche definieren, gegen-einander abgegrenzt werden. Die NullhypotheseH0 wird so gewählt, daß es im Interesse des Testendenliegt, diese mit kontrollierbarem Fehlerα abzulehnen. Daraus folgt, daß in der Regel die Alternativhypo-theseH1 das belegende Ergebnis widerspiegelt.

Beispiel: Ist der Parameterϑ einer Grundgesamtheit unbekannt und sind die möglichen Werte vonϑ

nurϑ0 undϑ1, so lauten die Hypothesen:

H0 : ϑ = ϑ0 , H1 : ϑ = ϑ1 (9.1)

In der folgenden Abbildung sind die Dichten einer Statistikϑ für ϑ dargestellt (links die Dichte, wennH0 wahr ist).

ϑ0 c ϑ1

α

β

ϑ

f (ϑ)

......................................................................................................................

.........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

......................................................

................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Um eine Entscheidungsvorschrift festzulegen, wird die Menge aller Datenkonstellationen inE0 undE1

zerlegt:

E0 ={(x1, . . . , xn)|ϑ(x1, . . . , xn) < c

}E1 =

{(x1, . . . , xn)|ϑ(x1, . . . , xn) ≥ c

}(9.2)

47

Page 53: Skriptum Statistik I und II

Die einfachste Entscheidungsregel lautet wie folgt:

Wenn das EreignisE0 eintritt, lehne die NullhypotheseH0 nicht ab.WennE1 eintritt, verwerfeH0.

9.2 Fehler erster Art und zweiter Art

Die bei einem Test möglichen Fehler sind:

• Fehler erster Art (α-Fehler): Man trifft eine Entscheidung fürH1, obwohlH0 richtig ist.

• Fehler zweiter Art (β-Fehler): Man trifft eine Entscheidung fürH0, obwohlH1 richtig ist.

Im obigen Beispiel ist die Wahrscheinlichkeit für einen Fehler erster Art gleich der Wahrscheinlichkeitdes Eintreffens vonE1, wennH0 wahr ist.

α = P(E1|H0) = P(ϑ ≥ c|H0) (9.3)

Die Wahrscheinlichkeit für einen Fehler zweiter Art ist gleich der Wahrscheinlichkeit des Eintreffens vonE0, wennH1 wahr ist:

β = P(E0|H1) = P(ϑ < c|H1) (9.4)

Die Wahrscheinlichkeiten für richtige Entscheidungen sind:

1 − α = P(E0|H0) = P(ϑ < c|H0), falls H0 wahr ist (9.5)

1 − β = P(E1|H1) = P(ϑ ≥ c|H1), falls H1 wahr ist (9.6)

Die Größec teilt die Verteilung vonϑ im Verhältnis(1− α) zuα, wennϑ0 der wahre Parameter ist. Diesimpliziert die Verwendung der Null-Hypothese zur Konstruktion der kritischen Schwellec.

Beispiel: Ein Unternehmen erhält eine große Warensendung vorgefertigter Teile, die entweder 5%oder 10% Ausschuß enthalten kann, je nachdem auf welcher Anlage des Zulieferers diese Teile hergestelltwurden. Die Frage ist, auf welcher Anlage die Warensendung produziert wurde. Daher muß zwischenH0 : π = 0.05 undH1 : π = 0.1 entschieden werden. Die Entscheidungsregel lautet: Ist der relativeAnteil p des Ausschusses in einer Stichprobe vom Umfangn größer/gleichc, so wirdH0 abgelehnt; istp kleiner alsc, so wirdH0 beibehalten. Die Wahrscheinlichkeit für einen Fehler erster Art ist:

α = P(p ≥ c|π = 0.05) =n∑

k≥n·c

(n

k

)0.05k · 0.95n−k (9.7)

Die Wahrscheinlichkeit für einen Fehler zweiter Art ist:

β = P(p < c|π = 0.1) =∑k<n·c

(n

k

)0.1k · 0.9n−k (9.8)

Entschließt sich das Unternehmen, die Lieferung zurückzuweisen, wenn in einer Stichprobe vom Umfang20 der Ausschußanteil größer ist als 1/9, so erhält man:

α = P(p > 1/9 | π =0.05)=20∑k=3

(20

k

)· 0.05k · 0.9520−k =1 −

2∑k=0

(20

k

)· 0.05k · 0.9520−k

= 1 − 0.3585− 20 · 0.05 · 0.3774− 190· 0.0025· 0.3972= 1 − 0.9245= 0.0755

(9.9)

β = P(p ≤ 1/9 | π = 0.1) =2∑

k=0

(20

k

)0.1k · 0.920−k

= 0.1216+ 20 · 0.1 · 0.1351+ 190· 0.01 · 0.1501= 0.6769

(9.10)

48

Page 54: Skriptum Statistik I und II

Die Wahrscheinlichkeit, die Lieferung zurückzuweisen, obwohlπ = 0.05 ist, ist gering, nämlich 0.0755.Hingegen ist die Wahrscheinlichkeit, die Lieferung anzunehmen, obwohl der relativeAusschußanteil 10%beträgt, relativ groß (0.6769).

Bisher lag nur der Fall vor, daß sowohlH0 als auchH1 nur einen möglichen Wert des unbekanntenParameters umfassen. Gehören nun zuH0 undH1 mehrere mögliche Parameterwerte, so lassen sich dieWahrscheinlichkeiten für den Fehler erster und zweiter Art nicht mehr eindeutig bestimmen. Durchläufta den Bereich der möglichen Parameterwerteϑ , so heißt die Funktion:

G(a) = P(E1|ϑ = a) = P(Ablehnung vonH0| der wahre Wert vonϑ ist a) (9.11)

Gütefunktioneines Tests. Die Gütefunktion gibt in Abhängigkeit vona die Wahrscheinlichkeit für dieAnnahme vonH1 an.

α = supa∈H0

G(a) (9.12)

ist die maximale Wahrscheinlichkeit, daß fürH1 entschieden wird, obwohlH0 richtig ist.α heißtSignifi-kanzniveauoderIrrtumswahrscheinlichkeitdes Tests.

β = supa∈H1

(1 − G(a)) (9.13)

ist die maximale Wahrscheinlichkeit, daß fürH0 entschieden wird, obwohlH1 richtig ist.Wird eine Statistikϑ zur Festlegung des Annahme- und des Ablehnungsbereichs benutzt, so heißtϑ

eineTeststatistikoder auchTestfunktion.Eine Teststatistikϑ(x1, . . . , xn) heißt signifikant auf dem Niveauα, wenn das Signifikanzniveauα ist und die beobachteten Werte aus der Stichprobe zur Ablehnung vonH0 führen.

Man beachte: Die Beibehaltung der Nullhypothese bedeutet, daß die Testgrößeϑ(x1, . . . , xn) kei-nen Hinweis auf die Gültigkeit der AlternativhypotheseH1 liefert. Die Beibehaltung der HypotheseH0

bedeutet weder, daßH1 sicher falsch ist, noch daßH1 mit Wahrscheinlichkeit 1− α falsch ist.Beispiel: Einer normalverteilten Grundgesamtheit mit bekannter Varianzσ 2 wird eine Stichprobe vom

Umfangn entnommen. Es soll geprüft werden, ob der Mittelwertµ aus der Grundgesamtheit größer istalsµ0 .

H0 : µ ≥ µ0 gegenH1 : µ < µ0 (9.14)

Als Statistik für den Test wird der Stichprobenmittelwertx verwendet. Die Entscheidungsregel lautet: Istx < c, so wirdH1 angenommen, andernfalls wirdH0 beibehalten. Ist die GrundgesamtheitN(µa, σ 2)

verteilt, so istx ∼ N(µa, σ 2/n) verteilt. Daher ist:

G(µa) = P(x ≤ c|µ = µa) = P

(x − µa

σ/√

n≤ c − µa

σ/√

n

∣∣∣∣µ = µa

)= <

(c − µa

σ/√

n

)(9.15)

Für alleµa > µ0 gilt:

c − µa

σ/√

n≤ c − µ0

σ/√

nund somit<

(c − µ0

σ/√

n

)≥ <

(c − µa

σ/√

n

), (9.16)

Daraus folgt:

α = maxµa≥µ0

G(µa) = <

(c − µ0

σ/√

n

)(9.17)

Der Schwellenwertc wird zu einemvorgegebenemSignifikanzniveau ermittelt:

Wegenα = <(c − µ0

σ · √n)

ist c − µ0σ · √

n gleich demα-Quantilzα derN(0,1) Verteilung.

zα = c − µ0

σ· √

n !⇒ c = µ0 + σ√n

· zα = µ − σ√n

· z1−α (9.18)

Die Entscheidungsregel im Test fürH0 : µ ≥ µ0 gegenH1 : µ < µ0 zum Signifikanzniveauα lautet beinormalverteilter Grundgesamtheit: Gilt

x ≤ µ0 − σ√n

· z1−α, (9.19)

so wirdH0 abgelehnt, andernfalls wirdH0 beibehalten.

49

Page 55: Skriptum Statistik I und II

Bemerkung:

1. Sinnvoll wird ein statistischer Test nur dann verwendet, wenn das Ergebnis der vorliegenden Stich-probe der Null-Hypothese widerspricht. In diesem Fall ist zu prüfen, ob der Widerspruch nur zu-fällig ist oder ob er hinreicht, um die Null-Hypothese bei vorgegebener Irrtumswahrscheinlichkeitzu verwerfen.

2. Mit wachsendem Stichprobenumfang sinkt der Fehler zweiter Art, d.h. die Schärfe des Tests nimmtzu.

Auswahl der Hypothesen: Aufgrund von Bemerkung 1 sollte die für den Forscher zu überprüfende Hypo-these dieH1-Hypothese sein. Im Zweifelsfalle sind beide möglichen Hypothesen gegeneinander abzuwä-gen und diejenige alsH0-Hypothese zu wählen, die im Falle einer falschen Entscheidung den größerenSchaden anrichten würde (worst-case-Prinzip).

Beipiel: Es ist bekannt, daß eine bewährtes Medikament eine Krankheit in 90% aller Fälle zuverlässigbekämpft. Ein neues Medikament wird an 1000 Probanden getestet und schneidet mit einer Zuverlässigkeitvonp = 0.99 ab. Welcher Test sollte zu einem Signifikanzniveau vonα = 0.05 gewählt werden? Um einesolche Aufgabenstellung adäquat beurteilen zu können, sollte dieH0-HypotheseH0 : π ≤ 0.9 lauten, dain diesem Falle das neue Medikament schlechtere Resultate hervorbrächte als das alte. Derα-Fehler (dasneue Medikament wird als besser getestet, obwohl es in Wirklichkeit schlechter ist) kann so durch denForscher kontrolliert werden, während derβ-Fehler (das neue Medikament wird als schlechter getestet,obwohl es in Wirklichkeit besser ist) nicht kontrolliert werden kann.

Definition: Eine statistische Fragestellung heißteinseitig, wenn sie die Form:

1. H0 : ϑ ≤ ϑ0 , H1 : ϑ > ϑ0

2. H0 : ϑ ≥ ϑ0 , H1 : ϑ < ϑ0

besitzt. Eine statistische Fragestellung heißtzweiseitig, wenn sie folgende Form besitzt:H0 : ϑ = ϑ0 , H1 : ϑ �= ϑ0.

9.3 Signifikanztests für spezielle Fragestellungen

9.3.1 Test fürµ bei normalverteilter Grundgesamtheit und bekannter Varianz (Gaußtest)

H0 : µ ≤ µ0 , H1 : µ > µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · x − µ0

σ≥ z1−α (9.20)

Gütefunktion:G(a) = <

((a − µ0) ·

√n

σ− z1−α

)(9.21)

H0 : µ ≥ µ0 , H1 : µ < µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · x − µ0

σ≤ −z1−α (9.22)

Gütefunktion:G(a) = <

((µ0 − a) ·

√n

σ− z1−α

)(9.23)

H0 : µ = µ0 , H1 : µ �= µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · |x − µ0|

σ≥ z1− α

2(9.24)

Gütefunktion:G(a) = <

((µ0 − a) ·

√n

σ− z1− α

2

)+ <

((a − µ0) ·

√n

σ− z1− α

2

)(9.25)

50

Page 56: Skriptum Statistik I und II

9.3.2 Test fürµ bei normalverteilter Grundgesamtheit und unbekannter Varianz (t-Test)

H0 : µ ≤ µ0 , H1 : µ > µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · x − µ0

s≥ t1−α;n−1. (9.26)

Gütefunktion:G(a) = F

((a − µ0) ·

√n

s− t1−α;n−1

)(9.27)

Hier istF(x) die Verteilungsfunktion dert-Verteilung.

H0 : µ ≥ µ0 , H1 : µ < µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · x − µ0

s≤ −t1−α;n−1 (9.28)

Gütefunktion:G(a) = F

((µ0 − a) ·

√n

s− t1−α;n−1

)(9.29)

H0 : µ = µ0 , H1 : µ �= µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · |x − µ0|

s≥ t1− α

2 ;n−1. (9.30)

Gütefunktion:G(a) = F

((µ0 − a)

√n

s− t1− α

2 ;n−1

)+ F

((a − µ0)

√n

s− t1− α

2 ;n−1

)(9.31)

9.3.3 Test fürµ bei großen Stichproben

Gegeben sei eine Zufallsstichprobexi, i = 1, . . . , n einer Zufallsvariablen mit einer beliebigen Vertei-lung und unbekannter Varianzσ 2, so daß giltX ∼ N(µ, σ 2). Ist die Stichproben ≥ 30, lassen sichapproximative Signifikanztests wegen des zentralen Grenzwertsatzes analog zum Gaußtest durchführen:

H0 : µ ≤ µ0, H1 : µ > µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · x − µ0

s≥ z1−α (9.32)

Gütefunktion:G(a) = <

((a − µ0) ·

√n

s− z1−α

)(9.33)

H0 : µ ≥ µ0, H1 : µ < µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · x − µ0

s≤ −z1−α (9.34)

Gütefunktion:G(a) = <

((µ0 − a) ·

√n

s− z1−α

)(9.35)

H0 : µ = µ0, H1 : µ �= µ0. H0 wird zum Testniveauα verworfen, wenn gilt:

√n · |x − µ0|

s≥ z1−α/2 (9.36)

Gütefunktion:G(a) = <

((µ0 − a) ·

√n

s− z1− α

2

)+ <

((a − µ0) ·

√n

s− z1− α

2

)(9.37)

51

Page 57: Skriptum Statistik I und II

9.3.4 Tests für Mittelwertunterschiede bei unabhängigen Stichproben

Gegeben seien zwei voneinander unabhängig gezogene Stichprobenxi, i = 1, . . . , n1 der ZufallsvariablenX ∼ N(µ1, σ

21 ) und yj , j = 1, . . . , n2 der ZufallsvariablenY ∼ N(µ2, σ

22 ). Von Interesse ist die

HypotheseH0 : µ1 = µ2, d.h. die beiden Erwartungswerte sind gleich, gegenH1 : µ1 �= µ2 . Jenach Annahmen überσ 2

1 , σ22 und die Verteilungsfunktion vonX und Y erhält man unterschiedliche

Teststatistiken, die hier mitD bezeichnet werden.

1. X ∼ N(µ1, σ21 ), Y ∼ N(µ2, σ

22 ), σ

21 undσ 2

2 bekannt.

D = x − y√s2p

, s2p = σ 2

1

n1+ σ 2

2

n2(9.38)

Ist |D| ≥ z1−α/2, wird H0 mit Irrtumswahrscheinlichkeitα verworfen.

2. X ∼ N(µ1, σ21 ), Y ∼ N(µ2, σ

22 ), σ

21 = σ 2

2 aber unbekannt. Wir definieren zunächst die Hilfsgrößes2p (p für pooled), die ein Schätzer für die Varianz vonx − y ist.

s2p = (n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2· n1 + n2

n1 · n2(9.39)

D = x − y√s2p

(9.40)

Ist |D| ≥ t1−α/2;n1+n2−2 , wird H0 mit Irrtumswahrscheinlichkeitα verworfen.

3. X ∼ N(µ1, σ21 ), Y ∼ N(µ2, σ

22 ), σ

21 undσ 2

2 unbekannt,n1 ≥ 30, n2 ≥ 30.

D = x − y√s2p

, s2p = s2

1

n1+ s2

2

n2(9.41)

Ist |D| ≥ z1−α/2 , wird H0 mit Irrtumswahrscheinlichkeitα verworfen.

Beispiel: Gegeben seien zwei Medikamente, die beide den Blutdruck senken. Zu prüfen ist, ob diebeiden Medikamente gleichwertig sind, d.h. ob im Mittel der Unterschied 0 ist. Aus zwei unabhängigenklinischen Untersuchungen erhält man die Daten:

• Erste Medikament:n1 = 35, x = 147, s21 = 225

• Zweite Medikament:n2 = 42, y = 137, s22 = 256

Die Varianz der Grundgesamtheit ist unbekannt. DieH0 : µ1 = µ2 wird mit der Teststatistik

D = 147− 137√225/35+ 256/42

= 2.826≥ z1−0.025 = 1.96 (9.42)

überprüft und mit Irrtumswahrscheinlichkeitα = 0.05 zugunsten vonH1 : µ1 �= µ2 verworfen.

9.3.5 Test fürσ 2 bei normalverteilter Grundgesamtheit

Bei normalverteilter Grundgesamtheit ist:

(n − 1)s2

σ 2(9.43)

χ2-verteilt mitn − 1 Freiheitsgraden.

52

Page 58: Skriptum Statistik I und II

H0 : σ 2 ≤ σ 20 , H1 : σ 2 > σ 2

0 . H0 wird zum Testniveauα verworfen, wenn gilt:

(n − 1)s2

σ 20

≥ χ21−α;n−1 (9.44)

H0 : σ 2 ≥ σ 20 , H1 : σ 2 < σ 2

0 . H0 wird zum Testniveauα verworfen, wenn gilt:

(n − 1)s2

σ 20

≤ χ2α;n−1 (9.45)

H0 : σ 2 = σ 20 , H1 : σ 2 �= σ 2

0 . H0 wird zum Testniveauα verworfen, wenn gilt:

(n − 1)s2

σ 20

≤ χ2α2 ;n−1 oder

(n − 1)s2

σ 20

≥ χ21− α

2 ;n−1 (9.46)

Beispiel: Um die Streuung der Abfüllmengen der auf einer neuen Anlage gefüllten Flaschen zu über-prüfen, soll eine Stichprobe vom Umfangn = 24 gezogen werden. Zum Signifikanzniveauα = 0.01 sollgetestet werden, obσ 2 < 3 cm6 ist. H0 : σ 2 ≥ 3 , H1 : σ 2 < 3 .Die Entscheidungsregel lautet:H0 wird abgelehnt, wenn gilt:

23 · s2

3≤ χ2

0.01;23 (9.47)

In einer Stichprobe vom Umfang 24 erhält man für die Abfüllmenge die Statistiken:

x = 501cm3 , s2 = 1.7cm6 (9.48)

χ20.01;23 = 10.2 ,

23 · s2

3= 13.03 (9.49)

Wegen 13.03> χ20.01;23 = 10.2 kann H0: σ 2 ≥ 3 mit der Irrtumswahrscheinlichkeitα = 0.01 nicht

verworfen werden.

9.3.6 Test für eine unbekannte Wahrscheinlichkeit

Die relative Häufigkeitp eines Ereignisses mit Wahrscheinlichkeitπ ist eine Statistik fürπ .Fürnπ(1 − π) ≥ 10 gilt annähernd:

pn ∼ N

(π,

π(1 − π)

n

)(9.50)

H0 : π ≤ π0 , H1 : π > π0 . H0 wird zum Testniveauα verworfen, wenn gilt:

pn ≥ π0 + z1−α ·√

π0(1 − π0)

n(9.51)

H0 : π ≥ π0 , H1 : π < π0 . H0 wird zum Testniveauα verworfen, wenn gilt:

pn ≤ π0 − z1−α ·√

π0(1 − π0)

n(9.52)

H0 : π = π0 , H1 : π �= π0 . H0 wird zum Testniveauα verworfen, wenn gilt:

|pn − π0| ≥ z1− α2

·√

π0(1 − π0)

n(9.53)

Beispiel: Um zu erfahren, ob die ParteiA bei einer Wahl die 5% Hürde überspringt, werden 1490zufällig ausgewählte Personen nach ihrer Parteipräferenz gefragt. Es soll die Entscheidungsregel fürH0 : π ≤ 0.05 gegenH1 : π > 0.05 zum Niveauα ≥ 0.05 angegeben werden.π ist der Stimmanteil derParteiA bei der Wahl. Wegennπ0(1 − π0) = 1490· 0.05 · 0.95 = 70.8 ≥ 10 kann der oben angeführteTest angewandt werden.H0 ist zu verwerfen, wenn

pn ≥ 0.05+ z0.95 ·√

0.05 · 0.95

1490= 0.05+ 0.0093= 0.0593 (9.54)

Die Stichprobe ergab einen Prozentanteil fürA von 5.47. Die Hypothese, daßA unter der 5% Hürdebleibt, kann daher zum Signifikanzniveauα = 0.05 nicht verworfen werden.

53

Page 59: Skriptum Statistik I und II

9.3.7 χ2-Anpassungstest

Zu überprüfen ist, ob die diskrete unbekannte Verteilung einer Grundgesamtheit mit einer gegebenenhypothetischen Verteilung übereinstimmt.πi = P0(Ei) seien die Wahrscheinlichkeiten für die durch Zer-legung gebildeten EreignisseEi, i = 1, . . . , r unter der Nullhypothese. Sindhi die absoluten Häufigkeitender EreignisseEi in einer Stichprobe vom Umfangn, so wird die HypotheseH0, daß die Grundgesamtheitdie VerteilungP0 besitzt, mit der Irrtumswahrscheinlichkeitα abgelehnt, falls gilt:

χ2∗ =r∑

i=1

(hi − hei )

2

hei

≥ χ21−α;r−1 ; mit he

i = nπi, i = 1, . . . , r (9.55)

Voraussetzung: hei ≥ 5 für allei = 1, . . . , r .χ2∗ ist ein Maß für dieAbweichung der beobachteten Vertei-

lung von der hypothetischen Verteilung. Ein hoherχ2∗-Wert weist daher darauf hin, daß die Verteilungennicht übereinstimmen.

Beispiel: Eine Lebensversicherung hat folgende Häufigkeit von Versicherungsfällen im Monat festge-stellt:

i 0 1 2 3 ≥ 4 1

hi 45 70 48 21 16 200

Wir untersuchen zum Signifikanzniveauα = 0.05, ob die AnzahlX der Versicherungsfälle pro Monateine Poissonverteilung mitλ = 1.5 besitzt.

i 0 1 2 3 ≥ 4 1

πi 0.223 0.335 0.251 0.126 0.065 1he

i = nπi 44.6 67 50.2 25.2 13 200

Die Werte fürπi stammen aus der Tabelle der Poissonverteilung mitλ = 1.5. Die Testfunktion ist:

χ2∗ =∑

i

(hi − hei )

2

hei

= 0.0036+ 0.1343+ 0.0964+ 0.7 + 0.6923= 1.626 (9.56)

Für die Teststatistik gilt:χ2∗ < χ20.95;4 . Daher wirdH0: λ = 1.5 beibehalten.

54

Page 60: Skriptum Statistik I und II

10 Korrelation und Regression

10.1 Einfache Korrelation

Eine Hauptaufgabe jeder wissenschaftlichen Arbeit ist die Ermittlung von Zusammenhängen zwischenVariablen. Betrachtet man zunächst nur zwei metrische Merkmale, ist man an Richtung und Stärke desZusammenhangs interessiert. Zu einer derartigen Charakterisierung läßt sich - unter später behandeltenBeschränkungen - der Produktmomentkorrelationskoeffizient vonBravais-Pearson heranziehen. DerKorrelationskoeffizient in einer Grundgesamtheit wurde bereits behandelt. Im folgenden wird auf dieSchätzung dieses Koeffizienten aus einer Zufallsstichprobe eingegangen.

Beispiel zur Korrelation: Ein Verband von Handelsfirmen ermittelt von 10 der ihm angeschlossenenFirmen den jährlichen LagerumschlagX und den durchschnittlichen KalkulationsaufschlagY (in % desEinkaufspreises).

Firmen-Nr. 1 2 3 4 5 6 7 8 9 10 n = 10

X 8.5 7.8 7.5 6.2 6.5 6.0 5.6 4.6 4.0 3.3x = 6.0Y 18.0 20.0 20.0 25.0 29.0 31.0 33.0 37.0 43.0 44.0y = 30.0

An den Firmen (den Elementen der Stichprobe) werden zwei Messungen vorgenommen. Der Betrach-tung liegen also 10 Zahlenpaare{(xi, yi) : i = 1, . . . ,10} zugrunde. Diese Zahlenpaare lassen sich als 10stochastisch unabhängige Realisierungen der Zufallsvariablen(X, Y ) auffassen, für die eine gemeinsameVerteilungF(x, y) mit Erwartungswertenµx undµy , Varianzenσ 2

x undσ 2y , Kovarianzσxy und Korre-

lation ρxy angenommen wird. Zur Erinnerung werden noch einmal die Definitionen von Kovarianz undKorrelationskoeffizient angegeben:

σxy = E[(X − µx)(Y − µy)] (10.1)

ρxy = σxy√σ 2x σ

2y

(10.2)

Erwartungstreue und konsistente Schätzer fürσxy undρxy sind:

sxy = 1

n − 1

n∑i=1

(xi − x)(yi − y) = 1

n − 1

(n∑

i=1

xiyi − nxy

)(10.3)

rxy = sxy√s2xs

2y

(10.4)

Der Korrelationskoeffizient der Stichprobe wird anhand des folgenden Schemas berechnet:

Nr. x − x y − y (x − x)2 (x − x)(y − y) (y − y)2

1 2.5 -12.0 6.25 -30.0 1442 1.8 -10.0 3.24 -18.0 1003 1.5 -10.0 2.25 -15.0 1004 0.2 - 5.0 0.04 - 1.0 255 0.5 1.0 0.25 - 0.5 16 0.0 1.0 0.00 0.0 17 -0.4 3.0 0.16 -1.2 98 -1.4 7.0 1.96 -9.8 499 -2.0 13.0 4.00 -26.0 169

10 -2.7 14.0 7.29 -37.8 196∑0 0 25.44 -139.3 794

55

Page 61: Skriptum Statistik I und II

sxy = −15.444, s2x = 2.827, s2

y = 88.222, rxy = −139.3√25.44 · 794

= −0.980 (10.5)

Die Variablen Lagerumschlag und Kalkulationsaufschlag sind hoch negativ korreliert. Je öfter ein La-gerumschlag stattfindet, desto geringer ist der Kalkulationsaufschlag und umgekehrt. Man beachte, daßsich aus diesem Ergebnis keine Richtung eines kausalen Zusammenhanges ableiten läßt. Wichtig sind diefolgenden Eigenschaften des Korrelationskoeffizienten:

• − 1 ≤ r ≤ +1 , d.h.r ist normiert (10.6)

• Besteht zwischeny undx ein exakter linearer Zusammenhang(yi = a + bxi), so gilt:

r ={

1 wenn b > 0 (gleichsinnig)−1 wenn b < 0 (gegensinnig)

(10.7)

• Sind x und y voneinander statistisch unabhängig, so ist ihre Kovarianz 0 und damit auch derKorrelationskoeffizient. Da der Korrelationskoeffizient eine Maßzahl deslinearenZusammenhangsist, kann umgekehrt ausr = 0 nicht geschlossen werden, daßx undy statistisch unabhängig sind.

• Ein durch Korrelation nachgewiesener statistischer Zusammenhang zwischen Merkmalen wirdvielfach als ursächlicher Zusammenhang verstanden. Einfache Beispiele zeigen, daß dies nichtohne weiteres sinnvoll ist:

- zwischen der Anzahl besetzter Storchennester und der jährlichen Geburtenziffer hat man einepositive Korrelation festgestellt,

- zwischen der Anzahl der in England verkauften Radiogeräte und der Länge des Vornamensdes Präsidenten der USA wurde eine starke Korrelation festgestellt (Zeitraum: 1923 – 1942),

- zwischen der Anzahl der Fernsehgenehmigungen und der Anzahl von hospitalisierten Gei-steskranken hat man eine positive Korrelation festgestellt.

Bei der Deutung eines Korrelationskoeffizienten als Hinweis auf kausale Zusammenhänge muß manmindestens folgendeInterpretationsmodellein Betracht ziehen:

• Einseitige Steuerung:x wirkt auf y,d.h:x −→ y. Beispiel: Vererbung

• Wechselseitige Steuerung:x ←→ y. Beispiele: Kontakt fördert die Sympathie, Sympathie fördertden Kontakt; Löhne beeinflussen die Preise, Preise die Löhne.

• Drittseitige Steuerung:z −→ y undz −→ x. Beispiel: Bis zum 20. Lebensjahr nimmt sowohl dasKörpergewichtx als auch die Intelligenzy zu. In einer hinsichtlich des Lebensalters heterogenenStichprobe erscheinen die schwereren Individuen als die intelligenteren (Scheinkorrelation; mittelsdes partiellen Korrelationskoeffizienten versucht man, solche drittseitige Steuerungen aufzuklären).Die oben angeführten Beispiele sind typische Fälle von Scheinkorrelation.

• Komplexe Steuerung:y hängt vonp Variablen(x1, . . . , xp) ab. Abhängigkeiten dieser Art versuchtman durch die multiple Korrelation zu erfassen.

Unter der Annahme einer bivariaten Normalverteilung für(X, Y ) lassen sich verschiedene Tests für denKorrelationskoeffizienten der Grundgesamtheit konstruieren.

• Test der speziellen HypothesenH0 : ρ ≤ 0, H0 : ρ ≥ 0, und H0 : ρ = 0. Ist die jeweiligeEntscheidungsregel erfüllt, wirdH0 zum Testniveauα abgelehnt.

H0 : ρ ≤ 0 gegenH1 : ρ > 0 , Entscheidungsregel:r√

n − 2√1 − r2

≥ t1−α;n−2 (10.8)

H0 : ρ ≥ 0 gegenH1 : ρ < 0 , Entscheidungsregel:r√

n − 2√1 − r2

≤ −t1−α;n−2 (10.9)

H0 : ρ = 0 gegenH1 : ρ �= 0 , Entscheidungsregel:|r|√n − 2√

1 − r2≥ t1−α/2;n−2 (10.10)

56

Page 62: Skriptum Statistik I und II

• Test der allgemeinen HypothesenH0 : ρ ≤ ρ0, H0 : ρ ≥ ρ0 undH0 : ρ = ρ0.Entwickle die Hilfsgrößen:

z = 1

2ln

(1 + r

1 − r

), z0 =

[1

2ln

(1 + ρ0

1 − ρ0

)]+ ρ0

2(n − 1)(10.11)

H0 wird zum Testniveauα abgelehnt, wenn die jeweilige Entscheidungsregel zutrifft.

H0 : ρ ≤ ρ0 gegenH1 : ρ > ρ0 , Entscheidungsregel:(z − z0)√

n − 3 ≥ z1−α (10.12)

H0 : ρ ≥ ρ0 gegenH1 : ρ < ρ0 , Entscheidungsregel:(z − z0)√

n − 3 ≤ zα (10.13)

H0 : ρ = ρ0 gegenH1 : ρ �= ρ0 , Entscheidungsregel:|z − z0|√n − 3 ≥ z1−α/2 (10.14)

Beispiel: In einer Untersuchung an 67 Schülern wurde zwischen Intelligenzquotient und Mathematik-noten eine Korrelation von 0.38 festgestellt. Aus einer früheren Totalerhebung ist bekannt, daß der Korre-lationskoeffizientρ0 der Grundgesamtheit den Wert 0.45 besitzt. Es ist zu überprüfen, ob der Korrelations-koeffizient der vorliegenden Stichprobe mit der HypotheseH0 : ρ = 0.45 in Einklang steht(α = 0.05).Die Gegenhypothese istH1 : ρ �= 0.45. Die Hilfsgrößen sind:

z0 = 1

2ln

1.45

0.55+ 0.45

132= 0.4881, z = 1

2ln

1.38

0.62= 0.4, zG = |z − z0|√n − 3 = 0.0881· 8 = 0.7048

Da z1−α/2 = 1.96, wirdH0 beibehalten.

10.2 Klassisches Regressionsmodell

Bei zahlreichen ökonomischen Fragestellungen untersuchen wir die Abhängigkeit einer VariablenY vonKontroll- oder EinflußvariablenX1, X2 . . . Xp. Ein klassisches, aber irreführendes Beispiel aus der Ma-kroökonomie ist der vermutete Zusammenhang zwischen KonsumCi und VolkseinkommenYi , der ineiner vereinfachten Form durch die lineare BeziehungCi = a + bYi + ei, i = 1, . . . n mit i als Indexder Beobachtungsperiode dargestellt wird. Allgemein beschreiben wir einen derartigen Zusammenhangdurch:

yi = f (xi1, xi2, . . . xip) + ei, i = 1, . . . , n (10.15)

ei bezeichnet die Abweichung oder Fehler zwischem dem Funktionswertf (xi1, . . . , xip) und der Re-alisationyi der abhängigen VariablenY , die als Zufallsvariable interpretiert wird. Die parametrischeForm der Regressionsfunktion wird durch ökonomische Überlegungen a priori festgelegt. Die Parametersind dann direkt mit Hilfe der ökonomischen Theorie interpretierbar. Die Regressionsfunktion entsprichteiner ex-ante-Gleichung der volkswirtschaftlichen Theorie, während die Koeffizienten (Parameter) derRegressionsfunktion ex-post aus Daten geschätzt werden. Beispiele sind:

• Einfache lineare Funktion (eindimensionale Regression):

f (xi) = b0 + b1xi (10.16)

• Allgemeine lineare Funktion (mehrdimensionale Regression):

f (xi1 . . . xip) = b0 + b1xi1 + . . . bpxip (10.17)

• EinfacheCobb-Douglas-Produktionsfunktion, wobeiAi das Arbeitsvolumen,Ki den Kapitalein-satz undα die Substitutionselastizität bedeutet. DieCobb–Douglas Funktion ist eine homogeneFunktion erster Ordnung mit konstanten Substitutionselastizitäten.

f (Ai,Ki) = Aαi K

1−αi , 0 ≤ α ≤ 1. (10.18)

57

Page 63: Skriptum Statistik I und II

• VerallgemeinerteCobb–Douglas Produktionsfunktion. Die einfacheCobb-Douglas-Produktions-funktion wird einerseits durch die Einführung eines Koeffizientenγ für nicht durch Arbeit undKapital erfaßte Faktoren (z.B. Rationalisierungsgrad der Volkswirtschaft), andererseits durch dieAufgabe der Annahme der Homogenität ersten Grades erweitert (α + β �= 1 ist zulässig).

f (Ai,Ki) = γ · Aαi K

βi (10.19)

• Rückführung der verallgemeinertenCobb–Douglas Funktion auf ein lineares Modell:

ln f (Ai,Ki) = ln γ + α ln Ai + β ln Ki (10.20)

Am letzten Beispiel erkennt man, daß sich nichtlineare Funktionen zum Teil durch Transformationen inlineare Funktionen überführen lassen. Ist dies nicht möglich, lassen sich die Parameterschätzer von nichtli-nearen Modellen häufig durch wiederholte Anwendung transformierter linearer Regressionen berechnen.Dies erfordert Existenz und Stetigkeit der beiden ersten Ableitungen der nichtlinearen Regressionsfunk-tion bezüglich aller Parameter.

10.2.1 Einfache lineare Funktion

Im Unterschied zur einfachen Korrelation, die lediglich die Stärke des linearen Zusammenhangs zwischenzwei VariablenX undY untersucht, geht es bei der einfachen Regression um die quantitative, kausaleBestimmung des linearen Zusammenhangs. Dazu wird eine Regressionsfunktion der folgenden Formaufgestellt:

yi = b0 + b1xi + ei (10.21)

DieVariableY wird durch eine Linearkombination derVariablenX beschrieben. Diese Regressionsgeradewird so bestimmt, daß die Summe der Abweichungsquadrate (Q) minimal ist.

X

Y

b

b

b

b

= beobachteteY -Werte(xi, yi)

⊗ = geschätzteY -Werte(xi, yi)

yi = b0 + b1xi

q1

q2 q3

q4

Unter Abweichung ist die Differenz zwischen den tatsächlichen Werten fürY (yi) und den aufgrund derGeradenbildung erwarteten Werten(yi) zu verstehen. Es gilt:

Q =n∑

i=1

(yi − yi)2 (10.22)

58

Page 64: Skriptum Statistik I und II

Die Lage der Regressionsgeraden und damitQwird durch die Regressionkoeffizientenb0 undb1 eindeutigbestimmt. Die Summe der Abweichungsquadrate ist somit eine Funktion der Koeffizientenb0 undb1.

Q(b0, b1) =n∑

i=1

(yi − yi)2

=n∑

i=1

(yi − (b0 + b1xi))2

=n∑

i=1

(yi − b0 − b1xi)2

Zur Minimierung der FunktionQ(b0, b1) ist es erforderlich, nachb0 undb1 abzuleiten.Es gilt:

∂Q(b0, b1)

∂b0=

n∑i=1

2(yi − b0 − b1xi)(−1)

= 2n∑

i=1

(−yi + b0 + b1xi)

∂Q(b0, b1)

∂b1=

n∑i=1

2(yi − b0 − b1xi)(−xi)

= 2n∑

i=1

(−xiyi + b0xi + b1x2i )

Die Ableitungen müssen nun gleich Null gesetzt werden und nach den Regressionskoeffizientenb0 undb1 aufgelöst werden.

0 =n∑

i=1

(−yi + b0 + b1xi)

n∑i=1

yi =n∑

i=1

b0 + b1

n∑i=1

xi Erste Normalgleichung

n∑i=1

yi = nb0 + b1

n∑i=1

xi (10.23)

1

n

n∑i=1

yi = b0 + b11

n

n∑i=1

xi

y = b0 + b1x

b0 = y − b1x

0 =n∑

i=1

(−xiyi + b0xi + b1x2i )

n∑i=1

xiyi = b0

n∑i=1

xi + b1

n∑i=1

x2i Zweite Normalgleichung

n∑i=1

xiyi = (y − b1x)︸ ︷︷ ︸b0

n∑i=1

xi + b1

n∑i=1

x2i

n∑i=1

xiyi = y

n∑i=1

xi︸ ︷︷ ︸nx

−b1x

n∑i=1

xi︸ ︷︷ ︸nx

+b1

n∑i=1

x2i (10.24)

59

Page 65: Skriptum Statistik I und II

n∑i=1

xiyi = ynx − b1nx2 + b1

n∑i=1

x2i

n∑i=1

xiyi − nxy = b1

(n∑

i=1

x2i − nx2

)

1

n

(n∑

i=1

xiyi − nxy

)︸ ︷︷ ︸

σxy

= b11

n

(n∑

i=1

x2i − nx2

)︸ ︷︷ ︸

σ2x

b1 = σxy

σ 2x

(10.25)

Da die Varianzσ 2x und die Kovarianzσxy durch s2

x und sxy geschätzt werden müssen, erhält man alsSchätzer für die Regressionkoeffizienten demnach:

b0 = y − b1x und b1 = sxy

s2x

. (10.26)

10.2.2 Allgemeine lineare Funktion (mehrdimensionale Regression)

Werden zur Beschreibung vonY mehrere VariablenX1 · · · Xp eingesetzt, hat die Regressionsfunktionfolgende Form:

yi = b0 + b1xi1 + . . . bpxip + ei (10.27)

StatistischeAufgabe ist die Schätzung vonb0, b1, . . . bp und derVarianzσ 2 des Fehlersei , die Überprüfungauf signifikanteAbweichungen von vorgegebenen Hypothesen über diese Parameter sowie die Beurteilungder Güte der Schätzung. Als Schätzverfahren verwenden wir den Kleinste-Quadrate-Schätzer und dasMaximum-Likelihood-Schätzprinzip. Zur Vereinfachung der Notation stellen wir das Modell füri =1, . . . , n in Matrixform dar:

y = Xb + e (10.28)

wobeiy unde (n × 1)-Vektoren,b ein ((p + 1) × 1)-Vektor undX eine(n × (p + 1))-Matrix ist. Imeinzelnen gilt:

yT = (y1, . . . , yn) (10.29)

eT = (e1, . . . , en) (10.30)

bT = (b0, b1, . . . , bp) (10.31)

X =

1 x11 . . . x1p

1 x21 . . . x2p...

.... . .

...

1 xn1 . . . xnp

(10.32)

Die Matrix X wird als Datenmatrix der unabhängigen oder exogenen Variablen bezeichnet. Zum Lösender statistischen Aufgaben treffen wir zunächst folgende Annahmen (Klassisches Regressionsmodell):

1. X ist exogen undX ist nicht stochastisch.

2. Rang(X) = p + 1 für allen ∈ N mit n ≥ p + 1, d.h.X hat vollen Spaltenrang.

3. Q := limn→∞

1

nXTX existiert und ist regulär.

4. E(e) = 0

60

Page 66: Skriptum Statistik I und II

5. V(e) = E(eeT ) = σ 2In mit σ 2 > 0, wobeiIn die (n × n) Einheitsmatrix ist.

6. e ∼ N(0, σ 2In)

Die explizite Verteilungsannahme 6 ist nur in Verbindung mit dem ML-Prinzip bzw. mit der Konstruktionexakter Tests und Konfidenzintervalle notwendig, während Annahme 3 die Grundlage für die Konsistenzder Schätzverfahren liefert. Zur Ableitung des Kleinsten-Quadrate-Schätzers genügt die Annahme 2. DerKleinste-Quadrate-Schätzer der Parameterb ist erwartungstreu, wenn Annahme 4. zusätzlich erfüllt ist.Wir leiten zunächst denKQ-Schätzer ab. Um alle vorhin angeführten Aufgaben lösen zu können, werdenalle Annahmen 1. bis 5. angenommen. Grundlage derKQ-Schätzung ist die Minimierung der Funktion:

M(b) =n∑

i=1

(yi − (b0 + b1xi1 + . . . bpxip))2 −→ min

b∈Rp+1(10.33)

In Matrixschreibweise gilt:

M(b) = (y − Xb)T (y − Xb) = eTe −→ minb∈Rp+1

(10.34)

Notwendige Bedingung für ein Minimum vonM(b) an der Stelleb ist, daß derVektor der ersten partiellenAbleitungen nachb gleich 0 ist:

∂M(b)

∂b

∣∣∣∣b=b

= 0 (10.35)

Die einzelnen ersten Ableitungen vonM(b) nachbj werden 0 gesetzt:

∂M(b)

∂bj

∣∣∣∣b=b

= 2n∑

i=1

(yi − (b0 + b1xi1 . . . + bpxip)(−xij )) = 0 (10.36)

Umformungen liefern diep + 1 NormalgleichungenNGj, j = 0, . . . , p:

n∑i=1

yixij = b0

n∑i=1

xij + b1

n∑i=1

xijxi1 . . . + bp

n∑i=1

xijxip (10.37)

In kompakter Matrixschreibweise lautet diese Gleichung:

XTy = (XTX)b (10.38)

Aus Annahme 2. folgt die Invertierbarkeit vonXTX und somit:

b = (XTX)−1XTy (10.39)

b heißt Kleinster-Quadrate-Schätzer fürb. Aus b lassen sich folgende Größen berechnen:

y = Xb (lineare Prädiktoren = geschätzte Werte) (10.40)

e = y − y (Residuen = geschätzte Fehler) (10.41)

Als erwartungstreuer Varianzschätzers2KQ für σ 2 wird in Verbindung mit demKQ-Schätzer derAusdruck:

s2KQ = 1

n − (p + 1)·

n∑i=1

e2i = 1

n − (p + 1)eTe (10.42)

berechnet.Beispiel zur Regression: Abhängigkeit der Importmengen von Bruttsozialprodukt und Preisentwick-

lung in England.yi = Mengenindex der Importe nach England zu konstanten Preisen des Jahres 1948.xi1 = Bruttonationalprodukt zu konstanten Preisen von 1948.xi2 = Quotient des Preisindexes für Importeund des allgemeinen Preisindexes:yi = b0 + b1xi1 + b2xi2 + ei .

61

Page 67: Skriptum Statistik I und II

Jahr yi xi1 xi2 yi ei

1948 100 100 100 98.47 1.531949 106 104 99 103.81 2.191950 107 106 110 107.79 -0.791951 120 111 126 116.44 3.561952 110 111 113 114.96 -4.961953 116 115 103 119.28 -3.281954 123 120 102 125.98 -2.981955 133 124 103 131.55 1.451956 137 126 98 133.71 3.29

Gesucht sindb0, b1 und b2 sowie ein Schätzwert für die Varianz des Fehlers. Die Matrix der exogenenVariablen ist nun gegeben durch:

X =

1 100 1001 104 991 106 1101 111 1261 111 1131 115 1031 120 1021 124 1031 126 98

(10.43)

Die inverse Matrix, die zur Auflösung der Normalgleichungen benötigt wird, ist dann:

(XTX)−1 = 44.79609 −0.20823 −0.19957

−0.20823 0.00159 0.00027−0.19957 0.00027 0.00159

(10.44)

Der Vektor der Schätzerb = (XTX)−1XTy ist: b0

b1

b2

=

−49.341

1.3640.114

(10.45)

Die prognostizierten Werte füryi sind nun:

yi = −49.329+ 1.364xi1 + 0.114xi2 (10.46)

Die Eigenschaften desKQ-Schätzers lassen sich bei Gültigkeit der obigen Annahmen (vgl. Seite60)durch folgendenSatzzusammenfassen:

1. Erwartungstreue vonb:

E(b) = b (10.47)

2. Erwartungstreue vons2KQ:

E(s2KQ) = σ 2 (10.48)

3. Varianz-Kovarianzmatrix vonb:

V (b) = E(b − b)(b − b)T = σ 2(XTX)−1 = σ 2(cjk)j,k=0,...,p (10.49)

Dabei istcjk dasj, k-te Element vonC = (XTX)−1.

62

Page 68: Skriptum Statistik I und II

4. Konsistenz vonb:

Für alleε > 0 gilt: limn→∞ P(|bj − bj | ≤ ε) = 1 (10.50)

5. Konsistenz vons2KQ:

Für alleε > 0 gilt: limn→∞ P(|s2

KQ − σ 2| ≤ ε) = 1 (10.51)

6. Asymptotische Normalverteilung:

(bj − bj )√s2KQcjj

ist asymptotischN(0,1) verteilt. (10.52)

7. Theorem vonGauß-Markov: Innerhalb der Klasse der erwartungstreuen und inY linearen Schät-zer ist derKQS effizient, d.h. er besitzt unter den Schätzern, die sich in der Formb = Ly + d

darstellen lassen, die kleinstmögliche Varianz:

var(bj ) ≤ var(bj ) für alle bj mit E(bj ) = bj (10.53)

Exemplarisch beweisen wir die Punkte 1, 3 und 4.

Beweis zu 1: DaX nicht stochastisch ist, gilt:

E(b) = E[(XTX)−1XTy

]= E

[(XTX)−1XT(Xb + e)

]= E

[(XTX)−1(XTX)b + (XTX)−1XTe

]= b + (XTX)−1XTE(e)

= b

(10.54)

Beweis zu 3:

E(b − b)(b − b)T = E(XTX)−1XTeeT X(XTX)−1

= (XTX)−1XTE(eeT )X(XTX)−1

= (XTX)−1XTσ 2InX(XTX)−1

= σ 2(XTX)−1

(10.55)

Beweis zu 4:

E(bj − bj )2 = σ 2cjj (10.56)

Die Ungleichung vonTschebyscheff liefert:

P(|bj − bj | > ε) ≤ σ 2cjj

ε2 (10.57)

Wegen Annahme 3 (vgl. Seite60) ist limn→∞(

1

nXTX)−1 endlich. Daraus folgt:

limn→∞ V (b) = lim

n→∞σ 2

n︸︷︷︸→0

·(

1

n(XTX)

)−1

︸ ︷︷ ︸<∞

= 0 (10.58)

Dies impliziert die obige Behauptung.

Zur Bestimmung der Güte der Regression, d.h. wie gut die beobachteten Werte vony durch dasModell angepaßt werden, benötigt man ein auf[0,1] normiertes Maß. Geeignet hierfür ist der quadrierte

63

Page 69: Skriptum Statistik I und II

KorrelationskoeffizientR2yy

zwischen den beobachteten Wertenyi und den aus der Regression geschätztenWertenyi = xT

i b . Es kann gezeigt werden, daßR2yy

= R2y·x1...xp

(wennxi0 = 1) identisch ist mit dernormierten QuadratsummeSSR/SST , die wir aus der folgenden Streuungszerlegung mit der Notation:

SST =n∑

i=1

(yi − y)2 (Gesamtquadratsumme, sum of squares total), (10.59)

SSE =n∑

i=1

(yi − yi)2 (Fehlerquadratsumme, sum of squares of error), (10.60)

SSR =n∑

i=1

(yi − y)2 (erklärte Quadratsumme, sum of squares of regression), (10.61)

erhalten. Es gilt also:

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2 und damitSST = SSE + SSR (10.62)

Die Berechnung vonR2 kann daher alternativ durch:

R2 = SSR

SST= 1 − SSE

SST= 1 − eTe

SST(10.63)

erfolgen. Der Beweis der Streuungszerlegung erfolgt in zwei Schritten. Zunächst zeigt man, daßeTX = 0ist, d.h. Residuen und Regressoren sind orthogonal.

eTX = (y − Xb)TX = yTX − yTX(XTX)−1XTX = 0 (10.64)

Aus eTX = 0 undxi0 = 1 folgt die Behauptung:

n∑i=1

ei = 0 (10.65)

Im zweiten Schritt wird die Gesamtquadratsumme erweitert und das Ergebnis des ersten Schritts verwen-det:

n∑i=1

(yi − y)2 =n∑

i=1

((yi − yi) + (yi − y))2

=n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2 + 2n∑

i=1

(yi − yi)(yi − y)

Zu zeigen ist, daß der letzte Summand gleich 0 ist.

n∑i=1

(yi − yi)(yi − y) =n∑

i=1

ei(yi − y) =n∑

i=1

ei yi − y

n∑i=1

ei (10.66)

Wiederum ist zu zeigen, daß der erste Summand gleich 0 ist.

n∑i=1

ei yi =n∑

i=1

ei

p∑

j=0

xijbj

=

p∑j=0

bj

(n∑

i=1

eixij

)=

p∑j=0

bj

(eTXj

) = 0 (10.67)

Zur Konstruktion von Konfidenzintervallen und Tests benötigen wir (bei kleinen Stichproben) die An-nahme der Normalverteilung der Fehler (Annahme 6.). Aus dieser Annahme folgt:

• bj ∼ N(bj , σ2cjj ), j = 0, . . . p

• Wird σ 2 durchs2KQ ersetzt, gilt(bj − bj )/

√s2KQ · cjj ∼ t1− α

2 ;n−(p+1)

64

Page 70: Skriptum Statistik I und II

Daher erhalten wir für den ersten Fall (σ 2 bekannt) das zweiseitige Konfidenzintervall:

P

(bj − z1− α

2

√σ 2 · cjj ≤ bj ≤ bj + z1− α

2

√σ 2 · cjj

)= 1 − α (10.68)

Für den zweiten Fall (σ 2 durchs2KQ geschätzt) lautet das Konfidenzintervall:

P

(bj − t1− α

2 ;n−(p+1)

√s2KQ · cjj ≤ bj ≤ bj + t1− α

2 ;n−(p+1)

√s2KQ · cjj

)= 1 − α (10.69)

Die Konstruktion von einseitigen Konfidenzintervallen und allgemeinen Teststatistiken erfolgt in gleicherWeise wie beim Mittelwertx. Exemplarisch konstruieren wir einen einseitigen Signifikanztest für eineneinzelnen Koeffizientenbj :

H0 : bj ≤ bj0 gegenH1 : bj > bj0.H0 wird zum Testniveauα abgelehnt, wenn für die TeststatistiktG gilt:

tG = bj − bj0√s2KQ · cjj

> t1−α; n−(p+1) (10.70)

H0 : bj ≥ bj0 gegenH1 : bj < bj0.H0 wird zum Testniveauα abgelehnt, wenn für die TeststatistiktG gilt:

tG = bj − bj0√s2KQ · cjj

< −t1−α; n−(p+1) (10.71)

H0 : bj = bj0 gegenH1 : bj �= bj0.H0 wird zum Testniveauα abgelehnt, wenn für die TeststatistiktG gilt:

tG = |bj − bj0|√s2KQ · cjj

> t1− α2 ; n−(p+1) (10.72)

Da ein mehrdimensionales Modell vorliegt, ist es von Interesse, Hypothesen über Submodelle, definiertdurch Teilmengen von{b0 . . . bp} zu testen. Ohne Beschränkung der Allgemeinheit seienbk+1, . . . bp diezu testenden Parameter mitH0 : bk+1 = bk+2 = . . . = bp = 0 gegenH1 : bi �= 0 mindestens für eini ∈ {k + 1, . . . p}.

Zur Berechnung der Teststatistik benutzen wir als Hilfsgrößen die Größenb, X, e, SST , SSE desursprünglichen Modells, dasb0, . . . bp enthält. Die Größenb(1), X(1), e(1), SSR(1), SSE(1) sind analogden obigen Bezeichnungen definiert, aber sie enthalten nur die unabhängigen Variablenx0, x1, . . . xk. DerSuperindex(1) bezeichnet das entsprechende Submodell mit Parameternb0, . . . bk. Unter Gültigkeit vonH0 sind folgende Größenχ2 verteilt (Beweis in der mathematischen Statistik):

SSE

σ 2∼ χ2

n−(p+1) (10.73)

SSE(1)

σ 2∼ χ2

n−(k+1) (10.74)

(SSE(1) − SSE)

σ 2∼ χ2

p−k (10.75)

Es läßt sich zeigen, daß der erste und der dritte Term stochastisch unabhängig sind, so daß aus der Theorieder mathematischen Statistik folgt, daß die Teststatistik:

FG = (SSE(1) − SSE)/(p − k)

SSE/(n − (p + 1))∼ F(p − k, n − (p + 1)) (10.76)

unterH0 einerF -Verteilung mit(p − k, n − (p + 1)) Freiheitsgraden folgt. Daraus läßt sich folgenderzweiseitiger Test fürH0 : bk+1 = . . . = bp = 0 konstruieren.H0 wird abgelehnt zum Niveauα, wennFG > F(1− α; p − k, n − (p + 1)). DieF -Werte sind den Tafelwerten derF -Verteilung zu entnehmen.Ein wichtiger Spezialfall ist der Test auf Signifikanz aller Regressorenx1, . . . , xp . Einsetzen in die obigeFormel mitR2

yyals multiplem Bestimmtheitsmaß liefert die Teststatistik:

FG = R2(n − (p + 1))

(1 − R2)p∼ F(p, n − (p + 1)) , (10.77)

65

Page 71: Skriptum Statistik I und II

die unter derH0 : b1 = b2 = . . . bp = 0 HypotheseF verteilt ist.Beispiel: Für die Daten des letzten Beispiels lassen sich jetzt sofort Konfidenzintervalle für die Re-

gressionskoeffizientenbj berechnen. Als Sicherheitswahrscheinlichkeit wird 1−α = 0.95 angenommen.

b1 = b1 + t1− α2 ;n−(p+1) · sKQ · √

c11

= 1.364+ 2.447· √12.93 · √

0.001586 (10.78)

= 1.7146

b1 = b1 − t1− α2 ;n−(p+1) · sKQ · √

c11

= 1.364− 2.447· √12.93 · √

0.001586 (10.79)

= 1.0138

b2 = b2 + t1− α2 ;n−(p+1) · sKQ · √

c22

= 0.114+ 2.447· √12.93 · √

0.001591 (10.80)

= 0.4648

b2 = b2 − t1− α2 ;n−(p+1) · sKQ · √

c22

= 0.114− 2.447· √12.93 · √

0.001591 (10.81)

= −0.2370

Die Annahme 6. (Normalverteilung) ist für die Konstruktion von Konfidenzintervallen und statistischenTests nicht erforderlich, wenn eine große Stichprobe vorliegt. Dert-Test wird dann durch denz-Testersetzt.

Beispiel: Test auf Gleichheit von Regressionskoeffizienten. Die Nullhypothese lautetH0 : bj = bk

gegenH1 : bj �= bk. Als Teststatistik verwendet man die standardisierte Differenz:

DG = bj − bk√s2D

(10.82)

Die Statistiks2D ist ein konsistenter Schätzer der Varianzσ 2

D der Differenzbj − bk:

s2D = V (bj ) + V (bk) − 2Cov(bj , bk) = s2

KQ(cjj + ckk − 2cjk) (10.83)

Cov(bj , bk) ist die geschätzte Kovarianz der Schätzerbj undbk . Die HypotheseH0 wird zum Testniveauα verworfen, wenn die Teststatistik|DG| ≥ z1− α

2ist.

Bei Vorliegen einer kleinen Stichprobe (n − (p + 1) < 30) und unbekannter Fehlervarianzσ 2 wirddie HypotheseH0 zum Testniveauα verworfen, wenn die Teststatistik|DG| ≥ t1− α

2 ;n−(p+1) ist.

10.3 Einfache Zeitreihenanalyse

In einigen Untersuchungen sind nicht nur die Daten, sondern auch deren zeitliche Abfolge wichtig.Dies ist zum Beipiel notwendig, um Prozesse zu analysieren, und/oder um zukünftige Entwicklungenzu prognostizieren. Beispielsweise sind Regierungen daran interessiert, die Bevölkerungsentwicklungabzuschätzen, oder Banken sind daran interessiert, Aktienkurse zu prognostizieren. Ein weiteres Beispielist die Absatzprognose eines Händlers, um den Lagerbestand rechtzeitig aufstocken zu können.

Ein Datensatz heißtZeitreihe, wenn er Informationen über die Zeit, in der die Daten angefallen sindenthält. Es kann sich dabei sowohl um Zeitpunkte, als auch um Zeitperioden (z.B. Monat, Jahr) handeln.Diese Information kann auf unterschiedliche Art kodiert sein:

• Explizite Zeitinformation: Die Zeitpunkte, bzw. Zeitperioden sind im Datensatz enthalten.

Beispiel: Abverkaufszahlen eines Unternehmens für ein bestimmtes Produkt.

66

Page 72: Skriptum Statistik I und II

i 1 2 3 · · ·Monat 10/1996 09/1996 11/1996· · ·Abverkauf (in Stück) 17 25 20 · · ·

• Implizite Zeitinformation: Die Daten liegen in chronologischer Reihenfolge mit gleichen zeitlichenAbständen vor. Die Positioni innerhalb des Datensatzes reicht dann als Zeitinformation aus.

Beispiel: Die Abverkaufszahlen aus dem ersten Beispiel lassen sich auch in dieser Form darstellen,da alle zeitlichen Abstände gleich groß sind und keine Lücken enthalten:

i 1 2 3 · · ·Abverkauf (in Stück) 25 17 20 · · ·

Zur Zeitreihenanalyse verwendet man oft Regressionsmodelle der Form:

yt = g(t, yt−1, yt−2, . . . , ϑ) + et (10.84)

wobeit die Zeit,yt−1 den um eine Zeiteinheit verzögertenWert undϑ den zu schätzenden Parametervektorbezeichnet. Sehr oft kommen auch andereVerfahren zum Einsatz (z.B.: Exponentielle Glättung,Verfahrender bayesianischen Statistik, etc.), deren Darstellung jedoch den Rahmen dieses Skriptums sprengenwürden. Hier wird die Zeitreihenanalyse exemplarisch mit Hilfe derTrendanalyseeingeführt. AndereVerfahren wie gleitende Mittelwerte oder autoregressive Prozesse werden hier nicht behandelt.

10.3.1 Linearer Trend

Man betrachte eine Zeitreihey1, y2, . . . , yT . Das einfachste trendanalytische Modell ist:

yt = b0 + b1 · t + et , t = 1, . . . , T (10.85)

Wie unschwer zu erkennen ist, ist dieses Model äquivalent zu einem klassischen Regressionsmodell, beidem die erklärende Variable die Zeitt ist, daher erfolgt die Berechnung analog. Dieses Modell ist inter-essant, weil es die Möglichkeit bietet, zusätzliche Regressoren einzuführen. Weiß man zum Beispiel, daßdurch die Urlaubszeit im August die Abverkaufszahlen deutlich niedriger sind als in den übrigen Mona-ten, könnte man eine DummyvariableAUG einführen, die dann den Wert 1 annimmt, wenn der aktuelleZeitpunkt der August ist, und ansonsten 0 ist. Damit kann die Anpassungsgüte des Modells verbessertwerden. Solche Effekte, die wie in diesem Beispiel periodisch wiederkehren, nennt mansaisonale Effekte.Die Regressionsfunktion wirdTrendfunktiongenannt und ist für das einfache Modell gegeben durch:

yt = b0 + b1 · t (10.86)

Die Prognose für den ZeitpunktT + k erhält man durch Einsetzen der Zeit:

yT +k = b0 + b1 · (T + k) (10.87)

10.3.2 Nichtlinearer Trend

In den meisten Fällen reicht dieVerwendung eines linearen Modells nicht aus, da die meisten dynamischenProzesse nichtlinear sind. Beispielsweise werden Analysen von ungebremsten Wachstumsprozessen inbiologischen Populationen meist mit Hilfe exponentieller Modelle durchgeführt. Im Folgenden werdenexemplarisch einige nichtlineare Trendmodelle vorgestellt.

• Exponentialfunktion:

yt = exp(b0 + b1 · t + et ), t = 1, . . . , T , t > 0 (10.88)

Diese Gleichung kann durch Logarithmieren in die lineare Form lny = b0 + b1 · t transformiertwerden, wodurch die Berechnung der Parameter vereinfacht wird.

67

Page 73: Skriptum Statistik I und II

• Zeitinverse Exponentialfunktion:

yt = exp(b0 − b1

t+ et ), t = 1, . . . , T , b > 0, t > 0 (10.89)

Die Trendfunktion hat einen S-förmigen Verlauf, und kann ebenfalls durch eine Logarithmierungin eine lineare Funktion überführt werden.

• Logistische Funktion:

yt = s

1 + exp(b0 − b1 · t + et ), t = 1, . . . , T , b > 0, s > 0, (10.90)

wobeis alsSättigungsniveaubezeichnet wird und ebenfalls geschätzt werden muß. Die Trendfunk-tion ist ebenfalls S-förmig, läßt sich jedoch nicht in eine lineare Form transformieren. Daher erfolgtdie Schätzung mit Hilfe numerischer Verfahren der nichtlinearen Regression.

10.4 Verallgemeinerungen des klassischen Regressionsmodells

Eine zentrale Annahme im klassischen Regressionsmodell ist die Annahme 5.:E(eeT ) = σ 2I . DieseAnnahme impliziert, daß die Varianzen aller Fehlerkomponenten identisch (Homoskedastizität) und dieFehler verschiedener Stichprobenelemente unkorreliert sind. Diese Annahme ist in vielen Fällen nichthaltbar, wie folgende Beispiele zeigen:

Beispiel zur Heteroskedastizität: Wir untersuchen den Zusammenhang zwischen EinkommenYi undKonsumCi durch Befragung von Personeni = 1, . . . , T in einer Querschnittsuntersuchung. Der vermu-tete Zusammenhang ist gegeben durch die Regressionsgleichung:

Ci = b0 + b1Yi + ei (10.91)

Bei dieser Gleichung ist zu beachten, daß aus Gründen der ökonomischen Tradition die abhängigeVariablemit Ci und die unabhängige Variable mitYi bezeichnet wird. Werdenb0 und b1 durch die Methodeder kleinsten Quadrate geschätzt, unterstellt man gleiche VarianzenE(e2

i ) = σ 2 für i = 1, . . . N . Dieökonomische Theorie vermutet jedoch, daß bei größeren Einkommen nicht nur der Konsum, sondern auchdie Fehlervarianzen stärker ausgeprägt sind. Ein mögliches Modell ist gegeben durchE(e2

i ) = σ 2Y 2i und

E(eie′i) = 0 für i �= i ′.

Trotz dieser neuen Spezifikation der Varianz des Fehlers ist derKQ-Schätzer fürb zwar noch er-wartungstreu und konsistent, die Aussagen des Satzes: Eigenschaften desKQ-Schätzers auf Seite62,bezüglich Annahme 2, 3, 5, 6 und 7 gelten jedoch nicht mehr, wie durch Einsetzen vonE(e2

i ) = σ 2Y 2i in

den Beweis des Satzes gezeigt werden kann. Einen Schätzer mit den gleichen Eigenschaften wie denendesKQ-Schätzers im homoskedastischen Fall erhält man durch folgende Transformationen:

Ci

Yi

= b1 + b01

Yi

+ eGi mit eG

i = ei

1

Yi

(10.92)

Dieser Schätzer heißtAitken-Schätzer. Dies entspricht einem Modell, in dem alle Variablen mit demFaktor 1/Yi gewichtet werden. Nunmehr gilt:E(eG2

i ) = σ 2 für alle i. Daher erfüllt das transformierteModell die Annahmen 1. bis 6. der klassischen Regression.

Beispiel zur Autokorrelation: Wir untersuchen den gleichen Zusammenhang wie oben, aber an dieStelle von individuellen Querschnittsdaten treten aggregierte Jahresdaten der volkswirtschaftlichen Ge-samtrechnung, so daß eine Längsschnittuntersuchung vorliegt.

Ct = b0 + b1Yt + et , t = 1, . . . , T (10.93)

Schätzt man mitKQS b0 undb1 sowie das Residuumet = Ct − (b0 + b1Yt) und trägt das Residuumgegen die Zeitachse auf, erhält man häufig ein zyklisches Muster. Gründe für dieses Muster sind häufig:

• Wichtige Variablen fehlen in der Regressionsgleichung (Fehlspezifikation).

68

Page 74: Skriptum Statistik I und II

• Die Fehler sind über die Zeit korreliert, d.h.E(etet+1) �= 0. Im vorliegenden Beispiel spricht manvon positiver Autokorrelation. Wir treffen folgende Annahme:

et = ρet−1 + vt (vt sind independent identically distributed (iid)) (10.94)

In diesem Fall folgtet einem autoregressiven Prozeß erster Ordnung (AR(1)). Der Fehlervt erfülltdie Annahmen des klassischen Regressionsmodells.

Im Fall der Autokorrelation wird angenommen, daßρ entweder bereits bekannt ist oder durchρ geschätztwird. Der Schätzerρ ist definiert durch:

ρ =

T∑t=2

et et−1

T∑t=1

e2t

(10.95)

Ist ρ bekannt oder durchρ geschätzt, führt die nachfolgende Transformation der Bildung der erstenDifferenzen wiederum zu Homoskedastizität und Unkorreliertheit des neuen Fehlersvt .

Ct − Ct−1 = b0 + b1Yt + et − ρb0 − ρb1Yt−1 − ρet

= (1 − ρ)b0 + b1(Yt − ρYt−1) + et − ρet−1

= (1 − ρ)b0 + b1(Yt − ρYt−1) + vt

Die letzte Gleichung ist äquivalent einer Regressionsgleichung in den ersten Differenzen mit den Annah-men des klassischen Regressionsmodells.

Das Vorliegen von Autokorrelation wird mit Hilfe derDurbin-Watson-Statistik getestet. Sowohlfür Heteroskedastizität als auch für korrelierte Fehler werden in der Ökonometrie erheblich komplexereModelle behandelt.

10.5 Varianz- und Kovarianzanalyse

Eine spezielle Form der Regressionsanalyse tritt auf, wenn die Regressoren nur die Werte 0 oder 1annehmen. Dies ist insbesondere dann der Fall, wenn die unabhängige Variable nominal skaliert ist. DieUmsetzung einer nominal skalierten Variablen in Dummy-Variable (d.h. 0,1 Variable) wird an folgendenBeispielen deutlich.

Beispiel: SeiA eine qualitative Variable mit Ausprägungen{A1, A2, . . . , AL}. Die Ausprägung derqualitativen Variablen wird durchL Dummy-Variable repräsentiert. Diel-te Dummy-Variable nimmtgenau dann den Wert 1 an, wenn diel-te AusprägungAl eintritt. Alle anderen Dummy-Variablen werdenauf 0 gesetzt. Formal lautet das Regressionsmodell mit einer qualitativen unabhängigen Variablen dann:

yi = b0 + b1xi1 + b2xi2+, . . . , +blxil + . . . , +bLxiL + ei (10.96)

mit den Regressorenxil = 1, wenni die AusprägungAl hat, undxil = 0 sonst.Beispiel zur einfachen Varianzanalyse: Zur Verbesserung des Maisertrags wurden drei verschiedene

Sorten Mais gezüchtet. Diese SortenA, B, C wurden auf 5 bzw. 7 bzw. 4 gleich großen Feldern angebaut,wobei sich folgende Erträge ergaben (in 100 kg):

SorteA SorteB SorteC

13.3 8.3 11.211.8 10.3 10.910.7 9.1 13.49.1 10.2 12.7

12.0 8.812.511.9

69

Page 75: Skriptum Statistik I und II

Der Ertrag ist abhängig von der Maissorte. Dann nimmtxil jeweils den Wert 1 an, wenn der Ertragyi vonder Sortel stammt, sonst istxil = 0. Damit ist die Matrix der Regressoren (Designmatrix)X mit n = 16undL = p = 3 gegeben durch:

X =

1 1 0 01 1 0 01 1 0 01 1 0 01 1 0 01 0 1 01 0 1 01 0 1 01 0 1 01 0 1 01 0 1 01 0 1 01 0 0 11 0 0 11 0 0 11 0 0 1

Y =

13.311.810.79.1

12.08.3

10.39.1

10.28.8

12.511.911.210.913.412.7

(10.97)

Unmittelbar einsichtig ist die Tatsache, daß die Matrix keinen vollen Spaltenrang besitzt, daxi1 = xi2 +xi3 +xi4. Daher ist die Matrix(XTX) nicht invertierbar. Um inX vollen Spaltenrang zu erreichen, führenwir lineare Restriktionen ein, die auch als Reparametrisierungsbedingungen bezeichnet werden. LineareRestriktionen können auf vielfältige Weise eingeführt werden. Wir beschränken uns hier auf die einfachsteRestriktion, indem wir eine linear abhängige Spalte streichen und damit den dieser Spalte entsprechendenParameter implizit auf 0 setzen. In unserem Beispiel führen wir dies für die erste Ausprägung, nämlichSorteA, ein und streichen die zweite Spalte vonX. Die neue Matrix der RegressionX hat damit dieOrdnung(n × 3) und ist von vollem Spaltenrang. Der Parameterb1 wird implizit auf 0 gesetzt, dieParameterb2 undb3 sind als Mittelwertsdifferenzen zur ersten Gruppe interpretierbar. Der Mittelwert derersten Gruppe wird durchb0 geschätzt.

y

x

b0

b2b1

❄✻❄✻

SorteB

SorteC

SorteA

In den Anwendungen treten jedoch in der Regel sowohl nominal als auch metrisch skalierte Variableauf. Berücksichtigt man die oben angeführten Restriktion für nominale Variable, so läßt sich die gesamteRegressormatrix einfach durch Anfügen der Datenvektoren für die metrischen Variablen erzeugen. Imgemischten Fall spricht man von Kovarianzanalyse. Die Berechnungen erfolgen in genau gleicher Weisewie im klassischen Regressionsmodell.

Beispiel zur Kovarianzanalyse: Wir untersuchen die Abhängigkeit der Größe von SchiffsbesatzungenY der englischen Handelsmarine um 1870 von der Antriebsart mit den KategorienP1 = unbekannt,P2 =Segel,P3 = Dampf und der TonnageT eines Schiffes. Die Daten sind in Rohform:

70

Page 76: Skriptum Statistik I und II

P T Y P T Y

1 44 3 3 357 101 144 6 3 1080 161 150 5 3 1027 222 236 8 1 45 23 739 16 1 62 33 970 15 2 68 23 2371 23 3 2507 223 309 5 2 138 23 679 13 3 502 182 26 4 3 1501 213 1272 19 3 2750 243 3246 33 3 192 93 1904 19

Entsprechend diesen Variablen wählen wir als Regressionsmodell:

yi = b0 + b1xi1 + b2xi2 + b3xi3 + b4xi4 + ei (10.98)

mit den Dummyvariablenxi1 = 1 für P = 1, xi2 = 1 für P = 2 undxi3 = 1 für P = 3 sowie dermetrischen Variablenxi4 für Tonnage. Damit ist die DatenmatrixX gegeben durch:

xi0 xi1 xi2 xi3 xi4

1 1 0 0 441 1 0 0 1441 1 0 0 1501 0 1 0 2361 0 0 1 7391 0 0 1 9701 0 0 1 23711 0 0 1 3091 0 0 1 6791 0 1 0 261 0 0 1 12721 0 0 1 32461 0 0 1 19041 0 0 1 3571 0 0 1 10801 0 0 1 10271 1 0 0 451 1 0 0 621 0 1 0 681 0 0 1 25071 0 1 0 1381 0 0 1 5021 0 0 1 15011 0 0 1 27501 0 0 1 192

Um vollen Spaltenrang zu erreichen, führen wir als lineare Restriktionb1 = 0 ein und streichen somitdie zweite Spalte der Datenmatrix und berechnen aus der reduzierten Matrix denKQ-Schätzer:

bT = (3.242, 0.024, 6.178, 0.0063) (10.99)

Die Berechnung vons2KQ, R2, Konfidenzintervallen und Tests bleibt als Übungsaufgabe dem Leser über-

lassen.

71

Page 77: Skriptum Statistik I und II

✲x4

b1

b2

✻❄

✻y

b0

✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭

✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭

✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭✭ Dampf

Segel

unbekannt

72

Page 78: Skriptum Statistik I und II

11 Abhängigkeit zwischen qualitativen und ordinalen Merkmalen

11.1 Assoziationsmaße für qualitative Merkmale

Liegen zwei oder mehr nominal skalierte Merkmale vor, wird zunächst - ähnlich der Korrelation - dieStärke des Zusammenhangs zwischen den Merkmalen analysiert. Ausgangspunkt der Analyse ist in derRegel eine zwei- oder höherdimensionale Kontingenztabelle. Wir beschränken uns auf zweidimensionaleKontingenztabellen mit empirischen Häufigkeitenhij , i = 1, . . . r, j = 1, . . . s. Um analoge Begriffe zurKorrelation bilden zu können, führen wir zunächst den Begriff vollständiger Abhängigkeit ein, der beiKontingenztabellen jedoch nur für quadratische Tabellen definiert werden kann.

Definition: Zwei MerkmaleA, B mit jeweilsr Merkmalsausprägungen heißen vollständig abhängig,wenn bei geeigneterAnordnung der Merkmalsausprägungen nur die Diagonalzellen derVerteilungstabellebesetzt sind, d.h.

hij = 0 für i �= j, i, j = 1,2, . . . , r (11.1)

Im folgenden werden die Bezeichnungen

hi• =∑j

hij ; h•j =∑

i

hij ; n =∑

i

∑j

hij (11.2)

verwendet.Beispiel: Wir betrachten zwei MerkmaleA undB mit jeweilsr = 2 Ausprägungen. Die linke Tabelle

zeigt vollständige Abhängigkeit, die rechte zeigt Unabhängigkeit.

B∑

0.70 0.00 0.70A

0.00 0.30 0.30

∑0.70 0.30 1.00

B∑

0.49 0.21 0.70A

0.21 0.09 0.30

∑0.70 0.30 1.00

Zur Analyse der allgemeinen Kontingenztabelle benützen wir folgende Bezeichnungen:

hij beobachtete Häufigkeit

heij = hi• · h•j

nbei Unabhängigkeit erwartete Häufigkeit

Lij = hij − heij Abweichungen

Die AbweichungenLij sind die Grundlage der Messung von Abhängigkeit. Die Summe der Differenzenergeben zeilen- und spaltenweise die Summe 0:∑

j

Lij =∑j

hij − hi•n

∑j

h•j = hi• − hi•n

n= 0 (11.3)

∑i

Lij =∑

i

hij − h•jn

∑i

hi• = h•j − h•jn

n= 0 (11.4)

Die Abweichungen geben an, wie sehr man die Elemente der Grundgesamtheit (oder Stichprobe) umver-teilen muß, damit aus der bei Unabhängigkeit erwarteten Verteilung die beobachtete Verteilung entsteht.

Definition: Das Assoziationsmaß ’Chi-Quadrat’ (auch ’quadratische Kontingenz’) ist gegeben durch:

χ2 =∑

i

∑j

L2ij

heij

=∑

i

∑j

(hij − heij )

2

heij

(11.5)

Folgende Umformungen sind für die praktische Rechnung bequemer:

χ2 =∑

i

∑j

h2ij

heij

− n = n

i

∑j

h2ij

hi•h•j− 1

(11.6)

73

Page 79: Skriptum Statistik I und II

Beweis der Umformung:∑i

∑j

1

heij

(hij − heij )

2 =∑

i

∑j

1

heij

[h2

ij − 2hijheij + he2

ij

](11.7)

=∑

i

∑j

h2ij

heij

− 2∑

i

∑j

hij +∑

i

∑j

heij =

∑i

∑j

h2ij

heij

− n (11.8)

Dasχ2-Maß hängt vonn, also dem Umfang der Grundgesamtheit oder Stichprobe ab.Aus diesem Grundeeignet es sich nicht zum Vergleich des Abhängigkeitsgrades bei verschieden großen Grundgesamtheitenoder Stichproben. Man hat daher Koeffizienten vorgeschlagen, die 1. vonn nicht abhängen, 2. bei stati-stischer Unabhängigkeit null werden und 3. bei vollständiger Abhängigkeit den Wert 1 annehmen. Wirbetrachten zunächstVierfelderkoeffizientenfür Merkmale mit jeweilsr = 2 Merkmalsausprägungen.

B1 B2∑

A1 a b a + bA2 c d c + d

∑a + c b + d h••

Für diese Tabelle gelten somit die Bezeichnungen:

h11 = a, h12 = b, h21 = c, h22 = d

n = a + b + c + d, he11 = (a + c)(a + b)

n, he

12 = (a + b)(b + d)

n,

he21 = (a + c)(c + d)

n, he

22 = (c + d)(b + d)

n

Einsetzen ergibt nach einiger Rechnung:

χ2 = (ad − bc)2n

(a + b)(a + c)(b + d)(c + d)(11.9)

Damit erhält man den Kontingenz- oder Phi-Koeffizienten:

φ =√

χ2

n= |ad − bc|√

(a + b)(a + c)(b + d)(c + d)(11.10)

Es gilt 0≤ φ ≤ 1, d.h. dieser Koeffizient ist normiert. Zusätzlich definieren wir den Assoziationskoeffi-zientenκ, der auchYule’sches Assoziationsmaß heißt:

κ = ad − bc

ad + bc(11.11)

In unserem Beispiel erhält man für die linke Vierfeldertafel:

φ = (0.7)(0.3)√(0.7)(0.7)(0.3)(0.3)

= 1 (11.12)

κ = (0.7)(0.3) − 0

(0.7)(0.3) + 0= 1 , (11.13)

also beide Male vollständige Abhängigkeit.Nun behandeln wir Maße für den Zusammenhang in einerallgemeinenKontingenztabelle. Zu diesem

Zweck geben wir vier Maße an:

74

Page 80: Skriptum Statistik I und II

• Der allgemeine KontingenzkoeffizientC:

C =√

χ2

n(11.14)

• Das MaßC hat den Nachteil, daß es größer als 1 werden kann. Der korrigierte KontingenzkoeffizientCcor ist hingegen immer kleiner als 1:

Ccor =√

χ2

n + χ2 (11.15)

• Zwei andere Wege der Normierung werden in den nächsten beiden Koeffizienten eingeschlagen.Der erste Koeffizient ist das Kontingenzmaß vonTschuprow:

T =√

χ2

n√

(s − 1)(r − 1)(11.16)

• Der zweite Koeffizient ist das Kontingenzmaß vonCramér:

V =√

χ2

n · min{(s − 1), (r − 1)} (11.17)

Der Größe nach sind diese Koeffizienten in der Regel nach der ReihenfolgeC ≥ V ≥ T geordnet. DieseMaße sind 0, wenn die beiden Merkmale unabhängig sind.V ist T überlegen, weil der Koeffizient auchdann den Wert 1 annehmen kann, wenns undr ungleich sind. Faßt man in einer Kontingenztafel Spaltenund/oder Zeilen zusammen, vergröbert man also die Gruppen, so kann derχ2-Wert nicht größer werden.

Bei der Interpretation weisenWerte unter 0.2 auf schwache,Werte zwischen 0.2 und 0.5 auf mittelstarkeund Werte, die größer als 0.5 sind, auf starke Zusammenhänge hin. DieArt des Zusammenhangs ist jedochnur durch Betrachtung der bedingten Verteilungen zu erfassen.

Beispiel: Zusammenhang zwischen Religionsbekenntnis von Bräutigam und Braut bei allen Ehen, die1957 vor Wiener Standesämtern geschlossen wurden.

E K S O∑

Evangelisch(E) 344 728 22 44 1138Katholisch(K) 693 9916 97 293 10999Sonstige(S) 27 248 134 22 431ohne Bekenntnis(O) 108 812 31 197 1148∑

1172 11704 284 556 13716

Zunächst wirdχ2 und dannT berechnet:

χ2 = 13716·(

3442

1172· 1138+, . . . , + 1972

556· 1148− 1

)= 3223.7 (11.18)

T =√

3223.7

13716·√(4 − 1)(4 − 1)= 0.279 (11.19)

Das Resultat deutet auf einen mittelstarken Zusammenhang zwischen den Religionsbekenntnissen derBrautleute hin.

75

Page 81: Skriptum Statistik I und II

11.2 Derχ2-Test auf statistische Unabhängigkeit

Wir haben bereits denχ2-Test auf Übereinstimmung einer empirischen Verteilung mit einer theoretischenVerteilung kennengelernt. Bei derAnalyse von Kontingenztabellen zweier MerkmaleA undB richtet sichdas Interesse auf die Überprüfung derH0 : A und B sind voneinander statistisch unabhängiggegenH1 : Aund B sind statistisch abhängig. Als Teststatistik verwendet man das Kontingenzmaßχ2, das hier mitχ2G

bezeichnet wird. Unter der Nullhypothese folgt die Teststatistikχ2G einerχ2 Verteilung mit(r −1)(s −1)Freiheitsgraden. Als Beispiel überprüfen wir die Nullhypothese:Das Religionsbekenntnis der Brautleuteist statistisch unabhängigan den Daten des letzten Beispiels mit einem Irrtumsniveau vonα = 0.01. Derkritische Wert istχ2

9,0.99 = 21.7, die Teststatistik beträgtχ2G = 3223.7. Die Nullhypothese wird daherzum vorgegebenen Testniveau verworfen.

Genauso wie im Fall von metrischen Variablen können bei qualitativen Merkmalen Scheinzusam-menhänge auftreten, die durch dritte Variable verursacht werden. Man untersucht daher anstelle vonzweidimensionalen häufig drei- und höherdimensionale Kontingenztabellen.

Beispiel: Wir betrachten wir den Zusammenhang zwischen Rauchen, Lungenkrebs und Vogelhaltung.Die beiden folgenden Tabellen zeigen die Häufigkeitsverteilung von Lungenkrebs und Vogelhaltung nachRauchern und Nichtrauchern getrennt.

Nichtraucher RaucherVogel- Lungenkrebs Vogel- Lungenkrebshaltung ja nein

∑haltung ja nein

∑ja 6 36 42 ja 93 67 160

nein 5 162 167 nein 119 179 298

∑11 198 209

∑212 246 458

Für die Nichtraucher erhält manχ2G = 8.58 und den korrigierten KontingenzkoeffizientCcor = 0.2.Für die Raucher erhält manχ2G = 13.86 und den korrigierten KontingenzkoeffizientCcor = 0.17. Diebeiden korrigierten Kontingenzkoeffizienten zeigen einen schwachen bis mittelstarken Zusammenhangzwischen Lungenkrebs und Vogelhaltung, wobei der Zusammenhang bei den Nichtrauchern etwas stärkerausgeprägt ist. Die Hypothese, daß kein Zusammenhang zwischen Lungenkrebs undVogelhaltung besteht,muß bei Rauchern wie bei Nichtrauchern sogar bei der sehr kleinen Irrtumswahrscheinlichkeitα = 0.005verworfen werden (χ2G

1,0.995 = 7,88). Weiter läßt sich aus den Tabellen ablesen, daß nur ca. 5% deruntersuchten Nichtraucher, aber ca. 46% der Raucher an Lungenkrebs erkrankt sind. Bezieht man jedochzusätzlich dieVariableVogelhaltung in dieAnalyse mit ein, so stellt man fest, daß ca. 14% der Nichtraucherund ca. 59% der Raucher, die einenVogel halten, unter Lungenkrebs leiden. Betrachtet man ausschließlichdie an Krebs erkrankten Personen, stellt man fest, daß sogar ca. 55% der an Krebs erkrankten Nichtraucherund ca. 44% der Raucher einen Vogel besitzen. Man muß somit von der Möglichkeit ausgehen, daß nebenRauchen auch Vogelhaltung das Krebsrisiko erhöht.

11.3 Assoziationsmaße und Tests für ordinale Merkmale

Als Maß der Stärke des Zusammenhangs zwischen ordinal skalierten VariablenX undY werden folgendeangeführten Koeffizienten verwendet.

11.3.1 Der Rangkorrelationskoeffizient von Kendall

Die Beobachtungen(xi, yi), i = 1, . . . , n werden so angeordnet, daß diex-Werte nach wachsenderGröße geordnet sind. Danach stellt man fest, wieviele Paare rechts voni einey-Komponente aufweisen,die größer ist alsyi ; die Anzahl solcher Paare sei mitSi bezeichnet. Dann heißt der Koeffizient:

τ =4

n∑i=1

Si

n(n − 1)− 1, −1 ≤ τ ≤ 1 (11.20)

76

Page 82: Skriptum Statistik I und II

Schätzer für den Rangkorrelationskoeffizientenτ einer Grundgesamtheit, der nach dem StatistikerKendallalsKendall’s τ bezeichnet wird.

Beispiel: Wir betrachtenn = 5 Paare von Rangdaten, die nachx geordnet sind.

i 1 2 3 4 5

x 1 3 4 8 9y 2 1 5 3 4

Si 3 3 0 1 0

Wegenn = 5 undn∑

i=1

Si = 7 erhalten wir:

τ = 4 · 7

5 · 4− 1 = 0.4 (11.21)

Der Kendall’sche Rangkorrelationskoeffizient verteilt sich bei Unabhängigkeit der beiden Merkmaleund Vorliegen von mindestens 10 Beobachtungspaaren annähernd normal mit Mittelwert 0 und Varianz

σ 2 = 2(2n + 5)

9n(n − 1)(11.22)

Damit lassen sich Teststatistiken zur Überprüfung derH0 : τ = 0 gegenH1 : τ �= 0 formulieren.

11.3.2 Der Rangkorrelationskoeffizient von Spearman

Ein weiterer Rangkorrelationskoeffizient wurde vonSpearman vorgeschlagen und wird mitρs in derGrundpopulation bezeichnet. Zur Schätzung aus einer Stichprobe schreibt man die Meßdaten ihrer Größenach auf und ordnet ihnen die natürlichen Zahlen als Rangnummern zu.

x(1) < x(2) <, . . . , < x(n), r(x)=1,2, . . . n; y(1) < y(2) <, . . . , < y(n), r(y)=1,2, . . . , n(11.23)

Dem i-ten Paar mit den Komponenten(xi, yi) ist nun das Rangnummernpaar(r(xi), r(yi)) zugeordnet.Wir bilden die Rangnummerndifferenzdi = r(xi) − r(yi). Die Größe:

rs = 1 − 1

n(n2 − 1)· 6

n∑i=1

d2i , −1 ≤ rs ≤ 1 (11.24)

heißtSpearman’scher Rangkorrelationskoeffizient der Stichprobe.Beispiel: Bestimmung vonrs aus den Daten des letzten Beispiels.

i 1 2 3 4 5

di -1 1 -2 1 1d2i 1 1 4 1 1

Ausn = 5,n∑i

d2i = 8 berechnet man:

rs = 1 − 6 · 8

5 · 24= 0.6 (11.25)

Der Spearman’sche Rangkorrelationskoeffizientrs ist, fallsρs = 0 gilt, in Stichproben von mindestens20 Beobachtungspaaren so verteilt, daß die Transformation:

u = rs√

n − 2 ∼ N(0,1) (11.26)

asymptotisch standardnormalverteilt ist. Daraus lassen sich wieder Teststatistiken zur Überprüfung derH0 : ρs = 0 gegen dieH1 : ρs �= 0 berechnen.

77

Page 83: Skriptum Statistik I und II

Kendalls τ wird vor allem dann verwendet, wenn Bindungen auftreten, wenn also eine Merkmals-ausprägung inx odery nicht nur einmal vorkommt. Da in diesem Fall keine natürliche Ordnung hergestelltwerden kann, ist die Verwendung vonrs problematisch. Um in solchen Fällen dennochrs berechnen zukönnen, werden bei gleichen Wertenmittlere Rängevergeben. Die Vorgehensweise ist dem folgendenBeispiel zu entnehmen.

Beispiel: Wir betrachten folgende Rangdaten.

i 1 2 3 4 5 6 7 8

x 1 3 4 8 9 3 7 6y 2 1 5 3 4 4 4 6

x nimmt zweimal den Wert 3 an und beiy kommt der Wert 4 sogar dreimal vor. Mit Hilfe von mittlerenRängen, kann eine modifizierte Rangtabelle erzeugt werden, wobei die mittleren Ränge hier fett dargestelltwerden:

i 1 2 3 4 5 6 7 8

r(x) 1 2.5 4 7 8 2.5 6 5r(y) 2 1 7 3 5 5 5 8

78

Page 84: Skriptum Statistik I und II

12 Wirtschafts- und Sozialstatistik

12.1 Datenbasis

Wirtschaftswissenschaft als Erfahrungswissenschaft ist auf umfangreiche Informationen angewiesen, diesowohl von der amtlichen Statistik als auch von öffentlichen und privaten Instituten gesammelt und zurVerfügung gestellt werden (verfügbare Daten). Da verfügbare Daten zur Beantwortung spezifischer Fragenoft nicht ausreichen, müssen eigene Daten im Forschungsprozeß erhoben werden (nicht verfügbare Daten).Einen Überblick über die verfügbaren Daten und deren Produzenten gebenHujer undCremer (1978),die auch die internationale Statistik sowie Sozialindikatoren behandeln.

Die genauesten Daten der allgemeinen Statistik liefern die in ca. 10-Jahres-Abständen durchgeführtenVolkszählungen, in denen an einem Stichtag alle Haushalte der Bundesrepublik Deutschland erhoben undbefragt werden (Totalerhebung). Die wesentlichen Merkmale, die dabei erhoben werden, sind Geschlecht,Alter, Familienstand, Staatsangehörigkeit, Beteiligung am Erwerbsleben, ausgeübter Beruf, Stellung imBeruf und Wirtschaftszweig. Volkszählungen werden nur alle 10 Jahre duchgeführt, da sie hohe Kostenverursachen, die Datenaufbereitung sehr lange dauert und die Belastung für die gesamte Bevölkerungsehr groß ist. Da jedoch aktuelle Daten über die Entwicklung der Wirtschaft, der Verkehrssituation usw.benötigt werden, wird jährlich eine Stichprobe, der Mikrozensus, erhoben, bei der ein kleiner Teil der Be-völkerung(1%,0.25% bzw. 0.1%)befragt wird. Die Ergebnisse werden nach den Regeln der schließendenStatistik auf die Bevölkerung hochgerechnet. Beim Mikrozensus werden neben dem Grundprogramm,also den Fragen aus der Volkszählung, zusätzliche Fragen über aktuelle Probleme (Zusatzprogramm) ge-stellt (z. B. zum Pendlerproblem). Die Statistik der Bevölkerungsbewegung und Familienstandsänderungwird von den Standesämtern (Geburt, Tod, Eheschließung) sowie den Gerichten (Scheidung) erstellt,während die Wanderung der Bevölkerung durch die Einwohnerämter (Meldescheine) erfaßt wird. DieArbeitsmarktstatistik obliegt Arbeitsämtern und der Bundesanstalt für Arbeit.

Gleichzeitig mit den Volkszählungen werden Arbeitsstätten-, Gebäude- und Wohnungszählungendurchgeführt. Daher müßte man exakt von einer Volks-, Berufs-, Einkommens-, Wohnungs-, Arbeits-stätten- und Gebäudezählung sprechen.

12.2 Bevölkerungsstatistik

12.2.1 Grundbegriffe

In der Bevölkerungsstatistik werden drei Konzepte des Bevölkerungsbegriffs unterschieden:

• Konzept der Staatsangehörigkeit.

• Konzept der Nation. Hier handelt es sich um historische und ideologische Konzepte.

• Konzept der Wohnbevölkerung (Inlandsbevölkerung).

In der amtlichen Statistik wird nur von der Wohnbevölkerung ausgegangen, um für infrastrukturelle Maß-nahmen wieWohnungsbau, Straßenbau, Krankenhäuser, Schulen usw. Plandaten zurVerfügung zu stellen.Die (Wohn-) Bevölkerung umfaßt alle natürliche Personen, die sich überwiegend in der BundesrepublikDeutschland aufhalten und damit durch die Meldebehörden erfaßt sind. Permanent im Ausland lebendedeutsche Staatsbürger gehören nicht zur Wohnbevölkerung. Nicht zur Bevölkerung gehören die Angehö-rigen der ausländischen Stationierungskräfte sowie der ausländischen diplomatischen und konsularischenVertretungen mit ihren Familienangehörigen.

Die wichtigste ökonomische Einheit ist der Haushalt. Als Haushalt gilt jede Personengemeinschaft,die zusammen wohnt und eine gemeinsame Hauswirtschaft führt (natürlich auch einzelne Personen, diealleine wohnen und wirtschaften). Dabei wird zwischen Privathaushalten und Anstaltshaushalten (z.B.Heime, Gemeinschaftsunterkünfte, Gefängnisse etc.) unterschieden.

In der Bevölkerungsstatistik verwendet man Kennzahlen zur Charakterisierung der Bevölkerungsent-wicklung, die als Raten und Ziffern(= Rate · 1000) bezeichnet werden. Alle Kennzahlen beziehen sichauf die Wohnbevölkerung. Wichtige Raten sind:

79

Page 85: Skriptum Statistik I und II

1. Rohe Geburtenrate:

rj = bj

Lj

bj ist die Anzahl der Geburten im Jahrj , d. h. zwischen den Stichtagen des Jahresj und des Jahresj + 1.Lj ist der Durchschnittsbestand der Wohnbevölkerung im Jahrj .

2. Altersspezifische Sterberate:

maj = daj

Laj

daj ist die Anzahl der Sterbefälle von Personen im Jahrej , die das Alter vona Jahren erreichten.Laj ist der durchschnittliche Bestand vona-jährigen im Jahrj .

3. Rohe Fruchtbarkeitsrate (Rohe Fertilitätsrate):

fj = bj

Fj

Fj ist die durchschnittliche Anzahl der Frauen im gebärfähigen Alter im Jahrej . Das gebärfähigeAlter ist statistisch durch die Untergrenze 15 und durch die Obergrenze 45 Jahre festgelegt.

4. Altersspezifische Fruchtbarkeitsrate:

faj = baj

Faj

baj ist die Anzahl der Geburten im Erhebungszeitraum(j, j + 1), deren Mütter bei der GeburtaJahre alt sind.Faj ist die durchschnittliche Anzahl der Frauen, die im Erhebungszeitraum das Altervona Jahren erreicht haben.

5. Altersspezifische Rate von Mädchengeburten:

f waj = bw

aj

Faj

Mit diesen Raten läßt sich allerdings noch nicht feststellen, ob eine Bevölkerung langfristig wächst,stabil bleibt oder schrumpft. Zur Analyse der langfristigen Bevölkerungsentwicklung werden folgendeKennzahlen abgeleitet. Die rohe Fruchtbarkeitsratefj läßt sich zerlegen in:

fj = bj

Fj

=

∑a

baj

Fj

=∑a

baj

Faj

· Faj

Fj

=∑a

fajπaj (12.1)

faj ist die altersspezifische Fruchtbarkeitsrate.πaj ist der Anteil von Frauen im Altera.Diese Zerlegung bildet die Grundlage der Definition der totalen Fruchtbarkeitsrate, die auch als Fer-

tilitätsrate (TFR) bezeichnet wird:

TFRj =∑a

faj (12.2)

Bei der Berechnung der totalen Fertilitätsrate wird angenommen, daß sich die altersspezifischen Frucht-barkeitsraten im Laufe der Zeit nicht ändern (unechte Längsschnittanalyse). Berücksichtigt man nur dieMädchengeburten, erhält man den Bruttoreproduktionsindex (BRI):

BRIj =∑a

f waj ≈ 1

2TFRj (12.3)

80

Page 86: Skriptum Statistik I und II

Bei der Berechnung von TFR und BRI wird angenommen, daß eine Generation von Frauen in den31 Jahren der Gebärfähigkeit zur Gänze erhalten bleibt. Diese Annahme ist unrealistisch. Daher wirddie Überlebensrate von gebärfähigen Frauen jeder Altersstufe(pw

aj , a = 15,16, . . . ,45), die aus denSterbetafeln der amtlichen Statistik entnommen werden kann, berücksichtigt. Analog zu den konstantenaltersspezifischen Fruchtbarkeitsraten werden konstante altersspezifische Mortalitätsraten angenommen.Die Korrektur des BRI durch Überlebensraten führt zur Definition des Nettoreproduktionsindex:

NRIj =∑a

f wajp

waj (12.4)

Der NRI wird üblicherweise wie folgt interpretiert: Ist der NRI = 1, bleibt die Bevölkerung stabil. (InWirklichkeit sinkt sie langsam, da der NRI die Sterberate der neugeborenen Mädchen nicht berücksichtigt.)Ist der NRI>1, so wächst die Bevölkerung, andernfalls schrumpft sie. Die Richtigkeit dieser Interpretationhängt von dem Ausmaß ab, in dem die getroffenen Annahmen approximativ erfüllt sind.

12.2.2 Die Bevölkerungspyramide

Die Geburtenzahl hängt neben dem Zeugungsverhalten auch von der Altersstruktur einer Bevölkerungab. Dieser Effekt wird anhand einiger Bevölkerungspyramiden für Deutschland illustriert. Bei einer Be-völkerungspyramide ist auf der senkrechten Achse das Alter abgetragen: Unten stehen die Personen imersten Lebensjahr; nach oben geht es bis zum Alter 100. Die Länge eines Balkens nach rechts entsprichtder relativen Stärke der entsprechenden Frauenaltersgruppe in Promille, die Länge eines Balkens nachlinks der relativen Stärke der entsprechenden Männeraltersgruppe. Insgesamt kumuliert sich die Flächezu 1000 Promille auf. Nach oben hin wird die Bevölkerungspyramide durch die Sterblichkeit allmäh-lich dezimiert. Bei wachsenden Bevölkerungen ist die ’Pyramide’ pyramidenartig oder pfeilförmig. BeiBevölkerungen mit konstant bleibendem Umfang ist die ’Pyramide’ glockenförmig, bei schrumpfendenurnenförmig.

Die folgende Abbildung (vgl.Birg, Koch (1987), S. 160) repräsentiert die Altersstruktur der Bevöl-kerung im Deutschen Reich und in der Bundesrepublik Deutschland (ohne die neuen Länder) von 1910bis 2030 (bis 1983 real, anschließend geschätzt).

Diese Abbildung enthält links den Altersaufbau der deutschen Bevölkerung von 1910, der durch einstarkes Wachstum und keine wesentlichen Störungen gekennzeichnet ist. Bei der danebenstehenden Be-völkerungspyramide von 1925 sind deutlich drei Effekte erkennbar:

• Die gering besetzte Altersgruppe der 7 bis 10-jährigen Jungen und Mädchen. Dieser Effekt gehtauf die Geburtenausfälle während des ersten Weltkriegs zurück.

81

Page 87: Skriptum Statistik I und II

• In der Altersgruppe der 25 bis 50-jährigen gibt es deutlich weniger Männer als Frauen. DieserEffekt ist auf die Gefallenen des ersten Weltkriegs zurückzuführen.

• In der Altersgruppe der über 70-jährigen gibt es weitaus mehr Frauen als Männer. Dieser Effektgeht auf die in etwa um 7 Jahre höhere Lebenserwartung der Frauen zurück.

Im Altersaufbau von 1939 sind diese Effekte um 14 Jahre nach oben gewandert. Am Sockel der Pyramidesind zusätzlich die nach dem ersten Weltkrieg einsetzenden starken Geburtenrückgänge zu erkennen, dieihren Tiefpunkt während der Weltwirtschaftskrise erreichten. Die beiden folgenden Alterspyramiden zei-gen den Aufbau der bundesdeutschen Bevölkerung 1961 mit einer starken Verbreiterung der Basis sowieden Geburtenrückgang ab 1968, der sich in der schrumpfenden Basis des Jahres 1983 ausdrückt. Die letztenbeiden Pyramiden sind Prognosen für die bundesdeutsche Bevölkerung der Jahre 2000 und 2030 (ohne dieBevölkerung der Länder Mecklenburg-Vorpommern, Brandenburg, Sachsen–Anhalt, Sachsen, Thüringenund Berlin). Hier wird sowohl das Schrumpfen der Bevölkerung als auch die zunehmende Überalterungdeutlich. Die fruchtbarste Phase der Frauen liegt zwischen dem zwanzigsten und dem dreißigsten Lebens-jahr. Offensichtlich geht auch bei konstantem generativen Verhalten die Geburtenzahl zurück, wenn eine’Beule’ in der Bevölkerungspyramide auftritt, d.h. wenn eine Altersgruppe von Frauen schwächer besetztist. Ein Teil der hohen Geburtenzahlen zu Beginn der sechziger Jahre ist durch die starke Besetzung derFrauenjahrgänge zu erklären, die am 31.12.1988 zwischen 45 und 55 Jahre alt waren. Andererseits ist einTeil des Geburtenrückganges ab Mitte der sechziger Jahre darauf zurückzuführen, daß zu dieser Zeit diedurch den zweiten Weltkrieg dezimierte Altersgruppe die fruchtbarste Phase durchwanderte.

12.2.3 Der Geburtenrückgang in der Bundesrepublik Deutschland

Die Wohnbevölkerung in der BRD ist seit 1950 von 50,3 Mio. bis 1973 auf 62,1 Mio. gewachsen. Seitdemfällt sie, wenn auch sehr langsam. Bei der deutschen Bevölkerung setzt der Rückgang bereits 1971 ein. Erwird bis 1973 nur durch einen größeren Zuzug vonAusländern und deren höhere Geburtenzahl überdeckt.Der Geburtenrückgang setzt bereits viel früher ein, wie aus folgender Graphik (vgl.Birg, Koch (1987),S. 84) ersichtlich ist.

Die außerordentlich niedrige Fertilitätsrate TFR von 1916 bis 1919 ist auf den starken Geburtenausfallwährend des ersten Weltkriegs zurückzuführen. Die relativ hohe Fertilitätsrate TFR von 1955 bis 1968ist sowohl auf die hohe Geburtenzahl zwischen 1934 und 1942 (Echoeffekt) als auch auf die relativ hohe

82

Page 88: Skriptum Statistik I und II

altersspezifische Fruchtbarkeitsrate dieser Frauengeneration zurückzuführen. Die rohe Geburtenzifferbeträgt 18.3 Lebendgeborene pro 1000 Einwohner im Jahr 1963 und 9.6 im Jahr 1977. Von besonderemInteresse ist die Entwicklung der altersspezifischen Geburtenraten, die seit 1964 in allen Altersgruppeneine stark fallende Tendenz aufweisen, wobei in den letzten Jahren auch eine Verschiebung zu höheremAlter der Mütter festzustellen ist. Die totale Fertilitätsrate TFR ist von 2.54 im Jahr 1964 auf 1.45 im Jahr1975 abgesunken. Zur langfristigen Bestandserhaltung der Bevölkerung ist unter Berücksichtigung derSterblichkeit ein Wert der TFR von 2.2 erforderlich. Einen Vergleich mit anderen Ländern zeigt folgendeAufstellung:

Totale Fertilitätsrate einiger ausgewählter Industrieländer

Jahr BRD DDR Öster– Frank– USA UdSSRreich reich

1950 2.10 2.35 — 2.93 3.09 —1955 2.14 2.38 2.22 2.68 3.58 —1960 2.37 2.35 2.59 2.73 3.65 2.821965 2.50 2.48 2.68 2.84 2.91 2.461970 2.01 2.19 2.32 2.47 2.48 2.391975 1.45 1.54 1.84 1.93 1.77 2.411980 1.45 1.94 1.68 1.96 1.82 2.281985 1.31 1.80 1.51 1.80 1.80

Als Indikatoren und Faktoren für den Geburtenrückgang lassen sich folgende Fakten angeben:

• Reduktion der Familiengröße:

Ehepaare (in Prozent) geordnet nach Anzahl der Kinder

Jahr 1966 1972 1975 1982 1990 1998 1999

ohne Kinder 15 22 24 39 43 48 48mit 1 Kind 18 28 31 27 27 23 23mit 2 Kindern 31 35 33 23 22 21 20mit 3 Kindern 20 11 10 8 6 6 5mit 4 und mehr Kindern 16 4 2 3 2 2 2

• Siedlungsweise: In den Großstädten liegt die Geburtenziffer traditionell niedriger als in kleinenGemeinden. Hier findet allerdings zur Zeit eine Angleichung statt.

• Allgemeine Säkularisierung: Schon 1970 wiesen diejenigen Ehen die höchste Kinderzahl auf, indenen beide Partner katholisch waren (2.132 Kinder), während für Ehen, in denen beide Partnerkeiner Konfession angehörten, ein Durchschnittswert von 1.593 Kindern festgestellt wurde.

• Wandel der Berufsstruktur: Selbständige Landwirte wiesen 1970 im Durchschnitt 2.671 Kinder auserster Ehe auf, während die Angestellten im Durchschnitt 1.622 Kinder hatten.

12.2.4 Auswirkungen des Geburtenrückgangs

Unter der Annahme konstanter Fruchtbarkeitsraten läßt sich die Entwicklung der Bevölkerung aufgrundder bekannten Überlebenswahrscheinlichkeiten schätzen. Ergebnisse dieser Schätzungen wurden in einerder vorhergehenden Abbildungen gezeigt. Die voraussichtliche Zusammensetzung der Bevölkerung läßtsich auf spezielle Gruppen aufgliedern, die von besonderem gesellschaftspolitischen Interesse sind. DieNachfrage nach den Dienstleistungen des Schul- undAusbildungssystems wird wesentlich von derAnzahlder Jugendlichen in bestimmtenAltersgruppen bestimmt. Insgesamt ist langfristig mit einerAbnahme desBildungsbedarfs zu rechnen. Trotzdem kann es in den nächsten Jahren noch zu schweren Belastungendes Bildungssystems durch den Zustrom von Aus- und Übersiedlern mit einer hohen Anzahl schulpflich-tiger und bildungswilliger Kinder kommen, wenn nicht die Ausbildungskapazitäten verstärkt werden.

83

Page 89: Skriptum Statistik I und II

Insbesondere im universitären Bereich zeichnet sich aufgrund der steigenden Anzahl von Abiturientensowie des steigenden Anteils von Studierwilligen unter den Abiturienten keine Entlastung innerhalb desnächsten Jahrzehnts ab.

Von zentraler Bedeutung für das Angebot an Arbeitskräften ist das Erwerbspotential der Bevölkerung,das parallel zum Sinken der Gesamtbevölkerung im Prognosezeitraum bis 2030 von ca. 30 Millionen imJahr 1990 auf 20 Millionen im Jahr 2030 fällt. Insgesamt wird dem Zusammenhang zwischen demogra-phischer Struktur und Arbeitsangebot in der gesamten Diskussion um Arbeitslosigkeit und Beschäftigungviel zu wenig Beachtung geschenkt. Die derzeitige seit Jahren anhaltende hohe Arbeitslosigkeit von ca. 2Millionen Personen ist zu einem hohen Ausmaß auf das Anwachsen des Bevölkerungsanteils der 20 bis60-jährigen von 30.9 Millionen im Jahre 1970 auf 34.5 Millionen im Jahre 1985 zurückzuführen. DieseErhöhung des Erwerbspotentials konnte auch durch die zusätzliche Bereitstellung von Millionen vonArbeitsplätzen im letzten Jahrzehnt nicht vollständig aufgefangen werden. Zum Abschluß gehen wir aufeinen wichtigen Faktor der ökonomischen Stabilität ein, nämlich auf das Verhältnis von ökonomisch ab-hängigen Personen (Jugendliche unter 20 und Personen über 60 Jahre) zu den Personen im erwerbsfähigenAlter (Erwerbsfähige). Die für diesen Vergleich wichtigen Kennzahlen sind:

1. Der Jugendquotient wird durch das Verhältnis zwischen der Zahl der Jugendlichen und der Zahlder Erwerbsfähigen definiert.

2. Der Altenquotient wird durch das Verhältnis zwischen der Zahl der Senioren und der Zahl derErwerbsfähigen definiert.

3. Der Abhängigkeitsquotient wird durch das Verhältnis zwischen der Zahl der Jugendlichen undSenioren und der Zahl der Erwerbsfähigen definiert.

Die nächste Abbildung (vgl.Birg, Koch (1987), S. 167) zeigt die Prognose der Entwicklung dieserdrei Kennzahlen im Zeitraum 1983 bis 2030. Dem stagnierenden Jugendquotienten steht ein dramatischanwachsenderAltenquotient und damit ein steil ansteigenderAbhängigkeitsquotient gegenüber. Die Kon-sequenzen für das System der sozialen Sicherung sind offensichtlich. Die Belastung der 20 bis 60-jährigendurch die Erfüllung des Generationenvertrages, auf dem das derzeitige System der sozialen Sicherungberuht, steigt erheblich oder die Zuwendungen an die über 60-jährigen sinken erheblich. Natürlich sindalle Formen des Kompromisses zwischen diesen beiden Extremen denkbar.

84

Page 90: Skriptum Statistik I und II

12.3 Erwerbsstatistik

In der Erwerbsstatistik unterscheidet man zwischen der Beteiligung am Erwerbsleben (Erwerbskonzept)und der Hauptquelle des Lebensunterhalts (Unterhaltskonzept).Erwerbspersonensind alle Personen mitWohnsitz im Bundesgebiet (Inländerkonzept), die eine unmittelbar oder mittelbar auf Erwerb gerichteteTätigkeit ausüben oder suchen, unabhängig von der Bedeutung des Ertrags für ihren Lebensunterhaltund ohne Rücksicht auf die von ihnen tatsächlich geleistete oder vertragsmäßig zu leistende Arbeitszeit.Erwerbstätigesind Personen, die in einem Arbeitsverhältnis stehen (einschließlich Soldaten und mithel-fender Familienangehöriger) oder selbständig ein Gewerbe oder eine Landwirtschaft betreiben oder einenfreien Beruf ausüben.Erwerbslosesind Personen ohne Arbeitsverhältnis, die sich um eine Arbeitsstellebemühen, unabhängig davon, ob sie beim Arbeitsamt gemeldet sind.Nichterwerbspersonensind alle Per-sonen, die keinerlei auf Erwerb gerichtete Tätigkeit ausüben oder suchen. (Dazu gehören auch Studentenund Rentner.) Das Unterhaltskonzept gliedert nach Unterhalt vor allem aus Erwerbstätigkeit, Arbeitslo-sengeld, Rente u. dgl. (Vermögenserträge) sowie durchAngehörige.Arbeitslosesind Personen, die sich alsArbeitssuchende beim Arbeitsamt gemeldet haben. Offene Stellen sind zu besetzende Arbeitsplätze, diedurch Arbeitgeber beim Arbeitsamt gemeldet sind. Die Arbeitslosenquote ist die Anzahl der Arbeitslosendividiert durch die Anzahl der abhängigen Erwerbstätigen (ohne Soldaten). Es gibt mehrere Definitionenfür die Arbeitslosenquote. Die Zahl, die variiert, ist die, durch die dividiert wird. Man kann die Arbeitslo-senquote z. B. verringern, indem man nicht durch dieAnzahl der abhängigen Erwerbstätigen sondern allerErwerbstätigen dividiert. Da diese Quote ein starkes politisches Mittel ist, sollte man immer beachten,wie sie definiert ist. Dieses muß man auch beim Vergleich zwischen verschiedenen Ländern tun.

Die folgenden Tabellen fassen einige Ergebnisse der Erwerbs– und Beschäftigtenstatistik zusammen.

Wohnbevölkerung nach dem Erwerbskonzept in 1000 (Durchschnittswerte)

1992 1993 1994 1995 1996 1997 1998 1999

Wohnbevölkerung 80595 81180 81422 81661 81896 82053 82029 82087Erwerbspersonen 40449 40431 40598 40531 40700 41019 41166 41307Erwerbslose 2564 3075 3319 3201 3490 3888 3687 3428ErwerbstätigeInländerinsgesamt 37885 37356 37279 37330 37210 37131 37479 37879davonArbeitnehmer 34243 33667 33491 33498 33371 33217 33500 33939Selbständige 3642 3689 3788 3832 3839 3914 3979 3940

Quelle: Statistisches Bundesamt, Wirtschaft und Statistik 9/2000 (S. 659)

Die Verlagerung der Erwerbstätigkeit vom primären und sekundären Sektor in den tertiären Sektor läßtsich an folgender Tabelle ablesen.

Erwerbstätige nach Wirtschaftsbereichen in 1000 (Durchschnittswerte) Gesamtdeutschland1994 1995 1996 1997 1998 1999

Land- und Forstwirtschaft und Fischerei 1172 1115 1008 991 994 975Produzierendes Gewerbe ohne Baugewerbe 9229 9001 8745 8586 8598 8542Baugewerbe 3165 3227 3126 2999 2901 2826Handel, Gastgewerbe und Verkehr 9313 9309 9326 9344 9450 9554Finanzierung, Vermietung undUnternehmensdienstleister 4248 4404 4566 4728 4979 5268Öffentliche und private Dienstleister 10177 10326 10499 10546 10618 10777Erwerbstätige insgesamt 37304 37382 37270 37194 37540 37942

Quelle: Statistisches Bundesamt, Wirtschaft und Statistik 9/2000 (S. 663)

Von besonderem Interesse sind die Statistiken der Arbeitsämter. Die Entwicklung der Arbeitslosenzahlenin den letzten Jahren läßt sich aus der folgenden Tabelle ablesen.

85

Page 91: Skriptum Statistik I und II

ArbeitsloseGesamtdeutschland

Jahres- Bundesgebiet Arbeitslosen- Männer Frauendurchschnitt insgesamt quote

1996 3 965 064 11.5 2 111 546 1 853 5181997 4 384 456 12.7 2 342 383 2 042 0731998 4 279 288 12.3 2 272 655 2 006 6331999 4 099 209 11.7 2 159 776 1 939 4332000 3 888 652 10.7 2 052 846 1 835 806

Arbeitslosealte Bundesländer

Jahres- alte Bundesländer Arbeitslosen- Männer Frauendurchschnitt insgesamt quote

1996 2 796 243 10.1 1 616 501 1 179 7421997 3 020 900 11.0 1 740 717 1 280 1831998 2 904 339 10.5 1 640 797 1 263 5431999 2 755 527 9.9 1 535 525 1 220 0022000 2 529 374 8.7 1 398 119 1 131 256

Am Ende dieses Abschnitts geben wir einen Überblick über die Bruttojahresverdienste von Angestelltenan.

Durchschnittliche Bruttojahresverdienste der Angestellten in DM für 1999Neue Bundesländer Alte Bundesländer

Männer Frauen Männer Frauen

Produzierendes Gewerbe 67 620 50 724 87 864 62 256Verarbeitendes Gewerbe 66 972 49 452 88 440 62 664Ernährungsgewerbe und Tabakverarbeitung 60 840 40 764 79 728 57 528Hoch- und Tiefbau 67 308 47 592 84 504 55 500Energie- und Wasserversorgung 68 952 55 776 81 324 60 672

12.4 Indexrechnung

Indizes sind Kennzahlen zur Charakterisierung der zeitlichen Entwicklung quantitativer Größen. TypischeBeispiele sind Preis- und Umsatzindizes.

12.4.1 Einfache Indizes

Gegeben ist eine Zeitreihe von Größen. Die Größe wird mitG bezeichnet, während die Zeitreihe durchdie FolgeG0,G1, . . . Gt repräsentiert wird.

Definition: Das Verhältnis:

I0−t (G) = Gt

G0(12.5)

heißt Meßzahl oder einfacher Index vonG auf Basis 0. Dabei werden die BezeichnungenGt für abso-lute Werte, 0 für den Basiszeitpunkt (Zeitraum) undt für den Berichtszeitpunkt (Zeitraum) verwendet.Meßzahlen werden häufig in Prozenten angegeben:

I0−t (G) = Gt

G0· 100 (12.6)

Ein zentrales Problem ist die Umstellung von Indizes auf einen neuen Basiszeitraum. DieserVorgang wirdals Umbasierung von Meßzahlreihen bezeichnet. Gegeben seien die absolutenWerteG0,G1, . . . G

′t . . . Gt

und die Indizes 1, I0−1(G), . . . , I0−t ′(G), . . . , I0−t (G) auf Basis 0. Ein Index kann ohne Kenntnis derabsoluten Werte auf die neue Basist ′ umgestellt werden:

It ′−t (G) = I0−t (G)

I0−t ′(G)(12.7)

86

Page 92: Skriptum Statistik I und II

Die letzte Formel folgt aus der Identität:

It ′−t (G) = Gt

Gt ′= Gt/G0

Gt ′/G0= I0−t (G)

I0−t ′(G)(12.8)

Daraus ergibt sich die Kettenformel:

I0−t (G) = I0−t ′(G)It ′−t (G) (12.9)

12.4.2 Preis- und Mengenindexzahlen

Zur Zusammenfassung der Entwicklung mehrerer GrößenG(i), i = 1, . . . m werden zusammengesetzte(gewichtete) Indizes benutzt. Folgende Bezeichnungen werden verwendet:

Symbol Bezeichnung

p Preisq Menge

u = p · q Wert (Umsatz, Ausgaben)0 Basiszeitpunkt1 Berichtszeitpunkt

p(i)t Preis pro Einheit deri-ten Ware zum Zeitpunktt

q(i)t Menge deri-ten Ware zum Zeitpunktt

Ein Preisindex aller betrachteten Waren in einem Warenkorb{q(1)t , q

(2)t , . . . q

(m)t } zum Zeitpunktt läßt

sich auf folgende Arten konstruieren.

1. Arithmetisches Mittel der Preismeßzahlen:

I0−1(p) = 1

m

m∑i=1

p(i)1

p(i)0

Problem: Keine Berücksichtigung der Mengen.

2. Index des mit den Mengen gewichteten arithmetischen Mittels der Preise:

I0−1(p) =

m∑i

p(i)1 q

(i)1 /

m∑i

q(i)1

m∑i

p(i)0 q

(i)0 /

m∑i

q(i)0

=

m∑i

p(i)1 q

(i)1

m∑i

p(i)0 q

(i)0

·

m∑i

q(i)0

m∑i

q(i)1

Problem: unterschiedliche Mengen werden berücksichtigt (Änderung des Konsumverhaltens).

3. Mengen werden konstant gehalten: Werden die Mengen der Basisperiode konstant gehalten, erhältman den Preisindex vonLaspeyres:

IL0−1(p) =

m∑i

p(i)1 q

(i)0

m∑i

p(i)0 q

(i)0

Werden die Mengen der Berichtsperiode konstant gehalten, erhält man den Preisindex vonPaasche:

IP0−1(p) =

m∑i

p(i)1 q

(i)1

m∑i

p(i)0 q

(i)1

87

Page 93: Skriptum Statistik I und II

Ähnlich wie bei der Konstruktion eines Preisindex kann bei der Konstruktion eines Mengenindex verfahrenwerden.

1. Outputmeßzahl:

I0−1(q) =

m∑i

q(i)1

m∑i

q(i)0

2. Umsatzmeßzahl:

I0−1(p · q) =

m∑i

q(i)1 p

(i)1∑

i

q(i)0 p

(i)0

3. Mengenindex nachLaspeyres:

IL0−1(q) =

m∑i

p(i)0 q

(i)1

m∑i

p(i)0 q

(i)0

4. Mengenindex nachPaasche:

IP0−1(q) =

m∑i

p(i)1 q

(i)1

m∑i

p(i)1 q

(i)0

Durch die beiden letzten Indizes wird die Änderung von Warenkörben zu konstanten Preisen gemessen.Beispiel zur Indexrechnung: Im Zeitraum von 4 Jahren hat man folgende Preis- und Mengenentwick-

lung beim durchschnittlichen Verbrauch von 3 Gütern gefunden:

Zeitpunkt t = 0 t = 1 t = 2 t = 3q

(i)0 p

(i)0 q

(i)1 p

(i)1 q

(i)2 p

(i)2 q

(i)3 p

(i)3

Zigaretten (Stück) 476 0.12 553 0.11 598 0.13 709 0.16Limonade (Liter) 21 1.1 25 1.25 30 1.2 29 1.2Kaffee (kg) 0.6 12 0.8 13 1.2 14 1.3 15

Preisindizes vonLaspeyres für Basiszeitpunkt 0 und Berichtszeiten 2 und 3:

IL0−2(p) = 476· 0.13+ 21 · 1.2 + 0.6 · 14

476· 0.12+ 21 · 1.1 + 0.6 · 12= 1.092 (12.10)

IL0−3(p) = 476· 0.16+ 21 · 1.2 + 0.6 · 15

476· 0.12+ 21 · 1.1 + 0.6 · 12= 1.262 (12.11)

Preisindex und Mengenindex vonPaasche für Basiszeit 0 und Berichtszeit 1:

IP0−1(p) = 553· 0.11+ 25 · 1.25+ 0.8 · 13

553· 0.12+ 25 · 1.1 + 0.8 · 12= 0.9905 (12.12)

IP0−1(q) = 553· 0.11+ 25 · 1.25+ 0.8 · 13

476· 0.11+ 21 · 1.25+ 0.6 · 13= 1.1859 (12.13)

Umsatzmeßzahl für Basiszeitpunkt 1 und Berichtszeit 2:

I1−2(p · q) = 598· 0.13+ 30 · 1.2 + 1.2 · 14

553· 0.11+ 25 · 1.25+ 0.8 · 13= 1.2738 (12.14)

88

Page 94: Skriptum Statistik I und II

12.4.3 Erweiterung des Indexschemas

Bei der Berechnung des Preisindex nachLaspeyres wird von der Annahme ausgegangen, daß die Wa-renkörbe zum Basiszeitpunkt und zum Berichtszeitpunkt qualitativ und mengenmäßig gleich sind. Pro-blematisch ist daher die Berücksichtigung von Waren, die erst nach dem Basiszeitpunkt auf dem Markteingeführt werden (z. B. CD–Player). Sei 0 der Basiszeitpunkt mit Warenkorb{q(1)

0 , q(2)0 , . . . , q

(m)0 }. Sei

1 der Zeitpunkt der Einführung einer neuen Ware und 2 sei der Berichtszeitpunkt. Da die Warem + 1 zu0 noch nicht existiert hat, ist sie (aber nur sie) im Warenkorb mit der zum Zeitpunkt 1 gültigen Mengerepräsentiert. Somit gilt zum Zeitpunkt 1 der Warenkorb{q(1)

0 , q(2)0 , . . . , q

(m)0 , q

(m+1)1 }. Man berechnet

einen IndexI0−1 mit dem alten Warenkorb:

I0−1 =

m∑i

p(i)1 q

(i)0

m∑i

p(i)0 q

(i)0

(12.15)

sowie einen IndexI1−2 mit dem um die neue Ware erweiterten Korb:

I1−2 =

m∑i

p(i)2 q

(i)0 + p

(m+1)2 q

(m+1)1

m∑i

p(i)1 q

(i)0 + p

(m+1)1 q

(m+1)1

(12.16)

Der gesuchte Index wird durch Verkettung ermittelt:

I v0−2 = I0−1 · I1−2 (12.17)

Durch dieses Verfahren wird erstens gewährleistet, daß die Preisentwicklung der ursprünglichenm Warennormal nachLaspeyres berechnet wird. Zweitens wird für die zum Zeitpunkt 1 eingeführte Ware einfiktiver Preisp(m+1)

0 ermittelt, für den gilt:

p(m+1)1

p(m+1)0

= I0−1 (12.18)

Damit wird angenommen, daß die (hypothetische) Preisentwicklung des Gutesm + 1 mit der durch-schnittlichen Preisentwicklung der Waren 1 bism übereinstimmt.

Beispiel zur Erweiterung: Im vorigen Beispiel wird zum Zeitpunktt = 2 ein neues Gut mitq(4)2 = 2.2

undp(4)2 = 2.13 bzw.p(4)

3 = 2.29 eingeführt. Man berechneIL0−3(p) unter Berücksichtigung des neuen

Gutes.

IL0−3(p) = IL

0−2(p) · IL2−3(p) mit IL

0−2(p) = 1.092 (12.19)

IL2−3(p) = 476· 0.16+ 21 · 1.2 + 0.6 · 15+ 2.2 · 2.29

476· 0.13+ 21 · 1.2 + 0.6 · 14+ 2.2 · 2.13= 1.152 (12.20)

IL0−3(p) = 1.092· 1.152= 1.258 (12.21)

12.4.4 Ausgewählte Indizes der wirtschaftlichen Entwicklung

Die Indexrechnung dient vor allem der übersichtlichen Darstellung der Entwicklung der gesamten Volks-wirtschaft sowie einzelner Sektoren bzw. Branchen im Hinblick auf eine Reihe von Variablen, derenwichtigste in folgenden Teilbereichen zusammengefaßt werden (vgl.Abels (1993)):

1. Preisentwicklung: Preisindizes für die Lebenshaltung - Indizes der Erzeugnisse industrieller Pro-dukte.

2. Nachfrageentwicklung: Umsatzindizes des Auftragseinganges - Indizes des Auftragsbestandes.

89

Page 95: Skriptum Statistik I und II

3. Produktionsentwicklung: Industrielle Produktion und Produktionswerte - Indizes der industriellenNettoproduktion - Indizes der industriellen Bruttoproduktion.

4. Einkommensentwicklung: Indizes der Effektivverdienste - Indizes der Tarifverdienste.

5. Arbeitsproduktivität: Produktivitätsindizes.

6. Außenhandel: Außenhandelswerte - Außenhandelsvolumen - Außenhandelsindizes.

Als Indikator der (Verbraucher)-Preisentwicklung werden Preisindizes sowohl für den durchschnittlichenHaushalt (2.7 Personen, 0.7 Kinder unter 18 Jahren) als auch typische Haushalte wie Haushalte vonEinzelpersonen, Vierpersonenhaushalte (Eltern, zwei Kinder), etc. berechnet. Grundlage dieser Indizessind einerseits die Ergebnisse der im Abstand von 3 bis 5 Jahren durchgeführten Einkommens- undVerbrauchsstichprobe, andererseits aber auch laufende Wirtschaftsberechnungen ausgewählter privaterHaushalte.

Preisindex (Laspeyres) für die Lebenshaltung aller privaten Hauptgruppen (Basis 1995)

Gewichtung 1995 1996 1997 1998 1999 2000

Lebenshaltung insgesamt 1000.00 100.0 101.4 103.3 104.3 104.9 106.9

Nahrungsmittel und alkoholfreie Getränke 131.26 100.0 100.6 102.0 103.0 101.7 101.2Alkoholische Getränke, Tabakwaren 41.67 100.0 100.8 102.7 104.7 106.0 107.5Bekleidung und Schuhe 68.76 100.0 100.7 101.1 101.5 101.8 102.0Wohnung, Wasser, Strom, Gas undandere Brennstoffe 274.77 100.0 102.4 105.1 106.0 107.4 110.9Einrichtungsgegenstände u.ä.für denHaushalt sowie deren Instandhaltung 70.56 100.0 100.7 101.1 101.8 102.1 102.1Gesundheitspflege 34.39 100.0 101.5 108.7 114.4 110.6 111.0Verkehr 138.82 100.0 102.4 104.3 104.7 107.6 113.6Nachrichtenübermittlung 22.66 100.0 100.9 97.9 97.3 88.2 84.5Freizeit, Unterhaltung und Kultur 103.57 100.0 100.4 102.5 103.1 103.4 104.5Bildungswesen 6.51 100.0 103.7 107.8 112.9 117.5 119.3Beherbergungs- undGaststättendienstleistungen 46.08 100.0 101.1 102.1 103.6 104.9 106.2Andere Waren und Dienstleistungen 60.95 100.0 100.5 102.3 102.8 104.5 106.8

90

Page 96: Skriptum Statistik I und II

Anhang

Mengenlehre

Eine Menge ist eine Zusammenfassung von Objekten. Eine Menge ist definiert, wenn von jedem beliebigenObjekt feststeht, ob es zur Menge gehört oder nicht. Die zur Menge gehörenden Objekte heißenElementedieser Menge.a ∈ A bedeutet, daßa ein Element der MengeA ist. a �∈ A heißt, daßa kein Element derMengeA ist. Die Menge, die kein Element enthält, heißtleere Mengeund wird mit { } oder ∅ bezeichnet.A = {a1, . . . , an} bedeutet, daßA aus den Elementena1, . . . , an besteht. Ist eine MengeA dadurchbestimmt, daß ihre Elemente die EigenschaftE besitzen, so schreibt manA = {a|E(a)}. Zwei MengenAundB heißen gleich(A = B), wenn sie die selben Elemente enthalten.A heißtTeilmengevonB, A ⊂ B,wenn jedes Element vonA auch zuB gehört.A ist genau dann gleichB, wenn gilt:A ⊂ B undB ⊂ A.Die VereinigungvonA undB ist die Menge der Elemente, die zuA oderB gehören:

A ∪ B = {a|a ∈ A odera ∈ B}DerDurchschnittvonA undB ist die Menge der Elemente, die sowohl zuA als auch zuB gehören.

A ∩ B = {a|a ∈ A unda ∈ B}Die Vereinigung der MengenAn, n ∈ N, ist die Menge der Elemente, die mindestens zu einerAn gehören.

∪n∈NAn = {a|a ∈ An für mindestens einn ∈ N}

Der Durchschnitt der MengenAn, n ∈ N, ist die Menge der Elemente, die zu allenAn gehören.

∩n∈NAn = {a|a ∈ An für allen ∈ N}

A undB heißendisjunkt, wenn gilt:A ∩ B = ∅ Für beliebige TeilmengenA ⊂ * ist A = {a|a �∈ A unda ∈ *} dasKomplementvonA. A1, . . . , An bilden eineZerlegungder Menge*, wenn gilt:

1. Ai ∩ Aj = ∅ für i �= j 1 ≤ i, j ≤ n

2. A1 ∪ . . . ∪ An = *.

Einige Rechenregeln für Mengen:

A ∪ B = B ∪ A

(A ∪ B) ∪ C = A ∪ (B ∪ C)

A ∩ B = B ∩ A

(A ∩ B) ∩ C = A ∩ (B ∩ C)

A ∪ ∅ = A

A ∩ ∅ = ∅(A ∪ B)c = Ac ∩ Bc ⇐⇒ A ∪ B = A ∩ B

(A ∩ B)c = Ac ∪ Bc ⇐⇒ A ∩ B = A ∪ B

Produkte von Mengen: n nicht notwendig verschiedene Elementea1, . . . , an in einer bestimmten Reihen-folge bilden einn-Tupel(a1, . . . , an). (a1, a2) heißt einPaar, (a1, a2, a3) ein Tripel. Ist a1 �= a2, so gilt(a1, a2) �= (a2, a1), da das Tupel die Reihenfolge vona1 unda2 eindeutig festlegt.

A × B = {(a, b)|a ∈ A undb ∈ B}heißtkartesisches Produktder MengenA undB. Für A �= B ist A × B �= B × A. Ist A1 ⊂ A2 undB1 ⊂ B2, so istA1 × B1 ⊂ A2 × B2.

91

Page 97: Skriptum Statistik I und II

Das Summenzeichen

Ein Hilfsmittel zur Vereinfachung umfangreicher Formeln ist dasSummenzeichen1. Man setzt:

a1 + a2 + . . . + an =n∑

i=1

ai

i heißt Summationsindex. Die Menge (1,2, . . . , n,), über die der Summationsindex läuft, heißtSumma-tionsbereich. Offenbar gilt dann: Die Summe ist unabhängig von der Wahl des Summationsindex.

n∑i=1

ai =n∑

j=1

aj

Ein allen Summanden gemeinsamer Faktorc kann vor die Summe gezogen werden (Distributivgesetz).

n∑i=1

cai = c

n∑i=1

ai

Summen mit gemeinsamen Summationsbereich können zusammengezogen werden.

n∑i=1

ai +n∑

j=1

bj +n∑

k=1

ck =n∑

i=1

(ai + bi + ci)

Hat man alle Elemente des zweifachen indizierten Zahlenschemas(aij : i = 1 . . . m; j = 1 . . . n) :a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

am1 am2 . . . amn

zu summieren, dann läßt sich das mit Hilfe einer Doppelsumme leicht formulieren. Die SummeS istgegeben durch:

S =m∑

i=1

n∑

j=1

aij

=

n∑j=1

(m∑

i=1

aij

)

Im ersten Fall wird zuerst, bei festem Zeilenindexi, über den Spaltenindexj summiert, und dann die sogewonnenen Zeilensummen voni = 1 bisi = n aufsummiert. Im zweiten Fall geht man umgekehrt vor.Beide Formeln liefern aber offenbar das gleiche Resultat, nämlich die gewünschte SummeS alleraij . Esgilt die Regel:

m∑i=1

n∑

j=1

aij

=

n∑j=1

(m∑

i=1

aij

)

Da es auf die Summationsreihenfolge nicht ankommt, läßt man die (überflüssigen) Klammern fort undschreibt:

m∑i=1

n∑j=1

aij

Selbstverständlich können diese Betrachtungen aufk-fach indizierte Summanden ausgedehnt werden.Man hat dann Summanden der Form:

m1∑ji=1

m2∑j2=1

. . .

mk∑jk=1

aj1,j2,...jk

92

Page 98: Skriptum Statistik I und II

Hat man das Produkt der beiden Summen∑m

i=1 ai und∑n

j=1 bj zu bilden, so werden folgende Regeln(Produktregel) verwendet:(

m∑i=1

ai

) n∑j=1

bj

=

m∑i=1

n∑j=1

aibj

Hingegen gilt im allgemeinen (mit Ausnahme von Spezialfällen):(m∑

i=1

ai

) m∑j=1

bj

�=

m∑i=1

aibi

Für Dreifachprodukte gilt:(m∑

i=1

ai

) n∑j=1

bj

( p∑

k=1

ck

)=

m∑i=1

n∑j=1

p∑k=1

aibj ck

Für Potenzen gilt:(m∑

i=1

ai

)2

=(

m∑i=1

ai

) m∑j=1

aj

=

m∑i=1

m∑j=1

aiaj

Allgemein:(m∑

i=1

ai

)k=

m∑i1=1

. . .

m∑ik=1

ai1 · · · aik

Exponentialfunktion und Logarithmus

exp(x) = ex heißt Exponentialfunktion und ist definiert aufR. Es gilt: exp(1) = e = 2.718281. . .

ex =∞∑k=0

xk

k! für − ∞ < x < ∞

Ableitung:(ex)′ = ex . Dabei bezeichnetf (x)′ die erste Ableitung vonf nachx.Additionstheorem:ex+y = exey . Der natürliche Logarithmus lnx ist definiert als die Umkehrfunktion derExponentialfunktion, also durch:

exp(ln x) = ln ex = x

Da ex nur positive Werte annehmen kann, ist der Definitionsbereich von lnx die positive reelle Zahlen-gerade(0, ∞). Der natürliche Logarithmus besitzt die folgende Reihenentwicklung:

ln(1 + x) =∞∑k=1

(−1)k+1xk

kfür − 1 < x ≤ 1

Ableitung: (lnx)′ = 1x. Rechenregel: ln(x · y) = ln x + ln y. Mit log x wird meistens die Umkehrfunktion

von 10x bezeichnet.

93

Page 99: Skriptum Statistik I und II

Differential- und Integralrechnung

Differentialrechnung

f (x) sei eine stetige Funktion mit dem DefinitionsbereichI = (a, b), (a, ∞), (−∞, b) oderR. Existiert

limx→x0;x �=x0

f (x) − f (x0)

x − x0

so heißtf (x) an der Stellex0 differenzierbar.

f ′(x0) = limx→x0;x �=x0

f (x) − f (x0)

x − x0

heißt Ableitung (oder Differentialquotient) vonf (x) an der Stellex0. Ist f (x) in jedem Punktx0 ∈ I

differenzierbar, so heißtf (x) differenzierbar inI und f ′(x) oder ddx

f (x) Ableitung vonf (x) in I .Anschaulich istf ′(x0) die SteigungLy0

Lx0der Tangente an der durch die Gleichungy = f (x) bestimmten

Kurve im Punktx0. Einige wichtige Regeln sind:

(c · f (x))′ = c · f ′(x) , c ∈ R

(f1(x) + f2(x))′ = f ′

1(x) + f ′2(x),

(f1(x) · f2(x))′ = f ′

1(x)f2(x) + f1(x)f′2(x)(

f1(x)

f2(x)

)′= f ′

1(x)f2(x) − f ′2(x) · f1(x)

f 22 (x)

für f2(x) �= 0

Sindf1 undf2 zwei differenzierbare Funktionen, für die der Definitionsbereich vonf2 den Wertebereichvonf1 enthält, so gilt die Kettenregel:

(f2(f1(x)))′ = f ′

2(f1(x)) · f ′1(x)

Beispiele:

f (x) f ′(x) Definitionsbereichc 0 R

x 1 R

x2 2x R

xn n xn−1R für n �= 0

ex exR

ln x 1x

R für x ∈ (0, ∞)

ax ax ln a R für a > 0e−x2

e−x2 · (−2x) R

Integralrechnung

Zunächst seif (x) eine positive stetige Funktion über dem Intervall [a, b].∫ b

af (x)dx entspricht der

Fläche unter der Kurve (x, f (x)) über dem Intervall [a, b]. f (x) sei nun eine beliebige Funktion.F(x)

heißt Stammfunktion vonf (x), falls in dem Definitionsbereich vonf (x) gilt:

F ′(x) = f (x)

Jede stetige Funktionf (x)besitzt eine StammfunktionF(x). Zwei Stammfunktionen einer Funktionf (x)

unterscheiden sich nur um eine additive Konstante. Beispielsweise sindx3 + x2/2 + 4 undx3 + x2/2Stammfunktionen von 3x2 + x. Ist F(x) eine Stammfunktion vonf (x) und liegt [a, b] im Definitions-bereich vonF(x), so ist:∫ b

a

f (x) dx = F(b) − F(a)

94

Page 100: Skriptum Statistik I und II

Existieren limb→∞ F(b) oder lim

a→−∞ F(a) oder beide Grenzwerte, so gilt:∫ ∞

a

f (x) dx = limb→∞ F(b) − F(a) bzw.

∫ b

−∞f (x) dx = F(b) − lim

a→−∞ F(a) bzw.

∫ ∞

−∞f (x) dx = lim

b→∞ F(b) − lima→−∞ F(a)

Beispiel: Das bestimmte Integral∫ 4

2 x dx ist zu berechnen.F(x) = x2/2 ist eine Stammfunktion vonf (x) = x. Daher gilt∫ 4

2x dx = F(4) − F(2) = 42

2− 22

2= 6

Wichtige Regeln: Es seienF(x) undG(x) die Stammfunktionen vonf (x) bzw.g(x) unda, b, c, d ∈ R∫ b

a

c · f (x) + d · g(x) dx = c

∫ b

a

f (x) dx + d ·∫ b

a

g(x) dx

∫ z

a

f (x) dx +∫ b

z

f (x) dx =∫ b

a

f (x) dx für a ≤ z ≤ b

∫ b

a

f (x)g(x) dx = (F (b) · g(b) − F(a) · g(a)) −∫ b

a

F (x)g′(x) dx

f (x) F (x) Beispiel

xn xn+1

n + 1

∫ 4

−1x3 dx = 44

4− (−1)4

4= 63

3

4

ecx ecx

c für c �= 0∫ 10

0e−x dx = −e−10 − (−e0) = 1 − e10

Beispiele für partielle Integration: Zu berechnen ist:∫ 3

0x2e2x dx

Hier setzt manf (x) = e2x undg(x) = x2 und erhält:∫ 3

0x2e2x dx =

(32 · e2·3

2− 02 · e2·0

2

)−∫ 3

02x · e2x

2dx

= 4.5 · e6 −∫ 3

0xe2x dx

Neuerliche Anwendung der partiellen Integration mitf (x) = e2x undg(x) = x ergibt:∫ 3

0xe2x dx =

(3 · e2·3

2− 0 · e2·0

2

)−∫ 3

01 · e2x

2dx

= 1.5 · e6 −(

e2·3

4− e2·0

4

)= 1.5e6 − 0.25e6 + 0.25

Somit ist:∫ 3

0x2e2x dx = 3.25e6 − 0.25

95

Page 101: Skriptum Statistik I und II

Matrizenrechnung

Begriff der Matrix

Eine Matrix ist ein Rechteckschema von Zahlen; z.B.:(1 2 34 5 6

)oder

( −1 3 58 10 76

)Matrizen werden mit großen Buchstaben bezeichnetA, B, 1 2 usw. Eine Matrix besitztm Zeilen undnSpalten. Man schreibt auch, die Matrix hat die Ordnung(m × n). Allgemein wird die(m × n) Matrix A

so dargestellt:

A =

a11 a12 a13 . . . a1n

a21 a22 a23 . . . a2n

a31 a32 a33 . . . a3n...

......

. . ....

am1 am2 am3 . . . amn

Ein einzelnes Element bezeichnet man mitaij , i bezeichnet die Zeile undj die Spalte, in der sich dasElement befindet.

A = 1 2 3

4 5 67 8 9

!⇒ a11 = 1, a22 = 5, a23 = 6, a31 = 7

Wir nennen Matrizen, die nur aus einer Zeile oder einer Spalte bestehen, Zeilenvektoren bzw. Spaltenvek-toren. Die in deri-ten Zeile vonA stehenden Elementeai1, . . . , ain bilden somit deni-ten Zeilenvektor.

ai• = (ai1, . . . , ain)

vonA. Die in derj -ten Spalte vonA stehenden ElementeA1j , . . . , amj bilden den j-ten Spaltenvektor

a•j = a1j

...

amj

Definition: Zwei (m × n) MatrizenA undB heißen gleich, wenn die einander entsprechenden Elementegleich sind, d.h.A = B ⇐⇒ aij = bij (i = 1, . . . , m; j = 1, . . . , n).Definition: Eine Matrix, deren Elemente sämtlich gleich Null sind, heißt Nullmatrix 0.Definition: Eine quadratische Matrix, deren Elemente außerhalb der Hauptdiagonalen Null sind(aij =0 für i �= j), wird Diagonalmatrix genannt:

D =

a11 0 · · · 00 a22 · · · 0...

.... . .

...

0 0 · · · ann

Die Elemente der Hauptdiagonale können ebenfalls gleich Null sein.Definition: Eine quadratische Matrix, deren Elemente außerhalb der Hauptdiagonalen Null und derenDiagonalelemente alle gleich 1 sind, heißt EinheitsmatrixI :

I =

1 0 · · · 00 1 · · · 0...

.... . .

...

0 0 · · · 1

Ist m = n = 1, d.h.A hat nur ein einziges Element, so ista11 ein Skalar (eine reelle Zahl). Schreibweise:A11 = (a11) = (a) = a (Skalare werden mit kleinen Buchstaben bezeichnet.)

2Da es sich bei allen im folgenden Kapitel auftretenden Variablen um Vektoren oder Matrizen handelt, wird von einerbesonderen typographischen Kennzeichnung abgesehen

96

Page 102: Skriptum Statistik I und II

Einfache Rechenregeln

Für das allgemeine Rechnen mit Matrizen werden die folgenden Regeln gesetzt:Definition: SindA = (aij )

undB = (bij ) zwei Matrizen von jem-Zeilen undn-Spalten, so wird als Summe (Differenz) vonA,B

die (m × n)-Matrix C = A ± B = (cij ) mit cij = aij ± bij erklärt. Bemerkung: Die Summe (Differenz)zweier Matrizen mit ungleicher Ordnung ist nicht definiert!

c11 · · · c1n...

. . ....

cm1 · · · cmn

=

a11 · · · a1n

.... . .

...

am1 · · · amn

±

b11 · · · b1n

.... . .

...

bm1 · · · bmn

= a11 ± b11 · · · a1n ± b1n

.... . .

...

am1 ± bm1 · · · amn ± bmn

Die Addition ist kommutativ:

A + B = B + A

Die Addition ist assoziativ:

A + (B + C) = (A + B) + C = A + B + C

Setzt man in der SummendefinitionB = A und schreibt, wie naheliegend,A + A = 2A, so kommt manverallgemeinernd zur nächsten Regel.Definition: Das ProduktkA oderAk einer(m × n)-Matrix A miteiner Zahlk (einem Skalar) ist die(m×n)-Matrix, bei der jedes Element dask-fache des entsprechendenvonA ist:

kA = Ak = ka11 · · · ka1n

.... . .

...

kam1 · · · kamn

Für das Zahlenprodukt einer Matrix gilt:

• kA + kB = k(A + B)

• kA + lA = (k + l)A

• k(lA) = (klA) = (lk)A = l(kA)

Transponierte Matrix, symmetrische Matrix

Für Operationen mit Matrizen ist es erforderlich, Zeilen und Spalten der Matrix zu vertauschen. Dazuführen wir die Transposition von Matrizen ein.Definition: Die TransponierteAT einer(m × n) Matrix A ist diejenige(n × m) Matrix, die ausA durchVertauschen der Zeilen und Spalten hervorgeht. Bezeichnen wir die Elemente vonAT mit aT

ij und die vonA wie üblich mitaij so gilt:

aij = (aT )ji (i = 1, . . . , n, k = 1, . . . , m)

Offenbar besteht die Beziehung(AT )T = A

A =(

a1 b1 c1

a2 b2 c2

), AT =

a1 a2

b1 b2

c1 c2

Definition: Eine quadratische MatrixA heißt symmetrisch, wenn giltAT = A, d.h.aij = aji (i, j =1, . . . , n). Die nächste Matrix ist ein Beispiel.

A = −1 3 −1

3 4 5−1 5 0

= AT

97

Page 103: Skriptum Statistik I und II

Matrizenmultiplikation

Definition: Das ProduktAB der(m×n)-Matrix A mit der(n×p)-Matrix B ist diejenige(m×p)-MatrixC = (cil), für die gilt:

cil =n∑

j=1

aijbjl (i = 1, . . . m; l = 1, . . . , p)

Damit sehen wir, daß eine Multiplikation nicht zwischen beliebigen Matrizen möglich ist, sondern daßdie Spaltenzahl vonA mit der Zeilenzahl vonB übereinstimmen muß.

A =(

2 4 3−1 0 5

), B =

−1 3

2 −43 −2

A ist ein(2 × 3)-Matrix undB eine(3 × 2)-Matrix. Daher existiertAB, und zwar gilt:

AB =(

2 4 3−1 0 5

)· −1 3

2 −43 −2

=(

2 · (−1) + 4 · 2 + 3 · 3 2 · 3 + 4 · (−4) + 3 · (−2)(−1) · (−1) + 0 · 2 + 5 · 3 (−1) · 3 + 0 · (−4) + 5 · (−2)

)

=(

15 −1616 −13

)

Unter Verwendung der Zeilenvektoren vonai· von A und der Spaltenvektorenb·j von B kann man dieMultiplikation auch in der Form

cil = ai. · b.l =n∑

j=1

aij · bjl

schreiben. Für die Matrizenmultiplikation gelten die folgenden Regeln:

1. A(BC) = (AB)C (Assoziativgesetz)

2. A(B + C) = AB + AC (Distributivgesetz)

3. (A + B)C = AC + BC (Distributivgesetz)

4. k(AB) = (kA) · B = A(kB) (Assoziativgesetz für die Skalarmultiplikation)

Eine Matrix heißtidempotent, wenn gilt:

A2 = A · A = A

Für das Rechnen mit transponierten Matrizen gelten die folgenden Gesetze:

1. AT T = A (zweimalige Transposition hebt sich auf)

2. (A + B)T = AT + BT

3. (kA)T = kAT , mit k als Skalar

4. (AB)T = BTAT

Für jede beliebige MatrixA sind die MatrizenAAT undATA stets definiert, quadratisch und symmetrisch.Der Beweis ergibt sich aus (1) und (4).

98

Page 104: Skriptum Statistik I und II

Spur einer Matrix

Die Summe der Diagonalelemente einer quadratischen Matrix wird Spur (englischtrace) der Matrixgenannt.

Spur(A) = tr(A) =n∑

i=1

aii

Die Spur eines Skalars ist der Skalar selbst. Für die Spur eines Produktes gilt :

Spur(AB) = Spur(BA)

Determinante einer Matrix

Definition: SeiA = (aij ) eine quadratische Matrix der Ordnung n. Als Determinante vonA bezeichnetman:

1. det(A) = a11, falls n = 1

2. det(A) = a11 · a22 − a12a21, falls n = 2

3. det (A) = ∑nj=1(−1)i+j aij det(Aij ) für beliebigesi = 1,2 . . . , n, wobei die(n − 1 × n −

1)−Matrix Aij ausA durch Streichung der i-ten ZeileAi. und der j-ten SpalteAj. hervorgeht.Durch wiederholte Anwendung von (3) kann man rekursiv alle rechts stehenden Determinanten aufden Fall (2) zurückführen.

Beispiel: Fall einer(3 × 3)-Matrix A; Entwicklung nach (3) füri = 1

det

a11 a12 a13

a21 a22 a23

a31 a32 a33

= a11 det

(a22 a23

a32 a33

)− a12 det

(a21 a23

a31 a33

)+ a13 det

(a21 a22

a31 a32

)

= a11 · a22 · a33 − a11 · a23 · a32 − a12 · a21 · a33 + a12 · a23 · a31 + a13 · a21 · a32 − a13 · a22 · a31

Eigenschaften von Determinanten: SeiA eine quadratische Matrix der Ordnungn und det(A) die De-terminante vonA. Dann gilt:

1. det(A) = det(AT )

2. Vertauscht man inA zwei Zeilen (bzw. Spalten), so ändert det(A) das Vorzeichen.

3. Addiert man zu einer Zeile (bzw. Spalte) vonA eine beliebige Linearkombination der anderenZeilen (bzw. Spalten), so ändert sich det(A) nicht.

4. Multipliziert man die Elemente einer Zeile (bzw. Spalte) vonA mit einem Skalark, so wird det(A)

mit k multipliziert.

5. Sind inA zwei Zeilen (bzw. Spalten) gleich, so gilt det(A) = 0.

6. det(I ) = 1

Lineare Unabhängigkeit von Vektoren und Rang einer Matrix

Ein Vektorb heißt Linearkombination der Vektorena1, a2, . . . , an, wenn es (reelle) Zahlenk1, k2, . . . , kn

gibt, so daß gilt:

b = k1a1 + k2a2 + . . . + knan =n∑

i=1

kiai

99

Page 105: Skriptum Statistik I und II

1. Fall: Die Vektorena1, a2, . . . , an heißen linear unabhängig, wenn

n∑i=1

ki · ai = 0

nur fürki = 0 für allei = 1,2, . . . , n gilt, d.h. keinai läßt sich dann als Linearkombination der übrigenai darstellen.2. Fall: Ist dagegen mindestens einki �= 0, so läßt sich schreiben:

ai = −n∑

j=1,j �=i

kj

ki

aj

undai ist als Linearkombination der übrigenaj von diesen linear abhängig. Es besteht dann also minde-stens eine lineare Beziehung oder lineare Abhängigkeit zwischena1, a2, . . . , an. Entsprechendes gilt fürZeilenvektoren. Die Maximalzahl der linear unabhängigen Spaltenvektoren heißt Spaltenrang vonA unddie Maximalzahl der linear unabhängigen Zeilenvektoren heißt Zeilenrang vonA. Der Spaltenrang vonAist immer gleich dem Zeilenrang vonA. Diese eindeutig bestimmte Zahl heißt Rang vonA und wird mitrg(A) bezeichnet. Für einen × m-Matrix gilt: rg(A) ≤ min{n,m}. Ist rg(A) = min{n,m}, so besitztAvollen Rang. Eine quadratische Matrix mit vollem Rang heißt regulär(rg(A) = n), anderenfalls singulär(rg(A) < n). Wichtige Rechenregeln für den Rang von Matrizen sind:

rg(A) = rg(AT )

rg(AB) ≤ min{rg(A), rg(B)}

rg(ATA) = rg(A) = rg(AAT )

rg(BA) = rg(A) = rg(AC) für reguläre Matrizen B und C

Lösen von linearen Gleichungssystemen und inverse Matrix

Definition: Unter einem linearen Gleichungssystem verstehen wir ein System von n Gleichungen mit mUnbekannten:

a11x1 + a12x2 + . . . + a1mxm = b1

a21x1 + a22x2 + . . . + a2mxm = b2...

......

......

an1x1 + an2x2 + . . . + anmxn = bn

In Matrixnotation:

A x = b

(n × m) (m × 1) (n × 1)

wobei gilt:

A =

a11 a12 · · · a1m

a21 a22 · · · a2m...

.... . .

...

an1 an2 · · · anm

, x =

x1

x2...

xm

, b =

b1

b2...

bn

Der Vektorx heißt Lösung des linearen Gleichungssystems. Istb = 0, so spricht man von einem ho-mogenen linearen Gleichungssystem. Im Fallb �= 0 spricht man von einem inhomogenen linearenGleichungssystem. Das Lösen von linearen Gleichungssystemen erfolgt nach demGauß’schen Elimi-nationsverfahren.

1. Vertausche die Gleichungen (Zeilen) so, daß die erste Unbekanntex1 einen von Null verschiedenenKoeffizienten erhält. Damit gilt:a11 �= 0 nach Vertauschung.

100

Page 106: Skriptum Statistik I und II

2. Für jedesi > 1 wird die i-te GleichungLi durch−ai1L1 + a11Li ersetzt. Symbolisch:Li ←(−ai1L1 + a11Li)

Ergebnis: Die erste Gleichung bleibt erhalten, alle anderen Gleichungen enthalten die Variablex1 nichtmehr. Dieser Prozeß wird wiederholt. Dabei werden sukzessiv die Unbekannten eliminiert.Beispiel:Wirreduzieren das folgende System:

x + 2y − 3z = 4x + 3y + z = 11

2x + 5y − 4z = 132x + 6y + 2z = 22

durch die OperationenL2 ← (−L1+L2),L3 ← (−2L1+L3) undL4 ← (−2L1+L4), und anschließenddurch die OperationenL3 ← (L2 − L3) undL4 ← (−2L2 + L4).

x + 2y − 3z = 4x + 3y + z = 11

2x + 5y − 4z = 132x + 6y + 2z = 22

⇒x + 2y − 3z = 4

y + 4z = 7y + 2z = 5

2y + 8z = 14

x + 2y − 3z = 4y + 4z = 7

2z = 20 = 0

⇒ x + 2y − 3z = 4y + 4z = 7

Existiert eine Lösung, so heißt das lineare Gleichungssystem konsistent, anderenfalls inkonsistent. DasSystemAx = b ist genau dann konsistent, wennrg(A, b) = rg(A).

1. Ist die Koeffizientenmatrix eines konsistenten SystemsAx = b quadratisch und besitzt sie vollenRang, d.h.rg(A) = n, dann gilt:

x = A−1b

ist die eindeutig bestimmte Lösung des Gleichungssystems istAx = b. Die Matrix A−1 heißt dieinverse Matrix vonA. Sie ist eindeutig bestimmt.

2. Gegeben sei eine(n×m) KoeffizientenmatrixA des konsistenten SystemsAx = b mit rg(A) = m

undm ≤ n, d.h. die Anzahl der Unbekannten ist kleiner gleich der Anzahl der Gleichungen. DasSystem ist eindeutig lösbar, denn wegen(rg(A) = m) besitztA vollen Spaltenrang. DaATA regulärist, existiert(ATA)−1. Durch Multiplikation der GleichungAx = b von links mitAT erhält man:

ATAx = ATb

Daraus folgt die eindeutige Lösung:

x = (ATA)−1ATb

3. Ist derrg(A) = r < m, dann besitzt das System unendlich viele Lösungen. Es können dann(m−r)

Komponenten vonx willkürlich bestimmt werden und dier verbleibenden Komponenten vonxsind eindeutig festgelegt.

4. Ein homogenes lineares GleichungssystemAx = 0 ist konsistent, da es stets die triviale Lösungx = 0 besitzt. Für den Fallrg(A) = m hatAx = 0 wegen der ersten beiden Punkte nur die Lösungx = 0. DamitAx = 0 auch nichttrivial lösbar ist, muß wegen des dritten Punktesrg(A) < m

erfüllt sein. FallsA quadratisch ist, bedeutet dies: det(A) = 0

101

Page 107: Skriptum Statistik I und II

Die Berechnung der inversen Matrix

Definition: A sei eine quadratische Matrix von vollem Rang; dann existiert eine MatrixA−1 der gleichenOrdnung mitA−1A = AA−1 = I . A−1 heißt die zu A inverse Matrix oder Kehrmatrix.Satz: A undB seien quadratische Matrizen der gleichen Ordnung mit InversenA−1 undB−1. Dann gilt:

1. (A−1)−1 = A

2. (AB)−1 = B−1A−1

3. (k · A)−1 = k−1A−1, mit k als Skalar

4. (AT )−1 = (A−1)T

Satz: Für quadratische Matrizen gelten unter den angegebenen Bedingungen die folgendenÄquivalenzen:

1. Die MatrixA ist regulär.

2. Die MatrixA besitzt eine KehrmatrixA−1.

3. detA �= 0

Die Matrix A wird wie folgt invertiert: DerGauß’sche Algorithmus wird auf das GleichungssystemAX = I angewandt. An die Stelle vonx im üblichen GleichungssystemAx = b tritt die j -te SpaltevonA−1, an die Stelle vonb diej -te Spalte der Einheitsmatrix. Die notwendigen Zeilentransformationenwerden simultan durchgeführt.Beispiel:

A = 1 3 3

1 4 31 3 4

gesucht istA−1

AI = 1 3 3 : 1 0 0

1 4 3 : 0 1 01 3 4 : 0 0 1

1 3 3 : 1 0 0

0 1 0 : −1 1 00 0 1 : −1 0 1

1 0 3 : 4 −3 0

0 1 0 : −1 1 00 0 1 : −1 0 1

1 0 0 : 7 −3 −3

0 1 0 : −1 1 00 0 1 : −1 0 1

Daher gilt für die inverse Matrix:

A−1 = 7 −3 −3

−1 1 0−1 0 1

Griechisches Alphabet

A α Alpha N ν NyB β Beta R ξ XiT γ Gamma O o OmikronL δ Delta V π,W PiE ε, ε Epsilon P ρ, Y RhoZ ζ Zeta 1 σ, ς SigmaH η Eta T τ Tau] θ, ϑ Theta Y υ YpsilonI ι Jota < φ, ϕ PhiK κ Kappa X χ Chib λ Lambda c ψ PsiM µ My * ω Omega

102

Page 108: Skriptum Statistik I und II

Literatur

Demographie

Birg, H.; Koch, H. (1987): Der Bevölkerungsrückgang in der Bundesrepublik Deutschland.Frank-furt/Main.

Birg, H. (1989): Die demographische Zeitwende.Spektrum der Wissenschaft1/89, 40-49.

Findl, P.; Holzmann, R.; Münz, R. (1987):Bevölkerung und Sozialstaat. Szenarien bis 2050. Bd. 2,Wien.

Teitelbaum, S.; Winter, M. (1985): The Fear of Population Decline. San Diego: Academic Press.

Wattenberg, J. (1989): The Birth Dearth. New York.

Mathematik für Wirtschaftswissenschaftler

Hamerle, A.; Kemény, P. (1994):Mathematik, Einführung für Wirtschafts- und Sozialwissenschaftler,München.

Statistische Methodenlehre

Assenmacher, W. (2000):Deskriptive Statistik, 2. Auflage, Berlin, Heidelberg.

Assenmacher, W. (2000):Induktive Statistik, Berlin, Heidelberg.

Bamberg, B.; Baur, F. (2002):Statistik, 11. Auflage, München.

Bleymüller, J.; Gehlert, G.; Gülicher, H. (2000):Statistik für Wirtschaftswissenschaftler, 12. Auf-lage, München.

Fahrmeir, L.; Hamerle, A. (1996):Multivariate statistische Verfahren, 2.Auflage, Berlin.

Green, W. (1999):Econometric Analysis., 4. Auflage, New York.

Hübler, O. (1989):Ökonometrie, Stuttgart.

Schlittgen, R. (2000):Einführung in die Statistik, 8. Auflage, München.

Wirtschafts– und Sozialstatistik

Abels, H. (1993):Wirtschafts- und Bevölkerungsstatistik, 4. Auflage, Wiesbaden.

Hujer, R.; Cremer, R. (1978):Methoden der empirischen Wirtschaftsforschung, München.

Krug, W; Nourney, M. (1999):Wirtschaftsstatistik und Sozialstatistik, München, Wien.

Lippe, Von der, P. (1996):Wirtschaftsstatistik, 5. Auflage, Stuttgart.

Statistisches Bundesamt (1983):Fachserie 1, Reihe 1, Gebiet und Bevölkerung, Wiesbaden.

Statistisches Bundesamt (1999):Statistisches Jahrbuch für die Bundesrepublik Deutschland, Wies-baden.

Statistisches Bundesamt (1999):Wirtschaft und Statistik 12/1989, Wiesbaden.

103

Page 109: Skriptum Statistik I und II

Tabe

llen

Die

Sta

ndar

dnor

mal

vert

eilu

ng

Die

Vert

eilu

ngsf

unkt

ion

der

Sta

ndar

dnor

mal

vert

eilu

ngw

irdm

it<

(z)

beze

ichn

et,d

ieD

icht

em

itφ(z

).

<(z

)=∫ z −∞

φ(z

)dz

=∫ z −∞

1 √ 2πex

p{ −x2 2

} dx,

−∞

<z<

z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.0 0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.523922 0.527903 0.531881 0.5358560.1 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.5753450.2 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.6140920.3 0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.6517320.4 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.6879330.5 0.691462 0.694974 0.698468 0.701944 0.705402 0.708840 0.712260 0.715661 0.719043 0.7224050.6 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.7549030.7 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.7852360.8 0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.805106 0.807850 0.810570 0.8132670.9 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.8389131.0 0.841345 0.843752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.8621431.1 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.878999 0.881000 0.8829771.2 0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.9014751.3 0.903199 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914656 0.916207 0.9177361.4 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.9318881.5 0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.9440831.6 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.9544861.7 0.955435 0.956367 0.957284 0.958185 0.959071 0.959941 0.960796 0.961636 0.962462 0.9632731.8 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.9706211.9 0.971284 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.9767052.0 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.9816912.1 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.9857382.2 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.9889892.3 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.9915762.4 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.9936132.5 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.9952012.6 0.995339 0.995473 0.995603 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.9964272.7 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.9973652.8 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.9980742.9 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605 A

bles

ebei

spie

l:<(2

.36)

=0.

9908

63,

Erw

eite

rung

der

Tafe

l:<(−

z)

=1

−<

(z)

wic

htig

eQ

uant

ilede

rS

tand

ardn

orm

lver

teilu

ng<

(z)

50%

60%

70%

80%

90%

95%

97.5

0%99

%99

.50%

99.7

5%99

.90%

99.9

5%z

00.

253

0.52

40.

842

1.28

21.

645

1.96

02.

326

2.57

62.

807

3.09

03.

290

104

Page 110: Skriptum Statistik I und II

Quantile der t-Verteilung

Freiheitsgradn 90% 95% 97.5% 99% 99.5% 99.9% 99.95%1 3.078 6.314 12.706 31.821 63.656 318.289 636.5782 1.886 2.920 4.303 6.965 9.925 22.328 31.6003 1.638 2.353 3.182 4.541 5.841 10.214 12.9244 1.533 2.132 2.776 3.747 4.604 7.173 8.6105 1.476 2.015 2.571 3.365 4.032 5.894 6.8696 1.440 1.943 2.447 3.143 3.707 5.208 5.9597 1.415 1.895 2.365 2.998 3.499 4.785 5.4088 1.397 1.860 2.306 2.896 3.355 4.501 5.0419 1.383 1.833 2.262 2.821 3.250 4.297 4.781

10 1.372 1.812 2.228 2.764 3.169 4.144 4.58711 1.363 1.796 2.201 2.718 3.106 4.025 4.43712 1.356 1.782 2.179 2.681 3.055 3.930 4.31813 1.350 1.771 2.160 2.650 3.012 3.852 4.22114 1.345 1.761 2.145 2.624 2.977 3.787 4.14015 1.341 1.753 2.131 2.602 2.947 3.733 4.07316 1.337 1.746 2.120 2.583 2.921 3.686 4.01517 1.333 1.740 2.110 2.567 2.898 3.646 3.96518 1.330 1.734 2.101 2.552 2.878 3.610 3.92219 1.328 1.729 2.093 2.539 2.861 3.579 3.88320 1.325 1.725 2.086 2.528 2.845 3.552 3.85021 1.323 1.721 2.080 2.518 2.831 3.527 3.81922 1.321 1.717 2.074 2.508 2.819 3.505 3.79223 1.319 1.714 2.069 2.500 2.807 3.485 3.76824 1.318 1.711 2.064 2.492 2.797 3.467 3.74525 1.316 1.708 2.060 2.485 2.787 3.450 3.72526 1.315 1.706 2.056 2.479 2.779 3.435 3.70727 1.314 1.703 2.052 2.473 2.771 3.421 3.68928 1.313 1.701 2.048 2.467 2.763 3.408 3.67429 1.311 1.699 2.045 2.462 2.756 3.396 3.66030 1.310 1.697 2.042 2.457 2.750 3.385 3.64640 1.303 1.684 2.021 2.423 2.704 3.307 3.55150 1.299 1.676 2.009 2.403 2.678 3.261 3.49660 1.296 1.671 2.000 2.390 2.660 3.232 3.46080 1.292 1.664 1.990 2.374 2.639 3.195 3.416

100 1.290 1.660 1.984 2.364 2.626 3.174 3.390200 1.286 1.653 1.972 2.345 2.601 3.131 3.340500 1.283 1.648 1.965 2.334 2.586 3.107 3.310∞ 1.282 1.645 1.960 2.326 2.576 3.090 3.290

Ablesebeispiel:t15;0.95 = 1.753Erweiterung der Tafel:tn;1−α = −tn;α

105

Page 111: Skriptum Statistik I und II

Qua

ntile

derχ

2-V

erte

ilung

n 0.1% 0.5% 1% 2.5% 5% 10% 30% 50% 70% 90% 95% 97.5% 99% 99.5% 99.9%1 1.57−5 3.93−4 1.57−3 0.0982−3 0.0039 0.0158 0.1485 0.4549 1.0742 2.7055 3.8415 5.0239 6.6349 7.8794 10.82742 0.0020 0.0100 0.0201 0.0506 0.1026 0.2107 0.7133 1.3863 2.4079 4.6052 5.9915 7.3778 9.2104 10.5965 13.81503 0.0243 0.0717 0.1148 0.2158 0.3518 0.5844 1.4237 2.3660 3.6649 6.2514 7.8147 9.3484 11.3449 12.8381 16.26604 0.0908 0.2070 0.2971 0.4844 0.7107 1.0636 2.1947 3.3567 4.8784 7.7794 9.4877 11.1433 13.2767 14.8602 18.46625 0.2102 0.4118 0.5543 0.8312 1.1455 1.6103 2.9999 4.3515 6.0644 9.2363 11.0705 12.8325 15.0863 16.7496 20.51476 0.3810 0.6757 0.8721 1.2373 1.6354 2.2041 3.8276 5.3481 7.2311 10.6446 12.5916 14.4494 16.8119 18.5475 22.45757 0.5985 0.9893 1.2390 1.6899 2.1673 2.8331 4.6713 6.3458 8.3834 12.0170 14.0671 16.0128 18.4753 20.2777 24.32138 0.8571 1.3444 1.6465 2.1797 2.7326 3.4895 5.5274 7.3441 9.5245 13.3616 15.5073 17.5345 20.0902 21.9549 26.12399 1.1519 1.7349 2.0879 2.7004 3.3251 4.1682 6.3933 8.3428 10.6564 14.6837 16.9190 19.0228 21.6660 23.5893 27.876710 1.4787 2.1558 2.5582 3.2470 3.9403 4.8652 7.2672 9.3418 11.7807 15.9872 18.3070 20.4832 23.2093 25.1881 29.587911 1.8338 2.6032 3.0535 3.8157 4.5748 5.5778 8.1479 10.3410 12.8987 17.2750 19.6752 21.9200 24.7250 26.7569 31.263512 2.2141 3.0738 3.5706 4.4038 5.2260 6.3038 9.0343 11.3403 14.0111 18.5493 21.0261 23.3367 26.2170 28.2997 32.909213 2.6172 3.5650 4.1069 5.0087 5.8919 7.0415 9.9257 12.3398 15.1187 19.8119 22.3620 24.7356 27.6882 29.8193 34.527414 3.0407 4.0747 4.6604 5.6287 6.5706 7.7895 10.8215 13.3393 16.2221 21.0641 23.6848 26.1189 29.1412 31.3194 36.123915 3.4825 4.6009 5.2294 6.2621 7.2609 8.5468 11.7212 14.3389 17.3217 22.3071 24.9958 27.4884 30.5780 32.8015 37.697816 3.9417 5.1422 5.8122 6.9077 7.9616 9.3122 12.6243 15.3385 18.4179 23.5418 26.2962 28.8453 31.9999 34.2671 39.251817 4.4162 5.6973 6.4077 7.5642 8.6718 10.0852 13.5307 16.3382 19.5110 24.7690 27.5871 30.1910 33.4087 35.7184 40.791118 4.9048 6.2648 7.0149 8.2307 9.3904 10.8649 14.4399 17.3379 20.6014 25.9894 28.8693 31.5264 34.8052 37.1564 42.311919 5.4067 6.8439 7.6327 8.9065 10.1170 11.6509 15.3517 18.3376 21.6891 27.2036 30.1435 32.8523 36.1908 38.5821 43.819420 5.9210 7.4338 8.2604 9.5908 10.8508 12.4426 16.2659 19.3374 22.7745 28.4120 31.4104 34.1696 37.5663 39.9969 45.314221 6.4467 8.0336 8.8972 10.2829 11.5913 13.2396 17.1823 20.3372 23.8578 29.6151 32.6706 35.4789 38.9322 41.4009 46.796322 6.9829 8.6427 9.5425 10.9823 12.3380 14.0415 18.1007 21.3370 24.9390 30.8133 33.9245 36.7807 40.2894 42.7957 48.267623 7.5291 9.2604 10.1957 11.6885 13.0905 14.8480 19.0211 22.3369 26.0184 32.0069 35.1725 38.0756 41.6383 44.1814 49.727624 8.0847 9.8862 10.8563 12.4011 13.8484 15.6587 19.9432 23.3367 27.0960 33.1962 36.4150 39.3641 42.9798 45.5584 51.179025 8.6494 10.5196 11.5240 13.1197 14.6114 16.4734 20.8670 24.3366 28.1719 34.3816 37.6525 40.6465 44.3140 46.9280 52.618726 9.2222 11.1602 12.1982 13.8439 15.3792 17.2919 21.7924 25.3365 29.2463 35.5632 38.8851 41.9231 45.6416 48.2898 54.051127 9.8029 11.8077 12.8785 14.5734 16.1514 18.1139 22.7192 26.3363 30.3193 36.7412 40.1133 43.1945 46.9628 49.6450 55.475128 10.3907 12.4613 13.5647 15.3079 16.9279 18.9392 23.6475 27.3362 31.3909 37.9159 41.3372 44.4608 48.2782 50.9936 56.891829 10.9861 13.1211 14.2564 16.0471 17.7084 19.7677 24.5770 28.3361 32.4612 39.0875 42.5569 45.7223 49.5878 52.3355 58.300630 11.5876 13.7867 14.9535 16.7908 18.4927 20.5992 25.5078 29.3360 33.5302 40.2560 43.7730 46.9792 50.8922 53.6719 59.702240 17.9166 20.7066 22.1642 24.4331 26.5093 29.0505 34.8719 39.3353 44.1649 51.8050 55.7585 59.3417 63.6908 66.7660 73.402950 24.6736 27.9908 29.7067 32.3574 34.7642 37.6886 44.3133 49.3349 54.7228 63.1671 67.5048 71.4202 76.1538 79.4898 86.660360 31.7381 35.5344 37.4848 40.4817 43.1880 46.4589 53.8091 59.3347 65.2265 74.3970 79.0820 83.2977 88.3794 91.9518 99.607870 39.0358 43.2753 45.4417 48.7575 51.7393 55.3289 63.3460 69.3345 75.6893 85.5270 90.5313 95.0231 100.4251 104.2148 112.316780 46.5197 51.1719 53.5400 57.1532 60.3915 64.2778 72.9153 79.3343 86.1197 96.5782 101.8795 106.6285 112.3288 116.3209 124.838990 54.1559 59.1963 61.7540 65.6466 69.1260 73.2911 82.5111 89.3342 96.5238 107.5650 113.1452 118.1359 124.1162 128.2987 137.2082100 61.9182 67.3275 70.0650 74.2219 77.9294 82.3581 92.1290 99.3341 106.9058 118.4980 124.3421 129.5613 135.8069 140.1697 149.4488

Abl

eseb

eisp

iel:χ

2 16;0.

975

=28

.845

3

106

Page 112: Skriptum Statistik I und II

95%

-Qua

ntile

derF

n1,

n2;0

.95-

Vert

eilu

ng=

P(F

n1,

n2;0

.95

≤x)

=0.

95

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 191 161.4 199.5 215.7 224.5 230.1 233.9 236.7 238.8 240.5 241.8 242.9 243.9 244.6 245.3 245.9 246.4 246.9 247.3 247.6 12 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.40 19.41 19.42 19.42 19.43 19.43 19.44 19.44 19.44 23 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 8.73 8.71 8.70 8.69 8.68 8.67 8.67 34 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 5.91 5.89 5.87 5.86 5.84 5.83 5.82 5.81 45 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.70 4.68 4.66 4.64 4.62 4.60 4.59 4.58 4.57 56 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 3.98 3.96 3.94 3.92 3.91 3.90 3.88 67 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 3.55 3.53 3.51 3.49 3.48 3.47 3.46 78 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.31 3.28 3.26 3.24 3.22 3.20 3.19 3.17 3.16 89 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.10 3.07 3.05 3.03 3.01 2.99 2.97 2.96 2.95 910 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 2.89 2.86 2.85 2.83 2.81 2.80 2.79 1011 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.82 2.79 2.76 2.74 2.72 2.70 2.69 2.67 2.66 1112 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.72 2.69 2.66 2.64 2.62 2.60 2.58 2.57 2.56 1213 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.63 2.60 2.58 2.55 2.53 2.51 2.50 2.48 2.47 1314 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.57 2.53 2.51 2.48 2.46 2.44 2.43 2.41 2.40 1415 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.51 2.48 2.45 2.42 2.40 2.38 2.37 2.35 2.34 1516 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.46 2.42 2.40 2.37 2.35 2.33 2.32 2.30 2.29 1617 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.41 2.38 2.35 2.33 2.31 2.29 2.27 2.26 2.24 1718 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.37 2.34 2.31 2.29 2.27 2.25 2.23 2.22 2.20 1819 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.34 2.31 2.28 2.26 2.23 2.21 2.20 2.18 2.17 1920 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.31 2.28 2.25 2.22 2.20 2.18 2.17 2.15 2.14 2022 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.26 2.23 2.20 2.17 2.15 2.13 2.11 2.10 2.08 2224 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.22 2.18 2.15 2.13 2.11 2.09 2.07 2.05 2.04 2426 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.18 2.15 2.12 2.09 2.07 2.05 2.03 2.02 2.00 2628 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.15 2.12 2.09 2.06 2.04 2.02 2.00 1.99 1.97 2830 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.13 2.09 2.06 2.04 2.01 1.99 1.98 1.96 1.95 3032 4.15 3.29 2.90 2.67 2.51 2.40 2.31 2.24 2.19 2.14 2.10 2.07 2.04 2.01 1.99 1.97 1.95 1.94 1.92 3234 4.13 3.28 2.88 2.65 2.49 2.38 2.29 2.23 2.17 2.12 2.08 2.05 2.02 1.99 1.97 1.95 1.93 1.92 1.90 3436 4.11 3.26 2.87 2.63 2.48 2.36 2.28 2.21 2.15 2.11 2.07 2.03 2.00 1.98 1.95 1.93 1.92 1.90 1.88 3638 4.10 3.24 2.85 2.62 2.46 2.35 2.26 2.19 2.14 2.09 2.05 2.02 1.99 1.96 1.94 1.92 1.90 1.88 1.87 3840 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.04 2.00 1.97 1.95 1.92 1.90 1.89 1.87 1.85 4050 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.99 1.95 1.92 1.89 1.87 1.85 1.83 1.81 1.80 5060 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.78 1.76 6070 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97 1.93 1.89 1.86 1.84 1.81 1.79 1.77 1.75 1.74 7080 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2.00 1.95 1.91 1.88 1.84 1.82 1.79 1.77 1.75 1.73 1.72 80100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.89 1.85 1.82 1.79 1.77 1.75 1.73 1.71 1.69 100200 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.84 1.80 1.77 1.74 1.72 1.69 1.67 1.66 1.64 200300 3.87 3.03 2.63 2.40 2.24 2.13 2.04 1.97 1.91 1.86 1.82 1.78 1.75 1.72 1.70 1.68 1.66 1.64 1.62 300500 3.86 3.01 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85 1.81 1.77 1.74 1.71 1.69 1.66 1.64 1.62 1.61 5001000 3.85 3.00 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84 1.80 1.76 1.73 1.70 1.68 1.65 1.63 1.61 1.60 1000∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.79 1.75 1.72 1.69 1.67 1.64 1.62 1.60 1.59 ∞

107

Page 113: Skriptum Statistik I und II

95%

-Qua

ntile

derF

n1,

n2;0

.95-

Vert

eilu

ng=

P(F

n1,

n2;0

.95

≤x)

=0.

95-F

orts

etzu

ng20 24 30 40 50 60 80 100 200 500 ∞

1 248.0 249.0 250.1 251.1 251.7 252.2 252.7 253.0 253.6 254.0 254.3 12 19.45 19.45 19.46 19.47 19.48 19.48 19.48 19.49 19.49 19.49 19.50 23 8.66 8.64 8.62 8.59 8.58 8.57 8.56 8.55 8.54 8.53 8.53 34 5.80 5.77 5.75 5.72 5.70 5.69 5.67 5.66 5.65 5.64 5.63 45 4.56 4.53 4.50 4.46 4.44 4.43 4.41 4.41 4.39 4.37 4.37 56 3.87 3.84 3.81 3.77 3.75 3.74 3.72 3.71 3.69 3.68 3.67 67 3.44 3.41 3.38 3.34 3.32 3.30 3.29 3.27 3.25 3.24 3.23 78 3.15 3.12 3.08 3.04 3.02 3.01 2.99 2.97 2.95 2.94 2.93 89 2.94 2.90 2.86 2.83 2.80 2.79 2.77 2.76 2.73 2.72 2.71 910 2.77 2.74 2.70 2.66 2.64 2.62 2.60 2.59 2.56 2.55 2.54 1011 2.65 2.61 2.57 2.53 2.51 2.49 2.47 2.46 2.43 2.42 2.40 1112 2.54 2.51 2.47 2.43 2.40 2.38 2.36 2.35 2.32 2.31 2.30 1213 2.46 2.42 2.38 2.34 2.31 2.30 2.27 2.26 2.23 2.22 2.21 1314 2.39 2.35 2.31 2.27 2.24 2.22 2.20 2.19 2.16 2.14 2.13 1415 2.33 2.29 2.25 2.20 2.18 2.16 2.14 2.12 2.10 2.08 2.07 1516 2.28 2.24 2.19 2.15 2.12 2.11 2.08 2.07 2.04 2.02 2.01 1617 2.23 2.19 2.15 2.10 2.08 2.06 2.03 2.02 1.99 1.97 1.96 1718 2.19 2.15 2.11 2.06 2.04 2.02 1.99 1.98 1.95 1.93 1.92 1819 2.16 2.11 2.07 2.03 2.00 1.98 1.96 1.94 1.91 1.89 1.88 1920 2.12 2.08 2.04 1.99 1.97 1.95 1.92 1.91 1.88 1.86 1.84 2022 2.07 2.03 1.98 1.94 1.91 1.89 1.86 1.85 1.82 1.80 1.78 2224 2.03 1.98 1.94 1.89 1.86 1.84 1.82 1.80 1.77 1.75 1.73 2426 1.99 1.95 1.90 1.85 1.82 1.80 1.78 1.76 1.73 1.71 1.69 2628 1.96 1.91 1.87 1.82 1.79 1.77 1.74 1.73 1.69 1.67 1.65 2830 1.93 1.89 1.84 1.79 1.76 1.74 1.71 1.70 1.66 1.64 1.62 3032 1.91 1.86 1.82 1.77 1.74 1.71 1.69 1.67 1.63 1.61 1.59 3234 1.89 1.84 1.80 1.75 1.71 1.69 1.66 1.65 1.61 1.59 1.57 3436 1.87 1.82 1.78 1.73 1.69 1.67 1.64 1.62 1.59 1.56 1.55 3638 1.85 1.81 1.76 1.71 1.68 1.65 1.62 1.61 1.57 1.54 1.53 3840 1.84 1.79 1.74 1.69 1.66 1.64 1.61 1.59 1.55 1.53 1.51 4050 1.78 1.74 1.69 1.63 1.60 1.58 1.54 1.52 1.48 1.46 1.44 5060 1.75 1.70 1.65 1.59 1.56 1.53 1.50 1.48 1.44 1.41 1.39 6070 1.72 1.67 1.62 1.57 1.53 1.50 1.47 1.45 1.40 1.37 1.35 7080 1.70 1.65 1.60 1.54 1.51 1.48 1.45 1.43 1.38 1.35 1.32 80100 1.68 1.63 1.57 1.52 1.48 1.45 1.41 1.39 1.34 1.31 1.28 100200 1.62 1.57 1.52 1.46 1.41 1.39 1.35 1.32 1.26 1.22 1.19 200300 1.61 1.55 1.50 1.43 1.39 1.36 1.32 1.30 1.23 1.19 1.15 300500 1.59 1.54 1.48 1.42 1.38 1.35 1.30 1.28 1.21 1.16 1.11 5001000 1.58 1.53 1.47 1.41 1.36 1.33 1.29 1.26 1.19 1.13 1.08 1000∞ 1.57 1.52 1.46 1.39 1.35 1.32 1.27 1.24 1.17 1.11 1.00 ∞ A

bles

ebei

spie

l:F7,

20;0.

95=

3.44

Erw

eite

rung

der

Tafe

l:Fn1,

n2;1

−α=

1F

n1,

n2;α

108

Page 114: Skriptum Statistik I und II

Verteilungsfunktion der Poisson-VerteilungPλ,k

Die Verteilungsfunktion der Poissonverteilung ist gegeben mit:

F(P(λ,k)) = P(X ≤ k) =k∑

i=0

P(X = k) =k∑

i=0

e−λ λk

k!

0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00 0.951230.904840.818730.740820.670320.606530.548810.496590.449330.406570.36788 01 0.998790.995320.982480.963060.938450.909800.878100.844200.808790.772480.73576 12 0.999980.999850.998850.996400.992070.985610.976880.965860.952580.937140.91970 23 1.000001.000000.999940.999730.999220.998250.996640.994250.990920.986540.98101 34 1.000000.999980.999940.999830.999610.999210.998590.997660.99634 45 1.000001.000000.999990.999960.999910.999820.999660.99941 56 1.000001.000000.999990.999980.999960.99992 67 1.000001.000001.000000.99999 78 1.00000 8

1.5 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10 150 0.223130.135340.049790.018320.006740.002480.000910.000340.000120.000050.00000 01 0.557830.406010.199150.091580.040430.017350.007300.003020.001230.000500.00000 12 0.808850.676680.423190.238100.124650.061970.029640.013750.006230.002770.00004 23 0.934360.857120.647230.433470.265030.151200.081770.042380.021230.010340.00021 34 0.981420.947350.815260.628840.440490.285060.172990.099630.054960.029250.00086 45 0.995540.983440.916080.785130.615960.445680.300710.191240.115690.067090.00279 56 0.999070.995470.966490.889330.762180.606300.449710.313370.206780.130140.00763 67 0.999830.998900.988100.948870.866630.743980.598710.452960.323900.220220.01800 78 0.999970.999760.996200.978640.931910.847240.729090.592550.455650.332820.03745 89 1.000000.999950.998900.991870.968170.916080.830500.716620.587410.457930.06985 9

10 0.999990.999710.997160.986300.957380.901480.815890.705990.583040.118461011 1.000000.999930.999080.994550.979910.946650.888080.803010.696780.184751112 0.999980.999730.997980.991170.973000.936200.875770.791560.267611213 1.000000.999920.999300.996370.987190.965820.926150.864460.363221314 0.999980.999770.998600.994280.982740.958530.916540.465651415 1.000000.999930.999490.997590.991770.977960.951260.568091516 0.999980.999830.999040.996280.988890.972960.664121617 0.999990.999940.999640.998410.994680.985720.748861718 1.000000.999980.999870.999350.997570.992810.819471819 0.999990.999960.999750.998940.996550.875221920 1.000000.999990.999910.999560.998410.917032021 1.000000.999970.999830.999300.946892122 0.999990.999930.999700.967262223 1.000000.999980.999880.980542324 0.999990.999950.988842425 1.000000.999980.993822526 0.999990.996692627 1.000000.998282728 0.999142829 0.999582930 0.999803031 0.999913132 0.999963233 0.999983334 0.999993435 1.0000035

Ablesebeispiel:F(P(1.5,4)) = 0.98142

109