Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur...

464
Vorlesung: Statistik I f¨ ur Wirtschaftswissenschaft Prof. Dr. Helmut K¨ uchenhoff Institut f¨ ur Statistik, LMU M¨ unchen WiSe 2016/2017

Transcript of Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur...

Page 1: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Vorlesung: Statistik I furWirtschaftswissenschaft

Prof. Dr. Helmut Kuchenhoff

Institut fur Statistik, LMU Munchen

WiSe 2016/2017

Page 2: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Termine und Informationen

Homepage:http://www.stablab.stat.uni-muenchen.de/WiwiStat1_1617

Vorlesung:

Prof. Helmut Kuchenhoff

Di 16:00 - 18:00 Audi max

Ubung (wochentlich):

Ansprechperson: Veronika Deffner

Ubung 1: Mi. 12.15 - 13.45 Uhr Schellingstr. 3, S 003Ubung 2: Mi. 14.15 - 15.45 Uhr Schellingstr. 3, S 001Ubung 3: Do. 10.15 - 11.45 Uhr Schellingstr. 3, S 001Ubung 4: Do. 10.15 - 11.45 Uhr Schellingstr. 3, S 002Ubung 5: Do. 12.15 - 13.45 Uhr Schellingstr. 3, S 001Ubung 6: Do. 12.15 - 13.45 Uhr Schellingstr. 3, S 002Ubung 7: Do. 18.00 - 19.30 Uhr Schellingstr. 3, S 001

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 2 / 391

Page 3: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Literatur

L.Fahrmeir, Ch. Heumann, R.Kunstler, I.Pigeot, G.Tutz:Statistik - Der Weg zur DatenanalyseSpringer-Verlag, 8. Auflage, 2016

H.Toutenburg, C.Heumann:Deskriptive Statistik - Eine Einfuhrung in Methoden undAnwendungen mit R und SPSSSpringer-Verlag, 2009

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 3 / 391

Page 4: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Dank

an Christian Heumann fur Materialien und Folien

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 4 / 391

Page 5: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfuhrung: Was ist Statistik?

1 Datenerhebung und Messung

2 Datenorganisation und Haufigkeitsverteilungen

3 Lagemaße

4 Streumaße

5 Analyse von Zusammenhangen

6 Zusammenhange von metrischen Variablen

7 Regression

Page 6: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

8 Komplexe Zusammenhange

9 Regression und Mittelwertsvergleiche

10 Verhaltniszahlen und Indizes

11 Zeitreihen

12 Wahrscheinlichkeit

Page 7: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfuhrung: Was ist Statistik?

Page 8: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Statistik

Businesses are collecting more data than they know what to dowith. To turn all this information into competitive gold, they’ll neednew skills and a new management style.

Data-driven decisions are better decisions—it’s as simple as that.Using big data enables managers to decide on the basis of evidencerather than intuition.

Aus: Andrew McAfee and Erik Brynjolfsson: Big Data: The Managementrevolution. Harvard Business Review October 2012, 60-68.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 7 / 391

Page 9: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Statistik fur BWL und VWL ?

Datenanalyse ermoglicht es Unternehmen, die Wertschopfungskettean allen Stellen zu optimieren, Im Einkauf, im Marketing, inVerkauf, Preisgestaltung und Management.

Viele moderne Unternehmen haben als wichtigsten Wert Daten undInformationen (Google, Facebook)

Statistische Methoden sind ein zentrales Hilfsmittel zur Analyse undPrognose von volkswirtschaftlichen Daten

Auswertung von Maßnahmen von Regierungen und Institutionenwerden mit statistischen Methoden bewertet

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 8 / 391

Page 10: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

HR Analystics

Nutzung von Befragungsdaten von MitarbeiterInnen zur Reduktionvon Kundigungen

Einstellungsstrategien aus Performance-Daten (talent analytics andbig data) zur Effizienzsteigerung

Xerox used big data to reduce the attrition rate in its call centers by20%. To do that, it had to understand what was causing theturnover, and determine ways to improve employee engagement.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 9 / 391

Page 11: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Marketing

Flexible Preisgestaltung uber Internet- Verkauf ermoglicht vieleStrategien

Projekt mit Fluglinie zur Daten- gesteuerten Preisgestaltung

Experimente mit verschieden gestalteten Internetseiten

Erfolge von Mailing-Aktionen abhangig von guter Datenanalyse

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 10 / 391

Page 12: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 1: Bundestagswahl 2013

Prognose 18:00 Infratest Dimap (ARD)

CDU/CSU SPD FDP Linke Grune AFD42,0 26,0 4,7 8,5 8,0 4,9

Ergebnis:

Basis: Nachwahlbefragung 100 000 Wahlberechtigtehttp://wahl.tagesschau.de/wahlen/2013-09-22-BT-DE/index.shtml

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 11 / 391

Page 13: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 1: Bundestagswahl 2013

Prognose 18:00 Infratest Dimap (ARD)CDU/CSU SPD FDP Linke Grune AFD

42,0 26,0 4,7 8,5 8,0 4,9

Ergebnis:

Basis: Nachwahlbefragung 100 000 Wahlberechtigtehttp://wahl.tagesschau.de/wahlen/2013-09-22-BT-DE/index.shtml

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 11 / 391

Page 14: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 1: Bundestagswahl 2013

Prognose 18:00 Infratest Dimap (ARD)CDU/CSU SPD FDP Linke Grune AFD

42,0 26,0 4,7 8,5 8,0 4,9

Ergebnis:

Basis: Nachwahlbefragung 100 000 Wahlberechtigtehttp://wahl.tagesschau.de/wahlen/2013-09-22-BT-DE/index.shtml

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 11 / 391

Page 15: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 1: Bundestagswahl 2013

Prognose 18:00 Infratest Dimap (ARD)CDU/CSU SPD FDP Linke Grune AFD

42,0 26,0 4,7 8,5 8,0 4,9

Ergebnis:

Basis: Nachwahlbefragung 100 000 Wahlberechtigtehttp://wahl.tagesschau.de/wahlen/2013-09-22-BT-DE/index.shtml

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 11 / 391

Page 16: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 2: Wahlfalschung

Arbeit von Klimek et al.Einfache Idee: Untersuche Zusammmenhang zwischen Wahlergebnis(Stimmenanteil des Siegers) gegen die Wahlbeteiligung.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 12 / 391

Page 17: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 3: Lebenszufriedenheit und Alter

Gibt es eine Midlife Crisis?Analysen von Panel-Daten zur subjektiven Lebenszufriedenheit mitsemiparametrischen RegressionsmodellenIn Zusammenarbeit mit Sonja Greven, Andrea Wiencierz, ChristophWunderC. Wunder, A. Wiencierz, J. Schwarze, and H. Kuchenhoff. Well-beingover the Life Span: Semiparametric evidence from British and GermanLongitudinal Data. Review of Economics and Statistics 95(1):154-167,2013.A. Wiencierz, S. Greven, and H. Kuchenhoff. Restricted likelihood ratiotesting in linear mixed models with general error covariance structure.Electronic Journal of Statistics 5:1718-1734, 2011.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 13 / 391

Page 18: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Datengrundlage

Daten stammen aus den Haushaltsstichproben A (Westdeutsche)und C (Ostdeutsche) des Sozio-Okonomischen Panels (SOEP)

fur die ausgewahlten Modellvariablen liegen Beobachtungen aus denJahren 1992, 1994 bis 2006 vor

durchschnittliche Anzahl von Beobachtungen pro Person: 7.77

in die Modellberechnungen gingen 102 708 vollstandigeBeobachtungen von 13 224 Individuen ein

Anzahl Beobachtungen pro Jahr:

1992 1994 1995 1996 1997 1998 19998 145 7 720 7 943 7 606 8 052 7 550 7 403

2000 2001 2002 2003 2004 2005 20067 628 7 092 7 068 7 000 6 876 6 543 6 082

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 14 / 391

Page 19: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ergebnis fur Alterseffekt

Midlife-Crisis nur bei glatter Funktion erkennbar.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 15 / 391

Page 20: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ergebnis fur Alterseffekt

Midlife-Crisis nur bei glatter Funktion erkennbar.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 15 / 391

Page 21: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 5: Mineralwasserstudie

Studie in Zusammenarbeit mit Prof. Adam (LMU)Fragestellung: Schmeckt mit Sauerstoff angereichertes Mineralwasserbesser als gewohnliches Mineralwasser ?

Doppel–Blindstudie

Kontroll–Gruppe: zweimal das gleiche Wasser ohne O2

Verum–Gruppe: Beim zweiten Mal mit O2 angereichertesMineralwasser

Ergebnis (Clausnitzer et al., 2004) :

Placebo: 76% gaben an, dass das zweite Wasser anders schmecktVerum : 89 % gaben an, dass das zweite Wasser anders schmecktSignifikanter Effekt → Zulassung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 16 / 391

Page 22: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 5: Mineralwasserstudie

Studie in Zusammenarbeit mit Prof. Adam (LMU)Fragestellung: Schmeckt mit Sauerstoff angereichertes Mineralwasserbesser als gewohnliches Mineralwasser ?

Doppel–Blindstudie

Kontroll–Gruppe: zweimal das gleiche Wasser ohne O2

Verum–Gruppe: Beim zweiten Mal mit O2 angereichertesMineralwasser

Ergebnis (Clausnitzer et al., 2004) :Placebo: 76% gaben an, dass das zweite Wasser anders schmecktVerum : 89 % gaben an, dass das zweite Wasser anders schmecktSignifikanter Effekt → Zulassung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 16 / 391

Page 23: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel 5: Mineralwasserstudie

Studie in Zusammenarbeit mit Prof. Adam (LMU)Fragestellung: Schmeckt mit Sauerstoff angereichertes Mineralwasserbesser als gewohnliches Mineralwasser ?

Doppel–Blindstudie

Kontroll–Gruppe: zweimal das gleiche Wasser ohne O2

Verum–Gruppe: Beim zweiten Mal mit O2 angereichertesMineralwasser

Ergebnis (Clausnitzer et al., 2004) :Placebo: 76% gaben an, dass das zweite Wasser anders schmecktVerum : 89 % gaben an, dass das zweite Wasser anders schmecktSignifikanter Effekt → Zulassung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 16 / 391

Page 24: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ziele und Methoden

Randomisierte Studie (Doppelblind)

Entscheidungsfindung durch statistischen Test

Quantifizierung des Effekts

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 17 / 391

Page 25: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Was ist Statistik?

Definition Statistik

Statistik als Wissenschaft bezeichnet eine Methodenlehre, die sich mitder Erhebung, der Darstellung, der Analyse und der Bewertung vonDaten auseinander setzt. Ein zentraler Aspekt ist dabei die Modellbildungmit zufalligen Komponenten.

Teilgebiete:

Deskriptive Statistik: beschreibend

Explorative Datenanalyse: Suche nach Strukturen

Induktive Statistik: Schlusse von Daten auf Grundgesamtheit oderallgemeine Phanomene

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 18 / 391

Page 26: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Was ist Statistik?

Definition Statistik

Statistik als Wissenschaft bezeichnet eine Methodenlehre, die sich mitder Erhebung, der Darstellung, der Analyse und der Bewertung vonDaten auseinander setzt. Ein zentraler Aspekt ist dabei die Modellbildungmit zufalligen Komponenten.

Teilgebiete:

Deskriptive Statistik: beschreibend

Explorative Datenanalyse: Suche nach Strukturen

Induktive Statistik: Schlusse von Daten auf Grundgesamtheit oderallgemeine Phanomene

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 18 / 391

Page 27: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zitate

”Traue keiner Statistik, die Du nicht selbst gefalscht hast“

(nicht von Churchill)

”Statistics is a body of methods for making wise decisions in the

face of uncertainty“(W.A. Wallis, A.V. Roberts)

”Statistisches Denken wird eines Tages fur mundige Staatsburger

ebenso wichtig sein, wie die Fahigkeit zu lesen und zu schreiben“(H.G. Wells)

You can’t manage what you don’t measure (W.E. Deming)

Seit der Finanzkrise gibt es in der Okonomie einen starken Trendzur empirischen Forschung, die enorm aufgewertet wurde. KeinWissenschaftler bekommt heute ein makrookonomisches Paper ineinem guten Journal veroffentlicht, in dem er nicht saubere...empirische Forschung prasentiert (SZ 14.10.2016).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 19 / 391

Page 28: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zitate

”Traue keiner Statistik, die Du nicht selbst gefalscht hast“

(nicht von Churchill)

”Statistics is a body of methods for making wise decisions in the

face of uncertainty“(W.A. Wallis, A.V. Roberts)

”Statistisches Denken wird eines Tages fur mundige Staatsburger

ebenso wichtig sein, wie die Fahigkeit zu lesen und zu schreiben“(H.G. Wells)

You can’t manage what you don’t measure (W.E. Deming)

Seit der Finanzkrise gibt es in der Okonomie einen starken Trendzur empirischen Forschung, die enorm aufgewertet wurde. KeinWissenschaftler bekommt heute ein makrookonomisches Paper ineinem guten Journal veroffentlicht, in dem er nicht saubere...empirische Forschung prasentiert (SZ 14.10.2016).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 19 / 391

Page 29: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zitate

”Traue keiner Statistik, die Du nicht selbst gefalscht hast“

(nicht von Churchill)

”Statistics is a body of methods for making wise decisions in the

face of uncertainty“(W.A. Wallis, A.V. Roberts)

”Statistisches Denken wird eines Tages fur mundige Staatsburger

ebenso wichtig sein, wie die Fahigkeit zu lesen und zu schreiben“(H.G. Wells)

You can’t manage what you don’t measure (W.E. Deming)

Seit der Finanzkrise gibt es in der Okonomie einen starken Trendzur empirischen Forschung, die enorm aufgewertet wurde. KeinWissenschaftler bekommt heute ein makrookonomisches Paper ineinem guten Journal veroffentlicht, in dem er nicht saubere...empirische Forschung prasentiert (SZ 14.10.2016).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 19 / 391

Page 30: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zitate

”Traue keiner Statistik, die Du nicht selbst gefalscht hast“

(nicht von Churchill)

”Statistics is a body of methods for making wise decisions in the

face of uncertainty“(W.A. Wallis, A.V. Roberts)

”Statistisches Denken wird eines Tages fur mundige Staatsburger

ebenso wichtig sein, wie die Fahigkeit zu lesen und zu schreiben“(H.G. Wells)

You can’t manage what you don’t measure (W.E. Deming)

Seit der Finanzkrise gibt es in der Okonomie einen starken Trendzur empirischen Forschung, die enorm aufgewertet wurde. KeinWissenschaftler bekommt heute ein makrookonomisches Paper ineinem guten Journal veroffentlicht, in dem er nicht saubere...empirische Forschung prasentiert (SZ 14.10.2016).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 19 / 391

Page 31: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zitate

”Traue keiner Statistik, die Du nicht selbst gefalscht hast“

(nicht von Churchill)

”Statistics is a body of methods for making wise decisions in the

face of uncertainty“(W.A. Wallis, A.V. Roberts)

”Statistisches Denken wird eines Tages fur mundige Staatsburger

ebenso wichtig sein, wie die Fahigkeit zu lesen und zu schreiben“(H.G. Wells)

You can’t manage what you don’t measure (W.E. Deming)

Seit der Finanzkrise gibt es in der Okonomie einen starken Trendzur empirischen Forschung, die enorm aufgewertet wurde. KeinWissenschaftler bekommt heute ein makrookonomisches Paper ineinem guten Journal veroffentlicht, in dem er nicht saubere...empirische Forschung prasentiert (SZ 14.10.2016).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 19 / 391

Page 32: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

BIG DATA

Analyse und Verarbeitung großer Datenmengen

Drei Vs

VolumeVelocityVariety

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 20 / 391

Page 33: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

1 Datenerhebung und MessungDie MessungSkalenniveaus

Page 34: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Vorlesungseinheiten (vorlaufig)

1 Datenerhebung und Messung

2 Haufigkeitsverteilungen

3 Lagemaße

4 Streuungsmaße

5 Konzentrationsmaße

6 Zusammenhangmaße

7 lineare Regression

8 Indizes

Page 35: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Grundbegriffe

Statistische Einheit, Untersuchungseinheit

Grundgesamtheit/ Population

Teilgesamtheit/ Stichprobe

Merkmal

Merkmalsauspragung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 23 / 391

Page 36: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Untersuchungseinheit und Grundgesamtheit

Definition Untersuchungseinheit

Die Objekte, auf die sich eine statistische Analyse bezieht, heißenUntersuchungseinheiten. Diese werden im folgenden durch das Symbol ωdargestellt.

Definition Grundgesamtheit

Die Zusammenfassung aller Untersuchungseinheiten bildet dieGrundgesamtheit. Sie wird durch das Symbol Ω dargestellt. DieBeziehung zwischen Untersuchungseinheiten und zugehorigerGrundgesamtheit lasst sich kurz wie folgt umschreiben: ωi ∈ Ω.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 24 / 391

Page 37: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Untersuchungseinheit und Grundgesamtheit

1. Beispiel: Personalstruktur einer Firma

Wenn wir uns fur die Personalstruktur einer Firma interessieren, sobesteht die Grundgesamtheit Ω aus der gesamten Belegschaft; jedereinzelne Mitarbeiter stellt eine Untersuchungseinheit dar.

2. Beispiel: Wirtschaftskraft der chemischen Industrie in Europa

Hier sind die europaischen Chemiefirmen die Untersuchungseinheiten.Zusammengefasst ergibt sich aus ihnen die Grundgesamtheit dereuropaischen Chemieindustrie.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 25 / 391

Page 38: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Merkmal, Merkmalsauspragung und Merkmalsraum

Definition Merkmal bzw. statistische Variable

Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheitbezeichnet man als Merkmal oder statistische Variable.

Definition Merkmalsauspragung

Eine Merkmalsauspragung ist der konkrete Wert eines Merkmals, die einebestimmte Untersuchungseinheit aufweist. Es gibt zwei Typen vonAuspragungen:

Qualitativ Sie lassen sich durch die verschiedenartigen Auspragungencharakterisieren.

Quantitativ Diese sind messbar und werden durch Zahlen erfasst. Beidiesen gibt es eine weitere Unterscheidung:

diskret Der zugehorige Zustandsraum ist abzahlbar groß.stetig Es sind uberabzahlbar viele Elemente im Zustandsraum.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 26 / 391

Page 39: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Merkmal, Merkmalsauspragung und Merkmalsraum

Definition Merkmalsraum oder Zustandsraum

Die Menge aller moglichen Merkmalsauspragungen bildet denMerkmalsraum oder Zustandsraum.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 27 / 391

Page 40: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Merkmal, Merkmalsauspragung und Merkmalsraum

Beispiele Merkmal bzw. statistische Variable

1 Farbe eines Produkts

2 bestellte Produkte pro Auftrag

3 Gewinn/Verlust pro Monat

Beispiele Merkmalsauspragung

1 6. Gut = blau

2 19. Kunde = 17 Stuck

3 Marz 2010 = +23.500 e

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 28 / 391

Page 41: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Weitere Klassen

Quasi-stetiges Merkmaldiskret, sehr kleine Einheiten,

”praktisch“ stetig.

Beispiel: Monetare Großen in Cent, usw.

Gruppierte Daten, Haufigkeitsdaten: stetiges oder quasi-stetigesMerkmal XWertebereich wird in Gruppen (Klassen, Kategorien) eingeteilt.Beispiele: Gehalt in Gehaltsklassen, Alter in AltersklassenBemerkung: Gruppierung dient auch dem Datenschutz!

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 29 / 391

Page 42: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Datengewinnung und Erhebungsarten

Vollerhebung:Alle statistischen Einheiten der Grundgesamtheit werden untersucht(”erhoben“).

Stichprobe = Teilerhebung

Zufallsstichprobe:statistische Einheiten der Stichprobe werden zufallig nach einembestimmten Mechanismus gezogenMehr dazu in Statistik II (induktive Statistik) und in der VorlesungStichprobenverfahren

Bewusste Auswahlverfahren”Expertenauswahl“

Quotenauswahl

Induktive Statistik in der Regel nur mit zufalliger Stichprobe moglich!

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 30 / 391

Page 43: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Erhebungsarten

Querschnittsdaten:Ein oder mehrere verschiedene Merkmale werden an einer Reihe vonObjekten einmal erhoben (zu einem bestimmten Zeitpunkt oder ineinem bestimmten Zeitraum)

ZeitreiheBeispiele: Aktienkurse, Wirtschaftsentwicklung

Longitudinal-, Langsschnitt- oder Paneldaten:Ein oder mehrere Merkmale werden mehrmals zu verschiedenenZeitpunkten an einer Reihe von Objekten erhoben.

Beispiel: Soziookonomisches Panel

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 31 / 391

Page 44: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Erhebungsarten

Querschnittsdaten:Ein oder mehrere verschiedene Merkmale werden an einer Reihe vonObjekten einmal erhoben (zu einem bestimmten Zeitpunkt oder ineinem bestimmten Zeitraum)

ZeitreiheBeispiele: Aktienkurse, Wirtschaftsentwicklung

Longitudinal-, Langsschnitt- oder Paneldaten:Ein oder mehrere Merkmale werden mehrmals zu verschiedenenZeitpunkten an einer Reihe von Objekten erhoben.

Beispiel: Soziookonomisches Panel

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 31 / 391

Page 45: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Erhebungsarten

Querschnittsdaten:Ein oder mehrere verschiedene Merkmale werden an einer Reihe vonObjekten einmal erhoben (zu einem bestimmten Zeitpunkt oder ineinem bestimmten Zeitraum)

ZeitreiheBeispiele: Aktienkurse, Wirtschaftsentwicklung

Longitudinal-, Langsschnitt- oder Paneldaten:Ein oder mehrere Merkmale werden mehrmals zu verschiedenenZeitpunkten an einer Reihe von Objekten erhoben.

Beispiel: Soziookonomisches Panel

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 31 / 391

Page 46: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Experimente

Es werden in der Regel verschiedene”Behandlungen “verglichen

Experimentator greift ein

Randomisierte Studie: Zuordnung von Einheiten zu Behandlungenerfolgt durch Losverfahren (Randomisierung)

Randomisierte Experimente in der BWL (Spiele, WWW)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 32 / 391

Page 47: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Messen

”Measurement is the contact of reason with nature“ Henry Margenau (1959)

”In its broadest sense, measurement is the assignment of numerals to objects or

events according the rules“

Messen bedeutet die Zuordnung von Zahlen zu Auspragungen von Merkmalenan Objekten.

Physikalische MessungBeispiele: Gewicht, Blutdruck, Fettaufnahme

PsychologieBeispiele: Intelligenz, Gewaltbereitschaft, Performance

WirtschaftswissenschaftenBeispiele: Inflation, Bruttosozialprodukt, Umsatz,

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 33 / 391

Page 48: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Messen

”Measurement is the contact of reason with nature“ Henry Margenau (1959)

”In its broadest sense, measurement is the assignment of numerals to objects or

events according the rules“

Messen bedeutet die Zuordnung von Zahlen zu Auspragungen von Merkmalenan Objekten.

Physikalische MessungBeispiele: Gewicht, Blutdruck, Fettaufnahme

PsychologieBeispiele: Intelligenz, Gewaltbereitschaft, Performance

WirtschaftswissenschaftenBeispiele: Inflation, Bruttosozialprodukt, Umsatz,

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 33 / 391

Page 49: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Messen

”Measurement is the contact of reason with nature“ Henry Margenau (1959)

”In its broadest sense, measurement is the assignment of numerals to objects or

events according the rules“

Messen bedeutet die Zuordnung von Zahlen zu Auspragungen von Merkmalenan Objekten.

Physikalische MessungBeispiele: Gewicht, Blutdruck, Fettaufnahme

PsychologieBeispiele: Intelligenz, Gewaltbereitschaft, Performance

WirtschaftswissenschaftenBeispiele: Inflation, Bruttosozialprodukt, Umsatz,

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 33 / 391

Page 50: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Definition

Peter −→ 1.84Stefan −→ 1.91Laura −→ 1.72

Merkmal definiert Relation (Struktur) zwischen den Objekten.

Messung: strukturerhaltende Abbildung (Homomorphismus)

Peter ist kleiner als Stefan ⇔ 1.84 < 1.91

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 34 / 391

Page 51: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nominalskala

Beispiele:Diagnosen, Geschlecht

Struktur:keine

Mogliche Aussagen:gleich, ungleich

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 35 / 391

Page 52: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ordinal- oder Rangskala

Beispiele:Schulbildung, soziale Schicht, Schulnoten

Struktur:lineare Ordnung

Mogliche Aussagen:gleich, ungleich, großer, kleiner

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 36 / 391

Page 53: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Intervallskala

Beispiele:Umsatz, Preisindex, Schulnoten (??)

Struktur:Abstande sinnvoll definiert

Mogliche Aussagen:gleich, ungleich, großer, kleiner, Differenzen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 37 / 391

Page 54: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verhaltnisskala

Intervallskala mit Nullpunkt

Beispiele:Gewinn, Preis, Beschaftigungsdauer, Alter

Struktur:Abstande definiert, Nullpunkt

Mogliche Aussagen:gleich, ungleich, großer, kleiner, Differenzen, Verhaltnis

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 38 / 391

Page 55: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Absolutskala

Beispiel:Haufigkeit

Struktur:Einheit liegt auf naturliche Weise fest

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 39 / 391

Page 56: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Skalenniveau

Beachte:

Je hoher das Skalenniveau, desto mehr Interpretationen undRechnungen sind moglich

Je hoher das Skalenniveau, desto mehr (implizite) Annahmenwerden gemacht

sinnvoll interpretierbare BerechnungenSkalenart auszahlen ordnen Differenzen bilden Quotienten bildennominal ja nein nein neinordinal ja ja nein nein

intervall ja ja ja neinverhaltnis ja ja ja ja

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 40 / 391

Page 57: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Indexbildung

Bildung von Einzelindikatoren zu einer neuen VariablenHaufig: Bildung von (gewichteten) Summen von einzelnen Variablen

Beispiel:

Pflege–Qualitat = a1 · Q(Essen) + a2 · Q(Medizinische Versorgung) + ...

Indexbildung folgt nur theoretischen Vorgaben und fachspezifischenUberlegungen

Fragen der Statistik:

Gleichheit sinnvoll ? (Dimensionsreduktion zulassig)

Ordnung bzw. Abstande sinnvoll ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 41 / 391

Page 58: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

2 Datenorganisation und HaufigkeitsverteilungenDatenorganisationStatistik-SoftwareHaufigkeiten

Page 59: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Deskriptive Statistik

”Data is merely the raw material of knowledge.“

Ziel: Beschreibung von Daten mit moglichst geringemInformationsverlust

Eigenschaften und Strukturen sichtbar machen

Graphisch und durch Kennwerte

Eindimensional und mehrdimensional

Zunachst keine Schlusse auf die Grundgesamtheit oder allgemeinePhanomene

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 43 / 391

Page 60: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Rohdaten und Datenmatrix

Die Daten liegen in der Regel als Datenmatrix vor:

Zeilen entsprechen Untersuchungseinheiten

Spalten entsprechen Merkmalen

Elemente der Matrix sind die Merkmalsauspragungen

Fragen mit Mehrfachnennungen als einzelne binare Merkmaledefinieren

Hinweise zur Eingabe unter http://www.stablab.stat.uni-muenchen.de/Datensaetze_mit_Excel

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 44 / 391

Page 61: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Mietspiegel

Nr nm nmqm wfl rooms bj bez kueche1 608.40 12.67 48 2 1957 Untergiesing 02 780.00 13.00 60 2 1983 Bogenhausen 03 822.60 7.48 110 5 1957 Obergiesing 14 500.00 8.62 58 2 1957 Schwanthh 05 595.00 8.50 70 3 1972 Aubing 06 960.00 11.85 81 3 2006 Schwanthh 0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 45 / 391

Page 62: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kodierung

Motivation

Da es nicht moglich ist, mit Zeichenketten zu rechnen, mussenqualitative Merkmale fur die statistische Analyse mit einerStatistik-Software geeignet aufbereitet werden.

Definition Kodierung

Der Vorgang, bei dem man Merkmalsauspragungen oder fehlendenWerten Zahlen zuordnet, die die entsprechende Auspragungreprasentieren, bezeichnet man als Kodierung.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 46 / 391

Page 63: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Dateneingabe

Nutzliche Werkzeuge

Um die erhobenen Daten von Beobachtungen, Umfragen oderExperimenten auszuwerten, diese gebundelt in einer Datei abzuspeichern.Dafur eignen sich

Tabellenkalkulationsprogramme Excel, Lotus 1-2-3

Datenbaksysteme dBase, Paradox, Access, MySQL

Statistikpakete R, SAS,SPSS,STATA

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 47 / 391

Page 64: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

SPSS

Vorteile

umfassendes Paket an statistischen Methoden vorhanden

erarbeitete Skripte konnen auf neue Daten leicht angepasst werden

schnelle Einarbeitung in die Benutzeroberflache

Konsistenzuberprufung der Daten vorhanden

Nachteile

Skripterstellung bedarf Einarbeitung

Formatierung von Diagrammen in der Benutzeroberflache zum Teilumstandlich

teure Lizenz

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 48 / 391

Page 65: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Programmiersprache R

Vorteile

umfassendes Paket an statistischen Methoden vorhanden

erarbeitete Skripte konnen auf neue Daten leicht angepasst werden

bequeme Schnittstellen zu Dateien/Datenbanken vorhanden

kostenlos beziehbar unter http://www.r-project.org

Editor R-Studio unter https://www.rstudio.com/

Kurse fur Studierende der LMU

Nachteile

bedarf Einarbeitung

keine eigene Datenverwaltung vorhanden

Updates nicht notwendiger Weise kompatibel zu alteren Versionen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 49 / 391

Page 66: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eindimensionale Haufigkeitsverteilung

Ordnen der Daten nach einem Merkmal

Auszahlen der Haufigkeiten der einzelnen Merkmalsauspragungen

Relative Haufigkeiten = Haufigkeit/Anzahl derUntersuchungseinheiten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 50 / 391

Page 67: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Haufigkeitsverteilung

Im Weiteren:

X ,Y , . . . Bezeichnung fur Merkmal

n Untersuchungseinheiten

x1, . . . , xi , . . . , xn, i = 1, . . . , n beobachtete Werte bzw.Merkmalsauspragungen von X

x1, . . . , xi , . . . , xn; i = 1, . . . , n Rohdaten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 51 / 391

Page 68: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Haufigkeiten I

a1 < a2 < . . . < ak , k ≤ n der Große nach geordnete, verschiedeneWerte x1, . . . , xn

Beispiel: AbsolventenstudieFur die Variable D “Ausrichtung der Diplomarbeit” sind die Daten durchdie folgende Tabelle gegeben.

Person i 1 2 3 4 5 6 7 8 9 10 11 12Variable D 3 4 4 3 4 1 3 4 3 4 4 3

Person i 13 14 15 16 17 18 19 20 21 22 23 24Variable D 2 3 4 3 4 4 2 3 4 3 4 2

Person i 25 26 27 28 29 30 31 32 33 34 35 36Variable D 4 4 3 4 3 3 4 2 1 4 4 4

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 52 / 391

Page 69: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Haufigkeiten II

Auspragung absolute Haufigkeit h relative Haufigkeit f1 2 2/36 = 0.0562 4 4/36 = 0.1113 12 12/36 = 0.3334 18 18/36 = 0.500

Haufigkeitstabelle fur die Variable D”Ausrichtung der Diplomarbeit“

Bemerkungen:

Fur Nominalskalen hat die Anordnung”<“ keine inhaltliche

Bedeutung.

Bei kategorialen Merkmalen ⇒ k = Anzahl der KategorienBei stetigen Merkmalen ⇒ k oft nicht oder kaum kleiner als n.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 53 / 391

Page 70: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Absolute und relative Haufigkeiten

h(aj) = hj absolute Haufigkeit der Auspragung aj ,

d.h. Anzahl der xi aus x1, . . . xn mit xi = aj

f (aj) = fj = hj/n relative Haufigkeit von aj

h1, . . . , hk absolute Haufigkeitsverteilung

f1, . . . , fk relative Haufigkeitsverteilung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 54 / 391

Page 71: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Klassenbildung

Vorgehensweise bei vielen Auspragungen

Bei stetigen Merkmalen und diskreten Merkmalen mit vielen Aus-pragungen (= quasistetig) bedarf es des Zwischenschritts der Klas-senbildung, um eine uberschaubare Verteilung zu erhalten.

Klassenbildung

Als Anhaltspunkt fur eine brauchbare Verteilung sollten√

n Klas-sen gebildet werden. Bei der Wahl der Klassen gibt es zweiMoglichkeiten:

1 nach sachlogischen Gegebenheiten

2 nach willkurlichen Kriterien,

wobei die zweite Gestaltungsart Raum zur Manipulation derHaufigkeitsstruktur schafft und deshalb vermieden werden sollte.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 55 / 391

Page 72: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio

[900; 1500[ 9,3688 Mio

[1500; 2600[ 12,2696 Mio

[2600; 4500[ 7,4088 Mio

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 73: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 5,723239,2

[900; 1500[ 9,3688 Mio

[1500; 2600[ 12,2696 Mio

[2600; 4500[ 7,4088 Mio

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 74: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio

[1500; 2600[ 12,2696 Mio

[2600; 4500[ 7,4088 Mio

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 75: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 9,368839,2

[1500; 2600[ 12,2696 Mio

[2600; 4500[ 7,4088 Mio

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 76: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio

[2600; 4500[ 7,4088 Mio

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 77: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio 12,269639,2

[2600; 4500[ 7,4088 Mio

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 78: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio 0,313

[2600; 4500[ 7,4088 Mio

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 79: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio 0,313

[2600; 4500[ 7,4088 Mio 7,408839,2

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 80: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio 0,313

[2600; 4500[ 7,4088 Mio 0,189

[4500;∞[ 4,4296 Mio

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 81: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio 0,313

[2600; 4500[ 7,4088 Mio 0,189

[4500;∞[ 4,4296 Mio 4,429639,2

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 82: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio 0,313

[2600; 4500[ 7,4088 Mio 0,189

[4500;∞[ 4,4296 Mio 0,113

Σ 39,2 Mio

1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 83: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Verteilung der monatlichen Haushaltsnettoeinkommen inDeutschland 2005

mon. Einkommen absolute relative

in e Haufigkeit Haufigkeit

[0; 900[ 5,7232 Mio 0,146

[900; 1500[ 9,3688 Mio 0,239

[1500; 2600[ 12,2696 Mio 0,313

[2600; 4500[ 7,4088 Mio 0,189

[4500;∞[ 4,4296 Mio 0,113

Σ 39,2 Mio 1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 56 / 391

Page 84: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Hafigkeitstabelle

Definition Haufigkeitstabelle

Die tabellarische Zusammenfassung der

Merkmalsauspragungen ajbei qualitativen und diskreten Merkmalen

Klassengrenzennur bei (quasi-)stetigen Merkmalen

Klassenbreitennur bei stetigen Merkmalen

absoluten Haufigkeiten hj

relativen Haufigkeiten fj

fur alle Merkmalsauspragungen j = 1, ..., k wird als Haufigkeits-tabelle bezeichnet.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 57 / 391

Page 85: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Hafigkeitstabelle

allgemeine Form bei qualitativen und diskreten Merkmalen

j aj hj fj1 a1 h1 f1

......

......

k ak hk fkΣ n 1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 58 / 391

Page 86: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Weltbevolkerung nach Kontinenten im Jahr 2002

lfd Nr. (j) Kontinent (aj) abs. H’keit (hj) rel. H’keit (fj)

1 Asien 3.769 Mio 0,607

2 Afrika 832 Mio 0,134

3 Europa 725 Mio 0,116

4 Lateinamerika 534 Mio 0,086

5 Nordamerika 320 Mio 0,052

6 Ozeanien 31 Mio 0,005

Σ 6.211 Mio 1,000

Quelle: UNFPA Weltbevolkerungsbericht 2002 New York / Stuttgart

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 59 / 391

Page 87: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Grafische Darstellungen

”Ein Bild sagt mehr als tausend Worte“

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 60 / 391

Page 88: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Statistische Grafik

Lit.: Tufte, E. (2001): The visual Display of Information.Graphic Press 2nd ed.

Allgemeine Kriterien

Wahl der Skala inkl. Bereich

Wahl des Prinzips (Langentreue, Flachentreue)

Einbringen von anderen Visualisierungen (Piktogramme etc.)

Angemessene Wahl der Variablen

Angemessene Wahl der Farben

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 61 / 391

Page 89: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wahrnehmung von Grafiken

Experimente von Psychologen zeigen Hierarchie der korrektenInterpretation (Cleveland/McGill)

1 Abstande

2 Winkel

3 Flachen

4 Volumen

5 Farbton-Sattheit-Schwarzegrad

Da Abstande am besten wahrgenommen werden, sollten diese bevorzugtverwendet werden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 62 / 391

Page 90: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Grafische Darstellungen

SZ 11.1.11

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 63 / 391

Page 91: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Entwicklung der weltweiten Kunststoffproduktion

JOHANNES KEPLER UNIVERSITÄT LINZ IFAS - INSTITUT FÜR

ANGEWANDTE STATISTIK

Unsinn in den Medien – Vom allzu sorglosen Umgang mit Daten: Grafische Darstellungen

(gefunden am 6. September 2014 auf Seite 7 im „Magazin“ der Oberösterreichischen Nachrichten)

300

250

200

150

100

50

0 1976 2002 2012

(Für den Kommentar verantwortlich: Andreas Quatember, IFAS)

Mio

. t

Grafik von Andreas Quatember (Universitat Linz)http://www.jku.at/ifas/content/e101235/e101334

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 64 / 391

Page 92: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kommentar: Eine waschechte Zeitungsente!

Die mengenmaßige Entwicklung der weltweiten Kunststoffproduktionuber drei Zeitpunkte (1976, 2002, 2012) wird hier durch immer großerwerdenden

”Quietschentchen“ dargestellt.

Unterschiedlichen Zeitraume zwischen den Jahreszahlen mal hin.

Eindruck einer Versechsfachung (288 : 47 = 6,1) falsch !

Volumina werden miteinander verglichen

3 D -Darstellungen sind zu vermeiden

Raumliche Darstellungen von eindimensionalen Haufigkeiten fuhren meistzu verzerrter Wahrnehmung.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 65 / 391

Page 93: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Liniendiagramm (??)

2002 2003 2004 2005

1000

010

500

1100

011

500

1200

0

Jahr

Um

satz

erlö

s

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 66 / 391

Page 94: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Liniendiagramm (!!)

2002 2003 2004 2005

020

0040

0060

0080

0010

000

1200

0

Jahr

Um

satz

erlö

s

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 67 / 391

Page 95: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Typen von eindimensionalen Darstellungen

Stab-, Balken- und Saulendiagramm

Kreis (Torten)-Diagramm

Histogramm

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 68 / 391

Page 96: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Stabdiagramm, Saulen- und Balkendiagramm

Stabdiagramm:Trage uber a1, . . . , ak jeweils einen zur x-Achse senkrechten Strich(Stab) mit Hohe h1, . . . , hk (oder f1, . . . , fk) ab.

Saulendiagramm:wie Stabdiagramm, aber mit Rechtecken statt Strichen.

Balkendiagramm:wie Saulendiagramm, aber mit vertikal statt horizontal gelegterx-Achse.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 69 / 391

Page 97: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Saulendiagramm

Darstellung der absoluten oder relativen Haufigkeiten als Hohen (Langen)

x-Achse: Auspragungen des Merkmalsy-Achse: absolute/ relative Haufigkeiten

Anwendungen:

Ordinale Merkmale

Metrische Merkmale mit wenigen Auspragungen

Nominale Merkmale (Problem: Ordnung nicht vorhanden)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 70 / 391

Page 98: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel : Zahl der Zimmer im Mietspiegel

1 2 3 4 5 6

Anzahl der Zimmer

020

040

060

080

010

00

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 71 / 391

Page 99: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kreisdiagramm, Tortendiagramm

Darstellung der relativen (absoluten) Haufigkeiten als Flache eines Kreises

Anwendung:

Nominale Merkmale

Ordinale Merkmale (Problem: Ordnung nicht korrektwiedergegeben)

Gruppierte Daten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 72 / 391

Page 100: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mietspiegel: Zahl der Zimmer

1

2

34

56

Anzahl der Zimmer

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 73 / 391

Page 101: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Stapeldiagramm

Darstellen der absoluten oder relativen Haufigkeiten als Lange. DieAbschnitte werden ubereinander in verschiedenen Farben gestapelt.

Anwendungen:

Ordinale Daten

Gruppierte Daten

Metrische Daten mit wenigen Auspragungen

Besonders geeignet fur den Vergleich verschiedener Gruppen durchnebeneinander liegende Stapel. Zu beachten ist dann die Unterscheidung:relative Haufigkeit ↔ absolute Haufigkeit

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 74 / 391

Page 102: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Zahl der Zimmer/Kuchenausstattung

0 1

6

5

4

3

2

1

050

010

0015

0020

00

2 Gruppen: 1 = gehobene Ausstattung der Kuchen, 0 keine gehobeneAusstattung der Kuche

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 75 / 391

Page 103: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Zahl der Zimmer/Kuchenausstattung

0 1

6

5

4

3

2

1

0.0

0.2

0.4

0.6

0.8

1.0

2 Gruppen: 1 = gehobene Ausstattung der Kuchen, 0 keine gehobeneAusstattung der Kuche

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 76 / 391

Page 104: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Intoleranz in Bayern SZ 25.10

Studie aus der LMU Soziologie Christian Ganser

SZ vom 25.10.16

SZ‐Grafik; Quelle LMU München

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 77 / 391

Page 105: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Intoleranz in Bayern SZ 25.10

SZ vom 25.10.16

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 78 / 391

Page 106: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Das Histogramm

Darstellung der relativen Haufigkeiten durch Flachen(Prinzip der Flachentreue)

Vorgehen:

1 Aufteilung in Klassen (falls die Daten noch nicht gruppiert sind)

2 Bestimmung der relativen Haufigkeiten fj =hjn

3 Bestimmung der Hohen lj , so dass gilt bj · lj = fjwobei bj : Breite der Klasse j .

4 Bei gleichen Klassenbreiten bj = b gilt lj =fjb =

hjb·n . Daher wird bei

solchen Histogrammen als Hohe auch hj gewahlt

5 Klassierung sollte moglichst mit gleichen Klassenbreiten erfolgen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 79 / 391

Page 107: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mietspiegel

Mieten in München

Nettoquadratmetermiete

Anz

ahl

5 10 15 20

020

040

060

080

0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 80 / 391

Page 108: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Histogramm

Anwendung bei metrischen Daten

Beachte: Abhangigkeit von der Breite

Klasse inhaltlich vorgeben, verschiedene Varianten ansehen.

Vorsicht bei Randern

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 81 / 391

Page 109: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Empirische Verteilungsfunktion

H(x) := Anzahl der Werte <= x

F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x

bzw.F (x) = f (a1) + . . .+ f (aj) =

∑i :ai≤x

fi ,

wobei aj ≤ x und aj+1 > x ist.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 82 / 391

Page 110: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

empirische Verteilungsfunktion ordinaler unddiskreter Merkmale

Beispiel

Zugrunde liegende Daten entstammen dem Munchner Mietspiegel von2005.

Anz. abs. rel. F (x)

Raume H’keit H’keit

1 282 0,092 0,092

2 1049 0,342 0,434

3 1175 0,384 0,818

4 442 0,144 0,962

5 99 0,033 0,995

6 16 0,005 1

Σ 3063 1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 83 / 391

Page 111: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel fur eine Empirische Verteilungsfunktion

0 1 2 3 4 5 6 7

0.0

0.4

0.8

Zahl der Zimmer (Verteilungsfunktion)

Anzahl Zimmer

Fn(

x)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 84 / 391

Page 112: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eigenschaften von F (x)

monoton wachsende Treppenfunktionen mit Sprungen an denAuspragungen a1, . . . , ak

Sprunghohen: f1, . . . , fk

rechtsseitig stetigF (x) = 0 fur x < a1, F (x) = 1 fur x ≥ ak

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 85 / 391

Page 113: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel fur eine Empirische Verteilungsfunktion

0 5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Mieten in München (Verteilungsfunktion)

Nettoquadratmetermiete

Fn(

x)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 86 / 391

Page 114: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

3 LagemaßeModusMedianQuantileDarstellung: BoxplotMittelwert

Page 115: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Fragen

Wo liegt die Masse der Daten?

Wo liegt die Mehrzahl der Daten?

Wo liegt die Mitte der Daten?

Welche Merkmalsauspragung ist typisch fur dieHaufigkeitsverteilung?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 88 / 391

Page 116: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Modus

verwendbar bei Merkmalen mit

Nominalskala Ordinalskala metrische Skala

x x x

Definition Modus

Als Modus oder Modalwert xM bezeichnet man den haufigsten Wert einerVerteilung.

Bei diskreten Daten ist der Modus die Merkmalsauspragung aj , dieam haufigsten auftritt. Bei mehreren Maxima ist der Modus nichteindeutig definiert.

Fur gruppierte Daten ist der Modus definiert als die Klassenmitteder am dichtesten besetzten Gruppe.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 89 / 391

Page 117: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Der Modus: Eigenschaften

Eigenschaften:

oft nicht eindeutig

nur bei gruppierten Daten oder bei Merkmalen mit wenigenAuspragungen sinnvoll

stabil bei allen eindeutigen Transformationen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 90 / 391

Page 118: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Gegeben sei folgende Werteliste: 4, 5, 5, 6, 6, 6, 7, 7, 9.Die zugehorige Haufigkeitstabelle ergibt

Auspragung H’keit4 15 26 37 29 1

und somit xM = 6.

Bei einer Datentransformation, hier z.B. Y = X 2, ergibt sich:

yM = 36 = (xM)2

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 91 / 391

Page 119: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Median

verwendbar bei Merkmalen mit

Nominalskala Ordinalskala metrische Skala

x x

Definition Median oder Zentralwert

Der Median oder Zentralwert wird aus den geordneten Daten gewonnen.Er wird durch die Forderung bestimmt, dass

50% der beobachteten Werte kleiner oder gleich und

50% der beobachteten Werte großer oder gleich

dem Median sein sollen. Er wird mit x0,5 bezeichnet.

Eine alternative Formulierung fur die Bestimmung des Medians ist uberdie empirische Verteilungsfunktion durch die Forderung F (x0,5) = 0, 5gegeben.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 92 / 391

Page 120: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Median

Berechnung des Medians

x0,5 =

x(n+1)/2 falls n ungerade12 (x(n/2) + x(n/2 +1)) falls n gerade

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 93 / 391

Page 121: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eigenschaften des Medians

anschaulich

geeignet fur ordinale Daten

stabil gegenuber Ausreißern

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 94 / 391

Page 122: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Median

Beispiel

Gegeben sei zunachst die Werteliste ohne großeren Ausreißer:

4, 5, 5, 6, 6, 6, 7, 7, 9.

Da n = 9 ungerade ist, gilt:

x0,5 = x(n+1)/2 = x(9+1)/2 = x5 = 6

Wird nun die Werteliste mit einem deutlichen Ausreißer versehen, also

4, 5, 5, 6, 6, 6, 7, 7, 28,

so verbleibt der Median bei 6, denn der neue Extremwert ubt keinenEinfluß aus, wie die obige Berechnung aufzeigt.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 95 / 391

Page 123: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Das Quantil

Definition: Wert fur den gilt:

Mindestens Anteil p der Daten sind kleiner oder gleich xpMindestens Anteil 1− p der Daten sind großer oder gleich xp

x(k) falls np keine ganze Zahl und k kleinste Zahl > np∈[x(k); x(k+1)

]falls k = np ganze Zahl

Es gibt weitere Definitionen von Quantilen (in R 9 Typen), die sich aberin der Praxis kaum unterschieden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 96 / 391

Page 124: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Quantile: Berechnung

Berechnung von Quantilen

xα =

x(k) falls nα keine ganze Zahl ist, k ist

dann die kleinste ganze Zahl > nα,12 (x(nα) + x(nα+1)) falls nα ganzzahlig ist.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 97 / 391

Page 125: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Quantile

Besondere Quantile

Bei der Charakterisierung von Verteilungen haben folgende Quantile einebesondere Bedeutung:

Median entspricht dem 50%-Quantil (siehe oben)

unteres Quartil entspricht dem 25%-Quantil

oberes Quartil entspricht dem 75%-Quantil

Funf-Punkte Zusammenfassung

Minimum, 25%-Quantil, Median, 75%-Quantil, Maximum

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 98 / 391

Page 126: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Gegeben sei die (altbekannte) Werteliste:

4, 5, 5, 6, 6, 6, 7, 7, 9.

Fur das untere Quartil x0,25 ergibt sich der Wert 5, denn

nα = 9 · 0, 25 = 2, 25 nicht ganzzahlig⇒ x0,25 = x(3) = 5

Funf-Punkte Zusammenfassung: 4,5,6,7,9

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 99 / 391

Page 127: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Boxplot

Einfacher Boxplot

x0.25 = Anfang der Schachtel (Box)x0.75 = Ende der SchachteldQ = Lange der Schachtel

Der Median wird durch den Strich in der Box markiert

Zwei Linien (”whiskers“) außerhalb der Box gehen bis zu xmin und xmax .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 100 / 391

Page 128: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfacher Boxplot

8 10 12 14 16 18 20

Median: x(5)

unteres Quartil: x(3)

oberes Quartil: x(7)

Minimum: x(1)

Maximum: x(9)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 101 / 391

Page 129: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfacher Boxplot

8 10 12 14 16 18 20

Median: x(5)

unteres Quartil: x(3)

oberes Quartil: x(7)

Minimum: x(1)

Maximum: x(9)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 101 / 391

Page 130: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfacher Boxplot

8 10 12 14 16 18 20

Median: x(5)

unteres Quartil: x(3)

oberes Quartil: x(7)

Minimum: x(1)

Maximum: x(9)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 101 / 391

Page 131: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfacher Boxplot

8 10 12 14 16 18 20

Median: x(5)

unteres Quartil: x(3)

oberes Quartil: x(7)

Minimum: x(1)

Maximum: x(9)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 101 / 391

Page 132: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfacher Boxplot

8 10 12 14 16 18 20

Median: x(5)

unteres Quartil: x(3)

oberes Quartil: x(7)

Minimum: x(1)

Maximum: x(9)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 101 / 391

Page 133: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Boxplot

Modifizierter Boxplot

Die Linien außerhalb der Schachtel werden nur bis zu xmin bzw. xmax gezogen,falls xmin und xmax innerhalb des Bereichs [zu, zo ] der Zaune liegen.zu = x0.25 − 1, 5dQ , zo = x0.75 + 1, 5dQAnsonsten gehen die Linien nur bis zum kleinsten bzw. großten Wert innerhalbder Zaune, die außerhalb liegenden Werte werden individuell eingezeichnet.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 102 / 391

Page 134: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Modifizierter Boxplot

0 10 20 30 40

Median: x(9),

Maximale Whiskerlange unten: x(5) − 1.5d = 3

Maximale Whiskerlange oben: x(13) + 1.5d = 35

xmin ohne Ausreißer: x(3) = 12

xmax ohne Ausreißer: x(16) = 29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 103 / 391

Page 135: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Modifizierter Boxplot

0 10 20 30 40

Median: x(9),

Maximale Whiskerlange unten: x(5) − 1.5d = 3

Maximale Whiskerlange oben: x(13) + 1.5d = 35

xmin ohne Ausreißer: x(3) = 12

xmax ohne Ausreißer: x(16) = 29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 103 / 391

Page 136: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Modifizierter Boxplot

0 10 20 30 40

Median: x(9), unteres Quartil: x(5), oberes Quartil: x(13)

Maximale Whiskerlange unten: x(5) − 1.5d = 3

Maximale Whiskerlange oben: x(13) + 1.5d = 35

xmin ohne Ausreißer: x(3) = 12

xmax ohne Ausreißer: x(16) = 29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 103 / 391

Page 137: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Modifizierter Boxplot

0 10 20 30 40

Median: x(9), unteres Quartil: x(5), oberes Quartil: x(13)

Maximale Whiskerlange unten: x(5) − 1.5d = 3

Maximale Whiskerlange oben: x(13) + 1.5d = 35

xmin ohne Ausreißer: x(3) = 12

xmax ohne Ausreißer: x(16) = 29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 103 / 391

Page 138: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Modifizierter Boxplot

0 10 20 30 40

Median: x(9), unteres Quartil: x(5), oberes Quartil: x(13)

Maximale Whiskerlange unten: x(5) − 1.5d = 3

Maximale Whiskerlange oben: x(13) + 1.5d = 35

xmin ohne Ausreißer: x(3) = 12

xmax ohne Ausreißer: x(16) = 29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 103 / 391

Page 139: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Modifizierter Boxplot

0 10 20 30 40

Median: x(9), unteres Quartil: x(5), oberes Quartil: x(13)

Maximale Whiskerlange unten: x(5) − 1.5d = 3

Maximale Whiskerlange oben: x(13) + 1.5d = 35

xmin ohne Ausreißer: x(3) = 12

xmax ohne Ausreißer: x(16) = 29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 103 / 391

Page 140: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Munchner Mietspiegel

05

1015

2025

Nettoquadratmetermiete

Eur

o

05

1015

2025

Nettoquadratmetermiete

Eur

o

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 104 / 391

Page 141: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Munchner Mietspiegel

1 2 3 4 5 6

05

1015

2025

Nettoquadratmetermiete

Zahl der Zimmer

Eur

o

1 2 3 4 5 6

05

1015

2025

Nettoquadratmetermiete

Zahl der Zimmer

Eur

o

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 105 / 391

Page 142: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Munchener Staubdaten

Staubkonzentration am Arbeitsplatz

Exposition

Fre

quen

cy

0 5 10 15 20

010

020

030

040

050

060

0

0 5 10 15 20

Staubkonzentration am Arbeitsplatz

Exposition

Beachte: Bimodale Verteilung im Boxplot nicht erkennbar.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 106 / 391

Page 143: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Boxplot: Vor- und Nachteile

pro:

kompakt

geeignet fur Vergleiche

Ausreißer sichtbar

Schiefe sichtbar

contra

gegen Intuition (Viel Farbe – wenig Daten)

Bimodale Verteilungen nicht sichtbar

Ausreißer sichtbar

Breite redundant

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 107 / 391

Page 144: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Der Mittelwert (arithmetisches Mittel)

x =1

n

n∑i=1

xi

bekanntestes Lagemaß

instabil gegen extreme Werte

geeignet fur intervallskalierte Daten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 108 / 391

Page 145: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mittelwert bei gruppierten Daten

x =1

n

n∑i=1

xi

=1

n(x1 + x2 + . . .+ xn)

=1

n

k∑j=1

hjaj

hj : Haufigkeit von aj

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 109 / 391

Page 146: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Getrimmtes Mittel

Um die Ausreißerempfindlichkeit von x abzuschwachen definiert man

xα =1

n − 2r

n−r∑i=r+1

x(i)

x(i) : geordnete x-Werter ist die großte ganze Zahl mit r ≤ nα

Es wird also der Anteil α der extremsten Werte abgeschnitten.

”α-getrimmtes Mittel“

Winsorisiertes Mittel (gestutztes Mittel)

Der Anteil α der extremsten Werte wird durch das entsprechende Quantilersetzt.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 110 / 391

Page 147: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Das geometrische Mittel

xG = n

√√√√ n∏i=1

xi

arithmetisches Mittel auf der log-Skala

xg = exp

(1

n

n∑i=1

log(xi )

)

nur geeignet fur positive Werte

geeignet fur intervallskalierte Daten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 111 / 391

Page 148: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Das harmonische Mittel

xH :=1

1n

∑ni=1

1xi

Das harmonische Mittel entspricht dem Mittel durch Transformation

t → 1

txH =

(1

n

n∑i=1

1

xi

)−1

Beispiel:x1, . . . , xn Geschwindigkeiten, mit denen konstante Wegstrecken Lzuruckgelegt werden

Gesamt-Geschwindigkeit:L · n

Lx1

+ . . .+ Lxn

= xH

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 112 / 391

Page 149: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Das harmonische Mittel

xH :=1

1n

∑ni=1

1xi

Das harmonische Mittel entspricht dem Mittel durch Transformation

t → 1

txH =

(1

n

n∑i=1

1

xi

)−1

Beispiel:x1, . . . , xn Geschwindigkeiten, mit denen konstante Wegstrecken Lzuruckgelegt werden

Gesamt-Geschwindigkeit:L · n

Lx1

+ . . .+ Lxn

= xH

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 112 / 391

Page 150: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Vorlesung 15.11.2016

Erganzungen zu Mittelwert undMedian

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 113 / 391

Page 151: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Transformationen

Linearitat des arithmetischen Mittels

Gegeben sind Daten x1, . . . xn und eine lineare Transformationyi = a + b · xiDann gilt

y = a + b · x

Beispiel: xi Gewinn in e; yi Gewinn in SFR

Invarianz des Medians bei monotonen Transformationen

Gegeben sind Daten x1, . . . xn und eine streng monoton steigendeTransformation yi = f (xi ), d.h. xi < xj ⇒ f (xi ) < f (yi ) Dann gilt

y0,5 = f (x0,5)

Beispiel: Logarithmierung, Umrechnung von Punkten in Noten.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 114 / 391

Page 152: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

4 StreumaßeSpannweiteInterquartilsabstandStandardabweichung und VarianzVariationskoeffizientMAD

Page 153: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Streumaße

Motivation

Lagemaße allein charakterisieren die Verteilung nur unzureichend!

Wenn man den Kopf in der Sauna hat und die Fuße imKuhlschrank, sprechen Statistiker von einer angenehmenmittleren Temperatur.Zwei Manner sitzen im Wirtshaus. Der eine verdruckt eineganze Kalbshaxe, der andere trinkt zwei Maß Bier. Statistischgesehen ist das fur jeden ein Maß Bier und eine halbe Haxe -aber der eine hat sich uberfressen, der andere ist besoffen.”

Die statistische Sicht soll sich also nicht auf den Mittelwert beschranken!!

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 116 / 391

Page 154: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Maße fur die Streuung

Spannweite

Interquartilsabstand

Standardabweichung und Varianz

Variationskoeffizient

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 117 / 391

Page 155: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Die Spannweite (Range)

Definition:

q = xmax − xmin

”Bereich in dem die Daten liegen“

Wichtig fur Datenkontrolle

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 118 / 391

Page 156: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Der Quartilsabstand

Definition:

dQ = x0.75 − x0.25

”Große des Bereichs in dem die mittlere Halfte der Daten liegt“

Bei ordinal skalierten Daten Angabe von x0.75 und x0.25

Zentraler 50%-Bereich

Robust gegen Ausreißer

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 119 / 391

Page 157: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Standardabweichung und Varianz

Definition

s2 :=1

n

n∑i=1

(xi − x)2 Varianz

s =√

s2 Standardabweichung

”Mittlere Abweichung vom Mittelwert“

Intervallskala Voraussetzung

Empfindlich gegen Ausreißer

Verwende S2 := 1n−1

∑ni=1(xi − x)2 fur Stichproben

Eigenschaften der Standardabweichung

Die Standardabweichung hat gegenuber der Varianz den Vorteil, dass siein der gleichen Einheit wie die Beobachtungswerte gemessen wird.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 120 / 391

Page 158: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Transformationsregel

yi = a + bxi

⇒ s2y = b2s2

x

sy = |b|sx (Analog fur Sx ,Sy )

Varianz und Standardabweichung sindmit linearen Transformationen vertraglich.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 121 / 391

Page 159: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verschiebungssatz

Fur jedes c ∈ R gilt:

n∑i=1

(xi − c)2 =n∑

i=1

(xi − x)2 + n(x − c)2

c = 0⇒ s2 =1

n

n∑i=1

x2i − x2

s2 = x2 − x2

Beachte:

Mittelwert minimiert∑n

i=1(xi − c)2

Verschiebungssatz fur numerische Berechnung mit Computer nichtgeeignet.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 122 / 391

Page 160: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Streuungszerlegung I

Seien die Daten in r Gruppen (Schichten) aufgeteilt:

x1, . . . , xn1 , xn1+1, . . . , xn1+n2 , . . . , xnr

Gruppenmittelwerte:

x1 =1

n1

n1∑i=1

xi , x2 =1

n2

n1+n2∑i=n1+1

xi , usw.

Gruppenvarianzen:

s21 =

1

n1

n1∑i=1

(xi − x1)2, s22 =

1

n2

n1+n2∑i=n1+1

(xi − x2)2, usw.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 123 / 391

Page 161: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Streuungszerlegung II

Dann gilt:

x =1

n

r∑j=1

nj xj

s2 =1

n

r∑j=1

njs2j +

1

n

r∑j=1

nj(xj − x)2

Streuung StreuungGesamtstreuung = innerhalb + zwischen

der Gruppen den Gruppen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 124 / 391

Page 162: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Variationskoeffizient

Definition

Das Verhaltnis von Standardabweichung und Mittelwertist gegeben durch

v =s

xmit x > 0

Eigenschaften des Variationskoeffizienten

misst die relative Schwankung um den Mittelwert

ist nur bei positiven Werten bei Verhaltnisskala sinnvoll

ermoglicht den Vergleich von Streuungen zweier Datensatze mitunterschiedlichen Maßeinheiten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 125 / 391

Page 163: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mittlere absolute Abweichung (MAD)

Definition

Die mittlere absolute Abweichung ist definiert als

xMAD =1

n

n∑i=1

|xi − x |

Eigenschaften des MAD

misst direkt die durchschnittliche absolute Abweichung umden Mittelwert

ist nicht ausreisserempfindlich

hat nicht so”schone“Eigenschaften wie die

Standardabweichung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 126 / 391

Page 164: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Konzentrationsmaße

Motivation

Existiert eine Menge, die auf viele Individuen verteilt ist, kann eshilfreich sein zu wissen, wie diese Menge verteilt ist; ob etwa ehereine Gleichverteilung oder eher ein Monopol vorliegt.

Beispiele

Vermogensverteilung in einem Staat

Marktanteile von Firmen in einem Segment

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 127 / 391

Page 165: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

verwendbar bei Merkmalen mit

Nominalskala Ordinalskala metrische Skala

x

Definition Lorenzkurve

Das Merkmal darf nur positive Auspragungen annehmen

Die Gesamtsumme aller Merkmalswerte ist∑nj=1 xj =

∑nj=1 x(j)

Die Lorenzkurve verbindet Punktepaare bestehend aus denkumulierten Summen der nach Große geordnetenBeobachtungswerte 0 ≤ x(1) ≤ . . . ≤ x(n) und dem relativenAnteil der Individuen, die diese kumulierte Summe besitzen.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 128 / 391

Page 166: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Gestaltung

Es wird festgelegt: u(0) = 0 und v(0) = 0

Die Abszisse wird in gleiche Langen aufgeteilt, deren Anzahlder der Individuen (Merkmalsauspragungen) entspricht:

ui =i

n, i = 1, ..., n

Die Unterteilung der Ordinate berechnet sich wie folgt:

vi =

∑ij=1 x(j)∑nj=1 x(j)

, i = 1, ..., n,

also dem Quotienten aus der kumulierten Summe und derGesamtsumme.

Die so errechneten Koordinatenpunkte werden in den Grapheneingetragen und mit Geraden verbunden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 129 / 391

Page 167: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20

2 20

3 20

4 20

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 168: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 15

20100

2 20

3 20

4 20

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 169: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20

3 20

4 20

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 170: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 25

40100

3 20

4 20

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 171: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20

4 20

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 172: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20 35

60100

4 20

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 173: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20 0,6 0,6

4 20

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 174: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20 0,6 0,6

4 20 45

80100

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 175: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20 0,6 0,6

4 20 0,8 0,8

5 20

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 176: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20 0,6 0,6

4 20 0,8 0,8

5 20 55

100100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 177: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20 0,6 0,6

4 20 0,8 0,8

5 20 1 1

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 178: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel einer Gleichverteilung

5 Bauern teilen sich eine Ackerflache von 100 ha zu je 20 ha.

i x(i) ui vi

0 - 0 0

1 20 0,2 0,2

2 20 0,4 0,4

3 20 0,6 0,6

4 20 0,8 0,8

5 20 1 1 0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 130 / 391

Page 179: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0

2 0

3 0

4 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 180: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 15

0100

2 0

3 0

4 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 181: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0

3 0

4 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 182: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 25

0100

3 0

4 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 183: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0

4 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 184: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0 35

0100

4 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 185: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0 0,6 0

4 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 186: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0 0,6 0

4 0 45

0100

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 187: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0 0,6 0

4 0 0,8 0

5 100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 188: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0 0,6 0

4 0 0,8 0

5 100 55

100100

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 189: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0 0,6 0

4 0 0,8 0

5 100 1 1

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 190: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel eines Monopols

Von 5 Bauern besitzt einer die gesamten 100 ha.

i x(i) ui vi

0 - 0 0

1 0 0,2 0

2 0 0,4 0

3 0 0,6 0

4 0 0,8 0

5 100 1 1 0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

ui

v i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 131 / 391

Page 191: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Erscheinungsbild von Lorenzkurven

Die Kurve bildet auf einen quadratischen Graphen mitKantenlange 1 ab.

Die Koordinate (u0; v0) ist immer (0; 0).

Die Koordinate (un; vn) ist immer (1; 1).

Der konstruierte Polygonzug verlauft immer unterhalb (imGrenzfall auf) der Winkelhalbierenden.

Der konstruierte Polygonzug ist (streng) monoton steigend.

Die Steigung des nachsten Polygonsegments ist entwedergleich groß oder großer als die Steigung des letztenPolygonsegments.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 132 / 391

Page 192: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Aussagemoglichkeiten von Lorenzkurven

Aufgrund ihrer Struktur kann man anhand einer Lorenzkurvefolgende Aussagen verfassen:

Die”armsten“ x% besitzten einen Anteil von y%.

Die”reichsten“ x% besitzen einen Anteil von y%.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 133 / 391

Page 193: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lorenzkurve

Beispiel

Bruttohaushaltseinkommen 2003 in der Schweiz

Es zeigt sich, dass das armste Viertel der SchweizerBevolkerung nur 10%, das reichste Viertel jedoch uber 40%des gesamten Bruttoeinkommens verdient.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 134 / 391

Page 194: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gini-Koeffizient

Definition Gini-Koeffizient

Der Gini-Koeffizientbzw. das LorenzscheKonzentrationsmaß isteine Maßzahl, die dasAusmaß der Konzentra-tion beschreibt. Er istdefiniert als

G = 2 · F ,

wobei F die Flachezwischen der Diagonalenund der Lorenzkurve ist.

F

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 135 / 391

Page 195: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gini-Koeffizient

Berechnung des Gini-Koeffizienten

Fur die praktische Berechnung von G aus den Wertepaaren (ui ; vi )stehen folgende alternative Formeln zur Verfugung:

G =2∑n

i=1 i · x(i) − (n + 1)∑n

i=1 x(i)

n∑n

i=i x(i)

oder alternativ

G = 1− 1

n

n∑i=1

(vi−1 + vi )

Wertebereich des Gini-Koeffizienten

0 ≤ G ≤ n − 1

n

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 136 / 391

Page 196: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gini-Koeffizient

der normierte Gini-Koeffizient G +

Der Gini-Koeffizient wird auf folgende Weise normiert:

G + =n

n − 1G

Er hat somit den Wertebereich

0 ≤ G + ≤ 1,

wobei 0 fur keine Konzentration (Gleichverteilung) und 1 furvollstandige Konzentration (Monopol) steht.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 137 / 391

Page 197: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

GINI Einkommen nach CIA report 2009

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 138 / 391

Page 198: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bericht der Bundesregierung

- X -

Einkommensverteilung (Gini-Koeffizient)

Quelle: Berechnungen des DIW Berlin auf Basis SOEP 2011.

Ein weiteres Verteilungsmaß ist der Gini-Koeffizient. Er beschreibt auf einer Skala von null bis

eins die Ungleichheit der Verteilung. Je höher der Wert, umso ungleicher ist die Verteilung. Die-

ses Maß zeigt eine nach 2007 rückläufige Ungleichheit der Nettoäquivalenzeinkommen auf

Haushaltsebene an. Dies umfasst alle Einkommensarten (insbesondere Einkommen aus Er-

werb, Renten und Pensionen, aus Vermögen und Sozialtransfers). Der Trend einer Zunahme

zwischen 2000 und 2005 hat sich also in der Zeit danach umgekehrt. Die Ungleichheit der Ein-

kommen nimmt derzeit ab.

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 139 / 391

Page 199: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bericht der Bundesregierung

- 325 -

personenhaushalt berücksichtigt. Die Verteilung der so ermittelten Nettoäquivalenzeinkommen

hat sich, gemessen am Gini-Koeffizienten und den Anteilen der Dezile, nach den Daten der

EVS zwischen 2003 und 2008 leicht weiter gespreizt.

Tabelle C I.1.2: Verteilung der Nettoäquivalenzeinkommen 2003 und 2008

Quelle: EVS; Statistisches Bundesamt.

Während die unteren sechs Dezile gegenüber 2003 einen geringeren Anteil aufweisen, haben

die obersten drei Dezile Zuwächse erfahren. Der Gini-Koeffizient stieg von 0,267 auf 0,284 und

damit um rund sechs Prozent (Tabelle C I.1.2). Nach den Daten des SOEP zeigt dieses Maß

eine nach 2007 rückläufige Ungleichheit der Nettoäquivalenzeinkommen auf Haushaltsebene

an. Der Trend einer Zunahme zwischen 2000 und 2005 hat sich also in der Zeit danach umge-

kehrt. Die Ungleichheit der Einkommen nimmt derzeit ab (Schaubild C I.1.1).338

Schaubild C I.1.1: Ungleichheit der Einkommensverteilung in Deutschland, 2000-2011 (Gini-Koeffizient)

Quelle: Berechnungen im DIW auf Basis SOEP 2011. Werte auf zwei Nachkommastellen gerundet.

338

Vgl. Grabka, M. M. u. a. (2012): Höhepunkt der Einkommensungleichheit in Deutschland überschritten? In: DIW

Wochenbericht 43/2012.

1 2 3 4 5 6 7 8 9 10

2003 3,9 5,5 6,5 7,5 8,4 9,4 10,5 12,0 14,3 22,0 0,267

2008 3,6 5,1 6,3 7,3 8,3 9,3 10,5 12,2 14,7 22,7 0,284

Jahr

DezilGini-

KoeffizientAnteile (%) am Volumen des Nettoäquivalenzeinkommens

0,26

0,27

0,28

0,29 0,28

0,28

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 140 / 391

Page 200: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

5 Analyse von Zusammenhangen

Page 201: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Multivariate beschreibende Statistik

Motivation

Bei Datenanalysen werden meist mehrere Merkmale X Y Zbetrachtet. Fragestellungen

Gibt es einen Zusammenhang zwischen X und Y ?

Wie stark ist der Zusammenhang ?

Wird Y von X beeinflusst ?

Kann Y mit Hilfe von X und Z prognostiziert werden ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 142 / 391

Page 202: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: US Wahl

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 143 / 391

Page 203: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Studienanbschluss und Einstiegsgehalt

Quelle: Bayerisches Absolventenpanel, Befragung Abschlussjahrgang 2004 www.ihf.bayern.de

1

Bruttojahreseinkommen bei der ersten Beschäftigung (selbständige und nichtselbständige Tätigkeiten inkl. Teilzeitbeschäftigungen ab zehn Stunden/

Woche)

1. Wie die folgenden Grafiken zu lesen sind

2. Sprach- und Kulturwissenschaften

Germanistik

Anglistik

Geschichte

Pädagogik (Uni)

Kulturwirtschaft

Psychologie

0

20000

40000

60000

Bru

ttoja

hres

eink

omm

en

Median: Die Hälfte der Einkommensangaben liegt höher, die andere Hälfte niedriger

Höchstes Einkommen

Geringstes Einkommen

50 % der Einkommensangaben liegen in diesem Bereich

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 144 / 391

Page 204: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Studienanbschluss und Einstiegsgehalt (2)

Quelle: Bayerisches Absolventenpanel, Befragung Abschlussjahrgang 2004 www.ihf.bayern.de

2

3. Sozialwissenschaften

Politikwissenschaft Soziologie Sozialpädagogik (FH)

0

10.000

20.000

30.000

40.000

50.000

60.000

Bru

ttoja

hres

eink

omm

en

4. Wirtschaftswissenschaften

VWL

BWL (Uni)

BWL (FH)

Spezielle BWL (Uni)

Spezielle BWL (FH)

Touristik

Wirtschaftsing.

0

10.000

20.000

30.000

40.000

50.000

60.000

Bru

ttoja

hres

eink

omm

en

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 145 / 391

Page 205: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mogliche Strukturen

X (Studienfach)→ Y (Gehalt)

oderY (Gehalt)→ X (Studienfach)

oder

Z (IQ) → X (Studienfach)

Z (IQ) → Y (Gehalt)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 146 / 391

Page 206: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Interpretation von beobachteten Zusammenhangen

Beachte: Zusammenhange konnen verschiedene Ursachenhaben

Kausalitat (X hat Effekt auf Y)

Kausalitat in der anderen Richtung (Y hat Effekt auf X )

Drittvariablen (Confounder), simultane Wirkung von Z auf Xund Y

Zufall und Selektion von Variablen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 147 / 391

Page 207: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Notation

Es werden an jeder Einheit gleichzeitig mehrere MerkmaleX ,Y ,Z , . . . erhoben:

⇒ mehrdimensionale oder multivariate Daten

Werte (xi , yi , zi ) derMerkmale (X ,Y ,Z )

Einheit i

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 148 / 391

Page 208: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Diskrete und gruppierte Merkmale

Darstellung, Prasentation von (zwei) diskreten Merkmalen Xund Y mit den Auspragungen

a1, . . . , ak fur Xb1, . . . , bm fur Y

Skalenniveau von X ,Y beliebig; X ,Y konnen auch gruppiertemetrische Merkmale sein.

Benutzt wird nur das Nominalskalenniveau der Merkmale.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 149 / 391

Page 209: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Arbeitslosigkeit

Zwei Merkmale:

X Ausbildungsniveau mit den Kategorien

“keine Ausbildung”,“Lehre”,“fachspezifische Ausbildung”“Hochschulabschluß”

Y Dauer der Arbeitslosigkeit mit den Kategorien

“Kurzzeitarbeitslosigkeit” (≤ 6 Monate),“mittelfristige Arbeitslosigkeit” (7–12 Monate),“Langzeitarbeitslosigkeit” (≥ 12 Monate)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 150 / 391

Page 210: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Arbeitslosigkeit

Kurzzeit- mittelfristige Langzeit-arbeitslosigkeit Arbeitslosigkeit arbeitslosigkeit

K A 86 19 18 123Lehre 170 43 20 233Fachspez 40 11 5 56Hoch 28 4 3 35

324 77 46 447

Ausbildungsspezifische Dauer der Arbeitslosigkeit fur mannliche Deutsche

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 151 / 391

Page 211: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Allgemeine Darstellung

Kontingenztafel der absoluten Haufigkeiten:

Eine (k ×m)-Kontingenztafel der absoluten Haufigkeiten besitztdie Form

b1 . . . bma1 h11 . . . h1m h1·a2 h21 . . . h2m h2·...

......

...ak hk1 . . . hkm hk·

h·1 . . . h·m n

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 152 / 391

Page 212: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Notation

hij = h(ai , bj) die absolute Haufigkeit der Kombination (ai , bj),

h1·, . . . , hk· die Randhaufigkeiten von X ,

h·1, . . . , h·m die Randhaufigkeiten von Y .

Die Kontingenztabelle gibt die gemeinsame Verteilung derMerkmale X und Y in absoluten Haufigkeiten wieder.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 153 / 391

Page 213: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kontingenztafel der relativen Haufigkeiten

Die (k ×m)-Kontingenztafel der relativen Haufigkeiten hat dieForm

b1 . . . bma1 f11 . . . f1m f1·...

......

...ak fk1 . . . fkm fk·

f·1 . . . f·m 1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 154 / 391

Page 214: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Notation

fij = hij/n die relative Haufigkeit der Kombination (ai , bj),

fi · =m∑j=1

fij = hi ·/n, i = 1, . . . , k , die relativen Randhaufigkeiten zu X ,

f·j =k∑

i=1fij = h·j/n, j = 1, . . . ,m, die relativen Randhaufigkeiten zu Y .

Die Kontingenztabelle gibt die gemeinsame Verteilung von X undY wieder.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 155 / 391

Page 215: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bedingte Haufigkeiten

Zusammenhang zwischen X und Y aus gemeinsamen Haufigkeitenhij bzw. fij schwer ersichtlich.Deshalb: Blick auf bedingte Haufigkeiten ⇒ Verteilung des einenMerkmals fur einen festgehaltenen Wert des zweiten Merkmals

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 156 / 391

Page 216: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bedingte relative Haufigkeitsverteilung

Die bedingte Haufigkeitsverteilung von Y unter der BedingungX = ai , kurz Y |X = ai , ist bestimmt durch

fY (b1|ai ) =hi1

hi ·, . . . , fY (bm|ai ) =

him

hi ·.

Die bedingte Haufigkeitsverteilung von X unter der Bedingung

Y = bj , kurz X |Y = bj , ist bestimmt durch

fX (a1|bj) =h1j

h·j, . . . , fX (ak |bj) =

hkj

h·j.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 157 / 391

Page 217: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bemerkung

Wegenhi1

hi ·=

hi1/n

hi ·/n=

fi1fi ·

gilt auchfY (b1|ai ) = fi1

fi·, . . . , fY (bm|ai ) = fim

fi·

fX (a1|bj) =f1jf·j, . . . , fX (ak |bj) =

fkjf·j.

Merksatz:Bedingte Haufigkeitsverteilungen werden durch Division der hij

bzw. fij durch die entsprechende Zeilen- bzw. Spaltensummegebildet.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 158 / 391

Page 218: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Arbeitslosigkeit

f ( |ai ), X = ai , i = 1, . . . , 4 Ausbildungsniveau

z.B. 86123 = 0.699, 19

123 = 0.154, . . .

170233 = 0.730, . . .

usw.

Fur festgehaltenes Ausbildungsniveau (X = ai ) erhalt man dierelative Verteilung uber die Dauer der Arbeitslosigkeit durch diefolgende Tabelle.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 159 / 391

Page 219: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bedingte Verteilung

Kurzzeit- mittelfristige Langzeit-arbeitslosigkeit Arbeitslosigkeit arbeitslosigkeit

Keine Ausb. 0.699 0.154 0.147 1Lehre 0.730 0.184 0.086 1Fachspez. Aus. 0.714 0.197 0.089 1Hochschula. 0.800 0.114 0.086 1

Bedingen auf das Ausbildungsniveau:⇒ Verteilung der Dauer der Arbeitslosigkeit fur dieSubpopulationen “Keine Ausbildung“, “Lehre“, usw.

Verteilungen lassen sich nun miteinander vergleichen

⇒Nun ersichtlich: Relative Haufigkeit fur Kurzzeitarbeitslosigkeitist in der Subpopulation “Hochschulabschluß“ mit 0.8 am großten.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 160 / 391

Page 220: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bedingte Verteilungen

Bei zwei Merkmalen X und Y kann man die bedingteVerteilung von X |Y und auch von Y |X berechnen.

Die Wahl hangt von der inhaltlichen Fragestellung ab.

Typischerweise betrachtet man die bedingte Verteilung Y |X ,wenn Y eine Zielgroße und X eine Einflussgroße ist. DieStruktur des Zusammenhangs ist dann X → Y .

Y |X hilft die Wirkung von X auf Y zu verstehen oder auch Ymit Hilfe von X zu prognostizieren

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 161 / 391

Page 221: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: US Wahl

Y : Wahlentscheidung

X1 : Geschlecht , X2 : Hautfarbe

Y wird durch X1 und X2 beeinflusst (prognostiziert).Betrachte daher Y |X 1 und Y |X 2

X 2|Y beantwortet z.B. die Frage:”Wie hoch ist der Anteil

der Schwarzen bei den Wahlern von Trump? “. Das ist haufignicht sinnvoll und manchmal auch irrefuhrend.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 162 / 391

Page 222: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Darstellung der bedingten Verteilung

Balkendiagramme fur binare Zielgroßen und fur nicht geordneteZielgroßen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 163 / 391

Page 223: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Darstellung der bedingten Verteilung

Gestapelte Balkendiagramme fur binare ordinale Zielgroßen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 164 / 391

Page 224: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zusammenhangsanalyse in Kontingenztabellen

Bisher: Tabellarische / grafische PrasentationJetzt: Maßzahlen fur Starke des Zusammenhangs zwischen X undY .

Chancen und relative Chancen

Zunachst 2× 2 - Kontingenztafel

Y1 2

1 h11 h12 h1·X2 h21 h22 h2·

h·1 h·2 n

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 165 / 391

Page 225: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Chancen (”

Odds“)

Wir betrachten die Merkmale X und Y zunachstasymmetrisch: Die Auspragungen von X definieren (hier 2)Subpopulationen, Y ist das interessierende binare Merkmal indiesen Subpopulationen

Unter einer Chance (“odds”) versteht man nun das Verhaltniszwischen dem Auftreten von Y = 1 und Y = 2 in einerSubpopulation X = ai .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 166 / 391

Page 226: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Odds Ratio

Die (empirische) bedingte Chance fur festes X = ai istbestimmt durch

γ(1, 2|X = ai ) =hi1

hi2.

Ein sehr einfaches Zusammenhangsmaß stellen die empirischenrelativen Chancen (Odds Ratio) dar, die gegeben sind durch

γ(1, 2|X = 1,X = 2) =γ(1, 2|X = 1)

γ(1, 2|X = 2)=

h11/h12

h21/h22=

h11h22

h21h12,

d.h. γ(1, 2|X = 1,X = 2) ist das Verhaltnis zwischen denChancen der 1. Population (X = 1, 1. Zeile) zu den Chancender 2. Population (X = 2, 2. Zeile).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 167 / 391

Page 227: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Dauer der Arbeitslosigkeit

Beschrankt man sich jeweils nur auf zwei Kategorien der MerkmaleAusbildungsniveau und Dauer der Arbeitslosigkeit, erhalt manbeispielsweise die Tabelle

Kurzzeit- Mittel- und langfristigearbeitslosigkeit Arbeitslosigkeit

Fachspezifische Ausbildung 40 16Hochschulabschluß 28 7

Daraus ergibt sich fur Personen mit fachspezifischer Ausbildung die“Chance”, kurzzeitig arbeitslos zu sein, im Verhaltnis dazu, mittel–oder langerfristig arbeitslos zu sein, durch

γ(1, 2|fachspezifisch) =40

16= 2.5.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 168 / 391

Page 228: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Fur Arbeitslose mit Hochschulabschluß erhalt man

γ(1, 2|Hochschulabschluß) =28

7= 4.

Fur fachspezifische Ausbildung stehen die “Chancen” somit 5 : 2,fur Arbeitslose mit Hochschulabschluß 4 : 1.

Man erhalt fur fachspezifische Ausbildung und Hochschulabschlußdie relativen Chancen (Odds Ratio)

γ(1, 2|fachsp. Ausbildung, Hochschule) =2.5

4= 0.625 =

40 · 716 · 28

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 169 / 391

Page 229: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Interpretation”

Odds Ratio“

Wegen der spezifischen Formγ(1, 2|X = 1,X = 2) = (h11h22)/(h21h12) werden die relativenChancen auch als Kreuzproduktverhaltnis bezeichnet. Es gilt

γ = 1 Chancen in beiden Populationen gleich

γ > 1 Chancen in Population X = 1besser als in Population X = 2

γ < 1 Chancen in Population X = 1schlechter als in Population X = 2.

Die relativen Chancen geben somit an, welche derPopulationen die besseren Chancen besitzen und um wievielbesser diese Chancen sind.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 170 / 391

Page 230: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Symmetrie

Fur die Kontingenztafel

h11 h12

h21 h22

ist das Kreuzproduktverhaltnis (relative Chance oder OddsRatio) bestimmt durch

γ =h11/h12

h21/h22=

h11h22

h21h12.

Die asymmetrische Betrachtung der Merkmale X und Y wirdaufgehoben

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 171 / 391

Page 231: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Fall - Kontroll - Studien

Beispiel: Morbus Alzheimer und Genetik

Genetik ApoE3 ApoE4 Summe

Fall 593 620 1213

Kontrolle 2258 803 3061

2851 1423 4274

OR =593/620

2258/803= 0.34

⇒ Chance fur ApoE3 bei Fallen um den Faktor 3 niedriger als beiKontrollen

?⇒ ApoE4 Risiko-Faktor fur Morbus Alzheimer

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 172 / 391

Page 232: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Fall - Kontroll - Studien

Zentrale Argumentation:

Odds Ratio ist symmetrisches Maßd.h. Chancenverhaltnis fur Auftreten von ApoE4 bei Kontrolle zuAuftreten von ApoE4 bei Fallen

Person ist krank bei ApoE3zuPerson ist krank bei ApoE4

⇒ Interpretation als Risikofaktor zulassig

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 173 / 391

Page 233: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kontingenz- und χ2-Koeffizient

Ausgangspunkt: Wie sollten gemeinsame Haufigkeiten hij bzw. fijverteilt sein, damit - bei vorgegebenen Randverteilungen - dieMerkmale X und Y als

”empirisch unabhangig“ angesehen werden

konnen?

b1 . . . bm

a1 h1·... ?

...ak hk·

h·1 . . . h·m n

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 174 / 391

Page 234: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Empirische Unabhangigkeit

Idee: X und Y”empirisch unabhangig“

⇔ Bedingte relative Haufigkeiten

fY (b1|ai ), . . . , fY (bm|ai ), i = 1, . . . , k

sind in jeder Schicht X = ai identisch, d.h. unabhangig von ai .Formal:

fY (b1|a1) = f (b1), . . . , fY (bm|a1) = fY (bm)

fY (b1|a2) = f (b1), . . . , fY (bm|a2) = fY (bm)... =

...

fY (b1|ak) = f (b1), . . . , fY (bm|ak) = fY (bm)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 175 / 391

Page 235: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kunstbeispiel:b1 b2 b3

a1 10 20 30 60a2 20 40 60 120

30 60 90 180

fY (b1|a1) = fY (b1|a2) = fY (b1) =1

6

fY (b2|a1) = fY (b2|a2) = fY (b2) =1

3

fY (b3|a1) = fY (b3|a2) = fY (b3) =1

2

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 176 / 391

Page 236: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wie sehen die “erwarteten“ (absoluten und relativen) Haufigkeitenhij und fij also aus?

fY (b1|ai ) = f (b1), . . . , fY (bm|ai ) = fY (bm), i = 1, . . . , k

⇔ hijhi·

=h·jn

⇔ hij =hi·h·jn

⇔ fij = fi ·f·j

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 177 / 391

Page 237: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

”Unabhangigkeitstabelle“

Idee: Vergleiche fur jede Zelle (i , j) hij mit tatsachlichbeobachteten hij

⇒ χ2-Koeffizient

Der χ2-Koeffizient ist bestimmt durch

χ2 =k∑

i=1

m∑j=1

(hij − hij

)2

hij=

k∑i=1

m∑j=1

(hij −

hi·h·jn

)2

hi·h·jn

= n∑i

∑j

(fij − fi·f·j)2

fi·f·j

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 178 / 391

Page 238: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eigenschaften des χ2-Koeffizienten:

χ2 ∈ [0,∞)

χ2 = 0⇔ X und Y”empirisch unabhangig“

χ2 groß ⇔ starker Zusammenhang

χ2 klein ⇔ schwacher Zusammenhang

Nachteil: χ2 hangt vom Stichprobenumfang n und von derDimension der Tafel ab.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 179 / 391

Page 239: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kontingenzkoeffizient und korrigierter Kontingenzkoeffizient

Weitere Normierung ⇒ KontingenzkoeffizientDer Kontingenzkoeffizient ist bestimmt durch

K =

√χ2

n + χ2

und besitzt den Wertebereich K ∈[

0,√

M−1M

], wobei

M = mink ,m.Der korrigierte Kontingenzkoeffizient ergibt sich durch

K ∗ = K/

√M − 1

M

mit dem Wertebereich K ∗ ∈ [0, 1].

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 180 / 391

Page 240: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eigenschaften des Kontingenzkoeffizienten

Es wird nur die Starke des Zusammenhangs gemessen, nichtdie Richtung wie beim Odds Ratio.

Vorsicht ist geboten bei einem Vergleich von Kontingenztafelnmit stark unterschiedlichen Stichprobenumfangen, da χ2 mitwachsendem Stichprobenumfang wachst, beispielsweise fuhrteeine Verzehnfachung von hij und hij zu zehnfachem χ2.

Samtliche Maße benutzen nur das Nominalskalenniveau von Xund Y .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 181 / 391

Page 241: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Sonntagsfrage

Fur die Kontingenztafel aus Geschlecht und Parteipraferenz fur dasBeispiel der Sonntagsfrage erhalt man die in der folgenden Tabellewiedergegebenen zu erwartenden Haufigkeiten hij .

CDU/CSU SPD FDP Grune RestManner 160.73 139.24 21.96 35.51 77.56 435

(144) (153) (17) (26) (95)Frauen 183.27 158.76 25.04 40.49 88.44 496

(200) (145) (30) (50) (71)344 298 47 76 166

Zu erwartende Haufigkeiten hij und tatsachliche Haufigkeiten hij (inKlammern)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 182 / 391

Page 242: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Interpretation:

Wenn Geschlecht und Parteipraferenz keinen Zusammenhangaufweisen, waren 160.73 die CDU/CSU praferierende Mannerzu erwarten.

Tatsachlich wurden aber nur 144 beobachtet.

⇒ χ2-Wert von 20.065,

K = 0.145,

K ∗ = 0.205

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 183 / 391

Page 243: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Spezialfall: (2× 2)-Tafel

Fur den Spezialfall einer (2× 2)-Tafel

a b a + bc d c + d

a + c b + d

erhalt man χ2 aus

χ2 =n(ad − bc)2

(a + b)(a + c)(b + d)(c + d).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 184 / 391

Page 244: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Arbeitslosigkeit

Aus der Kontingenztafel

Mittelfristige LangfristigeArbeitslosigkeit Arbeitslosigkeit

Keine Ausbildung 19 18 37Lehre 43 20 63

62 38 100

erhalt man also unmittelbar

χ2 =100(19 · 20− 18 · 43)2

37 · 63 · 62 · 38= 2.826

und K = 0.165, K ∗ = 0.234.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 185 / 391

Page 245: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mehrdimensionale Kontingenztabellen

Beispiel: Fluglinien und Verspatung

Mehrere diskrete Merkmale: Fluglinie, Ort, Verpatung(Ja/Nein)

Darstellung durch geeignete bedingte und marginaleVerteilungen

Berechnung von Odds-Ratio zweier Merkmale bedingt auf eindrittes Merkmal

Graphische Darstellung durch Mosaik-Plot

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 186 / 391

Page 246: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verspatung von Flugen

Fluge mit (sp) und ohne Verspatung (ok)

Fluglinie AW AA Summe

ok 6438 3274 9712Verspatung 787 501 1288

Summe 7225 3775 11000

Welche Fluglinie nehmen Sie ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 187 / 391

Page 247: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verspatung von Flugen

Fluge mit (sp) und ohne Verspatung (ok)

Fluglinie AW AA Summe

ok 6438 3274 9712Verspatung 787 501 1288

Summe 7225 3775 11000

Fluglinie AW AA

ok 0.89 0.87sp 0.11 0.13

Summe 1 1

Wie entscheiden Sie ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 188 / 391

Page 248: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verspatung von Flugen

Sie starten in LA :

Fluglinie AW AA

ok 694 497sp 117 62

AW AA

ok 0.86 0.89sp 0.14 0.11

Wie entscheiden Sie jetzt ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 189 / 391

Page 249: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verspatung von Flugen

Sie starten in San Francisco :

AW AA

ok 320 503sp 129 102

AW AA

ok 0.71 0.83sp 0.29 0.17

Wie entscheiden Sie jetzt ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 190 / 391

Page 250: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verspatung von Flugen

Sie starten in Seattle

AW AA

ok 201 1841sp 61 305

AW AA

ok 0.77 0.86sp 0.23 0.14

Wie entscheiden Sie jetzt ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 191 / 391

Page 251: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verspatung von Flugen

Sie starten in Phoenix

AW AA

ok 4840 221sp 415 12

AW AA

ok 0.92 0.95sp 0.08 0.05

Wie entscheiden Sie jetzt ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 192 / 391

Page 252: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verspatung von Flugen

Sie starten San Diego

AW AA

ok 383 212sp 65 20

AW AA

ok 0.85 0.91sp 0.15 0.09

Wie entscheiden Sie jetzt ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 193 / 391

Page 253: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Das Simpsonsche Paradoxon

Betrachte beide Fluglinien

SanF Seattle LA San Diego Phoenix

ok 823 2042 1191 595 5061sp 231 366 179 85 427

SanF Seattle LA San Diego Phoenix

ok 0.78 0.85 0.87 0.88 0.92sp 0.22 0.15 0.13 0.12 0.08

AW startet haufiger von Phoenix!!!

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 194 / 391

Page 254: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mosaik-Plot

Flachentreue Darstellung von Haufigkeiten

Aufteilung schrittweise

Zuerst Einflussgroße, zum Schluss nach Zielgroße aufteilen

Gut geeignet fur mehrkategoriale ordinale Daten

Auch fur hohere Dimensionen geeignet

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 195 / 391

Page 255: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Fluglinien

FD

Fluglinie

Sta

tus

AW AA

oksp

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 196 / 391

Page 256: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Fluglinien nach Ort

Verpätungen und Fluglinien

Ort

Flu

glin

ie

SanF Seattle LA San Diego Phoenix

AW

AA

ok sp ok sp ok sp ok sp ok sp

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 197 / 391

Page 257: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Erganzung: Relatives Risiko

Gegeben sei eine 2× 2 - Kontingenztafel

Y1 2

1 h11 h12 h1·X2 h21 h22 h2·

h·1 h·2 n

X: Gruppe Y: Zielgroße, z.B. Krankheit, Insolvenz

Odds Ratio (Chancenverhaltnis)

h11/h12

h21/h22

Relatives Risikoh11/h1·h21/h2·

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 198 / 391

Page 258: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

6 Zusammenhange von metrischen Variablen

Page 259: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zusammenhange zwischen metrischen Merkmalen

Darstellung des Zusammenhangs, Korrelation und Regression

Daten liegen zu zwei metrischen Merkmalen vor:Datenpaare (xi , yi ), i = 1, . . . , n

Beispiel:x: Wohnflache y: Quadratmeterpreis

Frage:Gibt es einen Zusammenhang zwischen diesen Merkmalen?Wie lasst sich dieser Zusammenhang beschreiben?

Einfachste graphische Darstellung: Streudiagramm.Die Datenpaare entsprechen Punkten in der Ebene (Punktwolke)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 200 / 391

Page 260: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Streudiagramm (Mietspiegel 2015)

0 50 100 150 200

050

010

0015

0020

0025

0030

00

Wohnfläche

Mie

tpre

is

Zusammenhang erkennbar

0 50 100 150 200

05

1015

2025

WohnflächeQ

uadr

atm

eter

prei

s

Kaum ein Zusammenhangzu sehen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 201 / 391

Page 261: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Streudiagramm (Mietspiegel 2015)

0 50 100 150 200

050

010

0015

0020

0025

0030

00

Wohnfläche

Mie

tpre

is

Zusammenhang erkennbar

0 50 100 150 200

05

1015

2025

WohnflächeQ

uadr

atm

eter

prei

s

Kaum ein Zusammenhangzu sehen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 201 / 391

Page 262: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Streudiagramm (Mietspiegel 2015)

0 50 100 150 200

050

010

0015

0020

0025

0030

00

Wohnfläche

Mie

tpre

is

Zusammenhang erkennbar

0 50 100 150 200

05

1015

2025

WohnflächeQ

uadr

atm

eter

prei

s

Kaum ein Zusammenhangzu sehen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 201 / 391

Page 263: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kovarianz

Maß fur den Zusammenhang der beiden Merkmale:

Daten: (xi , yi ), i = 1, . . . , n

SXY =1

n

n∑i=1

(xi − x)(yi − y)

Beachte:

Summand i positiv, falls xi und yi relativ zum Mittelwert dasgleiche Vorzeichen haben.

Fur sxx ergibt sich die Varianz von X .

Die Kovarianz hangt sowohl von der Streuung als auch vondem Zusammenhang der beiden Merkmale ab.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 202 / 391

Page 264: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Kovarianz

Punkte in Englisch und Mathematik

Gruppe 1 Gruppe 2Schuler Englisch Mathe Englisch Mathe

1 14 12 10 82 9 7 8 63 5 3 3 124 3 6 5 105 11 10 14 76 8 4 9 157 10 15 11 48 12 8 12 3

Mittelwert 9.0 8.1 9.0 8.1

Standardabweichung 3.6 4.1 3.6 4.1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 203 / 391

Page 265: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Kovarianz

0

5

10

15

0 5 10 15Englisch

Mat

he

Gruppe 1

Kovarianz: 9.57

0

5

10

15

0 5 10 15Englisch

Mat

he

Gruppe 2

Kovarianz: -8.29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 204 / 391

Page 266: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Kovarianz

++−−

0

5

10

15

0 5 10 15Englisch

Mat

he

Gruppe 1

Kovarianz: 9.57

++−−

0

5

10

15

0 5 10 15Englisch

Mat

he

Gruppe 2

Kovarianz: -8.29

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 204 / 391

Page 267: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bravais-Pearson-Korrelationskoeffizient

Der Bravais-Pearson-Korrelationskoeffizient ergibt sich aus den Daten(xi , yi ), i = 1, . . . , n durch

r =

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2∑n

i=1(yi − y)2)=

Sxy

SxSy

Wertebereich: −1 ≤ r ≤ 1

r > 0 positive KorrelationTendenz: Werte (xi , yi ) um eine Gerade positiver Steigung liegend

r < 0 negative KorrelationTendenz: Werte (xi , yi ) um eine Gerade negativer Steigung liegend

r = 0 keine Korrelation, kein linearer Zusammenhang

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 205 / 391

Page 268: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Punkte in Englisch und Mathematik

Gruppe 1:

rxy =Sxy

SxSy=

9.57

3.641= 0.65

Gruppe 2:

rxy =Sxy

SxSy=−8.29

3.6 · 4.1= −0.56

Gruppe 1: positiver linearer ZusammenhangGruppe 2: negativer linearer Zusammenhang

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 206 / 391

Page 269: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eigenschaften des Korrelationskoeffizienten

Maß fur den linearen Zusammenhang

Andert sich nicht bei linearen Transformationen

Symmetrisch (Korrelation zwischen x und y = Korrelationzwischen y und x)

Positive Korrelation bedeutet: Je großer x, desto großer imDurchschnitt y

Korrelation = +1 oder -1, falls die Punkte genau auf einerGeraden liegen

Korrelation = 0 bedeutet keinen linearen Zusammenhang,aber nicht Unabhangigkeit

Korrelation empfindlich gegenuber Ausreißern

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 207 / 391

Page 270: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eigenschaften von r

r misst Starke des linearen Zusammenhangs.

Punktkonfigurationen und Korrelationskoeffizienten(qualitativ)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 208 / 391

Page 271: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele vonZusammenhangen

Beispiel 1: Lineare (unverrauschte) Funktion, y = 0.8x + 2.0, 101equidistante Stutzstellen im Intervall [-1,1], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 209 / 391

Page 272: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele von exakten und verrauschtenZusammenhangen

Beispiel 2: Lineare (unverrauschte) Funktion, y = −0.8x + 2.0,101 equidistante Stutzstellen im Intervall [-1,1], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 210 / 391

Page 273: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele von exakten und verrauschtenZusammenhangen

Beispiel 3: Lineare (unverrauschte) Funktion, y = 0.001x + 2.0,101 equidistante Stutzstellen im Intervall [-1,1], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 211 / 391

Page 274: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele von exakten und verrauschtenZusammenhangen

Beispiel 4: Periodische (unverrauschte) Funktion, y = sin(x), 101equidistante Stutzstellen im Intervall [−π, π], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 212 / 391

Page 275: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele von exakten und verrauschtenZusammenhangen

Beispiel 5: Quadratische (unverrauschte) Funktion, y = x2 + 2.0,101 equidistante Stutzstellen im Intervall [−1, 1], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 213 / 391

Page 276: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele von exakten und verrauschtenZusammenhangen

Beispiel 6: Abschnittweise definierte (unverrauschte) Funktiony = sin(x), 50 und 51 equidistante Stutzstellen in den Intervallen[−π,−π

2 ] und [π2 , π], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 214 / 391

Page 277: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele von exakten und verrauschtenZusammenhangen

Beispiel 7: Lineare, schwach verrauschte Funktion,y = 0.8x + 2.0 + N(0, 0.1), 101 equidistante Stutzstellen imIntervall [-1,1], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 215 / 391

Page 278: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einige Beispiele von exakten und verrauschtenZusammenhangen

Beispiel 8: Lineare, starker verrauschte Funktion,y = 0.8x + 2.0 + N(0, 0.5), 101 equidistante Stutzstellen imIntervall [-1,1], r =

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 216 / 391

Page 279: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lineare Transformationen

Bei exakten lineare Zusammenhangen gilt:

r = +1 bzw. − 1 ⇔ Y = aX + b mit a > 0 bzw. a < 0

Lineare Transformationen

X = aXX + bX , Y = aY Y + bY , aX , aY 6= 0r Korrelationskoeffizient zwischen X und Yr Korrelationskoeffizient zwischen X und Y

⇒ r = r ⇔ aX , aY > 0 oder aX , aY < 0r = −r ⇔ aX > 0, aY < 0 oder aX < 0, aY > 0.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 217 / 391

Page 280: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Korrelationsmatrix

Bei mehr als zwei Merkmalen werden die Korrelationen haufig inForm einer Matrix dargestellt.Auf der Hauptdiagonalen stehen 1er.Die Matrix ist symmetrisch.

1 rxy rxzrxy 1 ryzrxz ryz 1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 218 / 391

Page 281: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beisipiel: Korrelationen am Finanzmarkt

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 219 / 391

Page 282: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Spearmans Korrelationskoeffizient =Rang-Korrelationskoeffizient

X ,Y (mindestens) ordinal

Idee: Gehe von Werten xi , i = 1, . . . , n und yi , i = 1, . . . , n uberzu ihren Rangen.

x(1) ≤ . . . x(i) . . . ≤ x(n)

rg(x(i)) = i ,

analog fur y(1), . . . , y(n).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 220 / 391

Page 283: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

xi 2.3 7.1 1.0 2.1rg(xi ) 3 4 1 2

bei Bindungen (ties):

xi 2.3 7.1 1.0 2.1 2.33.5 5 1 2 3.5

⇒ Durchschnittsrang 3+42 = 3.5 vergeben.

Also: Daten der Große nach durchsortieren⇒ Ranglisten rg(xi ), rg(yi ), i = 1, . . . , n vergeben (bei ties:Durchschnittsrange)Idee: Berechne den Korrelationskoeffizienten nach Bravais-Pearsonfur die Range statt fur die Ursprungsdaten.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 221 / 391

Page 284: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Definition: Spearmans Korrelationskoeffizient

Der Korrelationskoeffizient nach Spearman ist definiert durch

rSP =

∑(rg(xi )− rgX )(rg(yi )− rgY )√∑

(rg(xi )− rgX )2∑

(rg(yi )− rgY )2.

Wertebereich: −1 ≤ rSP ≤ 1

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 222 / 391

Page 285: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Interpretation

rSP > 0 gleichsinniger monotoner Zusammenhang,

Tendenz: x groß ⇔ y groß, x klein ⇔ y klein

rSP < 0 gegensinniger monotoner Zusammenhang,

Tendenz: x groß ⇔ y klein, x klein ⇔ y groß

rSP ≈ 0 kein monotoner Zusammenhang

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 223 / 391

Page 286: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiele

Extremfalle fur Spearmans Korrelationskoeffizienten, rSP = 1 (oben) und

rSP = −1 (unten)

Spearmans Korrelationskoeffizient misst monotone (auchnichtlineare) Zusammenhange!

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 224 / 391

Page 287: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bemerkungen:

Rechentechnische Vereinfachungen:

rgX = 1n

∑ni=1 rg(xi ) = 1

n

∑ni=1 i = (n + 1)/2,

rgY = 1n

∑ni=1 rg(yi ) = 1

n

∑ni=1 i = (n + 1)/2.

Rechentechnisch gunstige Version von rSP :

Daten: (xi , yi ), i = 1, . . . , n, xi 6= xj , yi 6= yj fur alle i , jRangdifferenzen: di = rg(xi )− rg(yi )

rSP = 1−6∑

d2i

(n2 − 1)n

Voraussetzung: keine Bindungen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 225 / 391

Page 288: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Monotone Transformationen

X = g(X ) g streng monoton,Y = h(Y ) h streng monoton

⇒ rSP(X , Y ) = rSP(X ,Y ),wenn g und h monoton wachsendbzw. g und h monoton fallend sind,

rSP(X , Y ) = −rSP(X ,Y ),wenn g monoton wachsend und hmonoton fallend bzw. g monotonfallend und h monoton wachsend sind.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 226 / 391

Page 289: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kendalls Tau

Betrachte Paare von Beobachtungen (xi , yi ) und (xj , yj)

Ein Paar heißt:konkordant, falls xi < xj und yi < yj

oder xi > xj und yi > yj

diskordant, falls xi < xj und yi > yjoder xi > xj und yi < yj

NC : Anzahl der konkordanten PaareND : Anzahl der diskordanten Paare

τa =NC − ND

n(n − 1)/2Kendalls Tau

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 227 / 391

Page 290: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

7 Regression

Page 291: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einleitung

Motivation

In vielen Anwendungen ist es bedeutsam zu wissen, welchenEinfluss ein quantitatives Merkmal X auf ein weiteres Merkmal Yhat, z.B.

Einkommen (X ) und Kreditwunsch (Y ) eines Bankkunden

Einsatz von Werbung in e (X ) und Umsatz in e (Y ) einerHandelskette

Geschwindigkeit (X ) und Bremsweg (Y ) eines Pkw

In diesem Abschnitt werden Methoden zur Analyse dieses Einflussesbehandelt und wie dies in einem Modell formuliert werden kann.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 229 / 391

Page 292: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfache lineare Regression

Linearer Zusammenhang zwischen zwei metrischen Großenwird als Gerade visualisiert

Finde Gerade Y = α + β · X

β : Steigung der Geraden, d.h. erhoht sich X um eine Einheit,so erhoht sich Y um β Einheiten.

α : Achsenabschnitt, d.h. Wert von Y fur X = 0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 230 / 391

Page 293: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfache lineare Regression

Linearer Zusammenhang zwischen zwei metrischen Großenwird als Gerade visualisiert

Finde Gerade Y = α + β · Xβ : Steigung der Geraden, d.h. erhoht sich X um eine Einheit,so erhoht sich Y um β Einheiten.

α : Achsenabschnitt, d.h. Wert von Y fur X = 0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 230 / 391

Page 294: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfache lineare Regression

Linearer Zusammenhang zwischen zwei metrischen Großenwird als Gerade visualisiert

Finde Gerade Y = α + β · Xβ : Steigung der Geraden, d.h. erhoht sich X um eine Einheit,so erhoht sich Y um β Einheiten.

α : Achsenabschnitt, d.h. Wert von Y fur X = 0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 230 / 391

Page 295: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Welche Gerade ?

0 50 100 150

010

0020

00

Welche Gerade ?

Quadratmeter

Mie

tpre

is

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 231 / 391

Page 296: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bestimmung der Regressionsgerade

Welche Gerade ist die Beste ?

Sie sollte etwa in der”Mitte“ der Punktwolke liegen

Abweichungen der Wertepaare (xi , yi ) (Punkte) von derGeraden sollten moglichst klein (minimal) sein

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 232 / 391

Page 297: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bestimmung der Regressionsgerade

Welche Gerade ist die Beste ?

Sie sollte etwa in der”Mitte“ der Punktwolke liegen

Abweichungen der Wertepaare (xi , yi ) (Punkte) von derGeraden sollten moglichst klein (minimal) sein

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 232 / 391

Page 298: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Methode der kleinsten Quadrate

Y ist Zielgroße und X Einflussgroße

Y soll mit Hilfe von X erklart oder prognostiziert werden

Lineares Modell Y = α + βX + ε

Minimierung der Abstande in Y -Richtung

Wahle α und β so, dass∑n

i=1

(yi − (α + βxi )

)2minimal wird

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 233 / 391

Page 299: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Geschichte

Idee der KQ-Schatzung von Gauss (1795) im Alter von 18 Jahren

Veroffentlichung von LegendreIdee der Regression von Galton (1886)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 234 / 391

Page 300: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Lineare Einfachregression und Kleinste-Quadrate-Schatzer

Seien (x1, y1), . . . , (xn, yn) Beobachtungen der Merkmale X und Y ,dann heißt

yi = α + βxi + εi , i = 1, . . . , n,

lineare Einfachregression, wobei α den Achsenabschnitt, β dieSteigung und ε den Fehler bezeichnet.

Die Kleinste-Quadrate-Schatzer fur α und β sind gegeben durch

α = y − βx , β =Sxy

S2x

.

Die Residuen berechnen sich durch

εi = yi − yi , i = 1, . . . , n,

mit yi = α + βxi .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 235 / 391

Page 301: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kleinste-Quadrate-Schatzer

Definition Residuum

Jedem Beobachtungspunkt Pi = (xi ; yi ) wird ein angepassterPunkt Pi = (xi ; yi ) zugeordnet, der auf der Geraden liegt und esdaher gilt:

yi = α + βxi

Die Differenz (in y-Richtung) aus dem Beobachtungspunkt Pi unddem geschatzten Punkt Pi ergibt das Residuum oder Fehlerglied :

εi = yi − yi = yi − α− βxi

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 236 / 391

Page 302: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Kleinste-Quadrate-Schatzer

Residuen graphisch veranschaulicht

x1 x2 x3 x4

y2

a

y1

y4

y3

e1

e2

e3 e4

y == a ++ bx^

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 237 / 391

Page 303: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Herleitung: Kleinste-Quadrate-Schatzer

Vorgehensweise der Schatzung

1 1. partiellen Ableitungen der Funktion S(α, β) bestimmen

2 Nullstellen der 1. Ableitungen finden

3 2. partiellen Ableitungen bestimmen (Hesse-Matrix)

4 Ergebnisse aus Punkt 2 in Hesse-Matrix einsetzten

5 prufen, ob Hesse-Matrix positiv definit ist(alle Eigenwerte positiv)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 238 / 391

Page 304: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Eigenschaften der Regressionsgeraden

sinnvoller Wertebereich

Die Regressionsgerade yi = α + βxi lasst sich nur im Wertebereich[x(1); x(n)] der x-Werte sinnvoll interpretieren.

Lageparameter”

arithmetisches Mittel“

Der Punkt (x ; y), physikalisch betrachtet der Schwerpunkt derbivariaten Daten (xi ; yi ), liegt auf der Regressionsgerade.

Fehlerausgleich

Die Summe der negativen Residuen (absolut genommen) gleichtder Summe der positiven Residuen.Die durch die Regression angepassten Werte yi haben das gleichearithmetische Mittel wie die Originaldaten yi :

¯y = y

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 239 / 391

Page 305: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Mietspiegel

0 50 100 150

010

0020

00

KQ−Gerade mit Mittelwerten

Quadratmeter

Mie

tpre

is

Schatzung der Koeffizienten: α = 210.8 β = 7.2Interpretation:Mit einer Steigerung der Wohnflache um eine Einheit steigt dieMiete im Durchschnitt um 7.2 Euro. Achsenabschnitt: 210.8 ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 240 / 391

Page 306: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Mietspiegel

0 50 100 150

05

1020

KQ−Gerade

Quadratmeter

Qua

drat

met

erpr

eis

Schatzung der Koeffizienten: α = 13.24 β = - 0.038Interpretation:Mit einer Steigerung der Wohnflache um eine Einheit fallt dieMiete pro Quadratmeter im Durchschnitt um 0.038 Euro.Achsenabschnitt: 13.24 ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 241 / 391

Page 307: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Lebenserwartung und GDP

2.5 3.0 3.5 4.0 4.540

6080

Länder 2007

log10(GDPpP)

Lebe

nser

war

tung

Schatzung der Koeffizienten: α = 4.95 β = 16.5Mit einer Steigerung des log (GDP) um eine Einheit (Steigerungum den Faktor 10) steigt die Lebenserwartung im Durchschnitt um16.5 Jahre. Besser: Ist in einem Land das GDP pro Kopf um denFaktor 10 hoher als im Land B, so ist dort die durchschnittlicheLebenserwartung um 16.5 Jahre großer.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 242 / 391

Page 308: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Lebenserwartung und GDP

0 10000 30000 50000

4060

80

Länder 2007

GDPpP

Lebe

nser

war

tung

Schatzung der Koeffizienten: α = 59 β = 0.00064Interpretation:Mit einer Steigerung des GDP pro Kopf um eine Einheit (Dollar)steigt die Lebenserwartung im Durchschnitt um 0.00064 JahreVorsicht!!!

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 243 / 391

Page 309: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Mitarbeiter/Auflage bei Tageszeitungen

Interpretation: Auflagensteigerung schafft ArbeitsplatzeMit einer Auflagensteigerung von 1000 ist durchschnittlich dieEinstellung von 0.199 Mitarbeitern verbunden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 244 / 391

Page 310: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ausreißer

Haufig wird ein erkennbarer Zusammenhang durch einzelne, vonder großen Masse der Daten wesentlich entfernt liegende Wertegestort.Diese sogenannten Ausreißer mussen gesondert eingeschatzt undgegebenenfalls - bei sachlicher oder statistischer Rechtfertigung -aus dem Datensatz entfernt werden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 245 / 391

Page 311: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Regression ohne 2 Extremwerte

Beachte:Jetzt werden 0.352Mitarbeiter bei einerAuflagensteigerung von1000 eingestellt.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 246 / 391

Page 312: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Standardabweichung des Storterms

Die geschatzte Abweichung der y -Werte von der Geraden ergibtsich zu:

sε =

√1

n − 2

∑ε2i

εi = yi − yi

Wichtiges intuitives Maß zur Modellanpassung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 247 / 391

Page 313: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Streuungs- und Quadratsummenzerlegung

Ziel: Erklarung der Streuung von Y durch X :

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

Streuung von Y = Erklarte Streuung + Rest

SST = SSM + SSE

Quadratsumme = Quadratsumme = QuadratsummeGesamt Regression Residuen(Total) (Model) (Error)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 248 / 391

Page 314: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Streuungs- und Quadratsummenzerlegung

Ziel: Erklarung der Streuung von Y durch X :

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

Streuung von Y = Erklarte Streuung + Rest

SST = SSM + SSE

Quadratsumme = Quadratsumme = QuadratsummeGesamt Regression Residuen(Total) (Model) (Error)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 248 / 391

Page 315: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Das Bestimmtheitsmaß R2

Anteil der durch die Regression (d.h. durch X ) erklarten Varianz

R2 =SSM

SST=

∑ni=1(yi − y)2∑ni=1(yi − y)2

=

∑ni=1(yi − y)2 −

∑ni=1(yi − yi )

2∑ni=1(yi − yi )2

= 1−∑n

i=1(yi − y)2∑ni=1(yi − y)2

Es gilt: Bestimmtheitsmaß = Quadrat der Korrelation zwischen Xund Y

R2 =S2xy

S2x S2

y

= r 2

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 249 / 391

Page 316: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nachweis von R2 = r 2XY

¯y =1

n

n∑i=1

yi =1

n

n∑i=1

(α + βxi ) = α + βx = (y − βx) + βx = y

Daraus folgt:

n∑i=1

(yi−y)2 =n∑

i=1

(yi−¯y)2 =n∑

i=1

(α+βxi−α+βx)2 = β2n∑

i=1

(xi−x)2

somit fur R2:

R2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

=β2∑n

i=1(xi − x)2∑ni=1(yi − y)2

=s2XY · s2

X

(s2X )2 · s2

Y

=

(sXY

sX sY

)2

= r 2XY

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 250 / 391

Page 317: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Interpretation von R2

R2 sollte bei linearen Regressionen immer angegeben werden.Interpretation und Eigenschaften

Zentrales Maß zur Gute der Modellanpassung

Erklarter Anteil der Varianz

Liegt zwischen 0 und 1

Allgemeine Regeln zur Einschatzung problematisch

R2 hangt sowohl von den Abweichungen von derRegressiongeraden als auch von der Streuung der X-Werte ab.

Wichtige Alternative und Erganzung: Angabe derStandardabweichung der Residuen sε

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 251 / 391

Page 318: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Umkehrregression

Vertauscht man die Rollen von X und Y , so erhalt man dieUmkehrregression.

Daten (Xi ,Yi ), i = 1, . . . , n

Regression: Y = α + βX β = SXYS2X

Umkehrregression: X = γ + δY δ = SXYS2Y

Im XY -Koordinatensystem hat die Gerade der Umkehrregressiondie Darstellung

Y = −γδ

+1

δX

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 252 / 391

Page 319: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Umkehrregression

Es gilt:

β · δ =S2XY

S2XS2

Y

= r 2 ≤ 1

⇒ |β| ≤ 1|δ|

Gerade der Umkehrregression steiler

und⇒ β · δ ≥ 0β und δ haben gleiches Vorzeichen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 253 / 391

Page 320: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Umkehrregression Mietspiegel

0 50 100 150

010

0020

00

Umkehrregression

Quadratmeter

Mie

tpre

is

Beachte: Gerade der Umkehrregression steiler (blaue Gerade).Schnittpunkt im Schwerpunkt (x: Mittelwert von Wohnflache, y:Mittelwert von Monatsmiete)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 254 / 391

Page 321: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Auflage und Zahl der Mitarbeiter

Auflage in 1000 = α + β · Zahl der Mitarbeiter

”Mitarbeiter produzieren Auflage“

0 50 100 150 200 250 300

020

040

060

0

MitarbeiterInnen

Auf

lage

in 1

000

Ergebnisse: R2 = 0.54 α = 13.8 β = 1.5 sε = 80Interpretation: ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 255 / 391

Page 322: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wichtige Eigenschaften der linearen Regression

Asymmetrie: Regressionsgerade von Y auf X verschieden vonRegressionsgerade von X auf Y

Die Regressionsgerade geht durch (x , y)

Interpretation der Steigung β steht im Mittelpunkt derInterpretation

R2-Wert gibt den Varianz-Erklarungsanteil wieder

R2 ist Quadrat der Korrelation

sε gibt durchschnittliche Abweichung der Werte von derRegressionsgeraden an

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 256 / 391

Page 323: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wichtige Eigenschaften der linearen Regression

Asymmetrie: Regressionsgerade von Y auf X verschieden vonRegressionsgerade von X auf Y

Die Regressionsgerade geht durch (x , y)

Interpretation der Steigung β steht im Mittelpunkt derInterpretation

R2-Wert gibt den Varianz-Erklarungsanteil wieder

R2 ist Quadrat der Korrelation

sε gibt durchschnittliche Abweichung der Werte von derRegressionsgeraden an

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 256 / 391

Page 324: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wichtige Eigenschaften der linearen Regression

Asymmetrie: Regressionsgerade von Y auf X verschieden vonRegressionsgerade von X auf Y

Die Regressionsgerade geht durch (x , y)

Interpretation der Steigung β steht im Mittelpunkt derInterpretation

R2-Wert gibt den Varianz-Erklarungsanteil wieder

R2 ist Quadrat der Korrelation

sε gibt durchschnittliche Abweichung der Werte von derRegressionsgeraden an

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 256 / 391

Page 325: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wichtige Eigenschaften der linearen Regression

Asymmetrie: Regressionsgerade von Y auf X verschieden vonRegressionsgerade von X auf Y

Die Regressionsgerade geht durch (x , y)

Interpretation der Steigung β steht im Mittelpunkt derInterpretation

R2-Wert gibt den Varianz-Erklarungsanteil wieder

R2 ist Quadrat der Korrelation

sε gibt durchschnittliche Abweichung der Werte von derRegressionsgeraden an

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 256 / 391

Page 326: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wichtige Eigenschaften der linearen Regression

Asymmetrie: Regressionsgerade von Y auf X verschieden vonRegressionsgerade von X auf Y

Die Regressionsgerade geht durch (x , y)

Interpretation der Steigung β steht im Mittelpunkt derInterpretation

R2-Wert gibt den Varianz-Erklarungsanteil wieder

R2 ist Quadrat der Korrelation

sε gibt durchschnittliche Abweichung der Werte von derRegressionsgeraden an

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 256 / 391

Page 327: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wichtige Eigenschaften der linearen Regression

Asymmetrie: Regressionsgerade von Y auf X verschieden vonRegressionsgerade von X auf Y

Die Regressionsgerade geht durch (x , y)

Interpretation der Steigung β steht im Mittelpunkt derInterpretation

R2-Wert gibt den Varianz-Erklarungsanteil wieder

R2 ist Quadrat der Korrelation

sε gibt durchschnittliche Abweichung der Werte von derRegressionsgeraden an

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 256 / 391

Page 328: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zusammenfassung

Bei der Auswertung durch eine lineare Regression sollten immerangegeben werden

Regressionskoeffizienten α und β

Bestimmtheitsmaß R2

Standardabweichung der Residuen sε

Scatter-Plot mit Regressionsgeraden zur Kontrolle des Modells

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 257 / 391

Page 329: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

8 Komplexe Zusammenhange

Page 330: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Erganzung: Interpretation R2

Mietspiegeldaten (vollstandig )

0 50 100 150 200

050

010

0015

0020

0025

0030

00

Wohnfläche

Net

tom

iete

Kenngroßen

α 132.2501β 8.4116

R2 0.46σE 215.7

Anpassung besser aber erklarte Varianz geringer, daAusgangsvarianz geringer

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 259 / 391

Page 331: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einschrankung auf kleine Wohnungen

Mietspiegeldaten. Wfl < 80 m2

0 50 100 150 200

050

010

0015

0020

0025

0030

00

Wohnfläche

Net

tom

iete

Kenngroßen

α 13.3β 10.4

R2 0.36σE 152

Anpassung besser aber erklarte Varianz geringer, daAusgangsvarianz geringer

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 260 / 391

Page 332: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Partielle Korrelation

Ziel:Bestimmung der Korrelation zweier Merkmale unterBerucksichtigung eines dritten Merkmals

Beispiel 1:Korrelation der Zahl der freien und festen Mitarbeiter in ZeitungenThese: Je mehr freie Mitarbeiter desto weniger feste MitarbeiterDaten : positive Korrelation ???

Frage: Kommt die Positive Korrelation durch die Große derZeitung ? Problem der Drittvariablen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 261 / 391

Page 333: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Trends in okonomischen Daten

Beispiel 2: Lebenserwartung und Person GDP in DeutschlandBeide Großen haben einen Trend. Ist damit der Zusammenhangerklarbar ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 262 / 391

Page 334: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Strategie zum Umgang mit Drittvariablen

Es interessiert der Zusammenhang zwischen X und Y unterBerucksichtigung der Drittvariablen ZStrategie : Wir bereinigen X und Y um den Einfluss von Z mitHilfe linearer Regression

1 Berechne lineare Regression von X auf Z

2 Die Residuen REX dieser Regression entsprechen den um denEinfluss von Z bereinigten Werten von X

3 Berechne lineare Regression von Y auf Z

4 Die Residuen REY dieser Regression entsprechen den um denEinfluss von Z bereinigten Werten von Y

5 Die Korrelation von REX und REY ist dann die bereinigte(partielle) Korrelation von X und Y

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 263 / 391

Page 335: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Partieller Korrelationskoeffizient (Definition)

Es sei:

x = α + βZ + rex

y = γ + δZ + rey

Dann heißt die Maßzahl

rXY |Z = rrexrey

partieller Korrelationskoeffizient zwischen X und Y unter Z .

Es gilt:

rXY |Z =rXY − rXZ rYZ√

1− r 2XZ

√1− r 2

YZ

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 264 / 391

Page 336: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel:Korrelation der Anzahl freier Mitarbeiter mitder Anzahl fest angestellter Mitarbeiter

Einfache Korrelation

Nach Auflage bereinigteKorrelation

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 265 / 391

Page 337: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Freie und fest angestellte Mitarbeiter in der Zeitungsstudie(bereinigt nach der Große der Zeitung)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 266 / 391

Page 338: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Korrelation von Zeitreihen

Beispiel Lebenserwartung und GDP

10000 20000 3000068

78

BIP

Lebe

nser

war

tung

Kenngroßen

α nicht relevantβ 0.00047

R2 0.97σE 0.67

Sinnvolle Aussagen moglich ?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 267 / 391

Page 339: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Trendbereinigung

Regressionsmodell: BIP = α + β ∗ t, t: Jahr (z.B. 1950 = 0 )

1950 1970 199010

000

Jahr

BIP

Kenngroßen

α nicht relevantβ 446

R2 0.99σE 719

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 268 / 391

Page 340: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bereinigte Werte

1950 1970 1990

−10

00

gmd$year

RE

gdp

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 269 / 391

Page 341: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Trendbereinigung Lebenserwartung

Regressionsmodell: LE = α + β ∗ t, t: Jahr (z.B. 1950 = 0 )

1950 1980

6876Jahr

Lebe

serw

artu

ng

Kenngroßen

α nicht relevantβ 0.21

R2 0.99σE 0.41

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 270 / 391

Page 342: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bereinigte Werte

1950 1960 1970 1980 1990 2000

−0.

80.

6

Jahr

RE

_LE

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 271 / 391

Page 343: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zusammenhang bereinigte Werte

−1000 −500 0 500 1000

−0.

80.

6REgdp

RE

life

Kenngroßen

α 0β - 0.00037

R2 0.32σE 0.34

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 272 / 391

Page 344: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ausblick: Multiples Regressionsmodell

Gegeben sind ein Zielmerkmal Y und die Einflussgroßen Xk

y = α + β1 · x1 + β2 · x2 + . . .+ βp · xp + ε

Das Modell kann aus den entsprechenden Daten mit Hilfe derKQ-Methode geschatzt werden. Analog zum linearen Modell istdas Bestimmtheitsmaß R2 ein zentrales Kriterium fur dieModellanpassung.

Die Parameter βk haben folgende Interpretation:Steigt das Merkmal Xk um eine Einheit und werden die anderenEinflussgroßen festgehalten, so steigt Y im Durchschnitt um βkEinheiten.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 273 / 391

Page 345: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Festangestellte und freie Mitarbeiter

FAM: Anzahl festangestellter MitarbeiterFM: Anzahl freier MitarbeiterAT : Auflage in Tausend

FAM = α + β1 · FM + β2 · AT + ε1

FAM = 31 + 0.092 · FM + 0.32 · AT + ε1

FAM = 67 + 0.17 · FM + ε2

Der Zusammenhang zwischen FAM und FM wird beiBerucksichtigung von AT geringer.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 274 / 391

Page 346: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zusammenfassung multiples Regressionsmodell

Das multiple Regressionsmodell ist nutzlich, um Zusammenhangezwischen Merkmalen zu analysieren.Es ermoglicht:

Quantifizierung des Zusammenhangs

Berucksichtigung von Storgroßen

Auswahl von relevanten Einflussgroßen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 275 / 391

Page 347: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

9 Regression und Mittelwertsvergleiche

Page 348: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Regression fur nominale Einflussgroßen

Motivation

Bisher wurden bei der linearen Regression die Merkmale Y und Xals quantitativ stetig vorausgesetzt.Im folgenden Abschnitt soll aufgezeigt werden, wie eine lineareRegression bei einem Regressor X mit nominalem Skalenniveaumodelliert und ausgewertet wird.

Beispiele

Haufig will man Einflusse von folgenden Variablen analysieren:

Geschlecht mannlich, weiblich

Familienstand ledig, verheiratet, geschieden, verwitwet

Staatsangehorigkeit Deutschland, Osterreich, Schweiz, ...

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 277 / 391

Page 349: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Grundproblem

Standard Regression

Die kodierten Merkmalsauspragungen (z.B. ’ledig’ = 1,’verheiratet’ = 2, ’geschieden’ = 3 ) konnen nicht wie reelleZahlen in die Berechnung der der Parameterschatzungen α und βeinbezogen werden, da

nicht notwendiger Weise eine Ordnung zugrunde liegt und

Abstande nicht definiert sind.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 278 / 391

Page 350: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Einfacher Spezialfall: Binare Einflussgroße

Beispiel: Einkommen Deutschland Vergleich Ost / WestSOEP-Daten 2007

0 1

080

00Einkommen in west D und Ost D

Mittelwert West: 2956 Mittelwert Ost: 2245 Euro

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 279 / 391

Page 351: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Darstellung durch Regression

Mittelwert West: 2956 Mittelwert Ost: 2245 Euro

Y = α + βX

Y: EinkommenX=1 fur West X=0 fur OstKQ-Schatzung:

α = 2245

β = 711

R2 = 0.028

σE = 1804

Mittelwert von X =0 :αMittelwertsunterschied: β

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 280 / 391

Page 352: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

QuadratsummenzerlegungResiduenquadratsumme

SSE = (yi − yi )2 =

∑ost

(yi − (α + 0))2 +∑west

(yi − (α + β))2

=∑ost

(yi − yost)2 +

∑west

(yi − ywest)2

Dies entspricht der Quadratsumme innerhalb der Gruppen(SSwithin)

SSM =n∑

i=1

(yi − y)2 =∑ost

(α− y) +∑west

(α + β − y)2

=∑ost

(yost − y) +∑west

(ywest − y)2

Dies entspricht der Quadratsumme innerhalb der GruppenInterpretation von R2: 2.8 Prozent der Streuung des Einkommenswird durch west/ost erklart

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 281 / 391

Page 353: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Regression mit dichotomen (0-1) -Variablen

Regression mit KQ–Schatzung moglich

Einfache Regression entspricht Mittelwertsbildung

Regressionskoeffizient entspricht Unterschied derGruppenmittelwerte

R2 als Verhaltnis der Streuung zwischen den Gruppen und derGesamtstreuung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 282 / 391

Page 354: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Korrelation zwischen dichotomen und stetigenMerkmalen

Punktbiseriale Korrelation

Der Korrelations-Koeffizient zwischen einem dichotomen undeinem metrischem Merkmal ist sinnvoll berechenbar und lasst sichwie folgt darstellen :X ∈ 0, 1 Y metrisch

rXY =Y1 − Y0

SY·√

n0n1

N2

Y0 Mittelwert bei X = 0,Y1 Mittelwert bei X = 1

Entspricht normiertem Abstand der Gruppenmittelwerte.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 283 / 391

Page 355: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mehr als 2 Gruppen

Losungsansatz

Hier ist eine direkte Losung nicht sinnvoll.Grundidee:

aus einem nominalen Regressor mit k Merkmalsauspragungen

k − 1 neue Regressoren (Dummys) gebildet werden.

Eine Merkmalsauspragung des ursprunglichen Regressors wirdzur Referenzkategorie.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 284 / 391

Page 356: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nominale Regressoren

Dummykodierung

Nach Wahl der Referenzkategorie j ∈ 1, ..., k ergeben sich dieDummys Xi , i = 1, ..., k und i 6= j mit folgenden Werten:

xi =

1 falls Kategorie i vorliegt,

0 sonst.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 285 / 391

Page 357: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nominale Regressoren

Beispiel

Gegeben seien folgende Daten:

lfd Nr. Alter Studienfach1 19 BWL2 22 Sonstige3 20 VWL...

......

Mit der Kodierung BWL = 1, VWL = 2, Sonstige = 3 erhalten wirbei Wahl der Referenzkategorie = 3 (Sonstige) zwei Dummys X1

(fur BWL) und X2 (fur VWL) gemaß folgendem Schema:

Auspragung Wert vonvon X X1 X2

1 BWL 1 02 VWL 0 13 Sonstige 0 0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 286 / 391

Page 358: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nominale Regressoren

Beispiel Fortsetzung

Aus der ursprunglichen Erhebung

lfd Nr. Alter Studienfach

1 19 BWL

2 22 Sonstige

3 20 VWL...

......

ergibt sich somit der fur die Auswertung geeignete Datensatz:Dummykodierung

lfd Nr. y x1 x2

1 19 1 0

2 22 0 0

3 20 0 1...

......

...

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 287 / 391

Page 359: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nominale Regressoren

Modellierung

Nach der Kodierung kann nun ein Regressionsmodell aufgestelltwerden:

y = α + β1X1 + β2X2

Die Parameter α, β1, β2 lassen sich wie bei der Regression zweierstetiger Merkmale schatzen.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 288 / 391

Page 360: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nominale Regressoren

Berechnung

Um die angepassten Werte y fur die jeweilige Merkmalsauspragungzu erhalten, werden die Dummyvariablen X1 und X2 entsprechendder gewahlten Kodierung gesetzt (hier die Werte vom Beispiel):

Auspragung Dummykodierung

BWL y = α + β1 · 1 + β2 · 0= α + β1

VWL y = α + β1 · 0 + β2 · 1= α + β2

Sonstige y = α + β1 · 0 + β2 · 0= α

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 289 / 391

Page 361: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Nominale Regressoren

Interpretation der Ergebnisse

α ist der Mittelwert der Referenzkategorie

β1, β2 bilden die Abweichungen der Mittelwerte der ubrigenKategorien zur Referenzkategorie ab

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 290 / 391

Page 362: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Streuungszerlegung

Dann gilt:

x =1

n

r∑j=1

nj xj

s2 =1

n

r∑j=1

njs2j +

1

n

r∑j=1

nj(xj − x)2

Streuung StreuungGesamtstreuung = innerhalb + zwischen

der Gruppen den Gruppen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 291 / 391

Page 363: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Quadratsummenzerlegung: Varianzanalyse

Durch das nominale Merkmal werden die Daten in Gruppenaufgeteilt. Umindizierung: yij ist die i-te Beobachtung in derGruppe j. Residuenquadratsumme

SSE =∑j

∑i

(yij − yij)2 =

∑j

∑i

(yij − y.j)2

Dies entspricht der Quadratsumme innerhalb der Gruppen(SSwithin)

SSM =∑j

∑i

(yij − y)2 =∑∑

(y.j − y)

Dies entspricht der Quadratsumme zwischen den GruppenInterpretation von R2: Prozent der Streuung durch die nominaleVariable

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 292 / 391

Page 364: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Lebenswerwartung und Kontinent5 Gruppen von Landern

Africa Americas Asia Europe Oceania

4050

6070

80

Lebenserwartung

Mittelwerte: Africa 54.81, Amerika 73.61 Asien: 70.73 Europa77.65 Ozeanien 80.72

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 293 / 391

Page 365: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Regression

Mittelwerte: Africa 54.81, Amerika 73.61 Asien: 70.73 Europa77.65 Ozeanien 80.72

Y = α + β1X1 + · · ·β4X4

Referenz Afrika, X1 Dummy fur Amerika, X2 Dummy fur Asienusw.Ergebnisse Regression :

α = 54.81

β1 = 18.80

β2 = 15.92

β3 = 22.84

β4 = 25.91

R2 = 0.64

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 294 / 391

Page 366: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zusammenfassung: Regression mit nominalenEinflussgroßen

nominales Merkmal kann als Gruppierungsvariable gesehenwerden

Einfluss nominaler Großen entspricht Vergleich derGruppenmittelwerte

Manchmal wird auch von Varianzanlyse (ANOVA) gesprochen

Regressionsschatzung durch Dummy-Kodierung

Quadratsummenzerlegung in Streuung innerhalb und zwischenden Gruppen

Erweiterung zu multiplem Modell moglich

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 295 / 391

Page 367: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

10 Verhaltniszahlen und Indizes

Page 368: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verhaltniszahlen

Definition Verhaltniszahlen

Verhaltniszahlen entstehen durch Quotientenbildung aus

zwei Maßzahlen

den Auspragungen zweier extensiver Merkmale (d.h.Merkmale, bei denen Summenbildung sinnvoll ist)

Verhaltniszahlen werden unterteilt in

Gliederungszahlen

Beziehungszahlen

einfache Indexzahlen / Messzahlen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 297 / 391

Page 369: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gliederungs- & Beziehungszahlen

Definition Gliederungszahlen

Gliederungszahlen beziehen eine Teilmenge auf eine ubergeordneteGesamtmenge.Die Gliederungszahlen konnen als Quoten oder als Quote × 100 inProzent angegeben werden.

Definition Beziehungszahlen

Beziehungszahlen bilden den Quotienten aus zwei Maßzahlen oderGroßen, die verschieden gemessen werden (also nicht Teilmengenvon Gesamtmengen), aber in sachlich sinnvoller Beziehungzueinander stehen.Es wird unterschieden in

Verursachungszahlen Bewegungsmassen bezogen aufBestandsmassen

Entsprechungszahlen kein Bezug auf einen Bestand moglich

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 298 / 391

Page 370: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gliederungs- & Beziehungszahlen

Beispiele Gliederungszahlen

Erwerbsquote = Zahl der ErwerbspersonenUmfang der Bevolkerung

Arbeitslosenquote = Zahl der ArbeitslosenZahl der Erwerbspersonen

Ausschussquote = Zahl der AusschussteileGesamtzahl der produzierten Teile

Beispiele Verursachungszahlen

(rohe) Geburtenziffer = LebendgeboreneBevolkerung

(rohe) Sterbeziffer = VerstorbeneBevolkerung

Beispiele Entsprechungszahlen

Bevolkerungsdichte = EinwohnerzahlFlache in km2

Produktivitat = NettoproduktionArbeitseinsatz

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 299 / 391

Page 371: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Indexzahlen

Definition einfache Indexzahlen

Die einfachen Indexzahlen beschreiben den Zusammenhangzwischen Ergebnissen fur eine Maßzahl, gemessen zu verschiedenenZeitpunkten der Entwicklung einer Grundgesamtheit.

Es liegt also eine Zeitreihe von Maßzahlen vor:

x0, Wert der Basiszahl in der Basisperiode

xt , Wert derselben Maßzahl in der Berichtsperiode

Die zugehorige Indexzahl berechnet sich dann aus dem Quotientender Maßzahl der Berichtsperiode zur Maßzahl der Basisperiode:

I0t =xtx0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 300 / 391

Page 372: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Indexzahlen

Beispiele fur einfache Indexzahlen

Preismesszahlen =pt

p0= P0t (Preisindex) (8.1)

oder

Mengenmesszahlen =qt

q0= Q0t (Mengenindex) . (8.2)

Dabei ist p der Preis eines bestimmten Produkts und q dieproduzierte oder verkaufte Menge (quantity) dieses Produktsjeweils zur Basisperiode 0 bzw. zur Berichtsperiode t. Damit wirdeine Zeitreihe von Messungen (Preise, Mengen) durch Bezug aufeine Basisperiode in gewisser Weise standardisiert oder bereinigt.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 301 / 391

Page 373: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Indexzahlen

Angabe in Prozent

Indizes konnen nach Multiplikation mit 100 in Prozent angegebenwerden:

I0t =xtx0· 100 % .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 302 / 391

Page 374: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Indexzahlen

Veranderung des Basisjahres

Bei langeren Zeitreihen kann es zu Strukturbruchen kommen, dieeine Umbasierung, d.h., die die Festlegung eines neuenBasiszeitpunktes erforderlich machen. Wahlt man die neueBasisperiode k , so gilt:

Ikt =xtxk

=xt · x0

x0 · xk=

xtx0xkx0

=I0tI0k

Damit mussen bei Umbasierung einer Indexreihe, die vor demneuen Basisjahr gemessen wurde, die vorangegangenen Datenxi (i = 1, ..., k − 1) nicht bekannt sein. Es reicht aus, die IndexreiheI01, ..., I0k zu kennen.

Verkettungsregel

I0t = I0k · IktStatistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 303 / 391

Page 375: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Indexzahlen

Beispiel

t qt Q1985,t

1988 85 1.06251989 90 1.12501990 95 1.18751991 95 1.18751992 100 1.25001993 110 1.3750

Neues Basisjahr 1990:

I1990,1993 =110

95= 1.1579 .

Die Verkettungsregel liefert z. B.

I1985,1993 = I1985,1990 · I1990,1993 = 1.1875 · 1.1579 = 1.3750 .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 304 / 391

Page 376: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindizes

Einleitung

Im Unterschied zu den bisherigen Messzahlen werden in denfolgenden Abschnitten sogenannte zusammengesetzte Indexzahlenbetrachtet, die gleichartige Indexreihen fur n verschiedene Guterverknupfen.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 305 / 391

Page 377: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindizes

Definitionen

Seien n verschiedene Guter ausgewahlt. Dann bezeichnet

p′0 = (p0(1), ..., p0(n)) den Vektor der Preise dieserGuter in der Basisperiode

p′t = (pt(1), ..., pt(n)) den Vektor der Preise dieserGuter in der Berichtsperiode

q′0 = (q0(1), ..., q0(n)) den Vektor der Mengen dieserGuter in der Basisperiode

q′t = (qt(1), ..., qt(n)) den Vektor der Mengen dieserGuter in der Berichtsperiode

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 306 / 391

Page 378: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindizes

arithmetisches Mittel der Preismesszahlen

P0t =1

n

n∑i=1

I p0t(i)

einfachste Moglichkeit

unterschiedliche Gewichtung der Guter geht verloren

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 307 / 391

Page 379: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindizes

gewichtetes arithmetisches Mittel der Preismesszahlen

P0t =

pt(1)p0(1) w(1) + · · ·+ pt(n)

p0(n) w(n)

w(1) + · · ·+ w(n)

Durch Transformation der Gewichte

w(i) =w(i)∑k w(k)

,

n∑i=1

w(i) = 1

ergibt sich die alternative Formel

P0t = I p0t(1)w(1) + · · ·+ I p0t(n)w(n)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 308 / 391

Page 380: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindex nach Laspeyres

Definition

Die Gewichtung der berucksichtigten Guter ist derenAusgabensumme (Menge×Preis) jeweils aus der Basisperiode:

w(i) = p0(i)q0(i)

Damit gilt fur den Laspeyres-Preisindex:

PL0t =

∑ni=1 pt(i)q0(i)∑ni=1 p0(i)q0(i)

=p′tq0

p′0q0

Also der Quotient aus dem Wert des Warenkorbs der Basisperiodezu aktuellen Preisen und Wert des Warenkorbs der Basisperiode zuBasispreisen.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 309 / 391

Page 381: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindex nach Laspeyres

Aussage

Der Preisindex nach Laspeyres gibt an, wie sich das Preisniveaugeandert hat, wenn der Warenkorb der Basisperiode zum Vergleichherangezogen wird.

Vorteile

Der Preisindex einer neu erhobenen Berichtsperiode ist sofortvergleichbar mit fruher ermittelten Indizes.

Leicht ermittelbar, da der Inhalt des Warenkorbs von fruherenUntersuchungen bekannt ist.

Nachteile

Die Zusammenstellung des Warenkorbs veraltet mit der Zeit.Darum muss dieser in regelmaßigen Abstanden aktualisiertwerden, um reprasentativ zu bleiben.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 310 / 391

Page 382: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindex nach PaascheDefinition

Die Gewichtung der berucksichtigten Guter ist derenAusgabensumme, bestehend aus der Menge aus derBerichtsperiode und dem Preis aus der Basisperiode:

w(i) = p0(i)qt(i)

Damit gilt fur den Paasche-Preisindex:

PP0t =

∑ni=1 pt(i)qt(i)∑ni=1 p0(i)qt(i)

=p′tqt

p′0qt

Also der Quotient aus dem Wert des Warenkorbs derBerichtsperiode zu aktuellen Preisen und Wert des Warenkorbs derBerichtsperiode zu Basispreisen.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 311 / 391

Page 383: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindex nach Paasche

Aussage

Der Preisindex nach Paasche gibt an, wie sich das Preisniveaugeandert hat, wenn der Warenkorb der Berichtsperiode zumVergleich herangezogen wird.

Vorteile

Die Zusammenstellung des Warenkorbs ist stets aktuell.

Nachteile

Der Preisindex einer neu erhobenen Berichtsperiode lasst sichmit fruheren Perioden nur vergleichen, wenn diese auf denneuen Warenkorb umgestellt werden.

Fur jedes neue Berichtsjahr muss ein neuer Warenkorbzusammengestellt werden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 312 / 391

Page 384: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

PreisindexBeispiel

Verbraucherpreisindex von Deutschland 1991 bis 2007Bezugsjahr: 2005

50

60

70

80

90

100

110

120

130

14019

91

1993

1995

1997

1999

2001

2003

2005

2007

insgesamt

Nahrungsmittel

Bekeidung & Schuhe

Gesundheitspflege

Verkehr

Nachrichtenübermittlung

Bildungswesen

Quelle: Statistisches Bundesamt, Stand: 10.06.2008

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 313 / 391

Page 385: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindizes

Beispiel

Gut Preise Mengeni p0(i) pt(i) q0(i) qt(i)

1 4 6 5 42 6 8 10 153 10 12 8 16

p′0 = (4, 6, 10) (Basispreise)

p′t = (6, 8, 12) (aktuelle Preise)

q′0 = (5, 10, 8) (Basiswarenkorb)

q′t = (4, 15, 16) (aktueller Warenkorb)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 314 / 391

Page 386: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindizes

Beispiel

Preisindex nach Laspeyres:

PL0t =

p′tq0

p′0q0=

6 · 5 + 8 · 10 + 12 · 84 · 5 + 6 · 10 + 10 · 8

=206

160= 1.2875 .

Preisindex nach Paasche:

PP0t =

p′tqt

p′0qt=

6 · 4 + 8 · 15 + 12 · 16

4 · 4 + 6 · 15 + 10 · 16

=336

266= 1.2632 .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 315 / 391

Page 387: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mengenindizes

Einleitung

Vertauscht man die Rolle von Preisen und Mengen in den beidenPreisindizes, so erhalt man Mengenindizes, die die Anderung desWarenkorbs uber die Zeit angeben, bewertet mit den Preisen einerbestimmten Periode.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 316 / 391

Page 388: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mengenindex nach Laspeyres

Definition

Der Mengenindex nach Laspeyres verwendet die Preise derBasisperiode und ist definiert als

QL0t =

p′0qt

p′0q0

Aussage

QL0t gibt das Verhaltnis an, in dem sich der Wert des Warenkorbs

von der Basis- zur Berichtsperiode – bewertet mit Preisen derBasisperiode – durch Veranderung der Mengen geandert hat.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 317 / 391

Page 389: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mengenindex nach Paasche

Definition

Der Mengenindex nach Paasche verwendet die Preise derBerichtsperiode und ist definiert als

QP01 =

p′tqt

p′tq0

Aussage

QP0t gibt die Veranderung des Wertes des Warenkorbs an, wobei

zur Bewertung die Preise der Berichtsperiode verwendet werden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 318 / 391

Page 390: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Umsatzindex

Definition

Der Umsatzindex ergibt sich aus dem Produkt der Preise undMengen der Berichtsperiode geteilt durch das Produkt der Preiseund Mengen der Basisperiode.

W0t =p′tqt

p′0q0

Aussage

W0t gibt die Veranderung des Wertes des Warenkorbs derBerichtsperiode im Verhaltnis zum Wertes des Warenkorbs derBasisperiode an.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 319 / 391

Page 391: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Verknupfung von Indizes

(Laspeyres-Preisindex) × (Paasche-Mengenindex)

PL0t · QP

0t =(p′tq0)

p′0q0

· p′tqt

(p′tq0)=

p′tqt

p′0q0

= W0t

(Paasche-Preisindex) × (Laspeyres-Mengenindex)

PP0t · QL

0t =(p′tqt)

p′0qt

· p′0qt

(p′0q0)=

p′tqt

p′0q0

= W0t

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 320 / 391

Page 392: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Matrizensymbolik

Gestaltung

Statt des allgemeinen Index t wird die Berichtsperiode durch die 1dargestellt:

Preisindex nach Laspeyres PL01 =

p′1q0

p′0q0

(1 0

0 0

)

Preisindex nach Paasche PP01 =

p′1q1

p′0q1

(1 1

0 1

)

Mengenindex nach Laspeyres QL01 =

p′0q1

p′0q0

(0 1

0 0

)

Mengenindex nach Paasche QP01 =

p′1q1

p′1q0

(1 1

1 0

)

Umsatzindex W01 =p′1q1

p′0q0

(1 1

0 0

)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 321 / 391

Page 393: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Spezielle Probleme

Erweiterung des Warenkorbs (Preisindex nach Laspeyres)

t ′: Zeitpunkt der Einfuhrung der neuen Ware (Nummer (n + 1)).Man berechnet zuerst den Preisindex nach Laspeyres:

PL0t′ =

p′t′q0

p′0q0.

Danach berechnet man den Index fur (t ′, t ′ + 1):

PLt′,t′+1(erweitert) =

p′t′+1q0 + pt′+1(n + 1)qt′(n + 1)

p′t′q0 + pt′(n + 1)qt′(n + 1).

Da p0(n + 1) und q0(n + 1) nicht existieren, wird die Formel vonLaspeyres fur 0 als Basisperiode dahingehend abgewandelt, dassman pt′(n + 1) und qt′(n + 1) verwendet.Der verkettete Index lautet schließlich

PL0,t′+1(verkettet) = PL

0,t′PLt′,t′+1(erweitert) .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 322 / 391

Page 394: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Erweiterung des Warenkorbs

Beipiel

Periode Damenkostume Herrenanzuge Trainingsanzuget pt qt pt qt pt qt

0 300 10 40 20 – –1 400 15 50 25 – –2 500 17 60 25 300 103 400 18 50 30 400 20

Kleiner Warenkorb (Damenkostume und Herrenanzuge):

PL02 =

p′2q0

p′0q0=

500 · 10 + 60 · 20

300 · 10 + 40 · 20

=6 200

3 800= 1.6316 .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 323 / 391

Page 395: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Erweiterung des Warenkorbs

Beipiel

Fur den Ubergang von Periode 2 auf 3 berechnen wir:

PL23(erweitert) =

p′3q0 + p3(3)q2(3)

p′2q0 + p2(3)q2(3)

=(400 · 10 + 50 · 20) + 400 · 10

(500 · 10 + 60 · 20) + 300 · 10

=5 000 + 4 000

6 200 + 3 000=

9 000

9 200= 0.9783 .

Damit gilt schließlich

PL03(verkettet) = 1.6316 · 0.9783 = 1.5962 .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 324 / 391

Page 396: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Substitution einer Ware

Beispiel

Periodenq0(i) 0 1 2 3 4×10 000 Preise pt(i)

Radios 1 400 420 430 440 450S.W.-TV 2 2 000 1 900 1 800 – –Farb-TV – – – 3 000 3 500 4 200

Wir verwenden die Preissteigerungen fur Farbfernsehgerate, um diePreise der alten Ware Schwarzweiß-Fernsehgerate fortzuschreiben.

p3(S.W.-TV) = 1 800 · 3 500

3 000= 2 100

p4(S.W.-TV) = 1 800 · 4 200

3 000= 2 520 .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 325 / 391

Page 397: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Substitution einer Ware

Beispiel

Damit konnen wir mit dem alten Warenkorb weiterrechnen. Wirerhalten dann die verketteten Reihen

q0(i) 0 1 2 3 4×10 000

Radios 1 400 420 430 440 450TV 2 2 000 1 900 1 800 2 100 2 520

Wert(× 10 000) 4 400 4 220 4 030 4 640 5 490PL

0t 1.000 0.959 0.916 1.055 1.248

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 326 / 391

Page 398: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Subindizes

Beispiel

Ein Warenkorb bestehe aus zwei Subkorben, Korb I und Korb II.Die zugehorigen Warenmengen sind q′I = (q1, . . . , qm) undq′II = (qm+1, . . . , qn). Die Laspeyres-Preisindizes fur die beidenSubkorbe lauten

PL0t(I ) =

∑mi=1 pt(i)q0(i)∑mi=1 p0(i)q0(i)

,

PL0t(II ) =

∑ni=m+1 pt(i)q0(i)∑ni=m+1 p0(i)q0(i)

.

Der Gesamtumsatz zur Basisperiode ist

U =n∑

i=1

p0(i)q0(i).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 327 / 391

Page 399: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Subindizes

Beispiel

Damit sind die Umsatzanteile bezogen auf die Basisperiode

w I =

∑mi=1 p0(i)q0(i)

U,

w II = 1− w I =

∑ni=m+1 p0(i)q0(i)

U.

Der Gesamtindex ist dann

PL0t = w IPL

0t(I ) + w IIPL0t(II ) .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 328 / 391

Page 400: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Subindizes

Numerisches Beispiel

Korb I Korb IIDamenkostume Herrenanzuge Trainingsanzuge

t pt qt pt qt pt qt0 400 1 500 1 300 11 420 1 550 2 320 12 450 2 600 3 340 23 500 2 650 4 360 2

Der Gesamtumsatz im Basisjahr ist die Summe der Umsatze von Korb Iund Korb II. Er betragt

U = (400 · 1 + 500 · 1) + (300 · 1) = 1200 .

Die Umsatzanteile zum Basisjahr sind damit

w I = (400 · 1 + 500 · 1)/1 200 = 0.75

undw II = (300 · 1)/1 200 = 0.25 .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 329 / 391

Page 401: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

SubindizesNumerisches Beispiel

Die Teilindizes sind:

Korb I Korb IIt

∑pt(i)q0(i) PL

0t(I ) pt(3)q0(3) PL0t(II )

0 400 · 1 + 500 · 1 = 900 1.000 300 1.0001 420 · 1 + 550 · 1 = 970 1.078 320 1.0672 450 · 1 + 600 · 1 = 1 050 1.167 340 1.1333 500 · 1 + 650 · 1 = 1 150 1.278 360 1.200

Die Gesamtindizes fur die einzelnen Zeitpunkte sind damit:

PL00 = 1.000 · 0.75 + 1.000 · 0.25 = 1.0000

PL01 = 1.078 · 0.75 + 1.067 · 0.25 = 1.0753

PL02 = 1.167 · 0.75 + 1.133 · 0.25 = 1.1585

PL03 = 1.278 · 0.75 + 1.200 · 0.25 = 1.2585

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 330 / 391

Page 402: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

11 Zeitreihen

Page 403: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zeitreihen

Motivation

In vielen Anwendungen wird ein Merkmal uber die Zeit wiederholtbeobachtet. Die zeitliche Entwicklung kann dann alsKurvendiagramm dargestellt werden. Auf der vertikalen Achsewerden die Merkmalsauspragungen abgetragen, die horizontaleAchse ist die Zeitachse. Ubliche Zeitachsen sind:

Tage, z.B. Aktienindex, Temperatur, Niederschlagsmenge

Monate

Quartale

Jahre

In diesem Abschnitt werden Methoden zur beschreibenden Analysevorgestellt. Wir gehen von aquidistanten Zeitreihen aus.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 332 / 391

Page 404: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Preisindex Kleidung

0 20 40 60 80 100 120

9510

010

511

0

Preisindex Kleidung2007−2016

Monat

Pre

isin

dex

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 333 / 391

Page 405: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zerlegung von Zeitreihen

Komponentenmodell

Die Beobachtungen yt , t = 1, . . . ,T werden als Summeverschiedener Einzelkomponenten aufgefasst:

Grundbestandteil ist die glatte Komponente gt , die dielangfristige Entwicklung (Trend) beschreibt.

Saisonale Schwankungen (Quartale, Monate) werden durchdie saisonale Komponente st wiedergegeben.

Die Differenz zwischen der beobachteten Reihe yt und demdurch gt und st modellierten Anteil wird in der irregularenKomponente oder Restkomponente erfasst, die im Mittel 0sein soll.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 334 / 391

Page 406: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Additives und multiplikatives KomponentenmodellAdditives und multiplikatives Modell

Das additive Modell lautet

yt = gt + st + rt , t = 1, . . . ,T ,

unter der Nebenbedingung∑

rt = 0 (streng genommen:Erwartungswert der rt soll 0 sein, siehe induktive Statistik).Oftmals ist es besser, einen multiplikativen Ansatz zu verfolgen:

yt = gt · st · rt ,

unter der Nebenbedingung∏

rt = 1 (Erwartungswert der rt soll 1sein). Durch Logarithmieren erhalt man

yt = log(yt), gt = log(gt), st = log(st), rt = log(rt) ,

und man kann damit das multiplikative Modell wiederum inadditiver Form schreiben.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 335 / 391

Page 407: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Schatzung des Komponentenmodells

Es werden zunachst keinerlei Angaben gemacht, wie dieeinzelnen Komponenten modelliert und geschatzt werdensollen.

Identifikation: Oftmals hat man noch eine zyklischeKomponente (z.B. 7-jahriger Konjunkturzyklus). Es ist dannoftmals schwierig, die einzelnen Komponenten zu berechnen

Es gibt verschiedene Strategien, die Komponenten zu schatzen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 336 / 391

Page 408: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gleitende Durchschnitte: Motivation

Ziele

Glattung der Zeitreihe: die Zeitreihe, die man nachAnwendung der gleitenden Durchschnitte erhalt, hat geringereVariabilitat. Damit laßt sich ein eventuell vorhandener Trendbesser erkennen bzw. schatzen

Im Komponentenmodell: Schatzung der glatten Komponentegt durch Herausfiltern der saisonalen Schwankungen st .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 337 / 391

Page 409: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gleitende Durchschnitte: Berechnung

Definition: gleitender Durchschnitt ungerader Ordnung

Unter einem gleitenden Durchschnitt der ungeraden Ordnung2k + 1 (k = 0, 1, 2, . . .) fur den Zeitreihenwert yt verstehen wir dasarithmetische Mittel

y∗t =1

2k + 1

k∑j=−k

yt+j .

Wir mitteln uber die k vor dem Zeitpunkt t liegenden Werte, denWert yt selbst und uber die k nach dem Zeitpunkt t liegendenWerte. Beispiel mit t = 7, k = 1 (Ordnung 3):

y∗7 =1

3(y6 + y7 + y8)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 338 / 391

Page 410: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gleitende Durchschnitte: BeispielZahlenbeispiel bei ungerader Ordnung mit k = 1

t 1 2 3 4 5 6 7 8 9 10yt 2 4 3 8 7 6 2 4 9 11y∗t - 3 5 6 7 5 4 5 8 -

2 4 6 8 10

24

68

10

t

y

yt

yt*

y∗6 =1

3(y5 + y6 + y7) =

1

3(7 + 6 + 2) = 5

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 339 / 391

Page 411: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gleitende Durchschnitte: Berechnung

Definition: gleitender Durchschnitt gerader Ordnung

Unter einem gleitenden Durchschnitt der geraden Ordnung 2k(k = 0, 1, 2, . . .) fur den Zeitreihenwert yt verstehen wir dasarithmetische Mittel

y∗t =1

2k

1

2yt−k +

k−1∑j=−k+1

yt+j +1

2yt+k

.

Hier werden die gleichen Beobachtungswerte wie bei ungeraderOrdnung berucksichtigt, jedoch gehen die Randwerte nur mithalbem Gewicht ein.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 340 / 391

Page 412: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Gleitende Durchschnitte

Beispiel Kleidungsindex bei gerader Ordnung mit k = 6

0 20 40 60 80 100 120

9510

010

511

0

Monat

Pre

isin

dex

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 341 / 391

Page 413: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Konstante Saisonfigur

Modell

Man betrachtet das (additive) Modell

yt = gt + st + rt , t = 1, . . . ,T .

Man spricht von einer konstanten Saisonfigur mit Periode p, falls

st = st+p .

Es soll dann stets gelten:

p−1∑j=0

st+j = 0

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 342 / 391

Page 414: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Konstante SaisonfigurBeispiel p = 4

st = 0.5, st+1 = 1, st+2 = −0.4, st+3 = −1.1

Es gilt dann

p−1∑j=0

st+j = 0.5 + 1 + (−0.4) + (−1.1) = 0 .

2 4 6 8 10 12

−1.

0−

0.5

0.0

0.5

1.0

Konstante Saisonfigur, p=4

t

s t

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 343 / 391

Page 415: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zerlegung in Trend und Saison

Vorgehen

Wir verstehen die saisonale Komponente als sich regelmaßigwiederholende Schwankungen um die glatte Komponente derZeitreihe. Bilden wir nun gleitende Durchschnitte der Ordnung2k = l · p (l = 1, 2, . . .), so erhalten wir

y∗t = g∗t + s∗t + r∗t = g∗t + r∗t .

Die saisonale Komponente entfallt durch die Glattung, da wegen∑p−1j=0 st+j = 0 gilt: s∗t = 0. Wir haben dadurch mit y∗t wieder eine

Schatzung fur die glatte Komponente gt erhalten.⇒ Gleitende Durchschnitte →

”Filtermethode“

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 344 / 391

Page 416: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel fur Trend und Saison

Saisonfigur wie oben (0.5, 1.0,−0.4,−1.1), linearer Trend, also

yt = gt + st = t + st , t = 1, . . . , 12

Gleitender Durchschnitt mit k = 2, p = 4 liefert den linearen Trend

5 10 15

24

68

1012

14

Linearer Trend mit konst. Saison, p=4

t

s t

yt=gt ++ st

gt=t

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 345 / 391

Page 417: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zerlegung in Trend und Saison

Schatzung der Saison

Gleitende Durchschnitte mit 2k = l · p, also y∗t , bilden. y∗t istdann (inklusive Fehler) im Wesentlichen die Trendkomponenteg∗t + r∗t .

Bilde die Differenzdt = yt − y∗t

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 346 / 391

Page 418: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zerlegung in Trend und Saison

Schatzung der Saison (Fortsetzung)

Die dt entsprechen dann, bis auf die zusatzlichen Fehler, derSaisonkomponente, d.h.

dt ≈ dt+p .

Damit werden fur jede”Saison“ Mittelwerte gebildet, also

z.B. der Mittelwert uber alle Werte des ersten Quartals, derMittelwert uber alle Werte des zweiten Quartals, etc. Manerhalt also d1, . . . , dp. Diese Mittelwerte werden nochmalszentriert, damit die Summe aller Saisonkomponenten 0 ist.Diese zentrierten Mittelwerte sind dann die Schatzung derSaisonkomponente:

st+1 = d1 −1

p

p∑l=1

dl , . . . , st+p = dp −1

p

p∑l=1

dl .

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 347 / 391

Page 419: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zerlegung in Trend und Saison

Schatzung der Saison (Fortsetzung)

Die Differenz aus der ursprunglichen Reihe yt und dergeschatzten Saisonkomponenten, also

yt − st ,

nennt man die saisonbereinigte Reihe.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 348 / 391

Page 420: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Preisindex fur Kleidung

Zeitreihe mit gleitendem Durchschnitt der Ordnung 12 = p · 1

0 20 40 60 80 100 120

9510

010

511

0

Monat

Pre

isin

dex

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 349 / 391

Page 421: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zeitreihenzerlegung

0 20 40 60 80 100 120

9510

010

511

0

Zeitreihe

Monat

Pre

isin

dex

0 20 40 60 80 100 120

9910

110

4

Trend

Monat

2 4 6 8 10 12

−4

−2

02

Saison

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 350 / 391

Page 422: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Trendbestimmung mithilfe von Regression

Verwende Trendmodell, z.B.

g(t) = β0 + β1t linearer Trendg(t) = β0 + β1t + β2t2 quadratischer Trendg(t) = β0 · exp(β1t) exponentielles Wachstum

Schatzung der Trendkomponente durch Regression

Die KQ-Methode fur lineare Regression liefert mit derRegressionsgleichung yt = β0 + β1t + εt die KQ-Schatzung β0, β1.Die Trendkomponente ist dann

g(t) = yt = β0 + β1t

und die trendbereinigte Zeitreihe

yt = yt − yt = yt − g(t).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 351 / 391

Page 423: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Preise fur Bekleidung

0 20 40 60 80 100 120

9510

010

511

0

Plot mit Regressionsgerade

Monat

Pre

isin

dex

0 20 40 60 80 100 120

−6

−4

−2

02

4

Trendbereinigte Zeitreihe

Monat

Gleichung: yt = 97.97 + 0.077t

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 352 / 391

Page 424: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Bestimmung der Saisonkomponente

Modellierung mit Dummyvariablen fur jeden Monat

sj(t) =

1 t gehort zu Monat j

0 sonst, j = 1, . . . , 12

st = γ1s1(t) + . . .+ γ12s12(t)

Schatzung der Saisonkomponente mit KQ-Methode

fur Zeitreihe ohne Trend bzw. fur trendbereinigte Zeitreihe.

yt = γ1s1(t) + . . .+ γ12s12(t) + εt

Verwende Regression zur Schatzung der Parameter γ1, . . . , γ12.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 353 / 391

Page 425: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Preise fur Bekleidung

0 20 40 60 80 100 120

−6

−4

−2

02

4

Trendbereinigte Zeitreihe

Monat

2 4 6 8 10 12

−4

−2

02

Geschätzte Saisonkomponente

Monat im Jahr

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 354 / 391

Page 426: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Trend-Saison-Modell

Es ist in der Regel besser, Trend und Saison in einem Modellsimultan zu schatzen:

yt = β0 + β1t + γ1s1(t) + . . .+ γ12s12(t) + εt

mit12∑i=1

γi = 0.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 355 / 391

Page 427: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Preise fur Bekleidung

0 20 40 60 80 100 120

−2

−1

01

2

Trend− und saisonbereinigte Zeitreihe

Monat

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 356 / 391

Page 428: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Weitere Regressionsansatze

Verwende kompliziertere Trendmodelle, z.B. polynomialerTrend:

g(t) = β0 + β1t + . . .+ βptp

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 357 / 391

Page 429: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Exponentielles Glatten

Rekursive Definition

g e(1) = y1

g e(t) := βg e(t − 1) + (1− β)yt

einfaches exponentielles Glatten mit Glattungsparameter β.

g e(1) = y1

g e(2) = (1− β)y2 + βy1

g e(3) = (1− β)y3 + β(1− β)y2 + β2y1

g e(4) = (1− β)y4 + β(1− β)y3 + β2(1− β)y2 + β3y1

usw.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 358 / 391

Page 430: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Alternative Ansatze

Außer den vorgestellten Methoden der Zerlegung gibt es noch eineVielzahl anderer Verfahren.

Beispiele

1 Lokales lineares Trendmodell:”Gleitende Regression“ statt

gleitender Durchschnitt.

2 Census X-11 ARIMA, Census X-12 ARIMA, BV 4.1 (BerlinerVerfahren), etc.

3 (S)ARIMA: (Seasonal) Autoregressive Integrated Moving Average

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 359 / 391

Page 431: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

12 Wahrscheinlichkeit

Page 432: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wahrscheinlichkeitsrechnung fur Wirtschaftswissenschaft?

1 Probabilistisches Denken (d.h. das Denken in Wahrscheinlichkeiten)unerlasslich! Strenge Kausalitaten (wenn A dann folgt immer B)findet man bestenfalls vereinzelt in Naturwissenschaften, in denWirtschaftswissenschaften gilt typischerweise nur: wenn A dannfolgt eher B als C .

2 Wahrscheinlichkeiten und Umgang mit Unsicherheit spielen in derWirtschaft eine wichtige Rolle. Bei naiver Herangehensweise (ohneWahrscheinlichkeitsrechnung) kann man sich leicht tauschen.Risikobewertung ist ein zentraler Aspekt bei unternehmerischemHandeln.

3 Stichprobenverfahren und statistische Modelle spielen in den(empirisch orientierten) Wirtschaftswissenschaften eine zentraleRolle. Fur das Verstandnis sind Grundlagenkenntnisse inWahrscheinlichkeitsrechnung zentral.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 361 / 391

Page 433: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wahrscheinlichkeitsrechnung fur Wirtschaftswissenschaft?

1 Probabilistisches Denken (d.h. das Denken in Wahrscheinlichkeiten)unerlasslich! Strenge Kausalitaten (wenn A dann folgt immer B)findet man bestenfalls vereinzelt in Naturwissenschaften, in denWirtschaftswissenschaften gilt typischerweise nur: wenn A dannfolgt eher B als C .

2 Wahrscheinlichkeiten und Umgang mit Unsicherheit spielen in derWirtschaft eine wichtige Rolle. Bei naiver Herangehensweise (ohneWahrscheinlichkeitsrechnung) kann man sich leicht tauschen.Risikobewertung ist ein zentraler Aspekt bei unternehmerischemHandeln.

3 Stichprobenverfahren und statistische Modelle spielen in den(empirisch orientierten) Wirtschaftswissenschaften eine zentraleRolle. Fur das Verstandnis sind Grundlagenkenntnisse inWahrscheinlichkeitsrechnung zentral.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 361 / 391

Page 434: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wahrscheinlichkeitsrechnung fur Wirtschaftswissenschaft?

1 Probabilistisches Denken (d.h. das Denken in Wahrscheinlichkeiten)unerlasslich! Strenge Kausalitaten (wenn A dann folgt immer B)findet man bestenfalls vereinzelt in Naturwissenschaften, in denWirtschaftswissenschaften gilt typischerweise nur: wenn A dannfolgt eher B als C .

2 Wahrscheinlichkeiten und Umgang mit Unsicherheit spielen in derWirtschaft eine wichtige Rolle. Bei naiver Herangehensweise (ohneWahrscheinlichkeitsrechnung) kann man sich leicht tauschen.Risikobewertung ist ein zentraler Aspekt bei unternehmerischemHandeln.

3 Stichprobenverfahren und statistische Modelle spielen in den(empirisch orientierten) Wirtschaftswissenschaften eine zentraleRolle. Fur das Verstandnis sind Grundlagenkenntnisse inWahrscheinlichkeitsrechnung zentral.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 361 / 391

Page 435: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Klassische Aspekte und Meilensteine

Wahrscheinlichkeit

Wahrscheinlichkeit im Glucksspiel, v.a. Wurfelspiel:Profanisierung erst im Mittelalter, dort erst als Zufallgedeutet, vorher oft als Gottesurteil etc.

Cardano (1501-1576)Gallilei (1546-1642)Briefwechsel zwischen Pascal (1623-1662) und Fermat(1601-1665), erste systematische Wahrscheinlichkeitsrechnung:Losung fur Frage, wie Einsatze gerecht aufzuteilen sind, wennSpiel unterbrochen wurdeHuygens (1629-1695)

Wahr-schein-lichkeit (Prove-ability → probability)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 362 / 391

Page 436: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Historische Wurzeln

Mathematisierung von Glucksspiel

als philosophischer/theologischer Begriff

der Philosophie des Unsicheren und

der Mathematik der Glucksspiele

Jacob Bernoulli (1654 - 1705)

BinomialverteilungTheorem von Bernoulli: durch genugend große Versuchsreihen kannder Unterschied zwischen der relativen Haufigkeit eines Ereignissesund seiner Wahrscheinlichkeit beliebig gering gemacht werden.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 363 / 391

Page 437: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Laplace’scher Wahrscheinlichkeitsbegriff

Laplace (1749 - 1827)

Aufbauend auf Symmetrieuberlegungen

Wahrscheinlichkeit eines Ereignisses A:

P(A) :=Anzahl der fur A gunstigen Falle

Anzahl der (gleich) moglichen Falle

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 364 / 391

Page 438: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel

Wurf eines fairen Wurfels

Wahrscheinlichkeit des Ereignisses A: Es wird eine gerade Zahlgewurfeltmoglich: 1, 2, 3, 4, 5, 6gunstig: 2, 4, 6

=⇒ P(A) =3

6=

1

2

Erfolgreiche Anwendung v.a. auf Glucksspiele, in der Physik(stochastische Mechanik) und in der Stichprobentheorie beieiner einfachen Zufallsauswahl

Intuitiv einleuchtend, aber beschrankte Anwendbarkeit

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 365 / 391

Page 439: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Probleme

Warum reichen Laplace-Wahrscheinlichkeiten nicht?

Essentielle Voraussetzung: alle Falle mussen gleich moglich (alsogleich wahrscheinlich) sein!

Beispiel: Wie wird das Wetter morgen? 3 Moglichkeiten:

Sonne,Regen,Gemischt =⇒ P(Sonne) = 13

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 366 / 391

Page 440: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wahrscheinlichkeitsbegriffe

Objektivistisch / frequentistische Richtungen / aleatorischeWahrscheinlichkeiten

Anschluss an die gottliche Ordnung

Wahrscheinlichkeiten beschreiben tatsachlich vorhandene,zufallige Gesetzmaßigkeiten

Objektbezogen: Wahrscheinlichkeit ist eine Eigenschaft desuntersuchten Objekts (z.B. Wurfel), objektiv ←→objektbezogen (wie z.B. spezifisches Gewicht, Lange)

Haufigkeitsinterpretation bzw. sogar -definitionWahrscheinlichkeit als relative Haufigkeiten in unendlichlangen reproduzierbaren Experimenten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 367 / 391

Page 441: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Frequentistischer Wahrscheinlichkeitsbegriff I

R. von Mises (1883 - 1953):

”Die Wahrscheinlichkeit eines Ereignisses ist die langfristige relative

Haufigkeit seines Auftretens“

Fur ein Ereignis A:

P(A) = limn→∞

nA

n

nA : Anzahl der Erfolgen : Anzahl der Versuche

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 368 / 391

Page 442: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Frequentistischer Wahrscheinlichkeitsbegriff II

Probleme bei der Definition

Einmalige Ereignisse

Grenzwertdefinition

Experimentdurchfuhrung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 369 / 391

Page 443: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Subjektivistische Richtungen I

Wahrscheinlichkeit hat ausschließlich mit Unsicherheit, nichtmit Zufalligkeit zu tun(Man kann auch uber vollig deterministische Aspekte unsichersein!)

Wahrscheinlichkeit ist Eigenschaft des untersuchendenSubjekts=⇒ verschiedene Subjekte konnen durchaus zuunterschiedlichen Bewertungen kommen.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 370 / 391

Page 444: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Subjektivistische Richtungen II

Anwendung auch auf Aussagen.Bsp: Die Wahrscheinlichkeit, dass die Regierungskoalition diegesamte Legislaturperiode halt, ist...

behaviouristischer Standpunkt: Wahrscheinlichkeiten außernsich im Verhalten und konnen so gemessen werdenz.B. bei Wetten

Wichtig

Subjektiv sind die Wahrscheinlichkeiten aber nicht dieRechenregeln.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 371 / 391

Page 445: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Subjektiver Wahrscheinlichkeitsbegriff I

Laplace, Ramsey, de Finetti:

”Die Wahrscheinlichkeit eines Ereignisses ist der Grad der

Uberzeugung, mit der ein Beobachter aufgrund eines bestimmtenInformationsstandes an das Eintreten eines Ereignisses glaubt“

P(A) ist der Wetteinsatz in Euro, den eine Person hochstenseinzugehen bereit ist, falls diese bei Eintreten von A einen Eurogewinnt.

Beispiele:

Munzwurf: Einsatz auf”Zahl“ bis zu 0.5 e sinnvoll

Wurfel: Einsatz auf”5 oder 6“ bis zu 1/3 e sinnvoll

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 372 / 391

Page 446: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Subjektiver Wahrscheinlichkeitsbegriff II

Probleme

subjektiv = unwissenschaftlich ?

Wettdefinition

Informationsstand

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 373 / 391

Page 447: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: US Wahl

https://projects.fivethirtyeight.com/2016-election-forecast/

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 374 / 391

Page 448: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zur Kommunikation von Wahrscheinlichkeiten

Darstellung durch naturliche Haufigkeiten (nach Gigerenzer)

Superreprasentative Stichprobe vorstellen, in der sich genau dieHaufigkeitsverhaltnisse in der Grundgesamtheit wiederfinden, z.B.10 000 Personen

Dann P(A) = 0.1756 vorstellen als: 1756 Personen haben dieEigenschaft A.

+ einfachere Kommunikation von Wahrscheinlichkeiten und Risiken,reduziert Fehler beim Rechnen mit WahrscheinlichkeitenExperimente mit Arzten zeigen, dass die DarstellungsformWahrscheinlichkeiten vs. naturliche Haufigkeiten) einen starkenEinfluss auf die Korrektheit von Berechnungen hat.

– Gefahr der Verschleierung von Unsicherheit: die naturlichenHaufigkeiten sind zu erwartende Durchschnittswerte, wenn man sehrviele Stichproben hatte.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 375 / 391

Page 449: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: BeipackzettelAngabe des Risikos von Nebenwirkungen auf Beipackzetteln

sehr haufig: mehr als 1 von 10 Behandeltenhaufig: weniger als 1 von 10,

aber mehr als 1 von 100 Behandeltengelegentlich: weniger als 1 von 100,

aber mehr als 1 von 1000 Behandeltenselten weniger als 1 von 1000,

aber mehr als 1 von 10000 Behandeltensehr selten: 1 Fall oder weniger von 10000 Behandelten,

einschließlich Einzelfalle

Welche Nebenwirkungen konnen bei der Anwendung von ***auftreten?

Gelegentlich wurde uber das Auftreten vonMundschleimhautentzundungen, Kopfschmerzen, Ohrengerauschenberichtet.Selten konnen auftreten: Beschwerden im Magen-Darm-Bereich (z.B.Sodbrennen, Ubelkeit, Erbrechen oder Durchfall).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 376 / 391

Page 450: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Lotto

6 aus 49

Beim Lotto ist die Wahrscheinlichkeit bei einem Spiel einen6er zu bekommen:

1(496

) =1

13983816= 0.000000072

”Einmal in 14 Millionen Spielen“

”Einmal in 20.000 Jahren bei wochentlichem Spielen“

”Es ist wahrscheinlicher, den Tag der Ziehung nicht mehr zu

erleben, als zu gewinnen“

Simulationsexperiment

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 377 / 391

Page 451: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Risiko

Haufig als Wahrscheinlichkeit verwendet

Manchmal auch als Paar von Wahrscheinlichkeit und Hoheeines Verlustes

Produkt aus Wahrscheinlichkeit und Schaden

Entscheidungstheorie unterschiedet verschiedenesRisikoverhalten

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 378 / 391

Page 452: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Value at risk

Risikomaß fur Wertpapiere

Der Verlust, der mit einer Wahrscheinlichkeit von 1− αinnerhalb eines bestimmten Zeitraums nicht uberschrittenwird.

Fur verschiedene Portfolios einsetzbar

Anwendungen auch fur Firmen

Aufsichtsbehorden

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 379 / 391

Page 453: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Risikodarstellung in der Medizin

Beschreibung von Risiken fur die menschliche Gesundheit

Absolutes Risiko:Angabe von Krankheitswahrscheinlichkeiten, jeweils getrenntfur die Gruppe mit und ohne Risikofaktor

Relatives Risiko:Verhaltnis der Krankheitswahrscheinlichkeiten mit und ohneRisikofaktor

Anzahl der zusatzlich geschadigten Personen(erwarteter Effekt)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 380 / 391

Page 454: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Beispiel: Wirkung von Pravastatin

”Menschen mit hohem Cholesterinspiegel konnen das Risiko eines

erstmaligen Herzinfarkts sehr schnell um 22 Prozent vermindern, wenn sieeinen haufig angewandten Wirkstoff namens Pravastatin einnehmen“

Reduktion der Todesfalle von 41 auf 32 pro 1000 Patienten mithohem Cholesterin (32 = 41·(1-0.22)=41·0.78)Wahrscheinlichkeit fur Todesfall: Reduktion von 4.1% auf 3.2%Absolute Risikodifferenz: 0.9%

Reduktion um 22% (relatives Risiko 0.78)”22% werden gerettet“

Es mussen 111 Patienten behandelt werden, um ein Menschenlebenzu retten.Number needed to treat = 1/Absolute Risikodifferenz = 1/0.009 =111.11

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 381 / 391

Page 455: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Mathematisch-formaler Wahrscheinlichkeitsbegriff

Axiome

Axiomatik nach Kolmogoroff

typische Anwendung der axiomatischen Methode:Axiom: Nicht bezweifelte Grundannahme fur Kalkul

Die Kolmogoroffsche Axiomatik ist eine reine Definition, diesich zunachst im luftleeren Raum bewegt. Es wird rein formalfestgelegt, was eine Wahrscheinlichkeit sein soll.

Die Axiomatik ist vertraglich sowohl mit der Haufigkeits- alsauch mit der Wettinterpretation.

Die Axiome von Kolmogoroff geben an, wie man mitWahrscheinlichkeiten rechnet.

Welche Phanomene man durch Wahrscheinlichkeitenbeschreiben darf und wie die Ergebnisse zu interpretieren sind,ist aber damit nicht geklart.

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 382 / 391

Page 456: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Die axiomatische Methode

6

-

?

Erfahrungen Axiomensystem

Theoreme(logisch ableiten)

interpretierteTheoreme

6

?

-

Anwendung Analyse

Modellierung

Ruckinterpretation

eventuellModifikation

Erfahrungswelt Mathematik

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 383 / 391

Page 457: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ausblick

In der Tat gibt es auch Kritik an dieser Axiomatik: zu strengund uberprazise −→ aktueller Forschungsgegenstand(Imprecise Probabilities, Intervallwahrscheinlichkeit); hier nichtnaher thematisiert: Kolmogoroff als absolute Wahrheit. Kritik:

* Modellierung unsicheren (partiell widerspruchlichen,unvollstandigen) Expertenwissens

* Okonomie: Entscheidungen unter komplexer Unsicherheitwidersprechen Prognosen aus der ublichenWahrscheinlichkeitsrechnung

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 384 / 391

Page 458: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Zufallsvorgange

Ein Zufallsvorgang (Zufallsexperiment) fuhrt zu einem vonmehreren, sich gegenseitig ausschließenden Ergebnissen. Es ist vorder Durchfuhrung ungewiss, welches Ergebnis eintreten wird.Was benotigen wir zur Beschreibung eines Zufallsvorganges?

Zwei wesentliche Aspekte:

a) Welche Ergebnisse eines Zufallsvorgangs sind moglich? (Waskann alles passieren?)

b) Mit welcher Wahrscheinlichkeit treten die einzelnen Ergebnisseein?

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 385 / 391

Page 459: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Formale Beschreibung I

Ergebnisraum

Festlegen eines Ergebnisraums (Grundraum, Stichprobenraum) Ω,der alle moglichen Ergebnisse ω enthalt.Beispiele:

Ω = 1, . . . , 6 beschreibt die moglichen Ergebnisse einesWurfelexperimentsEin mogliches Ergebnis: ω = 4; ω = 17 ist kein moglichesErgebnis.

Ω = R+0 beschreibt die moglichen Erwerbseinkommen

Ein mogliches Ergebnis: ω = 17513e

Ziehung einer Person: Ω = 1, . . . ,NEin mogliches Ergebnis: ω = 17

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 386 / 391

Page 460: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Formale Beschreibung II

Ereignisse

Ereignisse sind Teilmengen von Ω

Beispiele:

”gerade Zahl“ = 2, 4, 6

”1 oder 2“ = 1, 2

”Einkommen zwischen 1000 und 2000 e“ =ω|1000 ≤ ω ≤ 2000

”Person ist weiblich“ = alle Nummern, die zu Frauen

gehorenEreignissen sollen Wahrscheinlichkeiten zugeordnet werden.Wir bezeichnen Ereignisse mit A,B,C,...

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 387 / 391

Page 461: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Ereignisoperationen

A ∪ B: Vereinigung =”A oder B“

A ∩ B: Durchschnitt =”A und B“

AC : Komplement =”Nicht A“

Beispiele:Ω = 1,2,3,4,5,6A = 2,4,6

”gerade“

B = 4,5,6”groß“

A ∪ B = 2,4,5,6”gerade oder groß“

A ∩ B = 4,6”gerade und groß“

AC = 1,3,5”ungerade“

BC = 1,2,3”klein“

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 388 / 391

Page 462: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Wahrscheinlichkeit (formale Definition)

Wahrscheinlichkeit

Eine Wahrscheinlichkeitsfunktion ordnet jedem Ereignis seineWahrscheinlichkeit zu. Eine Wahrscheinlichkeit ist also eineAbbildung von Ereignissen (Elementen der Potenzmenge von Ω)auf reelle Zahlen:

P : P(Ω) → RA 7→ P(A)

Dabei sollen gewisse fundamentale Rechenregeln gelten, z.B.

108 kann keine Wahrscheinlichkeit sein, nur Zahlen zwischen 0und 1.

P(2, 3) muss mindestens so groß sein wie P(3).

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 389 / 391

Page 463: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Axiome von Kolmogorov

Die drei Axiome

Eine Funktion P (P steht fur Probability), die Ereignissen aus Ωreelle Zahlen zuordnet, heißt Wahrscheinlichkeit, wenn gilt

(K1) P(A) ≥ 0 fur alle Ereignisse A ⊂ Ω.(K2) P(Ω) = 1.(K3) Falls A ∩ B = ∅, dann gilt P(A ∪ B) = P(A) + P(B)

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 390 / 391

Page 464: Vorlesung: Statistik I für Wirtschaftswissenschaft · Vorlesung: Statistik I f ur Wirtschaftswissenschaft Prof. Dr. Helmut Kuchenho Institut f ur Statistik, LMU M unchen WiSe 2016/2017

Axiome von Kolmogoroff (1933)

Die Axiome von Kolmogoroff stellen zunachst eine reineDefinition dar, die festlegt, was eine Wahrscheinlichkeit seinsoll.

Es gibt verschiedene Versuche Wahrscheinlichkeitenoperational zu definieren (also durch eine Messvorschrift) undverschiedene Interpretationen, die die Axiomatik mit Lebenfullen sollen.

Die Axiome passen zu den beiden bisher diskutiertenWahrscheinlichkeitsbegriffen

Statistik 1 WiSe 2016/2017 Helmut Kuchenhoff (Institut fur Statistik, LMU) 391 / 391