Statistik I für Betriebswirte Vorlesung 8 - tu-freiberg.de · Statistik I f ur Betriebswirte...

31
Statistik I f¨ ur Betriebswirte Vorlesung 8 Dr. Andreas W¨ unsche TU Bergakademie Freiberg Institut f¨ ur Stochastik 27. Mai 2019 Dr. Andreas W¨ unsche Statistik I f¨ ur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 1

Transcript of Statistik I für Betriebswirte Vorlesung 8 - tu-freiberg.de · Statistik I f ur Betriebswirte...

Statistik I fur BetriebswirteVorlesung 8

Dr. Andreas Wunsche

TU Bergakademie FreibergInstitut fur Stochastik

27. Mai 2019

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 1

2.2 Eindimensionale Merkmale

2.2.1 Haufigkeitsverteilungen

I Eine Stichprobe vom Umfang n sei erhoben und die Variable X (dasMerkmal X ) sei beobachtet worden.

I Daten (beobachtete Stichprobe): Liste, in der die erhobenenBeobachtungswerte von X nacheinander aufgeschrieben werden;Bezeichnung: x1, ..., xn .

I a1, ..., ak : Merkmalsauspragungen, die in der Urliste vorkommen;k ≤ n .

I Absolute Haufigkeit der Auspragung ai : Hi = H(ai ) beschreibt, wieoft die Auspragung ai bei den n Beobachtungen vorkommt.

I Relative Haufigkeit der Auspragung ai : hi = h(ai ) = Hin entspricht

dem Anteil der Auspragung ai bezogen auf die n Beobachtungen.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 2

Beispiel 2.1 Prufungsnoten – DatenPerson Note Person Note Person Note Person Note

1 4 16 3 31 4 46 12 3 17 2 32 1 47 23 3 18 5 33 4 48 44 1 19 3 34 2 49 55 5 20 4 35 3 50 36 4 21 4 36 5 51 57 5 22 5 37 5 52 48 3 23 4 38 4 53 59 1 24 5 39 3 54 2

10 5 25 5 40 4 55 211 5 26 5 51 4 56 312 2 27 3 42 4 57 513 3 28 4 43 3 58 414 5 29 5 44 3 59 415 3 30 4 45 5

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 3

Fortsetzung Beispiel 2.1Note (ai ) 1 2 3 4 5

abs H. (Hi ) 4 6 14 17 18rel. H. (hi ) 0.068 0.102 0.237 0.288 0.305

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 4

Beispiel 2.2 Mieten

Merkmal: Mieten (2013) fur zufallig ausgewahlte Einraumwohnungen inBerlin Mitte in Euro Quelle: Eckstein, Statistik fur Wirtschaftswissenschaftler, 5. Auflage 2016, Springer

Daten fur n = 45 Wohnungen:

219 275 163 299 268 282 283.1 195.4 327.7272 243 310 324 280 285 329 227 265.6334.1 150 321 322 307 300 238 322.5 332.3385 292.2 360 341 418 340.3 275 286 365402.1 351 408 501.4 509.5 670 926.1 910 1087

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 5

Klassenbildung

I Bei Erstellung einer Haufigkeitsverteilung ist es oft sinnvoll odersogar notig, die Informationen aus der Urliste zu bundeln, falls

I die Anzahl der Merkmalsauspragungen k zu groß ist,I und/oder ein stetiges Merkmal vorliegt.

I Ausweg: Klassenbildung:Benachbarte Merkmalsauspragungen werden zu einer Klasse oderGruppe zusammengefasst. In der gruppierten Haufigkeitsverteilungerscheinen nur noch die Gruppen mit der Haufigkeit allerAuspragungen in der Gruppe.

I Bei der Klassenbildung ist zu beachten:I Merkmalsauspragungen moglichst gleichmaßig auf die Klassen

verteilen (moglichst gleiche Klassenbreite);I keine Uberschneidungen der Klassen;I Klassen mussen vollstandig sein.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 6

Haufigkeitstabelle fur gruppierte (klassierte) DatenBeispiel 2.2 Mieten

Häufigkeitstabellen für Miete

Untere Obere Relative Kumulative Kum. Rel.

Klasse Grenze Grenze Mittelpunkt Häufigkeit Häufigkeit Häufigkeit Häufigkeit

bei oder

unterhalb 0 0 0,0000 0 0,0000

1 0 100,0 50,0 0 0,0000 0 0,0000

2 100 200,0 150,0 3 0,0667 3 0,0667

3 200 300,0 250,0 17 0,3778 20 0,4444

4 300 400,0 350,0 16 0,3556 36 0,8000

5 400 500,0 450,0 3 0,0667 39 0,8667

6 500 600,0 550,0 2 0,0444 41 0,9111

7 600 700,0 650,0 1 0,0222 42 0,9333

8 700 800,0 750,0 0 0,0000 42 0,9333

9 800 900,0 850,0 0 0,0000 42 0,9333

10 900 1000,0 950,0 2 0,0444 44 0,9778

11 1000 1100,0 1050,0 1 0,0222 45 1,0000

oberhalb 1100 0 0,0000 45 1,0000

Mittelwert = 362,273 Standardabweichung = 188,907

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 7

2.2.2 Grafiken fur univariate stetige Daten(a) Histogramm

I Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte.

I Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, ineine endliche Anzahl disjunkter Teilintervalle, die sogenanntenKlassen oder Gruppen, zerlegt. Jede Klasse ist dann eindeutig durchdie Klassenmitte und die Klassenbreite bzw. durch die untere undobere Klassengrenze bestimmt.

I Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein.

I Die Klassenbreiten sollten ubereinstimmen (ggf. mit Ausnahme derRandklassen).

I Nach Festlegung einer Klasseneinteilung werden die absolutenKlassenhaufigkeiten (Anzahl der Werte in der Klasse) bestimmt.

I Dann werden in einem Koordinatensystem aneinanderstoßendeRechtecke mit Flacheninhalten proportional zurKlassenhaufigkeit und Klassenintervallen als Basis gezeichnet.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 8

Histogramm im Beispiel 2.2

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 9

Bemerkungen zu Histogrammen

I Die Gestalt eines Histogramms hangt stark von der gewahltenKlasseneinteilung (und auch des gewahlten Gesamtintervalls) ab,deshalb sollte man ggf. etwas experimentieren, um ein moglichstaussagekraftiges Histogramm zu erzeugen.

I Durch die Klasseneinteilung geht Information verloren.

I Man kann ggf. Ausreißer am linken oder rechten Rand erkennen.

I Man kann eventuell Verteilungseigenschaften, wie Symmetrie oderSchiefe, erkennen (oder erahnen).

I Bei ubereinstimmenden Klassenbreiten sind die Hohen der Rechteckeproportional zu den Haufigkeiten.

I Statt der absoluten Haufigkeiten konnen die Hohen der Rechteckeauch so normiert werden, dass der Gesamtflacheninhalt unter allenRechtecken gleich 1 ist. Dann ist ein (meist nicht sehr belastbarer)Vergleich mit einer Verteilungsdichte moglich.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 10

(b) Box-Plot

Aussagekraftige graphische Darstellung der Funfer-Charakteristik,bestehend aus Median x , den empirischen Quartilen (Viertelwerten)Vu,Vo und den Ausreißergrenzen Au,Ao .Box-Plot im Beispiel 2.2:

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 11

2.2.3 Grafiken fur univariate diskrete Daten(a) Balkendiagramm

I Bei Balkendiagrammen werden die Anzahlen der Beobachtungswertein den einzelnen Kategorien (Klassen) durch gleich breite Balkenflachen- und auch hohenproportional dargestellt.

I Im Unterschied zum Histogramm fur stetige Daten haben die Balkenbeim Balkendiagramm einen Abstand, um den diskreten Charakterder Daten zu unterstreichen.

I Sowohl beim Histogramm als auch beim Balkendiagramm werdenaber Haufigkeiten oder Anteile flachenproportional dargestellt.

I Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balkender naturlichen Ordnung der Merkmalsauspragungen entsprechen.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 12

Balkendiagramm im Beispiel 2.1

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 13

(b) Kreisdiagramm

Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnenKategorien (Klassen) konnen ggf. auch durch ein Kreisdiagramm(Tortendiagramm, Kuchendiagramm) flachenproportional (hier auchwinkelproportional) dargestellt werden.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 14

2.2.4 Statistische Kenngroßen

I Lagemaße(Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachtetenMerkmalswerte?)

I Streumaße(Uber welchen Bereich erstrecken sich die Beobachtungen, wie starkschwanken sie?)

I Weitere statistische Kenngroßen

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 15

Lagemaße

i) Mittelwerte

(fur quantitative Merkmale)

a) Arithmetisches Mittel:

x =1

n

n∑i=1

xi =1

n(x1 + x2 + . . .+ xn) .

I Im Beispiel 2.2 Mieten: x =219 + . . .+ 1087

45= 362.273 .

I Auf Basis relativer Haufigkeiten:

x =m∑j=1

hjaj = h1a1 + h2a2 + . . .+ hmam

bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 16

Klassierte (gruppierte) Daten

Die Formel

x =m∑j=1

hjaj = h1a1 + h2a2 + . . .+ hmam

=1

n

m∑j=1

Hjaj =1

n(H1a1 + H2a2 + . . .+ Hmam)

kann auch fur klassierte Daten zur naherungsweisen Berechnung desarithmetischen Mittels mit aj , Klassenmitten verwendet werden.

Z.B. in Beispiel 2.2 gilt

x ≈ 363.333 =

3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050

45.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 17

Zusammenfassung von Mittelwerten

I Fur Mittelwerte aus Teilgesamtheiten gilt:Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor undkennt man die Stichprobenumfange nj sowie die arithmetischenMittel x j pro Schicht, so lasst sich daraus das Gesamtmittel xberechnen als

x =1

n

r∑j=1

nj · x j .

I Beispiel 2.3 (Quelle: Bleymuller et al, Statistik fur Wirtschaftswissenschaftler, 14. Auflage)Unternehmen mit Betrieben A und BA: 400 Beschaftige mit Bruttodurchschnittsverdienst 1920.84 eB: 300 Beschaftige mit Bruttodurchschnittsverdienst 2012.17 e⇒ durchschnittlicher Bruttomonatsverdienst samtlicher 700Beschaftigten von A und B zusammen:

x =400 · 1920.84 e+ 300 · 2012.17 e

700= 1959.98 e

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 18

b) Geometrisches Mittel

Definition: xG = n√x1 · x2 · . . . · xn

I Voraussetzung: xi > 0, i = 1, 2, . . . , n .

I Berechnung uber Haufigkeiten: xG = ah11 · a

h22 · . . . · a

hmm

bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .

I Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren.

I ZahlenbeispielZeitpunkt 0 1 2

Kapital 100 81 100

Wachstumsfaktor x1 = 0.81 x2 = 1.234

⇒ xG = 1.000aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals).

I Es gilt immer xG ≤ x .

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 19

ii) Empirische Quantile

I Ordnen der Datenreihe x1, x2, . . . , xn ergibt geordnete Datenreihe(geordnete Stichprobe, Variationsreihe)

xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .

I Empirisches α-Quantil (0 < α < 1): Zahlenwert xα, so dassα · 100% der Werte in der Variationsreihe links davon liegen:

xα =

x(k) falls nα keine ganze Zahl ist, k ist

dann die auf nα folgende ganze Zahl

12

(x(k) + x(k+1)

)falls nα =: k eine ganze Zahl ist

(fur quantitative Merkmale).

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 20

Empirischer Median, empirische Quartile

I Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert dergeordneten Stichprobe)

x = xmed := x0.5 =

x( n+12 ), falls n ungerade;

12

(x( n

2 ) + x( n2

+1)

), falls n gerade.

I Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 .

I Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 .

I Bemerkung: Der arithmetische Mittelwert x ist empfindlichgegenuber Ausreißern, der Median x weniger.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 21

iii) Empirischer Modalwert, Modus

I xmod Wert mit der großten Haufigkeit in der Stichprobe.

I Hangt bei klassierten Daten stark von der gewahltenKlasseneinteilung ab ⇒ Modalklasse.

I Im Allgemeinen gilt x 6= x 6= xmod .

I Auch verwendbar bei qualitativen Merkmalen.

I Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 22

Streumaße (fur metrisch skalierte Daten)

I Spannweite: ∆ = xmax − xmin .

I Quartilsabstand (Viertelweite): dQ = Vo − Vu .

I Empirische Varianz (Stichprobenstreuung):

s2 =1

n − 1

n∑i=1

(xi − x)2 =1

n − 1

(n∑

i=1

x2i − nx2

).

I Empirische Standardabweichung: s =√s2 .

I Empirischer Variationskoeffizient: v =s

x· 100% (falls x > 0),

besitzt keine phys. Einheit, er ist fur kleine Werte x nicht sehraussagekraftig.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 23

Weitere Kenngroßen (fur metrisch skalierte Daten)

I Ausreißergrenzen: Au = Vu − 1.5dQ Ao = Vo + 1.5dQ .

(sogenannte innere Zaune; außere Zaune bei ±3dQ).

I Empirische Schiefe:

vs =1

n

n∑i=1

(xi − x

s

)3

.

I Empirische Wolbung:

w =1

n

n∑i=1

(xi − x

s

)4

.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 24

Statistische Kenngroßen im Beispiel 2.2 Mieten

Summenstatistiken für Miete

Anzahl 45 Minimum 150,0

Arithm. Mittelwert 362,273 Maximum 1087,0

Median 321,0 Spannweite 937,0

Modalwert 275,0 Unteres Quartil 275,0

Geom. Mittelwert 331,436 Oberes Quartil 360,0

Varianz 35685,9 Quartilsabstand 85,0

Standardabweichungen 188,907 Schiefe 2,54232

Variationskoeffizient 52,1449% Wölbung 6,66333

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 25

Box-Plot II

I Aussagekraftige graphische Darstellung der Funfer-Charakteristik,bestehend aus

I Median x = xmed = x0.5 ,I den empirischen Quartilen (Viertelwerten)

Vu = x0.25 und Vo = x0.75

I und den Ausreißergrenzen

Au = Vu − 1.5dQ und Ao = Vo + 1.5dQ .

I Die untere Begrenzungslinie wird dabei bestimmt durch denkleinsten Wert, der ≥ Au ist (= xmin falls xmin ≥ Au), wahrend dieobere Begrenzungslinie durch den großten Wert, der ≤ Ao ist,definiert wird (= xmax falls xmax ≤ Ao).

I Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werdenextra durch Punkte angegeben.

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 26

Box-Plot III Beispiel 2.2 Mieten

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 27

Beispiel 2.4

I Geordnete Stichprobe: (n = 11)k 1 2 3 4 5 6 7 8 9 10 11

x(k) 1 7 13 14 14 15 17 19 19 21 23

I Median: 11 · 0.5 = 5.5 ⇒ x = x(6) = 15 .

I Unteres Quartil: 11 · 0.25 = 2.75 ⇒ Vu = x(3) = 13 .

I Oberes Quartil: 11 · 0.75 = 8.25 ⇒ Vo = x(9) = 19 .

I Quartilsabstand (Viertelweite): dQ = Vo − Vu = 19− 13 = 6 .

I Ausreißergrenzen:Au = Vu − 1.5dQ = 13− 9 = 4 > x(1) = 1 =⇒x(1) ist ein Ausreißer nach unten ,Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 .

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 28

Boxplot IV fur Beispiel 2.4

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 29

Box-Plot VBeispiel 2.5: Korpergroße nach Geschlecht (SoSe 2019)

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 30

Box-Plot VIBeispiel 2.5: Korpergroße nach Studienfach (SoSe 2019)

Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 31