374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft,...

25
Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg

Transcript of 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft,...

Page 1: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

Statistikfür Betriebswirtschaft, Internationales Management,Wirtschaftsinformatik und Informatik

Sommersemester 2016

Prof. Dr. Stefan EtschbergerHochschule Augsburg

ste
Image
ste
Image
ste
line
ste
10
04.04.
Page 2: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

67

Weitere Konzentrationsmaße

Konzentrationskoeffizient:

CRg = Anteil, der auf die g größten entfällt =n∑

i=n−g+1

pi = 1− vn−g

Herfindahl-Index:

H =

n∑i=1

p2i (∈ [ 1n ;1])

Es gilt: H = 1n (V2 + 1) bzw. V =

√n ·H− 1

Exponentialindex:

E =

n∏i=1

ppii

(∈ [ 1n ;1]

)wobei 00 = 1

Im Beispiel mit x = (1,2, 2, 15):

CR2 = 1720

= 0,85

H =

(1

20

)2

+ · · ·+(15

20

)2

= 0,59

E =

(1

20

) 120

· · ·(15

20

) 1520

= 0,44

ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
line
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
Polygon
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
line
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
Polygon
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
hhhh
ste
hhhh
ste
hhhh
ste
hhhh
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
Page 3: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester
ste
Text Box
> # Aufgabe zu Lorenzkurve und Gini-Koeffizient > require(ineq) # Paket ist nötig > set.seed(4) > x = c(max(na.exclude(Umfrage$AusgKomm)), sample(Umfrage$AusgKomm, 4)) > x [1] 4668 250 420 250 300 > # Aufgabe: > # a) Zeichne Lorenzkurve (5 Minuten) > # b) Berechne Gini-Koeffizient (3 Minuten) > > # Loesung > plot(Lc(x)) > grid() > sort(cumsum(x)/sum(x)) [1] 0.04245924 0.11379076 0.15625000 0.20720109 1.00000000 > > # Gini von Hand > pi = sort(x)/sum(x) # Sortieren nicht vergessen > n = length(x) > x.Gini = ((2*sum(pi*(1:n))) - 6 )/n > x.Gini [1] 0.6118207 > > # Oder über Paket ineq > Gini(x) [1] 0.6118207
ste
Line
ste
10
Umfrage: In der letzten Aufgabe hatte ich A) Alles richtig B) Alles bis auf die Zeichnung richtig C) Einen Fehler in den Zahlen D) Mehr als einen Fehler in den Zahlen E) Ich wusste nicht, was zu tun ist
ste
Image
ste
Image
ste
Image
Page 4: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

68

Auswertungsmethoden für zweidimensionale Daten

Zweidimensionale Urliste

Urliste vom Umfang n zu zwei Merkmalen X und Y:

(x1, y1), (x2, y2), . . . , (xn, yn)

Kontingenztabelle:

Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten.

Ausprägungen von Y

Ausprägungen von X b1 b2 . . . bl

a1 h11 h12 . . . h1l

a2 h21 h22 . . . h2l

......

......

ak hk1 hk2 . . . hkl

Page 5: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

69

Kontingenztabelle

Unterscheide:

Gemeinsame Häufigkeiten:

hij = h(ai, bj)

Randhäufigkeiten:

hi· =

l∑j=1

hij und h·j =

k∑i=1

hij

Bedingte (relative) Häufigkeiten:

f1(ai | bj) =hij

h·jund f2(bj | ai) =

hij

hi·

Page 6: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

70

Häufigkeiten

Beispiel: 400 unfallbeteiligte Autoinsassen:

leicht verletzt schwer verletzt tot(= b1) (= b2) (= b3)

angegurtet 264 90 6 360

(= a1) (= h11) (= h12) (= h13) (= h1·)nicht angegurtet 2 34 4 40

(= a2) (= h21) (= h22) (= h23) (= h2·)

266 124 10 400

(= h·1) (= h·2) (= h·3) (= n)

f2(b3 | a2) =440

= 0,1 (10 % der nicht angegurteten starben.)

f1(a2 | b3) =410

= 0,4 (40 % der Todesopfer waren nicht angegurtet.)

ste
llllz
ste
llllz
ste
llllz
ste
llllz
Page 7: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

71

Streuungsdiagramm

Streuungsdiagramm sinnvoll bei vielen verschiedenenAusprägungen (z.B. stetige Merkmale)➠ Alle (xi, yi) sowie (x, y) in Koordinatensystem eintragen.

Beispiel:

i 1 2 3 4 5∑

xi 2 4 3 9 7 25

yi 4 3 6 7 8 28

⇒ x = 255

= 5

y = 285

= 5,6x

y

1

1

2

2

3

3

4

4

5

5

6

6

7

7

8

8

9

9

y

x

ste
hhhh
ste
hhhh
Page 8: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

72

Beispiel Streuungsdiagramm

(Datenquelle: Fahrmeir u. a. (2009))

ste
hhhh
ste
line
ste
llllz
ste
llllz
ste
llllz
Page 9: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

73

Beispiel Streuungsdiagramm

if (!require("RColorBrewer")) {install.packages("RColorBrewer")library(RColorBrewer)}mieten <- read.table('http://goo.gl/jhpJW4', header=TRUE, sep='\t',

check.names=TRUE, fill=TRUE, na.strings=c('',''))x <- cbind(Nettomieten=mieten$nm, Wohnflaeche=mieten$wfl)

library("geneplotter") ## from BioConductorsmoothScatter(x, nrpoints=Inf,

colramp=colorRampPalette(brewer.pal(9,"YlOrRd")),bandwidth=c(30,3))

500 1000 1500

5010

015

0

Nettomieten

Woh

nfla

eche

ste
llllz
ste
llllz
Page 10: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

74

Beispiel Streuungsdiagramm

x = cbind("Alter des Vaters"=AlterV, "Alter der Mutter"=AlterM)require("geneplotter") ## from BioConductorsmoothScatter(x, colramp=colorRampPalette(brewer.pal(9,"YlOrRd")) )

40 50 60 70 80

4045

5055

6065

70

Alter des Vaters

Alte

r de

r M

utte

r

Page 11: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

75

require(GGally)ggpairs(MyData[, c("Alter", "AlterV", "AlterM", "Geschlecht")],

upper = list(continuous = "density", combo = "box"),color='Geschlecht', alpha=0.5)

Alte

rA

lterV

Alte

rMG

esch

lech

t

Alter AlterV AlterM Geschlecht

20

25

30

35Frau Mann

40

50

60

70

80

40

50

60

70

0

20

40

60

80

0

20

40

60

80

20 25 30 35 40 50 60 70 80 40 50 60 70 Frau Mann

Page 12: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

76

Bagplot: Boxplot in 2 Dimensionen

require(aplpack)bagplot(jitter(AlterV), jitter(AlterM), xlab="Alter des Vaters", ylab="Alter der Mutter")

## [1] "Warning: NA elements have been exchanged by median values!!"

40 50 60 70 80

4045

5055

6065

70

Alter des Vaters

Alte

r de

r M

utte

r

Page 13: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

77

Bubbleplot: 3 metrische Variablen

require(DescTools)My.ohne.NA = na.exclude(MyData[,c("AlterM", "AlterV", "Alter")])with(My.ohne.NA, {

Alter.skaliert = (Alter-min(Alter))/(max(Alter)-min(Alter))PlotBubble(jitter(AlterM), jitter(AlterV), Alter.skaliert,

col=SetAlpha("deeppink4",0.3),border=SetAlpha("darkblue",0.3),xlab="Alter der Mutter", ylab="Alter des Vaters",panel.first=grid(),main="")

})

40 50 60 70

3040

5060

7080

90

Alter der Mutter

Alte

r de

s V

ater

s

Größe der Blasen: Alter zwischen 0 (Jüngster) und 1 (Ältester)

Page 14: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

78

Circular Plots: Assoziationen

require(DescTools)with(MyData, {PlotCirc(table(Studiengang, Geschlecht),acol=c("dodgerblue","seagreen2","limegreen","olivedrab2","goldenrod2","tomato2"),rcol=SetAlpha(c("red","orange","olivedrab1"), 0.5))})

Mann

Frau

WI

Inf

IM

ET

BW

Gute Idee: Noch Experimentell

Page 15: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

79

Korrelationsrechnung

Frage: Wie stark ist der Zusammenhang zwischen X und Y?

Dazu: Korrelationskoeffizienten

Verschiedene Varianten: Wahl abhängig vom Skalenniveauvon X und Y:

Skalierung von Y

Skalierung von X kardinal ordinal nominal

kardinalBravais-Pearson-

Korrelations-koeffizient

ordinalRangkorrelations-

koeffizient vonSpearman

nominalKontingenz-koeffizient

Page 16: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

80

Korrelationskoeffizient von Bravais und Pearson

Bravais-Pearson-KorrelationskoeffizientVoraussetzung: X, Y kardinalskaliert

r =

n∑i=1

(xi − x)(yi − y)√n∑

i=1

(xi − x)2n∑

i=1

(yi − y)2

=

n∑i=1

xiyi −nxy√n∑

i=1

x2i −nx2

√n∑

i=1

y2i −ny2

∈ [−1;+1]

−2 −1 0 1 2 3 4

01

23

45

6

−1 0 1 2 3 4 5

−2

−1

01

23

0 1 2 3 4

12

34

56

7

r = 1 r = −0,999 r = 0,981

−2 −1 0 1 2 3 4

−2

−1

01

23

4

0 1 2 3 4 5 6

−2

−1

01

23

−3 −2 −1 0 1 2 3

−2

−1

01

23

4

r = −0,903 r = 0,516 r = −0,014

ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
llllz
ste
llllz
ste
hhhh
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
llllz
ste
llllz
Page 17: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

81

Bravais-Pearson-Korrelationskoeffizient

Im Beispiel:

i xi yi x2i y2i xi yi

1 2 4 4 16 8

2 4 3 16 9 12

3 3 6 9 36 18

4 9 7 81 49 63

5 7 8 49 64 56∑25 28 159 174 157

x = 25/5 = 5

y = 28/5 = 5,6

r =157− 5 · 5 · 5,6√

159− 5 · 52√174− 5 · 5,62

= 0,703

(deutliche positive Korrelation)

ste
Snapshot
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
llllz
ste
llllz
ste
hhhh
ste
hhhh
Page 18: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester
ste
Line
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
Snapshot
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
llllz
ste
hhhh
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
line
ste
line
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
hhhh
ste
llllz
ste
llllz
ste
hhhh
ste
hhhh
ste
hhhh
ste
hhhh
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
hhhh
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
llllz
Page 19: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

82

Guess The Correlation

guessthecorrelation.com

Go for the Highscore!

Page 20: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

83

Rangkorrelationskoeffizient von Spearman

Voraussetzungen: X, Y (mindestens) ordinalskaliert, Rängeeindeutig (keine Doppelbelegung von Rängen)

Vorgehensweise:➀ Rangnummern Ri (X) bzw. R ′

i (Y) mit R(′)i = 1 bei größtem

Wert usw.➁ Berechne

rSP = 1−

6n∑

i=1

(Ri − R ′i)

2

(n− 1)n (n+ 1)∈ [−1;+1]

Hinweise:rSP = +1 wird erreicht bei Ri = R ′

i ∀ i = 1, . . . , n

rSP = −1 wird erreicht bei Ri = n+ 1− R ′i ∀ i = 1, . . . , n

Falls Ränge nicht eindeutig: Bindungen, dann Berechnung vonrSP über Ränge und Formel des Korr.-Koeff. vonBravais-Pearson

Page 21: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

84

Rangkorrelationskoeffizient von Spearman

Im Beispiel:

xi Ri yi R ′i

2 5 4 4

4 3 3 5

3 4 6 3

9 1 7 2

7 2 8 1

rSP = 1−6 · [(5− 4)2 + (3− 5)2 + (4− 3)2 + (1− 2)2 + (2− 1)2]

(5− 1) · 5 · (5+ 1)= 0,6

Page 22: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

85

Kontingenzkoeffizient

Gegeben: Kontingenztabelle mit k Zeilen und l Spalten(vgl. hier)

Vorgehensweise:➀ Ergänze Randhäufigkeiten

hi· =

l∑j=1

hij und h·j =

k∑i=1

hij

➁ Berechne theoretische Häufigkeiten

hij =hi· · h·j

n

➂ Berechne

χ2 =

k∑i=1

l∑j=1

(hij − hij)2

hij

χ2 hängt von n ab! (hij 7→ 2 · hij ⇒ χ2 7→ 2 · χ2)

Page 23: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester
ste
Line
ste
Snapshot
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
llllz
ste
line
ste
llllz
ste
line
ste
llllz
ste
llllz
ste
line
ste
llllz
ste
line
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
llllz
ste
hhhh
ste
hhhh
ste
hhhh
ste
llllz
ste
llllz
ste
llllz
ste
llllz
Page 24: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

86

Kontingenzkoeffizient

➃ Kontingenzkoeffizient:

K =

√χ2

n+ χ2∈ [0;Kmax]

wobei

Kmax =

√M− 1

Mmit M = min{k, l}

➄ Normierter Kontingenzkoeffizient:

K∗ =K

Kmax∈ [0; 1]

K∗ = +1 ⇐⇒bei Kenntnis von xi kann yi erschlossen werden u.u.

ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
hhhh
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
line
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
ste
llllz
Page 25: 374r Betriebswirtschaft, Internationales ... - hs-augsburg.de · Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester

StatistikEtschberger – SS2016

1. Einführung

2. Deskriptive Statistik

Häufigkeiten

Lage und Streuung

Konzentration

Zwei Merkmale

Korrelation

Preisindizes

Lineare Regression

3. W-Theorie

4. Induktive Statistik

Quellen

Tabellen

87

Kontingenzkoeffizient

Beispiel

X : Staatsangehörigkeit (d,a)Y : Geschlecht (m,w)

hij m w hi· hij m wd 30 30 60 ⇒ d 24 36

a 10 30 40 a 16 24

h·j 40 60 100

wobei h11 = 60·40100

= 24 usw.

χ2 = (30−24)2

24+ (30−36)2

36+ (10−16)2

16+ (30−24)2

24= 6,25

K =√

6,25100+6,25

= 0,2425; M = min{2,2} = 2; Kmax =√

2−12

= 0,7071

K∗ = 0,24250,7071

= 0,3430

ste
llllz
ste
Snapshot