Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in...

66
Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten empirischen Gesetzen. Im Gegensatz zu Einzelereignissen können diese Gesetze mathematisch erfasst werden. deskriptive (beschreibende) Statistik : Darstellung großer Datenmengen sinnvoll mit Hilfe von Tabellen, Graphiken oder Piktogrammen. Charakterisierung dieser Datenmengen durch bestimmte Parameter und Ermöglichen von Vergleichen und Aufstellen von Beziehungen mit den anderen Datensätzen. analytische (beurteilende) Statistik: Schluss von Stichprobeneigenschaften auf Eigenschaften der Grundgesamtheit

Transcript of Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in...

Page 1: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Was ist Statistik?

Statistik die Wissenschaft von MassenerscheinungenPhänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten empirischen Gesetzen. Im Gegensatz zu Einzelereignissen können diese Gesetze mathematisch erfasst werden.

deskriptive (beschreibende) Statistik :Darstellung großer Datenmengen sinnvoll mit Hilfe von Tabellen, Graphiken oder Piktogrammen. Charakterisierung dieser Datenmengen durch bestimmte Parameter und Ermöglichen von Vergleichen und Aufstellen von Beziehungen mit den anderen Datensätzen.

analytische (beurteilende) Statistik: Schluss von Stichprobeneigenschaften auf Eigenschaften der Grundgesamtheit

Page 2: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

DARSTELLUNGEN VON DATEN

Tabellen:leicht herzustellen, sehr vielfältig in der Anwendung, Daten genau dargestellt. Nachteil: Überblicke sind nicht so schnell zu erzielen.

Graphiken:Geben raschen Überblick, Unterschiede (Größenvergleiche) sind er„sichtlich“.Nachteil: oft aufwendig zu gestalten, leicht manipulierbar.

Stabdiagramme

Kreis- und Streifendiagramme (zur Darstellung von Anteilen (Prozenten))

Piktogramme

Liniendiagramme (Darstellung von Zeitreihen, Interpolation zwischen den gemessenen Daten nur für Bestandsdaten, nicht aber für Bewegungsdaten möglich

z.B. Firmenkapital ist Bestandsdatum, jährlicher Umsatz ist Bewegungsdatum)

Kombinationen von Graphiken (Bevölkerungspyramiden, Flussdiagramme)

Page 3: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Manipulationsmöglichkeiten von Graphiken

• farbige Gestaltung• geschickte Anordnung (falls das sinnvoll möglich ist!) der Stäbe oder Sektoren – ein

kleiner Stab zwischen zwei großen Stäben schaut noch kleiner aus.• Abschneiden oder Unterbrechen der Stäbe• Weglassen der Standlinie bzw. Verwendung von nicht waagrechten oder nicht geraden Standlinien• perspektivische Verzerrungen ausnützen • in Piktogrammen weiß man oft nicht, ob die dargestellten Größen als Länge, Fläche oder

Volumen der entsprechenden Figuren dargestellt werden• Änderung der Maßstäbe auf den Koordinatenachsen, auch in Verbindung mit Verschiebungen des Nullpunktes auf der Ordinaten- und/oder der Abszissenachse• Auswahl spezieller Daten

Page 4: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 5: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 6: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Grundgesamtheit, Stichprobe, Merkmal

Grundgesamtheit (Gesamtpopulation) : Menge aller möglichen Untersuchungseinheiten; real oder fiktiv gegeben; Grundgesamtheit kann endlich oder als unendlich angenommen werden.

Stichprobe:Teilmenge aus der Grundgesamtheit

Stichprobenumfang:Anzahl der Untersuchungseinheiten der Stichprobe; Gesamterhebung

Merkmal (Variable) X:eine qualitativ oder quantitativ messbare Eigenschaft der einzelnen Untersuchungseinheiten. x1, x2,..., xs bezeichnen die n Ausprägungen von X (theoretisch kann X auch unendlich viele Ausprägungen haben).

Page 7: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Untersuchungsobjekt 1

UO 2

UO 3

Grundgesamtheit oder Stichprobe

UO 4

UO 5

x1 = 5,1

x2 = 2,4

x3 = 3

x4 = 2,4

x5 = 5,1

Messung Merkmalsausprägungen

Stichprobenwerte

Page 8: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Skalen:

Nichtmetrische Merkmale

nominal qualitative Unterschiede Nationalität

ordinal Rangordnung Noten, Güteklassenrangskaliert

Metrisch Merkmale

Intervallskala Abstände zwischen Rängen Temperatur

Verhältnisskala Quotienten der Abstände Länge

Page 9: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Ausprägungen Häufigkeit relative Häufigkeit

x1 h1 f1

x2 h2 f2

.... ... ...

xs hs fs

∑ n 1

Achtung: Mit x1, x2, x3,…,xn werden einmal die Merkmalswerte der n Untersuchungseinheiten bezeichnet (die xi müssen nicht alle verschieden sein), mit x1, x2, x3,…,xs werden aber auch die untereinander verschieden Ausprägungen des Merkmals bezeichnet (also gilt insbesondere n ≥ s)

fj = hj/n

∑hj = n ∑fj = 1

Page 10: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Beispiel „Häufigkeiten“

Page 11: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Häufigkeitsverteilung:

Zusammenhang zwischen Ausprägung und absoluter bzw. relativer Häufigkeit

Darstellung tabellarisch oder graphisch, z.B. als Stabdiagramm –

x-Achse: Ausprägungen (falls Merkmal ordinal, Rangordnung beachten; falls das Merkmal metrisch, Abstände zwischen den einzelnen Ausprägungen beachten)

y-Achse: absolute bzw. relative Häufigkeiten für entsprechende Ausprägung

Page 12: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Gruppierte Daten, Histogramm

 

Messung der Merkmalsausprägungen für die einzelnen Untersuchungseinheiten zu genau! Komprimierung der Stichprobenwerte durch Gliederung in Klassen (Gruppen)

Klassen sowohl für nominale als auch ordinale und metrische Merkmale

Bei metrischen Daten Klassen von der Form:

{x: a < x ≤ b} nach links halboffenes Intervall; a und b heißen Klassengrenzen (obere bzw. untere), die Differenz b - a heißt Klassenbreite, 1/2 ( a + b ) - Mittelpunkt des Intervalls - die Klassenmitte

Achtung: Vereinbarung: untere Klassengrenze gehört nicht zur Klasse, obere aber schon.Für benachbarte Klassen gilt: obere KG der einen ist untere KG der anderen Klasse d.h. es gibt keine Zwischenräume zwischen benachbarten Klassen

Histogramm als Darstellungsmittel:über den Klassenintervallen werden Rechtecke gebildet, deren Fläche gleich der absoluten Klassenhäufigkeit, d.h. der Anzahl der zur Klasse gehörigen Stichprobenwerte ist Rechteckshöhe = Klassenhäufigkeit der Klasse / Klassenbreite

Page 13: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 14: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Kriterien für Klassenbildung:

• Anhäufungen (Cluster) zu Klassen zusammenfassen, wobei die Klassengrenzen die Mitte der Lücken gelegt werden sollen. Nicht zu viele Daten in eine Klasse legen (mehr als 40% aller Daten in einer Klasse ist in der Regel ungünstig). Nicht weniger als 3 und nicht mehr als 10 Klassen bilden

• als Klassengrenzen möglichst „runde“ Zahlen wählen und nicht zu viele verschiedene Klassenbreiten

• Klassengrenzen so legen, dass innerhalb der Klassen die Daten möglichst gleichmäßig verteilt sind

Andere Autoren geben andere Kriterien (z.B. E. Kreyszig):

• Die Klassenbreiten wähle man gleich lang

• Die Klassenmitten sollen möglichst „runde“ Zahlen darstellen

• In der Praxis wählt man meist 10 bis 20 Klassen

Page 15: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 16: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Zentralmaße, Mittelwerte

Modus 

die am häufigst vorkommende Merkmalsausprägung; nicht eindeutig; immer ermittelbar; keine große Aussagekraft

Median

jener Wert, der eine geordnete Folge von Stichprobenwerten genau in zwei Hälften

Merkmal mindest rangskalierte, M robust gegenüber Ausreißern

2kn falls ),xx(2/1M

1k2n falls ,xM

Stichprobe geordnete x,...,x,x

1kk

1k

n21

Page 17: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Arithmetisches Mittel

Merkmal metrisch, hoher Informationsgehalt

s

1iii

s

1iiin

1n

1iin

1 xfxhxx

Eigenschaften

Median: M minimiert den Ausdruck

Arithmetisches Mittel: minimiert den Ausdruck

Geometrisches Mittel

Zuwachsraten

Vorsicht bei der Ermittlung von Zentralwerten für Prozentsätze!!!

n

1ii zx)z(f

x

n

1i

2i )zx()z(f

nn21 x...xx

Page 18: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Klassierte Daten

Bildung von Zentralmaße für klassierte Daten:

Man nehme an, dass sämtliche Daten in den jeweiligen Klassenmitten konzentriert sind und verfahre in gewohnter Weise.

Der bei in Klassen zusammengefassten Daten auftretende Informationsverlust bewirkt Fehler in der Berechnung von Zentralmaßen. Korrekturverfahren finden sich in der Literatur

Page 19: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Streuungs- oder Dispersionsmaße

Angabe, wie sehr die Stichprobenwerte um das Zentralmaß streuen

wie dicht die Daten um das Zentralmaß konzentriert liegen

Zentralmaß Streuungsmaß

Modus Spannweite

Median Quartilabstand QA = 5 50% der

Daten liegen innerhalb von 5 Werten um M

Arithm. Mittel Standardabweichung x = 5 im Schnitt beträgt das Abstands-

Quadrat der Daten vom arith. Mittel 5

minmax xx)x(span

UO QQQA

2x

n

1i

22in

1n

1i

2in

1x

)x(Var

x)x()xx(

Page 20: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Berechnung der Quartile

N0,75.n falls)xx(

N 0,75.n fallsxOQ

N0,25.n falls)xx(

N 0,25.n fallsxUQ

1n.75,0n.75,021

1n.75,0

1n.25,0n.25,021

1n.25,0

Allgemein: p-Quantil

Np.n falls)xx(

N p.n fallsxUQ

1n.pn.p21

1n.p

Page 21: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Kastenschaubild (Box-Plot-Diagramm)

xmin

UQ M OQ

xmax

Page 22: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Andere Streuungsmaße:

Mittlere lineare Abweichung

Variationskoeffizient

n

1ii

1 xxnd

x

sV

3s-Regel:

Im Abstand von s Einheiten um das arithmetische Mittel liegen 68% der Daten, im Abstand von 2s 95,5% und im Abstand von 3s 99,7%.

Standardisierung

s

xxxst

Page 23: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Multivariate Statistik

Von den Untersuchungseinheiten werden mehrere Merkmale gleichzeitig gemessen (verbundene Merkmale). Resultat der Messung ist mehrdimensional.

Univariate Statistik

Darstellung der Häufigkeitsverteilung

Punktwolke

Stabdiagramm

Kontingenztabelle

Page 24: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

hik Häufigkeit des gleichzeitigen Auftretens der Merkmalsausprägungen x i und yk

hxi Häufigkeit des Auftretens der Merkmalsausprägung x i (gleich, welche Ausprägung

dabei das Merkmal Y annimmt)

hyk Häufigkeit des Auftretens der Merkmalsausprägung yk (gleich, welche Ausprägung

dabei das Merkmal X annimmt)

hxi bzw. hy

k sind die Häufigkeitsverteilungen von X bzw. Y ; Randverteilungen (Marginalverteilungen) von (X,Y)

Page 25: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Zweidimensionale Häufigkeitsverteilung (Kontingenztabelle)

X Y y1 y2 y3 ..... yk ..... ys

x1 h11 h12 h13 ..... h1k ..... h1s hx1

x2 h21 h22 h23 ..... h2k ..... h2s hx2

x3 h31 h32 h33 ..... h3k ..... h3s hx3

..... ..... ..... ..... ..... ..... ..... ..... .....

xi hi1 hi2 hi3 ..... hik ..... his hxi

..... ..... ..... ..... ..... ..... ..... ..... .....

xr hr1 hr2 hr3 ..... hrk ..... hrs hxr

hy1 hy

2 hy3 ..... hy

k ..... hys n

Page 26: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Lineare Regression

Problem: Punktwolke optimal durch eine Gerade approximieren

y

x

Page 27: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Minimalisierung der Quadrate der Vertikalabstände 1. Regrssionsgerade

Minimalisierung der Quadrate der Horizontalabstände 2. Regrssionsgerade

Page 28: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

1. Regressionsgerade

Y y s xy

sx2

. (X x )

2. Regressionsgerade

X x s xy

sy2

. (Y y )

Dabei ist sxy die Kovarianz

yx)yx(

)yy)(xx(s

n

1iiin

1

n

1iiin

1xy

Page 29: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Wahrscheinlichkeit

Zufallsexperiment:

Stringenz der Definition (insb. alle möglichen Ausgänge bekannt)

Wiederholbarkeit (potentiell unendlich oft)

Unabhängigkeit des Ausgangs eines ZE von früheren Ausgängen des ZE

Empirische Definition von Wahrscheinlichkeit (empirisches. Gesetz der großen Zahlen)

bezeichnet ten Experimenn nachx es Ereignissdes s Eintretendest Häufigkeidie )x(h wobei

, n

)x(hlim)x(P

n

n

n

0)x(nP)x(hlim nn

Achtung: d.h. nicht, dass

Die Differenz zwischen der Anzahl des tatsächlichen Auftretens und der des zu erwartenden Auftretens von x ( = nP(x)) kann bei wachsendem n durchaus beliebig groß werden!

Page 30: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Klassische Definition von Wahrscheinlichkeit

(vorausgesetzt, die Chance für das Auftreten jedes möglichen Falles ist immer dieselbe) Fällemöglichender Anzahl

Fällegünstigender Anzahl)x(P

Beispiel:

Wie groß ist die Ws, dass bei 5 Würfen genau dreimal eine 6 gewürfelt wird?

Anzahl der möglichen Fälle: 6x6x6x6x6 = 7776

Anzahl der günstigen Fälle: (6,6,6,*,*)

(6,6,*,6,*), (6,6,*,*,6)

(6,*,6,6,*), (6,*,6,*,6), (6,*,*,6,6)

(*,6,6,6,*), (*,6,6,*,6), (*,6,*,6,6)

(*,*,6,6,6)

10x25 = 250

P(x) = 250/7776 = 0,03

Page 31: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Axiomatische Definition von Wahrscheinlichkeit

= {x1, x2,..., xn} sei eine endliche Menge (Menge der Elementarereignisse (ZE-Ausgänge))

P sei eine Funktion von mit Werten zwischen 0 und 1, die folgende Eigenschaft besitzt:

n

1ii 1)x(P

heißt endlicher Wahrscheinlichkeitsraum und die Funktion P Wahrscheinlichkeitsmaß oder Wahrscheinlichkeitsverteilung.

ACHTUNG: In der Literatur findet sich meist eine verallgemeinerungfähigere Definition, wobei auch unendlich sein kann; P ist nicht auf , sondern auf allen Teilmengen von mit Werten zwischen 0 und 1 definiert und besitzt folgende Eigenschaften:

BA, allefür BA falls , )B(P)A(P)BA(P

1)(P

In unserer Definition müsste P eigentlich auf den Mengen {x i} statt auf den Elementen xi definiert werden.

Beispiel: = {x1, x2}, P(x1) = P(x2) = ½ x1 ist das Ereignis Münze zeigt Zahl

x2 ist das Ereignis Münze zeigt Wappen

Page 32: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Zufallsvariable (ZV)

Definition: ZV X ist eine Funktion von einem Wahrscheinlichkeitsraum in die reellen Zahlen.

Beispiel: = {1, 2, 3, 4, 5, 6} Augenzahl beim Wurf eines Würfels

X() = 6 – 2 Interpretation: Falls gewürfelt wird, erhält man X() Geldeinheiten als Gewinn bzw. Verlust

Wahrscheinlichkeitsverteilung einer ZV X

Sei X: {x1,..., xr} eine ZV auf dem Wraum mit dem Wmaß P. Dann heißt das Wmaß PX auf {x1,..., xr} die Wverteilung von X, wobei

Erwartungswert E(X) einer ZV X

}x)(X({P)(P)x(P ix)(X

iXi

})x)(X({Px)x(Px)X(E k

r

1kkk

r

1kXk

Beispiel: X: {1, 2, 3, 4, 5, 6} {4, 2, 0, -2, -4, -6}

E(X) = 1/6 (4+2+0-2-4-6) = -1, d.h. à la longue ist mit einem durchschnittlichen Gewinn von –1 Geldeinheiten zu rechnen (also kein faires Spiel)

Page 33: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Varianz Var(X) einer ZV X

r

1k

2kX

2k

r

1kkX

2k

222

)X(E)x(Px

)x(P))X(Ex(

)X(E)X(E)))X(EX((E)X(Var

Beispiel: X: {1, 2, 3, 4, 5, 6} {4, 2, 0, -2, -4, -6}, E(X) = -1

= Var(X) = 1/6(16+4+0+16+36) – 1 = 76/6 – 1 = 11,67

Page 34: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Zweidimensionale ZV

X: R, Y: R seien ZV auf dem Wraum (, P) mit X() = {xi1 < i < r} und Y() = {yk1 < k < s}. X Y: R R heißt zweidimensionale ZV, deren gemeinsame Wverteilung gegeben ist durch

ikxikiY,X p})y)(Yx)(X({P)y,x(P

Es gilt:

r

1i

s

1kkiY,Xk

r

1i

s

1kikk

s

1k

s

1k

r

1iikkkYk

r

1i

s

1kkiY,Xi

r

1i

s

1kiki

r

1i

r

1i

s

1kikiiXi

iX

s

1kikkY

r

1iik

r

1i

s

1kik

)y,x(Pypypy)y(PyE(Y)

)y,x(Pxpxpx)x(PxE(X)

eilungen Randvert)x(Pp ,)y(Pp

1p

Page 35: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Kovarianz zweier ZV, stochastische Unabhängigkeit

r

1i

r

1i

r

1i

s

1kikk

s

1kiki

s

1kikki

r

1i

s

1kikykxi

)py)(px(pyx

E(X)E(Y)-E(XY)

p)y)(x(

)))Y(EY))(X(EX((E)Y,X(Cov

X und Y heißen (stochastisch) unabhängig genau dann, wenn für alle i und k gilt:

Falls X und Y stochastisch unabhängig sind, gilt:

E(XY) = E(X)E(Y) d.h. Cov(X,Y) = 0

es. Ereignissanderen des Eintretendas Weisekeiner in

t beeinfluss es Ereignisseinen des Eintretendas m.a.W. ,unabhängig chstochastis sind

}y)Y({ und }x)X({ e Ereignissbeiden die d.h. ,)y(P)x(P)y,x(P kikYiXki

Page 36: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Stochastische Modelle

Empirische Erhebung (Realität) Stochastisches Modell

Grundgesamtheit Wahrscheinlichkeitsraum

Untersuchungseinheit Elementarereignis

Merkmal Zufallsvariable

Relative Häufigkeit Wahrscheinlichkeit

Häufigkeitsverteilung Wahrscheinlichkeitsverteilung

Arithmetisches Mittel Erwartungswert

Empirische Varianz Varianz

Ziehen von Stichproben

Zufallsstichprobe aus Grundgesamtheit (Modell ziehen von Kugeln aus einer Urne – mit Zurücklegen oder ohne Zurücklegen)

Page 37: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Urnenmodelle

Urne mit N verschiedenartigen Kugeln (n1, n2, …, nk)

P(Kugel j-ter Sorte) = nj/N

n-maliges Ziehen mit Zurücklegen (2 Sorten):

p1Nnq ,N

np 21

n) B(p,erteilung)(Binomialv eilungnoullivert Berp1pk

nk)P(X

Ziehen maligem-n bei 1.Sorteder Kugelgezogenender AnzahlX

knk

n-maliges Ziehen ohne Zurücklegen

Ziehungen nicht mehr unabhängig

Hypergeometrische Verteilung

n

Nkn

nN

k

n

)kX(P

11 Falls N>60, n/N<0,1, lässt sich die hypergeometrische Verteilung durch eine B(n1/N, n)-Verteilung ersetzen

Page 38: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Bernoulliverteilung

inik

ji

)p1(pi

nk)XP(j

p)-np(1Var(X)

np)X(E

Page 39: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 40: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 41: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 42: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Normalverteilung

sfunktionVerteilung dxe2

1)zX(P(z)

dichteerteilungsV

dxe2

1dx)x(b)XP(a

veGlockenkur Gaußsche e2

1)x(

z

-

)x

(21

),(

),(

b

a

b

a

)x

(21

),(

)x

(21

),(

2

2

2

Wenn X eine B(n,p)-binomial verteilte ZV ist, dann hat die standardisierte ZV

Mittelwert 0 und Standardabweichung 1. Für große n nähert sich die Verteilung von X* immer

besser der Gaußschen Glockenkurve

X* X np

np(1 p)

(x) 12

exp(x 2

2)

ist die standardisierte Glockenkurve, die Dichtefunktion der Standardnormalverteilung

z t21

dte2

1)z(

2

Page 43: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Eigenschaften der Normalverteilung

ist bezüglich der x-Achse symmetrisch

hat bei x=0 ein Maximum

hat die x-Achse als Asymptote (für x)

ist monoton steigend

erfüllt die folgende Beziehungen:

1)z(2)z()z(

)z(1)z(

(z)-1X)P(z

1)z(limz

Page 44: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Zentraler Grenzwertsatz von de Moivre - Laplace:Sei X eine B(n,p)-binomial verteilte Zufallsvariable, dann gilt für 0<p<1:

In der Praxis lässt sich also jede Binomialverteilung durch die Normalverteilung ersetzen, falls die sogenannte Laplace-Bedingung np(1-p) ≥ 9 erfüllt ist. Zentraler Grenzwertsatz von Lindenberg - LévySeien X1, X2,..., Xn stochastisch unabhängige und identisch verteilte ZV, wobeiE(Xi) = und Var(Xi) = s2 gilt, dann gilt für die ZV Sn = X1+X2+...+Xn :

(Dabei heißen zwei ZV X und Y (stochastisch) unabhängig, wenn P(X=x, Y=y) = P(X=x).P(Y=y) für alle x und y gilt.)

limn

(P(a X np

np(1 p)b) (b) (a )

limn

(P(a Sn n n

b) (b) (a)

Grenzwertsätze

Page 45: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 46: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 47: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Übungen

Angenommen zwei Personen A und B spielen ein faires Spiel, d.h. in jeder Spielrunde besitzen beide die gleiche Gewinnchance. Wer zuerst 6 Spielrunden gewonnen hat, erhält den gesamten Spieleinsatz von € 20,-. Das Spiel muss unterbrochen werden, nachdem A 5 und B 3 Runden gewonnen haben. Man finde eine gerechte Teilung des Spieleinsatzes.

Mögliche Spielverläufe:

A gewinnt bei folgenden Möglichkeiten: B gewinnt nur bei:

A oder BA oder BBA BBB

Wahrscheinlichkeiten:

P(A gewinnt) = P(A) + P(BA) + P(BBA) = ½ + ¼ + 1/8 = 7/8

P(B gewinnt) = P(BBB) = 1/8

Teilung 7:1 € 17,50 erhält A, B € 2,50

Page 48: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Würden sie folgendes Spiel einen Abend lang spielen? Eine Münze wird 4 mal geworfen. Erscheint Adler viermal erhalten sie € 20,-. Erscheint dagegen Adler genau dreimal, erhalten sie € 10,-. Der Spieleinsatz pro Spiel beträgt € 4,-.

= {AAAA, AAAZ, AAZA, AZAA, ZAAA, AAZZ, AZAZ, AZZA, ZAAZ, ZAZA, ZZAA, AZZZ,

ZAZZ, ZZAZ, ZZZA, ZZZZ}

P(****) = 1/16

ZV X = Gewinn

X(AAAA) = 16

X(AAAZ) = X(AAZA) = X(AZAA) = X(ZAAA) = 6

X(sonst) = -4

Erwartungswert von X E(X):

E(X) = 16.1/16 + 6.4/16 + (-4).11/16 = (16 + 24 – 44)/16 = -1/4

Page 49: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Laut offizieller Statistik sind 0,3% aller ÖsterreicherInnen mit AIDS infiziert. Ein HIV-Test zeigt mit 100% Sicherheit ein positives Resultat, falls die getestete Person tatsächlich erkrankt ist. Mit 99% Sicherheit zeigt der Test ein negatives Resultat, falls die Person nicht an AIDS erkrankt ist. Angenommen jemand wird in Kenntnis gesetzt, dass sein HIV-Test positiv ist. Wie hoch sind Chancen, dass diese Person tatsächlich an AIDS erkrankt ist?

Genaue Abzählung (Annahme: Population = 8.000.000)

Real Test positiv negativ

infiziert 24.000 0 24.000

gesund 79.760 7.896.240 7.976.000

103.760 7.896.240 8.000.000

P(tatsächlich infiziert unter der Voraussetzung „Test positiv“) = 24.000/103.760 = 0,23

Page 50: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Die Fakultät für Wirtschaftswissenschaften und Informatik veranstaltet ein Fest, auf dem jede/r Teilnehmer/in die Chance hat, eine Reise zu gewinnen. Es sind 52 weibliche und 46 männliche Angehörige der Wirtschaftswissenschaften bzw. 42 weibliche und 48 männliche Angehörige der Informatik zugegen. Wie groß ist die Wahrscheinlichkeit, dass eine Informatikerin den Preis gewinnt, bzw. ein Mann gewinnt?

St G männlich weiblich

Informatik 48 42 90

Wirtschaft 46 52 98

94 94 188

P(Informatikerin) = 42/188 = 0,22

P(Mann) = 94/188 = 0,5

Page 51: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Testen

Problem: Wie lassen sich Vermutungen über die Grundgesamtheit überprüfen?

Lösungsprinzip: Konstruktion eines wahrscheinlichkeitstheoretischen Modells unter der Annahme, dass die Vermutung gilt - Ziehen einer Stichprobe - Unter

Bezugnahme auf das Modell Bestimmung der Wahrscheinlichkeit dieser Stichprobe – Verwerfen der Annahme bei zu geringer Wahrscheinlichkeit

Achtung: Beim Testen werden die Hypothesen logisch nicht bewiesen! Keine Verifizierung, sondern Falsifizierung!

Page 52: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Testen von Hypothesen über Anteile

H0 Nullhypothese

H1 Alternative

Irrtumswahrscheinlichkeit, Fehler 1.Art,

Signifikanz(niveau)

Page 53: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Beispiel

Testen der Hypothese, dass Wähleranteil 40% beträgt, zur Alternative, dass er nur 30% beträgt. Signifikanzniveau ist 5%. Eine Stichprobe vom Umfang 100 enthält 33 WählerInnen.

H0 p = 0,4 H1 p = 0,3

= 5%

Stichprobe: n = 100

1. LB überprüfen 9246100.0,4.0,p)-np(1 :LB

2. Bestimmung des kritischen Bereichs (jener Bereich K, für den P0(K) = und K =

= {v | v < k})

-1,645z :Tabelle

0,05(z)mit 24

40k zist gesucht d.h. , 05,0 )

24

40k( :also

)24

40k()

24

40k

24

40X(P :atzGrenzwerts

05,0)24

40k

24

40X(P)

)p1(np

npk

)p1(np

npX(P)kX(P

0

000

Page 54: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

z=-1,645, also 941,31241,645-40k 645,124

40k

Da die Stichprobe 33 WählerInnen enthält, liegt die Anzahl der „Hits“, also der WählerInnen, nicht im kritischen Bereich K (31,9 < 33). Die Hypothese kann also nicht verworfen werden! Hätte die Stichprobe nur 31 oder noch weniger WählerInnen enthalten, dann hätte die Hypothese mit einer Irrtumswahrscheinlichkeit von = 0,05 (das ist die Ws unter der Annahme von H0, dass eine Stichprobe mit einer Anzahl kleiner als 31,1 auftritt) verworfen werden müssen.

Fehler 1. und 2. Art

H0 verwerfen H0 nicht verwerfen

H0 wahr -Fehler, Fehler1.Art

-

H0 falsch - -Fehler, Fehler 2. Art

Page 55: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Fehler 2. Art

Fehler 2. Art: H0 wird nicht verworfen – d.h. die Stichprobe darf nicht im kritischen Bereich liegen - obwohl sie falsch, also H1 richtig ist. ist Ws unter der Annahme H1, dass die Stichprobe nicht im kritischen Bereich liegt.

3372,0)42,0()21

94,1()

7100.0,3.0,

100.0,3-31,94(-1

))p1(np

npk

)p1(np

npX(P1)kX(P1)kX(P

11

1

11

11H1H1H

Mit 33,72% Wahrscheinlichkeit wird die Nullhypothese nicht verworfen, obwohl sie falsch ist.

Page 56: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Weitere Parametertests für p

Einseitiger Test

H0 : p < po H1 : p > po kritischer Bereich: {X > k}

H0 : p > po H1 : p < po kritischer Bereich: {X < k}

Zweiseitiger Test

H0 : p = po H1 : p po kritischer Bereich: {X < k1} {X > k2}

Page 57: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Beispiel

01,0)75,93

125k(

01,0)75,93

125k(1)

75,93

125kX(P)kX(P st

Von einem Produkt ist der Bekanntheitsgrad 25%. Nach einer Werbekampagne behauptet der Verkaufsleiter, sie sei erfolglos gewesen. Worauf in einer Blitzumfrage festgestellt wird, dass von 500 Personen 151 das Produkt kennen. War die Werbekampagne erfolglos?

H0 : p=0,25

H1 : p>0,25

= 0,01 (0,05)

n = 500

Kritischer Bereich: X>k

LB: 500.0,25.0,75 = 93,75 > 9

Page 58: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

15156,147

56,14793,7533,2251k

33,293,75

125-k-

0,01(-2,33) :Tabelle

Die Annahme, die Werbekampagne sei erfolglos gewesen, muss mit 1% Irrtumswahrscheinlichkeit verworfen werden.

Der Redakteur eines Magazins behauptet, dass sich seine Leserschaft aus gleich vielen Frauen und Männern zusammensetzt. Aus einer statistischen Erhebung folgt, dass von 420 Personen, die sich als LeserInnen des Magazin deklarieren, 232 Männer (und 188 Frauen) sind. Gilt die Behauptung des Redakteurs (=0,05)?

H0 : p=0,5 H1 : p≠0,5

n = 420

= 0,05

Kritischer Bereich: {X < k1} {X > k2}

LB: 420.0,5.0,5 = 105

Page 59: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

08,23010596,1210k 96,1105

210k

92,18910596,1210k 96,1105

210k

025,0)105

210k()

105

210kP(X

025,0)kX(P 025,0)kX(P

05,0)kX(P)kX(P)kXoder kX(P

22

11

11st

21

2121

232 > k2 = 230,08 (188 < k1 <189,92) Die Aussage des Redakteurs ist mit einer Irrtumswahrscheinlichkeit von 5% abzulehnen.

Page 60: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.
Page 61: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

2-Verteilung

Die Verteilung der Summe der Quadrate von n unabhängig standardnormalverteilten ZV heißt 2-Verteilung mit Freiheitsgrad n.

Page 62: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Verteilungstests (2-Test)

Nullhypothese bezieht sich auf die Art der Verteilung (Normalverteilung, Binomialverteilung, etc.) oder auf Unabhängigkeit der Verteilung von anderen.

2-Unabhängigkeitstest:

Nullhypothese: ZV X und Y sind unabhängige ZV

Alternative: X und Y sind abhängige ZV

X und Y sind unabhängig P(X = xi, Y = yk) = P(X = xi).P(Y = yk)

Annahme X und Y unabhängig

Ziehen einer Stichprobe vom Umfang n – Ergebnis: Häufigkeiten der Messwerte:

X = xi Y = yk hik

Unter der Annahme „X und Y unabhängig“ müssten die zu erwartenden Häufigkeiten e ik der Stichprobe folgende Bedingung erfüllen:

ilungen)(Randverte ee und eemit eeer

1iik

)k(s

1kik)i(

)k()i(n

1ik

Page 63: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Abweichung der Häufigkeiten der Stichprobenwerte von den zu erwartenden Häufigkeiten:

r

1i

s

1k ik

2ikik2

e

)eh( :ichungGesamtabwe

Die Prüfgröße 2 ist eine ZV, die einer speziellen Verteilung unterliegt, nämlich der 2 – Verteilung mit (r-1)(s-1) Freiheitsgraden.

Falls 2 groß ist, dann Verwerfung der Nullhypothese „X und Y unabhängig“, wobei die Irrtumswahrscheinlichkeit = P(2 > k) ist.

Page 64: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Beispiel

Eig Aus

X Y

Informatik BWL MK Randv. X

geeignet 14 10 16 40

ungeeignet 16 25 19 60

Randv. Y 30 35 35 100

Falls X und Y unabhängig

Eig Aus

X Y

Informatik BWL MK Randv. X

geeignet 12 14 14 40

ungeeignet 18 21 21 60

Randv. Y 30 35 35 100

Page 65: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

937,221

)2119(

21

)2125(

18

)1816(

14

)1416(

14

)1410(

12

12)-(14

e

)eh(

222222

r

1i

s

1k ik

2ikik2

Anzahl der Freiheitsgrade: (r-1)(s-1) = (2-1)(3-1) = 2

Signifikanzniveau: = 0,05

Kritischer Bereich: 2 > k

Tabelle: P(2 > k) = 0,05 k = 5,99 (P(2 > k) = 0,01 k = 9,21)

2 - Wert der Stichprobe: 2,937 2,937 < k Unabhängigkeit von X und Y wird nicht verworfen.

Page 66: Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Erfolg

Methoden

Gut Schlecht

Methode 1 41 26 67

Methode 2 53 30 83

94 56 150

Beispiel (4-Felder-Tafel):

a b a+b

c d c+d

a+c b+d

unabhängig0

abhängig 1

1,1-

entnzkoeffizir KontingeCramersche

)dc)(db)(ca)(ba(

bdac

027,029273104

148

83.56.94.67

53.2630.41

ist sehr nahe bei 0, also sind die Ergebnisse von den Methoden unabhängig