Was ist Statistik?
Statistik die Wissenschaft von MassenerscheinungenPhänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten empirischen Gesetzen. Im Gegensatz zu Einzelereignissen können diese Gesetze mathematisch erfasst werden.
deskriptive (beschreibende) Statistik :Darstellung großer Datenmengen sinnvoll mit Hilfe von Tabellen, Graphiken oder Piktogrammen. Charakterisierung dieser Datenmengen durch bestimmte Parameter und Ermöglichen von Vergleichen und Aufstellen von Beziehungen mit den anderen Datensätzen.
analytische (beurteilende) Statistik: Schluss von Stichprobeneigenschaften auf Eigenschaften der Grundgesamtheit
DARSTELLUNGEN VON DATEN
Tabellen:leicht herzustellen, sehr vielfältig in der Anwendung, Daten genau dargestellt. Nachteil: Überblicke sind nicht so schnell zu erzielen.
Graphiken:Geben raschen Überblick, Unterschiede (Größenvergleiche) sind er„sichtlich“.Nachteil: oft aufwendig zu gestalten, leicht manipulierbar.
Stabdiagramme
Kreis- und Streifendiagramme (zur Darstellung von Anteilen (Prozenten))
Piktogramme
Liniendiagramme (Darstellung von Zeitreihen, Interpolation zwischen den gemessenen Daten nur für Bestandsdaten, nicht aber für Bewegungsdaten möglich
z.B. Firmenkapital ist Bestandsdatum, jährlicher Umsatz ist Bewegungsdatum)
Kombinationen von Graphiken (Bevölkerungspyramiden, Flussdiagramme)
Manipulationsmöglichkeiten von Graphiken
• farbige Gestaltung• geschickte Anordnung (falls das sinnvoll möglich ist!) der Stäbe oder Sektoren – ein
kleiner Stab zwischen zwei großen Stäben schaut noch kleiner aus.• Abschneiden oder Unterbrechen der Stäbe• Weglassen der Standlinie bzw. Verwendung von nicht waagrechten oder nicht geraden Standlinien• perspektivische Verzerrungen ausnützen • in Piktogrammen weiß man oft nicht, ob die dargestellten Größen als Länge, Fläche oder
Volumen der entsprechenden Figuren dargestellt werden• Änderung der Maßstäbe auf den Koordinatenachsen, auch in Verbindung mit Verschiebungen des Nullpunktes auf der Ordinaten- und/oder der Abszissenachse• Auswahl spezieller Daten
Grundgesamtheit, Stichprobe, Merkmal
Grundgesamtheit (Gesamtpopulation) : Menge aller möglichen Untersuchungseinheiten; real oder fiktiv gegeben; Grundgesamtheit kann endlich oder als unendlich angenommen werden.
Stichprobe:Teilmenge aus der Grundgesamtheit
Stichprobenumfang:Anzahl der Untersuchungseinheiten der Stichprobe; Gesamterhebung
Merkmal (Variable) X:eine qualitativ oder quantitativ messbare Eigenschaft der einzelnen Untersuchungseinheiten. x1, x2,..., xs bezeichnen die n Ausprägungen von X (theoretisch kann X auch unendlich viele Ausprägungen haben).
Untersuchungsobjekt 1
UO 2
UO 3
Grundgesamtheit oder Stichprobe
UO 4
UO 5
x1 = 5,1
x2 = 2,4
x3 = 3
x4 = 2,4
x5 = 5,1
Messung Merkmalsausprägungen
Stichprobenwerte
Skalen:
Nichtmetrische Merkmale
nominal qualitative Unterschiede Nationalität
ordinal Rangordnung Noten, Güteklassenrangskaliert
Metrisch Merkmale
Intervallskala Abstände zwischen Rängen Temperatur
Verhältnisskala Quotienten der Abstände Länge
Ausprägungen Häufigkeit relative Häufigkeit
x1 h1 f1
x2 h2 f2
.... ... ...
xs hs fs
∑ n 1
Achtung: Mit x1, x2, x3,…,xn werden einmal die Merkmalswerte der n Untersuchungseinheiten bezeichnet (die xi müssen nicht alle verschieden sein), mit x1, x2, x3,…,xs werden aber auch die untereinander verschieden Ausprägungen des Merkmals bezeichnet (also gilt insbesondere n ≥ s)
fj = hj/n
∑hj = n ∑fj = 1
Beispiel „Häufigkeiten“
Häufigkeitsverteilung:
Zusammenhang zwischen Ausprägung und absoluter bzw. relativer Häufigkeit
Darstellung tabellarisch oder graphisch, z.B. als Stabdiagramm –
x-Achse: Ausprägungen (falls Merkmal ordinal, Rangordnung beachten; falls das Merkmal metrisch, Abstände zwischen den einzelnen Ausprägungen beachten)
y-Achse: absolute bzw. relative Häufigkeiten für entsprechende Ausprägung
Gruppierte Daten, Histogramm
Messung der Merkmalsausprägungen für die einzelnen Untersuchungseinheiten zu genau! Komprimierung der Stichprobenwerte durch Gliederung in Klassen (Gruppen)
Klassen sowohl für nominale als auch ordinale und metrische Merkmale
Bei metrischen Daten Klassen von der Form:
{x: a < x ≤ b} nach links halboffenes Intervall; a und b heißen Klassengrenzen (obere bzw. untere), die Differenz b - a heißt Klassenbreite, 1/2 ( a + b ) - Mittelpunkt des Intervalls - die Klassenmitte
Achtung: Vereinbarung: untere Klassengrenze gehört nicht zur Klasse, obere aber schon.Für benachbarte Klassen gilt: obere KG der einen ist untere KG der anderen Klasse d.h. es gibt keine Zwischenräume zwischen benachbarten Klassen
Histogramm als Darstellungsmittel:über den Klassenintervallen werden Rechtecke gebildet, deren Fläche gleich der absoluten Klassenhäufigkeit, d.h. der Anzahl der zur Klasse gehörigen Stichprobenwerte ist Rechteckshöhe = Klassenhäufigkeit der Klasse / Klassenbreite
Kriterien für Klassenbildung:
• Anhäufungen (Cluster) zu Klassen zusammenfassen, wobei die Klassengrenzen die Mitte der Lücken gelegt werden sollen. Nicht zu viele Daten in eine Klasse legen (mehr als 40% aller Daten in einer Klasse ist in der Regel ungünstig). Nicht weniger als 3 und nicht mehr als 10 Klassen bilden
• als Klassengrenzen möglichst „runde“ Zahlen wählen und nicht zu viele verschiedene Klassenbreiten
• Klassengrenzen so legen, dass innerhalb der Klassen die Daten möglichst gleichmäßig verteilt sind
Andere Autoren geben andere Kriterien (z.B. E. Kreyszig):
• Die Klassenbreiten wähle man gleich lang
• Die Klassenmitten sollen möglichst „runde“ Zahlen darstellen
• In der Praxis wählt man meist 10 bis 20 Klassen
Zentralmaße, Mittelwerte
Modus
die am häufigst vorkommende Merkmalsausprägung; nicht eindeutig; immer ermittelbar; keine große Aussagekraft
Median
jener Wert, der eine geordnete Folge von Stichprobenwerten genau in zwei Hälften
Merkmal mindest rangskalierte, M robust gegenüber Ausreißern
2kn falls ),xx(2/1M
1k2n falls ,xM
Stichprobe geordnete x,...,x,x
1kk
1k
n21
Arithmetisches Mittel
Merkmal metrisch, hoher Informationsgehalt
s
1iii
s
1iiin
1n
1iin
1 xfxhxx
Eigenschaften
Median: M minimiert den Ausdruck
Arithmetisches Mittel: minimiert den Ausdruck
Geometrisches Mittel
Zuwachsraten
Vorsicht bei der Ermittlung von Zentralwerten für Prozentsätze!!!
n
1ii zx)z(f
x
n
1i
2i )zx()z(f
nn21 x...xx
Klassierte Daten
Bildung von Zentralmaße für klassierte Daten:
Man nehme an, dass sämtliche Daten in den jeweiligen Klassenmitten konzentriert sind und verfahre in gewohnter Weise.
Der bei in Klassen zusammengefassten Daten auftretende Informationsverlust bewirkt Fehler in der Berechnung von Zentralmaßen. Korrekturverfahren finden sich in der Literatur
Streuungs- oder Dispersionsmaße
Angabe, wie sehr die Stichprobenwerte um das Zentralmaß streuen
wie dicht die Daten um das Zentralmaß konzentriert liegen
Zentralmaß Streuungsmaß
Modus Spannweite
Median Quartilabstand QA = 5 50% der
Daten liegen innerhalb von 5 Werten um M
Arithm. Mittel Standardabweichung x = 5 im Schnitt beträgt das Abstands-
Quadrat der Daten vom arith. Mittel 5
minmax xx)x(span
UO QQQA
2x
n
1i
22in
1n
1i
2in
1x
)x(Var
x)x()xx(
Berechnung der Quartile
N0,75.n falls)xx(
N 0,75.n fallsxOQ
N0,25.n falls)xx(
N 0,25.n fallsxUQ
1n.75,0n.75,021
1n.75,0
1n.25,0n.25,021
1n.25,0
Allgemein: p-Quantil
Np.n falls)xx(
N p.n fallsxUQ
1n.pn.p21
1n.p
Kastenschaubild (Box-Plot-Diagramm)
xmin
UQ M OQ
xmax
Andere Streuungsmaße:
Mittlere lineare Abweichung
Variationskoeffizient
n
1ii
1 xxnd
x
sV
3s-Regel:
Im Abstand von s Einheiten um das arithmetische Mittel liegen 68% der Daten, im Abstand von 2s 95,5% und im Abstand von 3s 99,7%.
Standardisierung
s
xxxst
Multivariate Statistik
Von den Untersuchungseinheiten werden mehrere Merkmale gleichzeitig gemessen (verbundene Merkmale). Resultat der Messung ist mehrdimensional.
Univariate Statistik
Darstellung der Häufigkeitsverteilung
Punktwolke
Stabdiagramm
Kontingenztabelle
hik Häufigkeit des gleichzeitigen Auftretens der Merkmalsausprägungen x i und yk
hxi Häufigkeit des Auftretens der Merkmalsausprägung x i (gleich, welche Ausprägung
dabei das Merkmal Y annimmt)
hyk Häufigkeit des Auftretens der Merkmalsausprägung yk (gleich, welche Ausprägung
dabei das Merkmal X annimmt)
hxi bzw. hy
k sind die Häufigkeitsverteilungen von X bzw. Y ; Randverteilungen (Marginalverteilungen) von (X,Y)
Zweidimensionale Häufigkeitsverteilung (Kontingenztabelle)
X Y y1 y2 y3 ..... yk ..... ys
x1 h11 h12 h13 ..... h1k ..... h1s hx1
x2 h21 h22 h23 ..... h2k ..... h2s hx2
x3 h31 h32 h33 ..... h3k ..... h3s hx3
..... ..... ..... ..... ..... ..... ..... ..... .....
xi hi1 hi2 hi3 ..... hik ..... his hxi
..... ..... ..... ..... ..... ..... ..... ..... .....
xr hr1 hr2 hr3 ..... hrk ..... hrs hxr
hy1 hy
2 hy3 ..... hy
k ..... hys n
Lineare Regression
Problem: Punktwolke optimal durch eine Gerade approximieren
y
x
Minimalisierung der Quadrate der Vertikalabstände 1. Regrssionsgerade
Minimalisierung der Quadrate der Horizontalabstände 2. Regrssionsgerade
1. Regressionsgerade
Y y s xy
sx2
. (X x )
2. Regressionsgerade
X x s xy
sy2
. (Y y )
Dabei ist sxy die Kovarianz
yx)yx(
)yy)(xx(s
n
1iiin
1
n
1iiin
1xy
Wahrscheinlichkeit
Zufallsexperiment:
Stringenz der Definition (insb. alle möglichen Ausgänge bekannt)
Wiederholbarkeit (potentiell unendlich oft)
Unabhängigkeit des Ausgangs eines ZE von früheren Ausgängen des ZE
Empirische Definition von Wahrscheinlichkeit (empirisches. Gesetz der großen Zahlen)
bezeichnet ten Experimenn nachx es Ereignissdes s Eintretendest Häufigkeidie )x(h wobei
, n
)x(hlim)x(P
n
n
n
0)x(nP)x(hlim nn
Achtung: d.h. nicht, dass
Die Differenz zwischen der Anzahl des tatsächlichen Auftretens und der des zu erwartenden Auftretens von x ( = nP(x)) kann bei wachsendem n durchaus beliebig groß werden!
Klassische Definition von Wahrscheinlichkeit
(vorausgesetzt, die Chance für das Auftreten jedes möglichen Falles ist immer dieselbe) Fällemöglichender Anzahl
Fällegünstigender Anzahl)x(P
Beispiel:
Wie groß ist die Ws, dass bei 5 Würfen genau dreimal eine 6 gewürfelt wird?
Anzahl der möglichen Fälle: 6x6x6x6x6 = 7776
Anzahl der günstigen Fälle: (6,6,6,*,*)
(6,6,*,6,*), (6,6,*,*,6)
(6,*,6,6,*), (6,*,6,*,6), (6,*,*,6,6)
(*,6,6,6,*), (*,6,6,*,6), (*,6,*,6,6)
(*,*,6,6,6)
10x25 = 250
P(x) = 250/7776 = 0,03
Axiomatische Definition von Wahrscheinlichkeit
= {x1, x2,..., xn} sei eine endliche Menge (Menge der Elementarereignisse (ZE-Ausgänge))
P sei eine Funktion von mit Werten zwischen 0 und 1, die folgende Eigenschaft besitzt:
n
1ii 1)x(P
heißt endlicher Wahrscheinlichkeitsraum und die Funktion P Wahrscheinlichkeitsmaß oder Wahrscheinlichkeitsverteilung.
ACHTUNG: In der Literatur findet sich meist eine verallgemeinerungfähigere Definition, wobei auch unendlich sein kann; P ist nicht auf , sondern auf allen Teilmengen von mit Werten zwischen 0 und 1 definiert und besitzt folgende Eigenschaften:
BA, allefür BA falls , )B(P)A(P)BA(P
1)(P
In unserer Definition müsste P eigentlich auf den Mengen {x i} statt auf den Elementen xi definiert werden.
Beispiel: = {x1, x2}, P(x1) = P(x2) = ½ x1 ist das Ereignis Münze zeigt Zahl
x2 ist das Ereignis Münze zeigt Wappen
Zufallsvariable (ZV)
Definition: ZV X ist eine Funktion von einem Wahrscheinlichkeitsraum in die reellen Zahlen.
Beispiel: = {1, 2, 3, 4, 5, 6} Augenzahl beim Wurf eines Würfels
X() = 6 – 2 Interpretation: Falls gewürfelt wird, erhält man X() Geldeinheiten als Gewinn bzw. Verlust
Wahrscheinlichkeitsverteilung einer ZV X
Sei X: {x1,..., xr} eine ZV auf dem Wraum mit dem Wmaß P. Dann heißt das Wmaß PX auf {x1,..., xr} die Wverteilung von X, wobei
Erwartungswert E(X) einer ZV X
}x)(X({P)(P)x(P ix)(X
iXi
})x)(X({Px)x(Px)X(E k
r
1kkk
r
1kXk
Beispiel: X: {1, 2, 3, 4, 5, 6} {4, 2, 0, -2, -4, -6}
E(X) = 1/6 (4+2+0-2-4-6) = -1, d.h. à la longue ist mit einem durchschnittlichen Gewinn von –1 Geldeinheiten zu rechnen (also kein faires Spiel)
Varianz Var(X) einer ZV X
r
1k
2kX
2k
r
1kkX
2k
222
)X(E)x(Px
)x(P))X(Ex(
)X(E)X(E)))X(EX((E)X(Var
Beispiel: X: {1, 2, 3, 4, 5, 6} {4, 2, 0, -2, -4, -6}, E(X) = -1
= Var(X) = 1/6(16+4+0+16+36) – 1 = 76/6 – 1 = 11,67
Zweidimensionale ZV
X: R, Y: R seien ZV auf dem Wraum (, P) mit X() = {xi1 < i < r} und Y() = {yk1 < k < s}. X Y: R R heißt zweidimensionale ZV, deren gemeinsame Wverteilung gegeben ist durch
ikxikiY,X p})y)(Yx)(X({P)y,x(P
Es gilt:
r
1i
s
1kkiY,Xk
r
1i
s
1kikk
s
1k
s
1k
r
1iikkkYk
r
1i
s
1kkiY,Xi
r
1i
s
1kiki
r
1i
r
1i
s
1kikiiXi
iX
s
1kikkY
r
1iik
r
1i
s
1kik
)y,x(Pypypy)y(PyE(Y)
)y,x(Pxpxpx)x(PxE(X)
eilungen Randvert)x(Pp ,)y(Pp
1p
Kovarianz zweier ZV, stochastische Unabhängigkeit
r
1i
r
1i
r
1i
s
1kikk
s
1kiki
s
1kikki
r
1i
s
1kikykxi
)py)(px(pyx
E(X)E(Y)-E(XY)
p)y)(x(
)))Y(EY))(X(EX((E)Y,X(Cov
X und Y heißen (stochastisch) unabhängig genau dann, wenn für alle i und k gilt:
Falls X und Y stochastisch unabhängig sind, gilt:
E(XY) = E(X)E(Y) d.h. Cov(X,Y) = 0
es. Ereignissanderen des Eintretendas Weisekeiner in
t beeinfluss es Ereignisseinen des Eintretendas m.a.W. ,unabhängig chstochastis sind
}y)Y({ und }x)X({ e Ereignissbeiden die d.h. ,)y(P)x(P)y,x(P kikYiXki
Stochastische Modelle
Empirische Erhebung (Realität) Stochastisches Modell
Grundgesamtheit Wahrscheinlichkeitsraum
Untersuchungseinheit Elementarereignis
Merkmal Zufallsvariable
Relative Häufigkeit Wahrscheinlichkeit
Häufigkeitsverteilung Wahrscheinlichkeitsverteilung
Arithmetisches Mittel Erwartungswert
Empirische Varianz Varianz
Ziehen von Stichproben
Zufallsstichprobe aus Grundgesamtheit (Modell ziehen von Kugeln aus einer Urne – mit Zurücklegen oder ohne Zurücklegen)
Urnenmodelle
Urne mit N verschiedenartigen Kugeln (n1, n2, …, nk)
P(Kugel j-ter Sorte) = nj/N
n-maliges Ziehen mit Zurücklegen (2 Sorten):
p1Nnq ,N
np 21
n) B(p,erteilung)(Binomialv eilungnoullivert Berp1pk
nk)P(X
Ziehen maligem-n bei 1.Sorteder Kugelgezogenender AnzahlX
knk
n-maliges Ziehen ohne Zurücklegen
Ziehungen nicht mehr unabhängig
Hypergeometrische Verteilung
n
Nkn
nN
k
n
)kX(P
11 Falls N>60, n/N<0,1, lässt sich die hypergeometrische Verteilung durch eine B(n1/N, n)-Verteilung ersetzen
Bernoulliverteilung
inik
ji
)p1(pi
nk)XP(j
p)-np(1Var(X)
np)X(E
Normalverteilung
sfunktionVerteilung dxe2
1)zX(P(z)
dichteerteilungsV
dxe2
1dx)x(b)XP(a
veGlockenkur Gaußsche e2
1)x(
z
-
)x
(21
),(
),(
b
a
b
a
)x
(21
),(
)x
(21
),(
2
2
2
Wenn X eine B(n,p)-binomial verteilte ZV ist, dann hat die standardisierte ZV
Mittelwert 0 und Standardabweichung 1. Für große n nähert sich die Verteilung von X* immer
besser der Gaußschen Glockenkurve
X* X np
np(1 p)
(x) 12
exp(x 2
2)
ist die standardisierte Glockenkurve, die Dichtefunktion der Standardnormalverteilung
z t21
dte2
1)z(
2
Eigenschaften der Normalverteilung
ist bezüglich der x-Achse symmetrisch
hat bei x=0 ein Maximum
hat die x-Achse als Asymptote (für x)
ist monoton steigend
erfüllt die folgende Beziehungen:
1)z(2)z()z(
)z(1)z(
(z)-1X)P(z
1)z(limz
Zentraler Grenzwertsatz von de Moivre - Laplace:Sei X eine B(n,p)-binomial verteilte Zufallsvariable, dann gilt für 0<p<1:
In der Praxis lässt sich also jede Binomialverteilung durch die Normalverteilung ersetzen, falls die sogenannte Laplace-Bedingung np(1-p) ≥ 9 erfüllt ist. Zentraler Grenzwertsatz von Lindenberg - LévySeien X1, X2,..., Xn stochastisch unabhängige und identisch verteilte ZV, wobeiE(Xi) = und Var(Xi) = s2 gilt, dann gilt für die ZV Sn = X1+X2+...+Xn :
(Dabei heißen zwei ZV X und Y (stochastisch) unabhängig, wenn P(X=x, Y=y) = P(X=x).P(Y=y) für alle x und y gilt.)
limn
(P(a X np
np(1 p)b) (b) (a )
limn
(P(a Sn n n
b) (b) (a)
Grenzwertsätze
Übungen
Angenommen zwei Personen A und B spielen ein faires Spiel, d.h. in jeder Spielrunde besitzen beide die gleiche Gewinnchance. Wer zuerst 6 Spielrunden gewonnen hat, erhält den gesamten Spieleinsatz von € 20,-. Das Spiel muss unterbrochen werden, nachdem A 5 und B 3 Runden gewonnen haben. Man finde eine gerechte Teilung des Spieleinsatzes.
Mögliche Spielverläufe:
A gewinnt bei folgenden Möglichkeiten: B gewinnt nur bei:
A oder BA oder BBA BBB
Wahrscheinlichkeiten:
P(A gewinnt) = P(A) + P(BA) + P(BBA) = ½ + ¼ + 1/8 = 7/8
P(B gewinnt) = P(BBB) = 1/8
Teilung 7:1 € 17,50 erhält A, B € 2,50
Würden sie folgendes Spiel einen Abend lang spielen? Eine Münze wird 4 mal geworfen. Erscheint Adler viermal erhalten sie € 20,-. Erscheint dagegen Adler genau dreimal, erhalten sie € 10,-. Der Spieleinsatz pro Spiel beträgt € 4,-.
= {AAAA, AAAZ, AAZA, AZAA, ZAAA, AAZZ, AZAZ, AZZA, ZAAZ, ZAZA, ZZAA, AZZZ,
ZAZZ, ZZAZ, ZZZA, ZZZZ}
P(****) = 1/16
ZV X = Gewinn
X(AAAA) = 16
X(AAAZ) = X(AAZA) = X(AZAA) = X(ZAAA) = 6
X(sonst) = -4
Erwartungswert von X E(X):
E(X) = 16.1/16 + 6.4/16 + (-4).11/16 = (16 + 24 – 44)/16 = -1/4
Laut offizieller Statistik sind 0,3% aller ÖsterreicherInnen mit AIDS infiziert. Ein HIV-Test zeigt mit 100% Sicherheit ein positives Resultat, falls die getestete Person tatsächlich erkrankt ist. Mit 99% Sicherheit zeigt der Test ein negatives Resultat, falls die Person nicht an AIDS erkrankt ist. Angenommen jemand wird in Kenntnis gesetzt, dass sein HIV-Test positiv ist. Wie hoch sind Chancen, dass diese Person tatsächlich an AIDS erkrankt ist?
Genaue Abzählung (Annahme: Population = 8.000.000)
Real Test positiv negativ
infiziert 24.000 0 24.000
gesund 79.760 7.896.240 7.976.000
103.760 7.896.240 8.000.000
P(tatsächlich infiziert unter der Voraussetzung „Test positiv“) = 24.000/103.760 = 0,23
Die Fakultät für Wirtschaftswissenschaften und Informatik veranstaltet ein Fest, auf dem jede/r Teilnehmer/in die Chance hat, eine Reise zu gewinnen. Es sind 52 weibliche und 46 männliche Angehörige der Wirtschaftswissenschaften bzw. 42 weibliche und 48 männliche Angehörige der Informatik zugegen. Wie groß ist die Wahrscheinlichkeit, dass eine Informatikerin den Preis gewinnt, bzw. ein Mann gewinnt?
St G männlich weiblich
Informatik 48 42 90
Wirtschaft 46 52 98
94 94 188
P(Informatikerin) = 42/188 = 0,22
P(Mann) = 94/188 = 0,5
Testen
Problem: Wie lassen sich Vermutungen über die Grundgesamtheit überprüfen?
Lösungsprinzip: Konstruktion eines wahrscheinlichkeitstheoretischen Modells unter der Annahme, dass die Vermutung gilt - Ziehen einer Stichprobe - Unter
Bezugnahme auf das Modell Bestimmung der Wahrscheinlichkeit dieser Stichprobe – Verwerfen der Annahme bei zu geringer Wahrscheinlichkeit
Achtung: Beim Testen werden die Hypothesen logisch nicht bewiesen! Keine Verifizierung, sondern Falsifizierung!
Testen von Hypothesen über Anteile
H0 Nullhypothese
H1 Alternative
Irrtumswahrscheinlichkeit, Fehler 1.Art,
Signifikanz(niveau)
Beispiel
Testen der Hypothese, dass Wähleranteil 40% beträgt, zur Alternative, dass er nur 30% beträgt. Signifikanzniveau ist 5%. Eine Stichprobe vom Umfang 100 enthält 33 WählerInnen.
H0 p = 0,4 H1 p = 0,3
= 5%
Stichprobe: n = 100
1. LB überprüfen 9246100.0,4.0,p)-np(1 :LB
2. Bestimmung des kritischen Bereichs (jener Bereich K, für den P0(K) = und K =
= {v | v < k})
-1,645z :Tabelle
0,05(z)mit 24
40k zist gesucht d.h. , 05,0 )
24
40k( :also
)24
40k()
24
40k
24
40X(P :atzGrenzwerts
05,0)24
40k
24
40X(P)
)p1(np
npk
)p1(np
npX(P)kX(P
0
000
z=-1,645, also 941,31241,645-40k 645,124
40k
Da die Stichprobe 33 WählerInnen enthält, liegt die Anzahl der „Hits“, also der WählerInnen, nicht im kritischen Bereich K (31,9 < 33). Die Hypothese kann also nicht verworfen werden! Hätte die Stichprobe nur 31 oder noch weniger WählerInnen enthalten, dann hätte die Hypothese mit einer Irrtumswahrscheinlichkeit von = 0,05 (das ist die Ws unter der Annahme von H0, dass eine Stichprobe mit einer Anzahl kleiner als 31,1 auftritt) verworfen werden müssen.
Fehler 1. und 2. Art
H0 verwerfen H0 nicht verwerfen
H0 wahr -Fehler, Fehler1.Art
-
H0 falsch - -Fehler, Fehler 2. Art
Fehler 2. Art
Fehler 2. Art: H0 wird nicht verworfen – d.h. die Stichprobe darf nicht im kritischen Bereich liegen - obwohl sie falsch, also H1 richtig ist. ist Ws unter der Annahme H1, dass die Stichprobe nicht im kritischen Bereich liegt.
3372,0)42,0()21
94,1()
7100.0,3.0,
100.0,3-31,94(-1
))p1(np
npk
)p1(np
npX(P1)kX(P1)kX(P
11
1
11
11H1H1H
Mit 33,72% Wahrscheinlichkeit wird die Nullhypothese nicht verworfen, obwohl sie falsch ist.
Weitere Parametertests für p
Einseitiger Test
H0 : p < po H1 : p > po kritischer Bereich: {X > k}
H0 : p > po H1 : p < po kritischer Bereich: {X < k}
Zweiseitiger Test
H0 : p = po H1 : p po kritischer Bereich: {X < k1} {X > k2}
Beispiel
01,0)75,93
125k(
01,0)75,93
125k(1)
75,93
125kX(P)kX(P st
Von einem Produkt ist der Bekanntheitsgrad 25%. Nach einer Werbekampagne behauptet der Verkaufsleiter, sie sei erfolglos gewesen. Worauf in einer Blitzumfrage festgestellt wird, dass von 500 Personen 151 das Produkt kennen. War die Werbekampagne erfolglos?
H0 : p=0,25
H1 : p>0,25
= 0,01 (0,05)
n = 500
Kritischer Bereich: X>k
LB: 500.0,25.0,75 = 93,75 > 9
15156,147
56,14793,7533,2251k
33,293,75
125-k-
0,01(-2,33) :Tabelle
Die Annahme, die Werbekampagne sei erfolglos gewesen, muss mit 1% Irrtumswahrscheinlichkeit verworfen werden.
Der Redakteur eines Magazins behauptet, dass sich seine Leserschaft aus gleich vielen Frauen und Männern zusammensetzt. Aus einer statistischen Erhebung folgt, dass von 420 Personen, die sich als LeserInnen des Magazin deklarieren, 232 Männer (und 188 Frauen) sind. Gilt die Behauptung des Redakteurs (=0,05)?
H0 : p=0,5 H1 : p≠0,5
n = 420
= 0,05
Kritischer Bereich: {X < k1} {X > k2}
LB: 420.0,5.0,5 = 105
08,23010596,1210k 96,1105
210k
92,18910596,1210k 96,1105
210k
025,0)105
210k()
105
210kP(X
025,0)kX(P 025,0)kX(P
05,0)kX(P)kX(P)kXoder kX(P
22
11
11st
21
2121
232 > k2 = 230,08 (188 < k1 <189,92) Die Aussage des Redakteurs ist mit einer Irrtumswahrscheinlichkeit von 5% abzulehnen.
2-Verteilung
Die Verteilung der Summe der Quadrate von n unabhängig standardnormalverteilten ZV heißt 2-Verteilung mit Freiheitsgrad n.
Verteilungstests (2-Test)
Nullhypothese bezieht sich auf die Art der Verteilung (Normalverteilung, Binomialverteilung, etc.) oder auf Unabhängigkeit der Verteilung von anderen.
2-Unabhängigkeitstest:
Nullhypothese: ZV X und Y sind unabhängige ZV
Alternative: X und Y sind abhängige ZV
X und Y sind unabhängig P(X = xi, Y = yk) = P(X = xi).P(Y = yk)
Annahme X und Y unabhängig
Ziehen einer Stichprobe vom Umfang n – Ergebnis: Häufigkeiten der Messwerte:
X = xi Y = yk hik
Unter der Annahme „X und Y unabhängig“ müssten die zu erwartenden Häufigkeiten e ik der Stichprobe folgende Bedingung erfüllen:
ilungen)(Randverte ee und eemit eeer
1iik
)k(s
1kik)i(
)k()i(n
1ik
Abweichung der Häufigkeiten der Stichprobenwerte von den zu erwartenden Häufigkeiten:
r
1i
s
1k ik
2ikik2
e
)eh( :ichungGesamtabwe
Die Prüfgröße 2 ist eine ZV, die einer speziellen Verteilung unterliegt, nämlich der 2 – Verteilung mit (r-1)(s-1) Freiheitsgraden.
Falls 2 groß ist, dann Verwerfung der Nullhypothese „X und Y unabhängig“, wobei die Irrtumswahrscheinlichkeit = P(2 > k) ist.
Beispiel
Eig Aus
X Y
Informatik BWL MK Randv. X
geeignet 14 10 16 40
ungeeignet 16 25 19 60
Randv. Y 30 35 35 100
Falls X und Y unabhängig
Eig Aus
X Y
Informatik BWL MK Randv. X
geeignet 12 14 14 40
ungeeignet 18 21 21 60
Randv. Y 30 35 35 100
937,221
)2119(
21
)2125(
18
)1816(
14
)1416(
14
)1410(
12
12)-(14
e
)eh(
222222
r
1i
s
1k ik
2ikik2
Anzahl der Freiheitsgrade: (r-1)(s-1) = (2-1)(3-1) = 2
Signifikanzniveau: = 0,05
Kritischer Bereich: 2 > k
Tabelle: P(2 > k) = 0,05 k = 5,99 (P(2 > k) = 0,01 k = 9,21)
2 - Wert der Stichprobe: 2,937 2,937 < k Unabhängigkeit von X und Y wird nicht verworfen.
Erfolg
Methoden
Gut Schlecht
Methode 1 41 26 67
Methode 2 53 30 83
94 56 150
Beispiel (4-Felder-Tafel):
a b a+b
c d c+d
a+c b+d
unabhängig0
abhängig 1
1,1-
entnzkoeffizir KontingeCramersche
)dc)(db)(ca)(ba(
bdac
027,029273104
148
83.56.94.67
53.2630.41
ist sehr nahe bei 0, also sind die Ergebnisse von den Methoden unabhängig
Top Related