Wahrscheinlichkeit und die Normalverteilung

Jonathan Harrington

Der Bevölkerungs-Mittelwert

99 Stück Papier nummeriert 0, 1, 2, …99 Ich ziehe 10 davon und berechne den Mittelwert.

Was ist der Mittelwert der von mir gezogenen Zahlen im theoretischen Fall?

Wir nennen diesen theoretischen Mittelwert den Bevölkerungs-mittelwert (population mean) und verwenden dafür das griechische Symbol µ.

µ = 49.5

µ = 49.5 bedeutet u.a.: ich bekomme diesen Wert bei diesem Vorgang mit größter Wahrscheinlichkeit.

Ich werfe einen Würfel k Mal (oder k Würfel gleichzeitig ein Mal). Ich berechne den Mittelwert der k Zahlen. Was ist µ?

= 3.5 mean(1:6) µ

Noch ein Beispiel…

6 2 5 4 2 3 5 1 1 3

Wenn ich den obigen Vorgang tatsächlich für k = 10 durchführe, bekomme ich 10 Zufallswerte, z.B.

Der Mittelwert dieser Stichprobe wird (fast immer) etwas von µ abweichen: wir nennen diesen Durchschnitt den Stichprobenmittelwert (sample mean), m

Fuer diesen Fall, m = 3.2 (und µ = 3.5)

Stichprobenmittelwert

Ich werfe einen Würfel k Mal (oder k Würfel gleichzeitig ein Mal). Ich berechne den Mittelwert der k Zahlen.

(Zufalls)Stichproben in R

10 Würfel werfen

sample(1:6, 10, replace=T)

mean(sample(1:6, 10, replace=T))

Ich will 50 solcherStichprobenmittelwerte bekommen

Der Stichprobenmittelwert davon

wuerfel <- NULL for(j in 1:50){ ergebnis = mean(sample(1:6, 10, replace=T)) wuerfel = c(wuerfel, ergebnis) }

sample(1:6, 1, replace=T) Eine Würfel werfen

3.1 3.9 3.6 4.2 2.8 3.3 4.6 2.9 4.2 3.1 3.7 4.3 4.1 4.5 4.0 4.9 2.6 3.3 3.6 4.2 3.6 4.0 2.9 3.6 3.1 3.3 4.9 3.2 2.9 2.7 3.5 3.2 1.9 4.2 4.6 3.7 3.9 4.4 3.5 3.4 3.2 3.5 3.5 3.1 3.4 4.3 3.0 3.3 3.7 3.0

wuerfel

Der Mittelwert der Stichprobenmittelwerte ist ziemlich nah an µ

mean(wuerfel) [1] 3.588

Je mehr Stichprobenmittelwerte, umso mehr nähert sich dessen Mittelwert µ

wuerfel <- NULL for(j in 1:5000){ ergebnis = mean(sample(1:6, 10, replace=T)) wuerfel = c(wuerfel, ergebnis) }

mean(wuerfel) [1] 3.50812

# 5000 Stichprobenmittelwerte

sodass wenn wir unendlich viele Stichprobenmittelwerte hätten, wäre der Mittelwert davon genau µ

Die Reichweite der ganzen Zahlen (zB beim Würfel 1, 6). unten, oben

k: Wieviele Würfel werfen wir zusammen (oder wieviel Stück Papier ziehen wir aus dem Hut)?

N: wie oft wiederholen wir Vorgang B? C.

Vier Variablen: Stichprobenmittelwerte in R erzeugen

proben <- function(unten=1, oben = 6, k = 10, N = 50) { # default: wir werfen 10 Wuerfel 50 Mal alle <- NULL for(j in 1:N){ ergebnis = mean(sample(unten:oben, k, replace=T)) alle = c(alle, ergebnis) } alle }

100 Stück Papier nummeriert 0, 1, 2, …99 in einem Hut.

Ich ziehe 8 davon und berechne den Mittelwert, und tue sie wieder in den Hut rein.

Was ist µ? 49.5

Die Funktion proben() verwenden, um für A. 50 Stichprobenmittelwerte zu bekommen. Diese 50 Werte in einem Vektor Speichern. Den Mittelwert davon berechnen.

Nochmals A und B wiederholen, diesmal um 500 Stichprobenmittelwerte zu bekommen.

Ist die zweite Berechnung näher an 49.5?

Die Verteilung der Stichprobenmittelwerte kann man grob mit einem Histogramm sehen.

Hut mit Zahlen, 0-99; ich ziehe 10, berechne den Stichprobenmittelwert, wiederhole das 50 Mal.

o = proben(0, 99, 10, 50) hist(o, col=3)

Histogram of o

Frequency

20 30 40 50 60 70

15 m Werte lagen zwischen 45 und 50

Die Wahrscheinlichkeitsdichte Die Wahrscheinlichkeitsdichte (probability density) ist eine Umstellung der Häufigkeit, sodass die Balken-Flächensumme im Histogramm 1 (eins) ist.

hist(o, col=3) hist(o, col=3, freq=F) Histogram of o

Frequency

20 30 40 50 60 70

Histogram of o

Density

20 30 40 50 60 70

W-Dichte = Häufigkeit/(N x Balkenbreite)

W-Dichte = 7/(50 * 5) = 0.028

Die Fläche von diesem Balken ist 5 * 0.028 = 0.14. Daher liegen 14% der Werte zwischen 40 und 45.

Σ Wahrscheinlichkeitsdichten x Balkenbreiten = 1

sum(h$density * 5)

hist(o, col=3) hist(o, col=3, freq=F) Histogram of o

Frequency

20 30 40 50 60 70

Histogram of o

Density

20 30 40 50 60 70

h =hist(o, col=3, freq=F)

Die Wahrscheinlichkeitsdichte

Die Normalverteilung ist ein 'Histogramm' (mit W-Dichten auf der y-Achse), der unter zwei Bedingungen erstellt wird:

(a) der Vorgang (um Stichprobenmittelwerte zu bekommen) wiederholt sich nicht 50 sondern unendlich viel Mal.

(b) wir lassen mit zunehmenden Stichproben die Balkenbreite immer kleiner werden, sodass im unendlichen Fall die Balkenbreite unendlich klein ist ( = 0 also wird die Balkenfläche zu einer Linie). Daher haben wir keine Stufen mehr (von einem Balken zum nächsten) sondern eine glatte Kurve.

Wir können das teilweise mit der proben() Funktion simulieren. Hier haben wir 50000 Stichprobenmittelwerte und 200 Balken und eine Balkenbreite von 0.5*

osehrviele = proben(0, 99, 10, 50000) h4 = hist(osehrviele, col=3, freq=F, breaks=200)

Histogram of osehrviele

osehrviele

20 30 40 50 60 70 80

*(wird durch 1/sum(h4$density) ermittelt)

Normalverteilung simulieren

Die Normalverteilung berechnen

Die Normalverteilung kann mit einer Formel (die wir später besprechen werden) berechnet werden, in der nur zwei Variablen gesetzt werden müssen.

Die Bevölkerungs-Standardabweichung, σ

Der Bevölkerungs-mittelwert, µ

µσ −= ∑nx

zB für den Würfel ist x 1, 2, 3, 4, 5, 6 und n = 6 Was ist σ? (in R berechnen) unten = 1 oben = 6

[1] 1.707825

x = unten:oben n = length(x) mu = sigma =

mean(x) sqrt((sum(x^2)/n - mu^2))

µσ −= ∑nx

in eine Funktion sigma(x) umsetzen.

sigma <- function(unten=1, oben=6) {

sigma() [1] 1.707825

x = unten:oben n = length(x) m = mean(x) sqrt((sum(x^2)/n - m^2)) }

Dies ist σ wenn wir einen Würfel werfen. sigma() [1] 1.707825

Bedeutung: dies ist die Standardabweichung von den Zahlen (1-6) eines unendlich viel Mal geworfenen Würfels.

Wichtig!! Wenn wir k Würfel werfen, und den Mittelwert der Zahlen berechnen, dann ist die Bevölkerungsstandardabweichung (genannt auch 'the standard error of the mean') dieselbe wie für einen Würfel aber durch √k dividiert.

Bevölkerungs-Standardabweichung (Standard error of the mean) in R wenn wir 7 Würfel werfen, und davon den Mittelwert berechnen.

sigma()/sqrt(7)

Bedeutung: dies ist die Standardabweichung der (unendlich vielen) Mittelwerte von 7 Zahlen, die ich bekomme, wenn ich unendlich viel Mal 7 Würfel werfe (und bei jedem Wurf den Mittelwert berechne).

Ich ziehe 10 Stück Papier aus einem Hut mit Zahlen 0 bis 99. σ (standard error of the mean) in R = ….

sigma(0, 99)/sqrt(10) [1] 9.128253

Hut mit Zahlen, 0-99; ich ziehe 10, berechne den Stichprobenmittelwert, wiederhole das 50 Mal.

o = proben(0, 99, 10, 50) hist(o, col=3, freq=F)

Normalverteilung überlagern

mu = mean(0:99)

sig = sigma(0,99)/sqrt(10)

Normalverteilung auf Histogramm überlagern

Histogram of o

Density

30 40 50 60 70

curve(dnorm(x, mu, sig), 30, 80, add=T)

Je mehr Stichproben, umso besser die Anpassung an die Normalverteilung

o = proben(0, 99, 10, 50) hist(o, col=3, freq=F)

curve(dnorm(x, mu, sig), 30, 80, add=T)

o2 = proben(0, 99, 10, 5000)

hist(o2, col=3, freq=F)

Histogram of o

Density

30 40 50 60 70

Histogram of o2

Density

20 30 40 50 60 70 800.00

Normalverteilung abbilden

curve(dnorm(x, 0, 1), -3, 3) zB µ = 0, σ = 1, zwischen -3 und +3

-3 -2 -1 0 1 2 3 0.

Einige Merkmale der Normalverteilung

∞− ∞+

Es ist wichtig zu bemerken, dass es W-Dichten-Werte gibt (die immer kleiner werden) bis ins Unendliche in beiden Richtungen.

Die maximale W-Dichte liegt bei µ (in diesem Fall bei 0)

Normalverteilungen und Flächen

Die Fläche zwischen –∞ und µ ist daher immer:

Die Gesamtfläche unter einer Normalverteilung ist 1

-3 -2 -1 0 1 2 3

0.4 Die Bedeutung davon:

wenn wir eine Stichprobe aus einer Normalverteilung mit µ = 0 und σ = 1 entnehmen, dann ist die Wahrscheinlichkeit 0.5 (50%), dass unsere Stichprobe unter 0 liegt

-3 -2 -1 0 1 2 3 0.

4 -3 -2 -1 0 1 2 3

In R erfolgt die Flächensummierung zwischen –∞ und einem Wert, w, fuer eine Normalverteilung mit Parametern (µ, σ) durch pnorm(w, µ, σ)

Daher ist die Fläche bis µ für den Fall oben

pnorm(0, 0, 1) (µ = 0, σ = 1)

Flächensummierung einer Normalverteilung in R

[1] 0.5

Ich ziehe 10 Stück Papier aus einem Hut mit Zahlen 0 bis 99. Ich berechne den Mittelwert davon. Was ist die Wahrscheinlichkeit, dass dieser Mittelwert (a) unter 30 (b) unter 60 liegt?

mu = sig = sigma(0,99)/sqrt(10)

Normalverteilung abbilden zwischen 0 und 99 curve(dnorm(x,mu, sig), 0, 99)

mean(0:99) µ

0 20 40 60 80 100

pnorm(30, mu, sig) [1] 0.01633055

pnorm(60, mu, sig)

[1] 0.8749847

Noch zwei Beispiele…

…Was ist die Wahrscheinlichkeit, dass dieser Mittelwert (c) über 58 (d) zwischen 35 und 60 liegt?

0 20 40 60 80 100

1 - pnorm(58, mu, sig) [1] 0.1758815

0 20 40 60 80 100

pnorm(60, mu, sig) - pnorm(35, mu, sig) [1] 0.8188952

In einer Normalverteilung weichen die Werte ab im Verhältnis zur Standardabweichung.

Wahrscheinlichkeiten (Flächen unter der Normalverteilung) können in Standardabweichungen vom Mittelwert umberechnet werden). In R: qnorm()

Mit qnorm() können wir ein Vertrauensintervall (Konfidenzintervall) setzen.

Eine Normalverteilung und das Vertrauensintervall

qnorm() und Standardabweichungen

0 1 2 3 4 5 6 7

x 0 1 2 3 4 5 6 7

Was ist die Wahrscheinlichkeit, dass ich einen Mitelwert von 2.9 oder weniger bekomme, wenn ich 9 Würfel werfe?

[1] 0.1459479 Das sind wieviele Standardabweichungen von µ?

Daher bekommen wir wieder 2.9 durch:

mu + qnorm(0.1459479) * SE [1] 2.9

qnorm(0.1459479) -1.053972

mu = mean(1:6)

SE = sigma(1, 6)/sqrt(9) pnorm(2.9, mu, SE)

Das Vertrauensintervall

Ich kaufe 9 Würfel in einem Spielgeschäft. Ich werfe die Würfel, und berechne den Mittelwert. Sollte die Wahrscheinlichkeit dieses Mittelwertes unter 0.05 (5%) liegen, dann klage ich den Händler an (weil er gezinkte Würfel verkauft).

Innerhalb von welchem Bereich muss der Zahlenmittelwert liegen, damit der Händler nicht angeklagt wird?

= 3.5 µ

Standard-Abweichung von µ (Standard error)

= sigma(1,6)/sqrt(9)

0 1 2 3 4 5 6 7

0.6 5% 5%

oder Die Wahrscheinlichkeit, dass ein Wert zwischen a und b liegt = 0.90. (Ein 90% Vertrauensintervall)

qnorm(0.95, mu, SE) 2.563626 4.436374

Die Wahrscheinlichkeit, dass ich a oder weniger werfe ist 0.05

Die Wahrscheinlichkeit, dass ich b oder mehr werfe ist 0.05

qnorm(0.05, mu, SE)

mu + qnorm(0.05) * SE

Was ist (a)? Was ist (b)?

Wahrscheinlichkeit und die Normalverteilung - LMU Münchenjmh/lehre/sem/ss09/stat/normal.pdf · Der...

Transcript of Wahrscheinlichkeit und die Normalverteilung - LMU Münchenjmh/lehre/sem/ss09/stat/normal.pdf · Der...

Wahrscheinlichkeit und die Normalverteilung - LMU Münchenjmh/lehre/sem/ss09/stat/normal.pdf · Der...

Documents

Transcript of Wahrscheinlichkeit und die Normalverteilung - LMU Münchenjmh/lehre/sem/ss09/stat/normal.pdf · Der...

Sonder Sensor - binder USA · 6–8 mm 99 2443 12 04 10–12 mm 99 2443 32 04 4+PE 1,5 2mm 6–8 mm 99 2445 12 05 10–12 mm 99 2445 32 05 2,5 mm2 10–12 mm 99 2445 33 05 Polzahl

Die Varianzanalyse - LMU Münchenjmh/lehre/sem/ss08/statinR08/... · SSY = SSR + SSE Die Quadratsumme über die gesamte Verteilung berechnet = Die Quadratsummen zwischen den Ebenen

Intonation in der Sprachsynthese - LMU Münchenjmh/lehre/sem/ws1011/pros/hs... · Text-to-Speech (TTS): Uberblick uber MARY Textverarbeitung Prosodie Spontansprachliche Ph anomene

EAO Baureihe 99

Bedienungsanleitung - Blick Store€¦ · Bilder werden aufsteigend nummeriert gespeichert: z.B. Imag0001.jpg, Imag0002.jpg Videos werden ebenfalls aufsteigend nummeriert gespeichert:

JabRef 2.4 BenutzerhandbuchJABREF 2.4 Benutzerhandbuch (26.1.2010) 1 Einleitung • series Der Name einer Reihe, in der ein Buch erschienen ist. Falls die Bücher einer Reihe nummeriert

Bedienungsanleitung - download.gira.de · 4 Zu dieser Anleitung In dieser Anleitung finden Sie folgende Symbole und Auszeichnungen: 1. Handlungsanleitungen sind fortlaufend nummeriert.

Nena: 99 Luftballons, Arbeitsblatt A Stand: 7.12.2004 ... · Nena: 99 Luftballons, Arbeitsblatt A Stand: 7.12.2004 Lieder im DaF-Unterricht für die Mittelschule Nena: 99 Luftballons

Einﬂüsse(auf(die(Grundfrequenz(f0) - LMU Münchenjmh/lehre/sem/ws1314/pros/L2.pdf · Sprecher:(Anatomie(Grundfrequenzsinktmitzunehmenden(Alter(F1 f0 Sprecheralter((Reubold,(Harrington,(Kleber((2010,(Speech&Communica.on).&

Die t-Verteilung - LMU Münchenjmh/lehre/sem/ss08/statinR08/tverteilung.pdf · Präzisere/bessere Frage: fällt m außerhalb des 95% Vertrauensintervalls von µ? A. Um das Vertrauensintervall

LTL ACORN - Blick Store · Bilder werden aufsteigend nummeriert gespeichert: z.B. Imag0001.jpg, Imag0002.jpg Videos werden ebenfalls aufsteigend nummeriert gespeichert: Imag0001.avi,

Stochastikaufgaben - StD Martin Meier · Stochastikaufgaben Lotto 6 aus 49: In der Lostrommel befinden sich 49 gleichartige Kugeln, von 1 bis 49 nummeriert. Es werden nacheinander

CHAPEAU · Karten 20,00 € Vorverkauf (inkl. Gebühr) und Abendkasse 14,00 € für GWK-Mitglieder, Schüler, Studierende, Schwerbehinderte (Ausweis) Die Sitzplätze sind nummeriert.

Bedienungsanleitung Weller Lötstation WECP20 · 2009. 10. 16. · 5 33 110 99 Lötkolbenset MPR-30 5 33 111 99 Lötkolbenset MLR-21 5 33 120 99 Entlötset WT-50 5 33 050 99 Reflow-Lötgerät

Wort- und Satzbetonung - LMU Münchenjmh/lehre/sem/ws0607/prosody/... · Wortbetonung – allgemeine Prinzipien In fast allen Sprachen werden die Silben in mehrsilbigen Wörtern mit

· Bewer, Ingrid ohne Titel, o.J., Radierung, Aquatinta, signiert, 25 x 16 cm 20,- ... „Calavera“, 2008, Linoldruck, signiert u. nummeriert, 49/50, 30 x 40 cm

99 namen allahs

Willkommen bei A. Eberle | A. Eberle GmbH & Co.KG ...rocT P 51350-99; roc-r 21552-84; rocT P 51318.22-99; rocT P 51318.24-99; rocT P 51317.3.2-2006 (pa3Ä. 6, 7); rocT P 51317.3.3-99

Fantasie - Piano-midi · Zu Weihnachten Fantasie Gustav Lange Opus 172 No. 5 9 9 9 9 99 99 9 9 99-8 mf 99 9 9 99 9 Piano 9 p. 99 99 999 99 9 9 9 9 9 Religioso. Choral: „ Vom Himmel

Coba Basisprospekt EF - commerzbank.de · 3 Zusammenfassung Zusammenfassungen bestehen aus geforderten Angaben, die als "Elemente" bezeichnet werden. Diese Elemente werden nummeriert