Statistik, Datenanalyse und Simulation · 1. Statistik Wir denken an Experimente, bei deren...

24
Statistik, Datenanalyse und Simulation Dr. Michael O. Distler [email protected] Mainz, 24. Oktober 2007 Statistik, Datenanalyse und Simulation

Transcript of Statistik, Datenanalyse und Simulation · 1. Statistik Wir denken an Experimente, bei deren...

Statistik, Datenanalyse und Simulation

Dr. Michael O. [email protected]

Mainz, 24. Oktober 2007

Statistik, Datenanalyse und Simulation

1. StatistikWir denken an Experimente, bei deren Durchführung dieVariable X , um die es dabei geht, verschiedene Werteannehmen kann. Möglichkeiten:

1 X kann nur einen Wert annehmen oder nicht annehmen:ja/nein-ExperimentDas Annehmen des Wertes nennen wir “das Eintreten desEreignisses”, das Nicht-Annehmen das Nicht-Eintreten.

2 X kann mehrere diskrete Werte annehmen3 X kann kontinuierliche Werte annehmen

Wahrscheinlichkeit1 für das Eintreten des Ereignisses,2 dafür, dass die Variable X den Wert xi annimmt,3 dafür, dass die Variable X den Wert im Intervall [xi , xi + ∆x

annimmt.

Statistik, Datenanalyse und Simulation

1.1 WahrscheinlichkeitZufälliges Ereignis: Kann ein “gewisses Ereignis” untergegebenen Bedingungen entweder eintreten oder nichteintreten, so nennt man dieses Ereignis zufällig.Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeitfür das Eintreten des Ereignisses.Pragmatisch: p(E) = n(E)

N für N sehr großp steht für probabilityn(E) = Zahl des Eintretens des EreignissesN = Zahl der Herbeiführung der gegebenen Bedingungen(Durchführung des Experiments)Zufallsgröße: Variable deren Wert vom Zufall abhängt.Beispiel: Augenzahl beim Werfen eines Würfels

Normierung?

p(Ei) =n(Ei)

N, pi = p(Ei) < 1,

∑pi = 1

Statistik, Datenanalyse und Simulation

1.1 WahrscheinlichkeitZufälliges Ereignis: Kann ein “gewisses Ereignis” untergegebenen Bedingungen entweder eintreten oder nichteintreten, so nennt man dieses Ereignis zufällig.Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeitfür das Eintreten des Ereignisses.Pragmatisch: p(E) = n(E)

N für N sehr großp steht für probabilityn(E) = Zahl des Eintretens des EreignissesN = Zahl der Herbeiführung der gegebenen Bedingungen(Durchführung des Experiments)Zufallsgröße: Variable deren Wert vom Zufall abhängt.Beispiel: Augenzahl beim Werfen eines WürfelsNormierung?

p(Ei) =n(Ei)

N, pi = p(Ei) < 1,

∑pi = 1

Statistik, Datenanalyse und Simulation

1.1 WahrscheinlichkeitZufälliges Ereignis: Kann ein “gewisses Ereignis” untergegebenen Bedingungen entweder eintreten oder nichteintreten, so nennt man dieses Ereignis zufällig.Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeitfür das Eintreten des Ereignisses.Pragmatisch: p(E) = n(E)

N für N sehr großp steht für probabilityn(E) = Zahl des Eintretens des EreignissesN = Zahl der Herbeiführung der gegebenen Bedingungen(Durchführung des Experiments)Zufallsgröße: Variable deren Wert vom Zufall abhängt.Beispiel: Augenzahl beim Werfen eines WürfelsNormierung?

p(Ei) =n(Ei)

N, pi = p(Ei) < 1,

∑pi = 1

Statistik, Datenanalyse und Simulation

Kombination von WahrscheinlichkeitenGegeben sind zwei Arten von Ereignissen, A und B. DieWahrscheinlichkeit für das Autreten von A ist p(A) (B: p(B)).Dann ist die Wahrscheinlichkeit, dass A oder B eintritt:

p(A oderB) = p(A) + p(B)− p(A undB)

Falls sich die Ereignisse A und B gegenseitig ausschließen, giltp(A undB) = 0Beispiel: Zufälliges Ziehen aus einem Deck von Skatkarten.

p(As oder Pik) =432

+832

− 132

=1132

Spezialfall: B = A (Nicht-Eintreten von A).

p(A und A) = p(A) + p(A) = 1

Statistik, Datenanalyse und Simulation

Die Wahrscheinlichkeit, dass A und B zusammen eintreten, ist:

p(A undB) = p(A) · p(B|A).

p(B|A) ist die bedingte Wahrscheinlichkeit, dass das Ereignis Beintritt, vorausgesetzt, das Ereignis A ist eingetreten.Falls die Ereignisse A und B unabhängig sind - aber auch nurdann - gilt p(B|A) = p(B), bzw.

p(A undB) = p(A) · p(B)

Statistik, Datenanalyse und Simulation

Bayes’ Theorem

Aus der Gleichung

p(A undB) = p(A) · p(B|A) = p(B) · p(A|B)

erhält man Bayes’ Theorem:

p(A|B) = p(B|A) · p(A)

p(B)

Statistik, Datenanalyse und Simulation

Tod in den Bergen

In einem Buch über die bergsteigerischen Leistungen vonReinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,dass die Wahrscheinlichkeit, bei einer Expedition auf einenAchttausender umzukommen, 3,4% beträgt, dann hatteMessner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, beiseinen 29 Expeditionen getötet zu werden.”

Das kann doch nicht wahr sein, was ist, wenn Messner zu einer30. Expedition aufbricht?Die Wahrscheinlichkeit, eine Expedition zu überleben istoffensichtlich 1− 0.034 = 0.966. Wenn man annimmt, dass dieeinzelnen Expeditionen unabhängige Ereignisse darstellen, istdie Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:P = 0.96629 = 0.367.

Statistik, Datenanalyse und Simulation

Tod in den Bergen

In einem Buch über die bergsteigerischen Leistungen vonReinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,dass die Wahrscheinlichkeit, bei einer Expedition auf einenAchttausender umzukommen, 3,4% beträgt, dann hatteMessner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, beiseinen 29 Expeditionen getötet zu werden.”Das kann doch nicht wahr sein, was ist, wenn Messner zu einer30. Expedition aufbricht?

Die Wahrscheinlichkeit, eine Expedition zu überleben istoffensichtlich 1− 0.034 = 0.966. Wenn man annimmt, dass dieeinzelnen Expeditionen unabhängige Ereignisse darstellen, istdie Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:P = 0.96629 = 0.367.

Statistik, Datenanalyse und Simulation

Tod in den Bergen

In einem Buch über die bergsteigerischen Leistungen vonReinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,dass die Wahrscheinlichkeit, bei einer Expedition auf einenAchttausender umzukommen, 3,4% beträgt, dann hatteMessner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, beiseinen 29 Expeditionen getötet zu werden.”Das kann doch nicht wahr sein, was ist, wenn Messner zu einer30. Expedition aufbricht?Die Wahrscheinlichkeit, eine Expedition zu überleben istoffensichtlich 1− 0.034 = 0.966. Wenn man annimmt, dass dieeinzelnen Expeditionen unabhängige Ereignisse darstellen, istdie Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:P = 0.96629 = 0.367.

Statistik, Datenanalyse und Simulation

Das Ziegenproblem

In einer Quiz-Sendung werden einer Kandidatin dreigeschlossene Türen gezeigt. Hinter zwei dieser Türen ist eineZiege, und hinter einer ist ein Auto. Sie kann auf eine der Türenzeigen und erhält das, was dahinter ist. Offensichtlich sind dieChancen, das Auto zu erhalten, 33%. Nun wird das Spiel aberabgeändert: Ehe die Tür der Kandidatin geöffnet wird, öffnetder Quizmaster eine andere Tür, und dahinter steht eine Ziege.Sollte die Kandidatin nun ihre Meinung ändern und eine andereTür wählen, um ihre Chancen zu verbessern?

Statistik, Datenanalyse und Simulation

Erwartungswerte und MomenteMittelwert: Kann eine Zufallsgröße E die Werte E1, E2, . . . , Enannehmen und geschieht dies mit der Wahrscheinlichkeit p(Ei),dann bezeichnet man als Mittelwert der Größe E(“Erwartungswert”)

E = 〈E〉 =n∑

i=1

Ei · p(Ei)

Kann eine Zufallsgröße kontinuierlich Werte annehmen, dannkann man nur angeben, mit welcher Wahrscheinlichkeit einWert in einem Intervall angenommen wird. Wahrscheinlichkeitfür Annehmen eines Wertes im Intervall [x,x+dx] durch dieVariable x sei dp.Beispiel: Temperaturmessung

Statistik, Datenanalyse und Simulation

Wahrscheinlichkeitsdichte f (x) = dpdx .

Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1normiert sein.

f (x) ≥ 0∫ ∞

−∞f (x)dx = 1

Vorsicht: Die Wahrscheinlichkeitsdichte f (x) ist keineWahrscheinlichkeit.Dagegen ist die Größe f (x) ·∆x in der Tat eineWahrscheinlichkeit.

Statistik, Datenanalyse und Simulation

Wahrscheinlichkeitsdichte f (x) = dpdx .

Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1normiert sein.

f (x) ≥ 0∫ ∞

−∞f (x)dx = 1

Vorsicht: Die Wahrscheinlichkeitsdichte f (x) ist keineWahrscheinlichkeit.

Dagegen ist die Größe f (x) ·∆x in der Tat eineWahrscheinlichkeit.

Statistik, Datenanalyse und Simulation

Wahrscheinlichkeitsdichte f (x) = dpdx .

Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1normiert sein.

f (x) ≥ 0∫ ∞

−∞f (x)dx = 1

Vorsicht: Die Wahrscheinlichkeitsdichte f (x) ist keineWahrscheinlichkeit.Dagegen ist die Größe f (x) ·∆x in der Tat eineWahrscheinlichkeit.

Statistik, Datenanalyse und Simulation

Wahrscheinlichkeitsverteilung oder auch integrierteVerteilungsfunktion F (x) ist definiert als:

F (x) =

∫ x

−∞f (x ′)dx ′, F (−∞) = 0, F (∞) = 1

Erwartungswert der Funktion h(x) für kontinuierlicheZufallsgrößen:

E [h(x)] =

∫ ∞

−∞h(x) · f (x)dx

Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall):

E [x ] = x =

∫ ∞

−∞x · f (x)dx

Statistik, Datenanalyse und Simulation

Streuung = {Mittelwert der (Abweichung von x)2}1/2

σ2 = (x − x)2 =

∫ ∞

−∞(x − x)2 · f (x)dx

=

∫ ∞

−∞(x2 − 2xx + x2) · f (x)dx = x2 − 2x x + x2 = x2 − x2

σ2 = Varianz, σ = StandardabweichungFür diskrete Verteilungen:

σ2 =1N

(∑x2 − (

∑x)2

N

)1N wird oft durch 1

N−1 ersetzt, um Fehler nicht zu unterschätzen.(Freiheitsgrade!)

Statistik, Datenanalyse und Simulation

Momente: Die Erwartungswerte von xn und von (x − 〈x〉)n

werden n-te algebraische Momente µn und n-te zentraleMomente µ′n genannt.1.2 Spezielle diskrete VerteilungenKombinatorik: Für r verschiedene Objekte gibt es r !verschiedene Möglichkeiten, die Objekte in einer Reiheanzuordnen. Die Zahl von Möglichkeiten, r Objekte aus nverschiedenen Objekten auszuwählen, wobei es auf dieReihenfolge der Auswahl ankommt, ist

Prn = n(n − 1)(n − 2) . . . (n − r + 1) =

n!

(n − r)!

Falls es auf die Reihenfolge der Auswahl nicht ankommt, mussdie obenstehende Zahl durch r ! dividiert werden, und manerhält

Crn =

Prn

n!=

(nr

)=

n!

r !(n − r)!

Statistik, Datenanalyse und Simulation

Diese ganzen Zahlen heißen Binomialkoeffizienten, underscheinen im Binomialtheorem:

(p + q)n =n∑

r=0

(nr

)pr · qn−r

Binomialverteilung Häufige Fragestellung: Sei p dieWahrscheinlichkeit für das Eintreten des Ereignisses bei einemVersuch - wie groß ist die Wahrscheinlichkeit, dass dasEreignis bei n Versuchen r-mal eintritt?

P(r) =

(nr

)pr · (1− p)n−r

P(r) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1− p.Der Mittelwert von r ist:

〈r〉 = E [r ] =n∑

r=0

rP(r) = np

Statistik, Datenanalyse und Simulation

press any key

Statistik, Datenanalyse und Simulation

Bedfords Zahlengesetz

Die Häufigkeit der Anfangsziffern in Zahlenmengen(Atomgewichte der Elemente, Baseball-Ergebnisse,Stromrechnungen auf den pazifischen Salomon-Inseln, ...) folgtder Häufigkeit:

Ziffer 1 2 3 4 5Wahrscheinlichkeit 30.1% 17.6% 12.5% 9.7% 7.9%Ziffer 6 7 8 9Wahrscheinlichkeit 6.7% 5.8% 5.1% 4.6%

Welche mathematische Formel hat Bedford dieserHäufigkeitstabelle zugrunde gelegt?

p(z) = log10(z + 1)− log10(z)

Statistik, Datenanalyse und Simulation

Bedfords Zahlengesetz

Beispiel: Die Länge der Dateien in meinem Heimatverzeichnis:

z nz p / % p(z)theor./%

1 2387 29.1 ± 0.6 30.12 1531 18.7 ± 0.5 17.63 1060 12.9 ± 0.4 12.54 784 9.6 ± 0.3 9.75 563 6.9 ± 0.3 7.96 461 5.6 ± 0.3 6.77 442 5.4 ± 0.3 5.88 460 5.6 ± 0.3 5.19 327 4.0 ± 0.2 4.6

8206

Statistik, Datenanalyse und Simulation

Bedfords Zahlengesetz

find ~ -type f -printf "%s\n" | awk ’{l=log($1)/log(10);a[int(exp(log(10)*(l-int(l))))]++;N++;

}END{print N;for (i=1;i<10;i++) {printf "%d %5d %5.1f +/- %3.1f %5.1f\n",i,a[i],100*a[i]/N,100*sqrt(a[i])/N,100*(log(i+1)-log(i))/log(10);

}}’

Statistik, Datenanalyse und Simulation