Statistiktutorat Sitzung 3: Grafische Darstellungen und Wahrscheinlichkeitsrechnung...

Post on 05-Apr-2015

109 views 0 download

Transcript of Statistiktutorat Sitzung 3: Grafische Darstellungen und Wahrscheinlichkeitsrechnung...

Statistiktutorat Sitzung 3: Grafische Darstellungen undWahrscheinlichkeitsrechnung

christian_langrock@web.de

Aufgabenblatt III, Aufgabe 1

m = 1 + 3.32 · log (N)

Aufgabenblatt III, Aufgabe 2

Zusammenhang 2er stetiger (kontinuierlicher) Variablen → Scatterplot

Häufigkeit; 1 diskrete Variable → Kreisdiagramm

Welche grafischen Darstellungsformen sind besonders geeignet? Entscheiden Sie sich immer für eine Diagrammform!

Aufgabenblatt III, Aufgabe 2

Häufigkeit; 1 diskrete Variable → Balkendiagramm

Verteilung; 1 stetige (kontinuierliche) Variable → Histogramm, Boxplot oder Stem-and-Leaf-Plot

Aufgabenblatt III, Aufgabe 3

Stelle die folgenden Gewichtsangaben in kg als Stem-and-Leaf-Plot dar.

65, 54, 53, 55, 48, 80, 77, 63, 63, 58, 60, 66, 54, 52, 68, 59, 63, 68, 70, 58, 53, 62

Aufgabenblatt III, Aufgabe 4Skizziere schematisch einen Box-Plot dar und beschrifte die relevanten Elemente.

Aufgabenblatt III, Aufgabe 5

Welchen Vorteil hat die grafische Darstellung einer Verteilung mittels eines Boxplots gegenüberdem Balkendiagramm?

Aussagen über den Kernbereich der Vereilung möglich (Box).Extrem- & Ausreißerwerte ersichtlich (Kreise, Sterne).Aussagen über Variabilität der Werte möglich (Whiskers).

Grafische Darstellungen

Graphische Darstell-ungen

Exakte Werte

Relativer Anteil

Häufig-keiten/

Prozente

stetig

Polygon

diskret

Balkendiagramm

Kreisdiagramm

Stem-and Leaf-Plot

Zusammen-hang

Stetig/stetig

Scatter-Plot

Verteil-ungen

Stetig/diskret

Boxplot

Histo-gramm

Mittel-werte

Balken-diagramm

Boxplot

Boxplots stellen viele Verteilungsinformationen gleich-zeitig dar: Man sieht den Median, den Interquartilabstand, den Range und so genannte Ausreißer- und Extremwerte.

In der Praxis dienen Boxplots primär der Kontrolle von besagten Ausreißer- und Extremwerten.

Als Ausreißer gelten Werte die mehr als das 1.5fache des des Interquartilabstandes unter Q1 oder über Q3 liegen.

Als Extremwerte gelten Werte, die mehr als das 3fache des Interquartilabstandes unter Q1 oder über Q3 liegen.

Beispiel: Q1 = 30; Q3 = 38; IQA = 8 Ausreißer: x < 18 oder x > 50 Extremwerte: x < 6 oder x > 62

Boxplot

Angst

0

20

40

60

80

100

Max = 90

Q3 = 60

Md = 43.5

Q1 = 30

Min = 5

IQA= 30} } Range

= 85

Beispiel I:

BoxplotBeispiel II:

Alter

15

20

25

30

35

40

45

164756567

74

6678

Q3 = 25.25

Q1 = 20IQA = 5.25

Grenze für Ausreißer: 25.25 + 1.5·5.25 ≈ 33.1

Grenze für Extremwerte: 25.25 + 3·5.25 = 41

Welche grafische Darstellung ist hier gewählt?

Balkendiagramm (Häufigkeit in %)

Welche grafische Darstellung ist hier gewählt?

Balkendiagramm (Mittelwerte)

Welche grafische Darstellung ist hier gewählt?

Histogramm

Was unterscheidet ein Histogramm von Balkendiagrammen oder Polygonen?

geeignet für kontinuierliche Variablen

Welche grafische Darstellung ist hier gewählt?

Scatterplot

Was stellt ein Scatterplot dar?

Zusammenhänge zwischen Variablen

Was fehlt…

Welche Möglichkeiten der grafischen Darstellung außer Balkendiagrammen, Histogrammen und Scatterplots kennt ihr und was wird jeweils dargestellt?

Stem-and-Leaf-Plot; exakte Werte.Kreisdiagramm; (relative) Häufigkeit.Polygon; (absolute) Häufigkeit.Boxplot; Verteilungskennwerte.

Nennen Sie drei Unterschiede zwischen einem Polygon und einem Histogramm.

Ein Polygon überspringt leere Kategorien.

Ein Polygon eignet sich für diskrete Variablen, ein Histogramm für kontinuierliche.

Beim Histogramm werden automatisch Kategorien gebildet.

Arbeitsblatt 3, Aufgabe 1

Arbeitsblatt 3, Aufgabe 2

Nennen Sie einen wichtigen Unterschied bei der Darstellung einer Verteilung als Histogramm und als Balkendiagramm. Für welchen Variablentyp sind die Darstellungen jeweils besonders geeignet?

Beim Histogramm werden Kategorien gebildet; beim Balkendiagramm nicht. Daher ist das Histogramm gut für kontinuierliche Variablen und das Balkendiagramm für diskrete Variablen geeignet.

Arbeitsblatt 3, Aufgabe 3

Stellen Sie folgende Verteilung als Häufigkeitstabelle dar (Schätzung):

Wert Häufigkeit

1 0

2 5

3 16

4 42

5 38

Gesamt 78

Arbeitsblatt 3, Aufgabe 4Bilden Sie ein „stem-and-leaf-plot“ für folgende Verteilung von Werten der Körpergröße:

Arbeitsblatt 3, Aufgabe 5Der Boxplot stellt die Verteilungender Reaktionszeiten einer Versuchspersonin einer Computeraufgabein Millisekunden dar. Geben Sie bittefolgende Werte so genau wie möglichan:(a) 1. Quartil (Q1)(b) Median (Q2)(c) 3. Quartil (Q3)(d) Interquartilabstand(e) Range (für den um Ausreißer undExtremwerte bereinigten Datensatz).

Berechnen Sie auch die Grenzen für(f) Ausreißerzeiten und(g) Extremwerte.

Arbeitsblatt 3, Aufgabe 5

Lösungen:

Wahrscheinlichkeitsrechnung

Wozu, weshalb, warum?

WahrscheinlichkeitsrechnungWahrscheinlichkeitsrechnung

Statistik

deskriptiv inferentiell

Statistik

deskriptiv inferentiell

StochastikStochastik

Wir erinnern uns:Der große Rahmen…

Der „Ereignisraum“

Die WS für Ereignisse liegt zwischen 0 (unmöglich) und 1 (sicher).

A priori oder Laplace Wahrscheinlichkeit (WS)

Wenn vor Durchführung eines Zufallsexperiments:- Alle möglichen Ereignisse bekannt sind - und jedes Ereignis mit der gleichen WS auftritt

dann kann die WS für das Auftreten eines Ereignisses (A) im Vorhinein („a priori“) mittels der Formel von Laplace geschätzt werden.

Relativer Anteil der „günstigen Fälle“ an allen möglichen Ereignissen.

gesamt

A

N

nAp )(

Beispiel: Laplace-WS

Wie groß ist die WS, aus einem Kartenspiel mit 32 Karten mit einem Versuch folgende Karte(n) zu ziehen:

o Ein Herzass 1/32o Einen König 4/32 = 1/8o Eine schwarze Karte 16/32 = 1/2

32

1).( AssHp

Laplace-WS grafisch

1

2

45

3

6

A posteriori oder Bernoulli-WSIn er psychologischen Forschungspraxis ist a priori zumeist weder die Anzahl der möglichen Fälle bekannt, noch hat jeder Fall die gleiche Auftretens-wahrscheinlichkeit (→ viele psychologisch relevante Variablen sind normalverteilt).

Daher schätzt man die Häufigkeit des Auftretens von (A) im Nachhinein („a posteriori)“ nach sehr vielen Durchgängen eines Zufallsexperiments mittels der Formel von Bernoulli.

N

nA A

Nlim)(

Grenzwert der relativen Häufigkeit des Eintretens der „günstigen Fälle“ bei sehr häufigem Durchführen eines Zufallsexperimentes.

Beispiel: Bernoulli-WSGeben Sie die Wahrscheinlichkeit dafür an, dass ein/e zufällig angesprochene/r Freiburger Psychologiestudent/in weiblich ist.

sex Häufigkeit p

w 58

m 20

Gesamt 78  

0.74

0.26

Bernoulli-WS grafisch

• Bernoulli: „a posteriori“ Wahrscheinlichkeit:

– Wahrscheinlichkeit für A wird geschätzt über die relative Häufigkeit für A bei unendlich vielen Zufallsexperimenten

– Gesetz der Großen Zahl

A?

?

A

A

A

„nicht“ A, bzw. das Komplementärereignis zu A

0.00

0.20

0.40

0.60

0.80

1.00

1 11 21 31 41 51 61 71

Je größer N wird, desto genauer wird unsere Schätzung. Dies bezeichnet man als Gesetz der großen Zahl.

Vp sex π(w)

1 1 1.00

2 2 0.50

3 2 0.33

4 1 0.50

5 1 0.60

6 2 0.50

7 1 0.57

8 1 0.63

9 1 0.66

10 1 0.70 

Additionstheorem

o Mit dem Additionstheorem wird die Wahrscheinlichkeit berechnet, dass entweder Ereignis A oder Ereignis B eintritt.

o Bei „disjunkten“ Ereignissen, die niemals gleichzeitig auftreten, werden die Einzelwahrscheinlichkeiten von A und B einfach addiert:

o Bei nicht-disjunkten Ereignissen, wird die WS für A ∩ B von A + B abgezogen:

Additionstheorem grafisch

Nicht-disjunktes Ereignis

Disjunktes Ereignis

Multiplikationstheorem

o Mit dem Multiplikationstheorem wird die Wahrscheinlichkeit berechnet, dass die Ereignisse A und B gleichzeitig eintreten.

o Bei unabhängigen Ereignissen werden die Einzelwahrscheinlichkeiten einfach multipliziert:

o Bei abhängigen Ereignissen wird folgende Formel verwendet:

Bedingte Wahrscheinlichkeit

Multiplikationstheorem grafisch

Stochastische UnabhängigkeitUm zu wissen, welche Formel des Multiplikationstheorems ich anwenden soll, muss ich die Ereignisse A und B auf Abhängigkeit bzw. Unabhängigkeit prüfen.

Zwei Ereignisse sind stochastisch unabhängig, wenn die Wahrscheinlichkeit für Ereignis A nicht vom Eintreten von Ereignis B beeinflusst wird.

Mathematisch ist stochastische Unabhängigkeit folgendermaßen definiert:

)|()|()( BApBApAp

Disjunkt- und Unabhängigkeit

Disjunkte Ereignisse sind grundsätzlich unabhängig. Der Umkehrschluss gilt jedoch nicht: Ereignisse können mit einer WS>0 gemeinsam auftreten und dennoch statistisch voneinander unabhängig sein.

Bedingte WahrscheinlichkeitDie bedingte Wahrscheinlichkeit gibt an, wie wahrscheinlich ein Ereignis ist, wenn ein anderes, (statistisch abhängiges) Ereignis schon eingetreten ist. Man schreibt:

)(

)()|(

Bp

BApBAp

Wahrscheinlichkeit, dass A und B gleichzeitig eintreten.

Wahrscheinlichkeit von „A“ unter der Bedingung „B“

Wahrscheinlichkeit, dass B eintritt.

Bedingte Wahrscheinlichkeit

o Wir stellen uns also die Frage, ob B die Wahrscheinlichkeit für das Auftreten von A verändert oder nicht.

o Treten A und B überzufällig häufig gemeinsam auf, liegt eine bedingte WS vor.

o Die bedingte WS ergibt sich aus dem Multiplikationstheorem für abhängige Ereignisse:

)(

)()|(

Bp

BApBAp

Hier liegt keine bedingte WS vor: Die Häufigkeit von A ist nicht abhängig vom Aufreten von B.

Hier liegt eine bedingte WS vor: Die Häufigkeit von A ist abhängig vom Aufreten von B.

A B A

A B A

Beispiel: Stochastische Unabhängigkeit

o Die WS zwangskrank und Mann zu sein liegt bei 0.6%.

o Die WS zwangskrank und Frau zu sein liegt bei 0.4%.

o Unsere Population ist chinesisch; sie besteht zu 60% aus Männer und 40% aus Frauen.

01.

6.

006.|

Mp

MZpMZp

01.

4.

004.|

Mp

MZpMZp

MZpMZp ||

Belege mathematisch, dass die „Ereignisse“ Geschlecht und Zwangserkrankung unabhängig sind.

Beispiel: Bedingte WS

o 10% der Bevölkerung in Deutschland sind arm (Ereignis A).

o 5% der Bevölkerung ist arm und leidet unter einer psychischen Störung (Ereignis B).

Wie groß ist die WS für einen Armen (Bedingung) unter einer psychischen Störung (Ereignis) zu leiden?

50.

1.

05.|

Ap

BApABp

Vorsicht!

)|()|( ABpBAp

Die WS für A unter der Bedingung B ist ungleich der WS für B unter der Bedingung A:

Im Beispiel haben wir errechnet, dass 50% der Armen (Bedingung) unter einer psychischen Störung (Ereignis) leidet:

Die Frage, welcher relative Anteil der psychisch gestörten (Bedingung) arm (Ereignis) ist, haben wir damit nicht beantwortet. Können wir die Frage überhaupt klären?

Nein, da uns die WS für p (B) fehlt:

BpBAp

BAp

|

50.|

Ap

BApABp

Das Theorem von Bayes erlaubt es, die bedingten Wahrscheinlichkeiten p(A|B) und p(B|A) in Beziehung zu setzen:

Das Theorem von Bayes

)(

)|()()|(

Bp

ABpApBAp

)(

)|()()|(

Ap

BApBpABp

bzw.

Das Theorem von Bayes erlaubt uns also, aus einer bekannten bedingten WS, die WS für die „Gegenbedingung“ zu berechnen.

Herleitung

Das Theorem von Bayes wird aus der bedingten Wahrscheinlichkeit hergeleitet:

Nach Umstellung

Beispiel: Theorem von Bayes

o 12% der Bevölkerung ist psychisch gestört; p(A).o 10% der Bevölkerung ist arm; p(B).o 50% der Armen ist psychisch gestört; p(A|B).o Welcher Anteil der psychisch gestörten ist arm; p(B|A)?

)(

)|()()|(

Ap

BApBpABp

42.012.0

5.01.0)|(

ABp

Wert Häufigkeit

1 1

2 23

3 9

4 38

5 7

Gesamt 78Geben Sie an, wie wahrscheinlich es ist, dass ein Wert von (a) genau 5, (b) größer als 3, und (c) von 2 bis 4 vorkommt.

Gegeben sei eine Häufigkeitsverteilung:

Arbeitsblatt 4, Aufgabe 2

Arbeitsblatt 4, Aufgabe 3

Definieren Sie stochastische Unabhängigkeit. Geben Sie auch die mathematische Formel an.

Zwei Ereignisse sind stochastisch unabhängig, wenn die Wahrscheinlichkeit für Ereignis A nicht vom Eintreten von Ereignis B beeinflusst wird: p(A) = p(A | B)

Arbeitsblatt 4, Aufgabe 4 (Theorem von Bayes)

• In einer Schule werden Kinder mit einer Wahrscheinlichkeitvon p = 0.05 als besonders begabt klassifiziert. Diese Gruppe setzt sich aus 60% Mädchen und 40% Jungen zusammen. Insgesamt besteht die Schülerschaft zu 45%aus Mädchen. Wie wahrscheinlich ist es für ein Mädchen, als besonders begabt klassifiziert zu werden?

o Nach welcher bedingten WS ist hier gefragt? Wenn ich ein Mädchen bin, wie groß ist die WS begabt

zu sein?

Mit anderen Worten: Die WS für das Ereignis begabt zu sein unter der Bedingung weiblich.

o Welche bedingte WS ist hier bereits gegeben? Wenn ich ein Begabter bin, wie groß ist die WS ein

Mädchen zu sein? Mit anderen Worten: Die WS für das Ereignis weiblich unter der Bedingung begabt.

o Was brauchen wir noch? Die Grundwahrscheinlichkeit für Ereignis 1 (begabt). Die Grundwahrscheinlichkeit für Ereignis 2 (weiblich).

Lösungsweg

)(

)|()()|(

Bp

ABpApBAp

Die WS für Ereignis A (begabt zu sein) ist 0.05Die WS für Ereignis B (ein Mädchen zu sein) ist in unserer Population 0.45Die WS für einen Begabten weiblich zu sein beträgt 0.6

067.045.0

6.005.0)|(

BAp

Theorem von Bayes: Weitere Beispiele Io Die WS für ein Kind eine Gymnasialempfehlung zu

erhalten beträgt für einen deutschen Grundschüler 40%. o 90% aller Gymnasiasten kommen aus Familien mit

überdurchschnittlich hohem sozioökonomischen Status. Mit anderen Worten: Wenn ich auf dem Gymnasium bin, ist mein Elternhaus mit 90% WS besser gestellt.

o Der Anteil der Familien mit überdurchschnittlichem sozioökonomischen Status an der Gesamtbevölkerung beträgt 50% (Operationalisierung: Median-Split).

Aufgabe 1: Wenn ich ein Kind aus einem relativ reichen Elternhaus bin (obere 50%), wie groß ist die WS später auf ein Gymnasium zu gehen?

Aufgabe 2: Wenn ich ein Kind aus einem relativ armen Elternhaus bin (untere 50%), wie groß ist dann die WS in Zukunft aufs Gymnasium zu gehen?

Lösungsweg 1

Die WS. für Ereignis A („reich“) ist 0.5Die WS. für Ereignis B (Gymnasium) ist 0.4Die WS für einen Gymnasiasten (Bedingung) „reich“ zu sein (Ereignis) ist 0.9

Gesucht ist nun die WS für einen „Reichen“ (Bedingung), ein Gymnasiast zu sein (Ereignis).

72.05.0

9.04.0)|(

ABp

)(

)|()()|(

Ap

BApBpABp

Lösungsweg 2

Die WS. für Ereignis A („arm“) 0.5Die WS. für Ereignis B (Gymnasium) ist 0.4Die WS für einen Gymnasiasten „reich“ zu sein ist 0.9 Demnach beträgt die inverse WS, nämlich die WS für einen Gymnasiasten „arm“ zu sein, 0.1

Gesucht ist hier also die WS für einen „Armen“ (Bedingung), ein Gymnasiast zu sein (Ereignis).

)(

)|()()|(

Ap

BApBpABp

08.05.0

1.04.0)|(

ABp

Theorem von Bayes: Weitere Beispiele II

o In einem Test für eine Krankheit erhalten 99% aller Kranken und 1% aller Gesunden ein positives Testergebnis: p(positives Ergebnis|krank) = .99

o Grundwahrscheinlichkeit (Basisrate) der Krankheit in der Bevölkerung ist: p(Krank) = .001

o Grundwahrscheinlichkeit für ein positives Ergebnis ist: p(positives Ergebnis) = .01

Wie groß ist die WS für einen positiv getesteten, tatsächlich krank zu sein?

Es zeigt sich, dass Gewaltopfer zu 80% Frauen sind:

p(w | gewaltopfer) = .80

Die Grundwahrscheinlichkeit Opfer von Gewalt zu werden in der Bevölkerung sei: p(Gew.) = .03

Wie hoch ist das Risiko für einen Frau, Opfer von Gewalt zu werden?

048.50.

80.03.

)(

.)|(.)()|.(

wp

GewwpGewpwGewp

Theorem von Bayes: Weitere Beispiele III

Vielen Dank für eure Aufmerksamkeit!