Pool Status - Thu Jan 26 09:23:53 CET 2017

35
Verteilungsanalyse Johannes Hain Lehrstuhl f¨ ur Mathematik VIII – Statistik 1 / 35

Transcript of Pool Status - Thu Jan 26 09:23:53 CET 2017

Page 1: Pool Status - Thu Jan 26 09:23:53 CET 2017

Verteilungsanalyse

Johannes Hain

Lehrstuhl fur Mathematik VIII – Statistik

1 / 35

Page 2: Pool Status - Thu Jan 26 09:23:53 CET 2017

Datentypen

Als Sammeln von Daten bezeichnet man in der Statistik dasAufzeichnen von Fakten. Erhobene Daten klassifziert man inunterschiedliche Skalenniveaus:

kategoriale (= nominal skalierte) Daten: GrobstesSkalenniveau; klassifiziert Daten nur in verschiedeneKategorien ohne Ordnung.Beispiele: Farben, Stadte, Automarken

Metrische Daten sind Messungen, die durch Zahlen sinnvollinterpretiert werden konnen. Man unterscheidet hierbei nochdie beiden folgenden Skalenniveaus:

ordinalskalierte Daten: Daten liegt interne Ordnungzugrunde, sodass Bildung einer Reihenfolge moglich ist.Beispiele: Schulnoten, Schulabschlusseintervallskalierte Daten: Daten besitzen luckenlosenWertebereich, Abstande zwischen den einzelnen Daten sindvon Bedeutung und interpretierbar.Beispiele: Korpergroße, Temperatur

2 / 35

Page 3: Pool Status - Thu Jan 26 09:23:53 CET 2017

Verteilungsanalyse metrischer Daten

Die Verteilung von kategorialen Daten veranschaulicht man sichz.B. mit Hilfe von Balkendiagrammen. Dies ist bei metrischenDaten wegen des stetigen Wertebereichs (meist) nicht moglich. DieVerteilung wird in diesem Fall mit einem Histogramm dargestellt:

Groesse des Manns in cm

200,0190,0180,0170,0160,0150,0

Ha

eu

fig

ke

it

40

30

20

10

0

3 / 35

Page 4: Pool Status - Thu Jan 26 09:23:53 CET 2017

Histogramme

Erstellung eines Histogramms in SPSS

→ Analysieren

→ Deskriptive Statistiken

→ Haufigkeiten

→ Wahle die zu untersuchende Variable aus und gehe auf dasFeld Diagramme

→ Wahle als Diagrammtyp das Feld Histogramme aus

Als Alternative kann man sich Histogramme auch ausgeben lassenunter:

Diagramme → Veraltete Diaglogfelder → Histogramme

4 / 35

Page 5: Pool Status - Thu Jan 26 09:23:53 CET 2017

Verteilungsanalyse metrischer DatenApproximation durch eine Kurve

Versucht man nun eine Kurve durch das Histogramm zu legen, diedie Lage der Balken moglichst gut approximiert, ergibt sichfolgendes Bild:

Groesse des Manns in cm

200,0190,0180,0170,0160,0150,0

Haeu

fig

keit

40

30

20

10

0

5 / 35

Page 6: Pool Status - Thu Jan 26 09:23:53 CET 2017

Histogramme

Histogramme mit Normalverteilungskurve in SPSS

→ Gehe vor wie bei der Erstellung eines Histogramm,beschreiben auf Folie 4

→ Wahle zusatzlich noch das Feld Mit Normalverteilungskurveaus

Als Alternative geht dies auch unter:

Diagramme → Veraltete Diaglogfelder → Histogramme

Im daraufhin erscheinenden Dialogfeld setzt man im FeldNormalverteilungskurve anzeigen ein Hackchen.

6 / 35

Page 7: Pool Status - Thu Jan 26 09:23:53 CET 2017

Verteilungsanalyse metrischer DatenDichtefunktion

Die eingezeichnete Approximationskurve ist die sogenannte Dichteder Normalverteilung. Wir verallgemeinern

Definition: Dichte

Die Dichte einer Verteilung fX ist eine Funktion, mit der sich dieWahrscheinlichkeit berechnen lasst, dass eine Zufallsvariable vomstetigen Typ in ein gewisses Intervall fallt.

Ubersetzung ins Mathematische:

Eine Funktion fX heißt Dichte einer Zufallsvariable X , falls gilt

P(a < X < b) =

b

a

fX (t) dt.

7 / 35

Page 8: Pool Status - Thu Jan 26 09:23:53 CET 2017

Verteilungsanalyse metrischer DatenDichtefunktion der Normalverteilung

Die Dichtefunktion der Normalverteilung lautet:

fµ,σ(x) =1√2πσ

· exp(

−(x − µ)2

2σ2

)

, x ∈ R.

Beispiel: Fur µ = 0 und σ2 = 1 ergibt sich dieStandardnormalverteilung, N(0, 1):

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Dichte der Standardnormalverteilung N(0,1)

8 / 35

Page 9: Pool Status - Thu Jan 26 09:23:53 CET 2017

Verteilungsanalyse metrischer DatenAndere Wahrscheinlichkeitsverteilungen

Es existieren in der Statistik aber noch viele andereWahrscheinlichkeitsverteilungen, z.B.

die Poissonverteilung: fλ(x) = e−λ λx

x!

→ Anzahl der Selbstmorde pro Tag, Anzahl der Storfalle in einemKernkraftwerk, usw.

die Exponentialverteilung: fλ(x) = λe−λx

→ Zeit zwischen zwei Meteoriteneinschlagen, Lebensdauer vonelektronischen Bauelementen, usw.

die Lognormalverteilung:

fµ,σ(x) =1

2πσxexp

(

− (log(x)−µ)2

2σ2

)

→ Aktienkurse, Brutto-/Nettoeinkommen einer Bevolkerung,usw.

9 / 35

Page 10: Pool Status - Thu Jan 26 09:23:53 CET 2017

Kenngroßen der Normalverteilung

Die Normalverteilung wird charakterisiert durch zwei wichtigeKenngroßen: den Erwartungswert und die Varianz.

Interpretation des Erwartungswertes

Der Erwartungswert einer Zufallsvariablen, E (X ), beschreibtdenjenigen Wert, den man bei sehr haufiger Wiederholung von Xim Mittel beobachten wird. (Dies bezeichnet man auch als dasGesetz der großen Zahlen.)

Definition der Varianz

Die Varianz σ2 einer Zufallsvariablen definiert sich als die mittlerequadratische Abweichung vom Erwartungswert, d.h.

σ2 := Var(X ) := E(

(X − E (X ))2)

.

Die Standardabweichung σ ist definiert durch: σ :=√

Var(X ).

10 / 35

Page 11: Pool Status - Thu Jan 26 09:23:53 CET 2017

Kenngroßen von Zufallsvariablen

Den Erwartunswert nennt man auch Lageparameter derVerteilung:

−4 −2 0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

Gleiche Varianz, verschiedene Erwartungswerte

11 / 35

Page 12: Pool Status - Thu Jan 26 09:23:53 CET 2017

Kenngroßen von Zufallsvariablen

Die Varianz nennt man auch Streuungsparameter einerVerteilung:

−4 −2 0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

Gleiche Erwartungswerte, verschiedene Varianzen

12 / 35

Page 13: Pool Status - Thu Jan 26 09:23:53 CET 2017

Empirische Kenngroßen

Dilemma in der Statistik

Die Kenngroßen einer Zufallsvariablen sind von zentralerBedeutung, aber unbekannt!

Man behilft sich durch die Berechnung von Schatzern basierendauf der Stichprobe X1, . . . ,Xn:

Schatzer des Erwartungswertes µ: X := 1n

n

i=1 Xi

Schatzer der Varianz σ2: S2 := 1n−1

n

i=1(Xi − X )2

Schatzer der Standardabweichung σ: S :=√S2

Die Schatzer hangen von der zufalligen Stichprobe ab, sind alsoselbst wiederum zufallig sind. Man unterliegt beim Schatzen einertheoretischen Kenngroße also stets einer gewissen Unsicherheit.

13 / 35

Page 14: Pool Status - Thu Jan 26 09:23:53 CET 2017

Empirische Kenngroßen

Berechnung der empirischen Schatzer in SPSS

→ Analysieren

→ Deskriptive Statistiken

→ Deskriptive Statistik...

→ Ziehe die zu untersuchenden Variablen in das FeldVariable(n): und bestatige mit OK.

14 / 35

Page 15: Pool Status - Thu Jan 26 09:23:53 CET 2017

Robuste Kenngroßen

Nachteil von X und S2

Die beiden Schatzer X und S2 von Mittelwert und Varianz habenallerdings einen praktischen Nachteil: sie sind sehr anfalliggegenuber Ausreißern.

Beispiel:Der Datensatz Milliardaer.sav zeigt sehr deutlich, wie eineinziger Ausreißer den Mittelwert und die Standardabweichungverandern kann. Durch die Hinzunahme eines einzigen extremenWertes verschiebt sich der Mittelwert und die Standardabweichungsehr stark, obwohl sich die Daten kaum geandert haben.

Die Motivation nach Lokations- und Dispersionsparametern,die weniger ausreißeranfallig sind, wird in diesem Beispielklar.

15 / 35

Page 16: Pool Status - Thu Jan 26 09:23:53 CET 2017

Robuste Kenngroßen

Lokations- und Dispersionsparameter, die weit weniger sensibel aufeinzelne Ausreißer in einem Datensatz reagieren sind:

der Median:Dieser ist ein Maß fur das Zentrum der Verteilung; links undrechts des Medians befinden sich genau 50% derBeobachtungen.

der Interquartilabstand (IQR):Der IQR ist Maß fur die Streuung der Daten und gibt dieBreite des Bereichs an, in dem genau die mittleren 50% derBeobachtungen liegen.

Lage- und Streuungsparameter die ausreißerunanfallig sindbezeichnet man auch als robuste Maße.

16 / 35

Page 17: Pool Status - Thu Jan 26 09:23:53 CET 2017

Robuste Kenngroßen

Die Berechnung von Median und IQR ist in SPSS ein wenigumstandlich:

Berechnung von Median und IQR in SPSS

→ Analysieren

→ Deskriptive Statistiken

→ Explorative Datenanalyse

→ Ziehe die zu untersuchenden Variablen in das Feld AbhangigeVariablen (ggfs. kann man im Feld Faktorenliste noch eineGruppierungsvariable bestimmen)

→ Wahle im Feld Anzeige die Option Statistiken aus

→ Klicke das Feld Optionen an und wahle dann die OptionPaarweiser Fallausschluss

17 / 35

Page 18: Pool Status - Thu Jan 26 09:23:53 CET 2017

VerteilunganalyseWiederaufgreifen der Problematik

Das ursprungliche Ziel zu Beginn war die Analyse der Verteilungvon Daten sowie die Bestimmung der Wahrscheinlichkeitsverteilungeiner Messgroße.

Fur unsere Zwecke betrachten wir eine vereinfachte Fragestellung:

Fragestellung bei der Verteilungsananlyse

Sind die vorliegenden stetigen Daten normalverteilt oder sind sienicht normalverteilt?

→ Wie geht man hier vor?

18 / 35

Page 19: Pool Status - Thu Jan 26 09:23:53 CET 2017

Verteilungsanalyse: Allgemeine Situation

Um Aussagen uber die Verteilungseigenschaften von Daten zumachen, kann man sowohl grafische Hilfsmittel heranziehen, alsauch Hypothesentests durchfuhren. Man sollte aber stets beideMoglichkeiten betrachten!

Die beiden wichtigsten grafischen Hilfsmittel zurVerteilungsanalyse sind:

Histogramm und

Boxplot.

Es existieren noch weitere grafische Hilfsmittel wie beispielsweiseder Normal-Probability-Plot (Q-Q-Plot) oder dasStamm-Blatt-Diagramm. Die beiden oben genanntenDarstellungen der Daten sind aber die gebrauchlichsten, weshalbauf die Einfuhrung weiterer Darstellungen verzichtet wird.

19 / 35

Page 20: Pool Status - Thu Jan 26 09:23:53 CET 2017

Histogramme

Wie oben beschrieben kann man mittels eines Histogrammserkennen, ob die Daten normalverteilt sind. Je nach dem wie gutdie Anpassung an die theoretische Normalverteilungsdichte sprichtdies eher fur oder gegen einer Normalverteilung.

Groesse des Manns in cm

200,0190,0180,0170,0160,0150,0

Haeu

fig

keit

40

30

20

10

0

Alter des Manns

70605040302010

Haeu

fig

keit

15

10

5

0

20 / 35

Page 21: Pool Status - Thu Jan 26 09:23:53 CET 2017

Boxplots

Ein weiteres wichtiges grafisches Hilfsmittel zur Beschreibung einesDatensatzes ist der Box-Whisker-Plot, kurz Boxplot.

Konstruktion eines Boxplots

Ein Boxplot basiert auf dem Interquartilabstand (IQR), der genaudie Werte in der

”Box“ umfasst. Der Balken in der Mitte der Box

ist der Median. Die Whisker beschreiben die Lage der Daten in denAußenbereichen und enden an den Stellen ±1.5 · IQR . Alle Werteunter- und uberhalb davon werden als Ausreißer gekennzeichnet.

=⇒ Der Vorteil des Boxplots besteht darin, dass man nicht nuruber die Lokation der Daten, sondern auch uber die Streuungder Daten (=Dispersion) auf einen Blick informiert wird.

=⇒ Sind die Daten beispielsweise nicht symmetrisch, konnen dieWhisker unterschiedlich lang sein, sowie der Median nicht inder Mitte der Box liegen.

21 / 35

Page 22: Pool Status - Thu Jan 26 09:23:53 CET 2017

Boxplots

Beispiel fur einen Boxplot:

22 / 35

Page 23: Pool Status - Thu Jan 26 09:23:53 CET 2017

Boxplots

Erstellung eines Boxplots in SPSS

→ Analysieren

→ Deskriptive Statistiken

→ Explorative Datenanalyse

→ Wahle das Feld Diagramme aus und wahle im Feld Boxplotsdie gewunschte Option (z.B. Faktorstufen zusammen)

Als Alternative kann man sich Boxplots auch ausgeben lassenunter:

Diagramme → Veraltete Diaglogfelder → Boxplot

23 / 35

Page 24: Pool Status - Thu Jan 26 09:23:53 CET 2017

Normalverteilungstests

Neben den grafischen Hilfsmittel gibt es auch inferenzstatistischeMoglichkeiten, Aussagen daruber zu machen, ob die Daten einerNormalverteilung folgen.

In SPSS sind die beiden Standardtests hierfur:

Kolmogorov-Smirnov-Test

Shapiro-Wilk-Test

Zu bevorzugen ist jedoch stets der Shapiro-Wilk-Test. Um zuverstehen wie ein statistischer Test durchgefuhrt wird und wie manein Testergebnis korrekt interpretiert, behandeln wir zunachst dieGrundlagen von statistischen Hypothesentests.

24 / 35

Page 25: Pool Status - Thu Jan 26 09:23:53 CET 2017

Induktive Statistik

Neben der deskriptiven und der explorativen Statistik, ist das drittegroße Teilgebiet der Statistik die induktive Statistik (auchschließende Statistik genannt).

Gegenstand der induktiven Statistik

Es wird versucht mit Hilfe einer Stichprobe auf Eigenschaften derGrundgesamtheit zu schließen. Diese Grundgesamtheit ist imAllgemeinen sehr viel großer als der Umfang der Stichprobe.

Die Methoden der induktiven Statistik bezeichnet man auch auchals Testverfahren. Dabei wird eine zu uberprufende Hypothese,auch Nullhypothese (oder H0) aufgestellt, die mit einem Test aufKorrektheit uberpruft wird.

Merke:Nullhypothesen sind Prazisierungen der zu untersuchendenFragestellung.

25 / 35

Page 26: Pool Status - Thu Jan 26 09:23:53 CET 2017

HypothesentestenBeispiele fur Nullhypothesen

Beispiele fur Nullhypothesen:

H0 : Die Zufallsvariable X ist nach irgendeiner NormalverteilungN(µ, σ2)-verteilt, wobei µ und σ2 beliebig seien.

H1 : Die Zufallsvariable X ist nicht normalverteilt.

H0 : Manner und Frauen haben einen gleich hohen IQ-Wert.

H1 : Der IQ-Wert von Mannern und Frauen ist nicht gleich.

H0 : In der Firma XY verdienen Frauen genauso viel oder mehr alsManner.

H1 : In der Firma XY verdienen Frauen weniger als Manner.

26 / 35

Page 27: Pool Status - Thu Jan 26 09:23:53 CET 2017

Hypothesentesten

Fassen wir zusammen:

Zu einer aufgestellten Nullhypothese H0 wird auch immer eineinhaltlich komplementare Alternativhypothese H1 formuliert.

Die Nullhypothese H0 stellt dann die Basis dar, von der ausentschieden wird, ob die Alternativhypothese H1 akzeptiertwerden kann oder nicht.

=⇒ Die eigentlich zu prufende Hypothese muss also in dieAlternativhypothese H1 gesteckt werden!!

Achtung: Warum ist die Formulierung von

H0 : Wohlhabende Kinder und sozial schwache Kinderunterschieden sich nicht in ihren Lesefahigkeiten.

H1 : Wohlhabende Kinder konnen besser lesen als sozial schwacheKinder.

statistisch nicht korrekt?27 / 35

Page 28: Pool Status - Thu Jan 26 09:23:53 CET 2017

HypothesentestenTeststatistik

Grundlegende Idee zur Uberprufung von H0

Anhand einer gegebenen Stichprobe X1, . . . ,Xn von unabhangigund identisch verteilten Zufallsvariablen wird ein konkreter Wert,die sog. Teststatistik T = T (X1, . . . ,Xn) berechnet. Anhand vonT und seiner Verteilung wird dann eine Entscheidung getroffen.

Beispiele fur Teststatistiken werden wir bei der Besprechung derTestverfahren viele kennen lernen.

Die popularste Methode zur Hypothesenbeurteilung basierend aufeiner Teststatistik T ist die Betrachtung des p-Wertes.

28 / 35

Page 29: Pool Status - Thu Jan 26 09:23:53 CET 2017

HypothesentestenDer p-Wert

Der p-Wert

Der p-Wert ist die Wahrscheinlichkeit dafur, dass man unter derNullhypothese H0 das tatsachlich beobachtete Resultat oder sogarein noch extremeres erhalt.

=⇒ Je unwahrscheinlicher also die Gultigkeit von H0, desto kleinerwird der p-Wert. Wenn eine gewisse Wahrscheinlichkeitsgrenzeunterschritten wird, ist H0 also so unwahrscheinlich, dass mansich fur die Gultigkeit der Alternativhypothese H1 entscheidet.

→ Die popularste Grenze fur die Wahrscheinlichkeit betragt 0.05,d.h. ab einem p-Wert von kleiner oder gleich 0.05 wird H0

abgelehnt.

=⇒ Der p-Wert ist sozusagen also ein Maß fur dieGlaubwurdigkeit der Nullhypothese.

29 / 35

Page 30: Pool Status - Thu Jan 26 09:23:53 CET 2017

HypothesentestenKorrekte Interpretation des Testergebnisses

Ein Signifikanztest gestattet nur eine der beiden folgendenEntscheidungen:

Ablehnung von H0 = Annahme von H1

oder

Nicht-Ablehnung von H0 6= Annahme von H0

Dies bedeutet also:

=⇒ Die Nicht-Ablehnung von H0 darf keinesfalls als ein Nachweisder statistischen Richtigkeit der Nullhypothesefehlinterpertiert werden.

=⇒ Streng genommen bedeutet eine Nicht-Ablehnung von H0 alsoeine Stimmenthaltung, d.h. das Stichprobenergebnis ist mitder Nullhypothese vereinbar.

30 / 35

Page 31: Pool Status - Thu Jan 26 09:23:53 CET 2017

HypothesentestenFehler bei der Testentscheidung

Bei einer Entscheidung basierend auf einem Signifikanztest hatman niemals absolute Sicherheit – egal wie man sich entscheidet esbesteht also immer die Gefahr eine Fehlentscheidung zu treffen:

H0 ist wahr H0 ist nicht wahr

Entscheidung fur H0 kein Fehler Fehler 2. Art (β)

Entscheidung fur H1 Fehler 1. Art (α) kein Fehler

Bei einem Signifikanztest kann man leider immer nur denFehler 1. Art kontrollieren. Dieser ist stehts ≤ 0.05.

Der Fehler 2. Art hingegen kann unter Umstanden relativ großwerden.

→ Dies ist die Begrundung fur das Vorgehen auf Folie 27, dassdie eigentlich zu prufende Hypothese als H1 formuliert werdenmuss.

31 / 35

Page 32: Pool Status - Thu Jan 26 09:23:53 CET 2017

Ruckkehr zum eigentlichen Problem

Nachdem die Grundzuge der Testtheorie behandelt wurden, konnenwir nun zum Test auf Normalverteilung zuruckkehren. In SPSS gibtes zwei Tests auf Normalverteilung, den

Kolmogorov-Smirnov-Test und den

Shapiro-Wilk-Test.

Zu bevorzugen ist jedoch stets der Shapiro-Wilk-Test. DieNullhypothese bei diesen Tests lautet:

H0 : Die Stichprobe ist normalverteilt

Man beachte hierbei, dass man in diesem Fall daran interessiert istH0 nicht zu verwerfen – im Idealfall der p-Wert also großer als 0.05sein sollte!

32 / 35

Page 33: Pool Status - Thu Jan 26 09:23:53 CET 2017

Normalverteilungstests

Erstellung von Normalverteilungstests in SPSS

→ Analysieren

→ Deskriptive Statistiken

→ Explorative Datenanalyse

→ Wahle das Feld Diagramme aus und klicke dort das FeldNormalverteilungsdiagramm mit Tests an.

=⇒ Zusammen mit den Normalverteilungstest werden in SPSSimmer auch die zugehorigen Q-Q-Plots, sowie dietrendbereinigten Q-Q-Plots ausgegeben (siehe oben).

33 / 35

Page 34: Pool Status - Thu Jan 26 09:23:53 CET 2017

Zusammenfassung

Man hat nun also zwei Moglichkeiten die Verteilungseigenschaftender Daten zu uberprufen:

grafisch: Boxplots, Histogramme, Q-Q-Plots, . . .

inferenzstatistisch: Shapiro-Wilk-Test, . . .

Dabei ist aber immer zu beachten:

Grundregel bei der Verteilungsanalyse

Man betrachtet aber nie nur eine der beiden Moglichkeiten,sondern immer beide zusammen!

Manchmal verrat eine der beiden Moglichkeiten namlich mehr uberdie Eigenschaften der Daten als die andere . . .

34 / 35

Page 35: Pool Status - Thu Jan 26 09:23:53 CET 2017

Voraussetzungen von Testverfahren

Zu jedem Testverfahren, gibt es gewisse Voraussetzungen an dieDaten, die erfullt sein mussen um die Aussagekraft desTestverfahrens sicher zu stellen (z.B. muss beim t-Test dieNormalverteilungsannahme erfullt sein).

Man beachte stets

Aussagen in der Statistik sind hochstens so sicher wie dieVoraussetzungen dieser Aussagen.

=⇒ Sind die Voraussetzugen eines Testverfahrens nicht oder nurteilweise erfullt, so muss dies in der entsprechendenvorsichtigen Interpretation des Resultates berucksichtigtwerden!

=⇒ Im Zweifelsfall ist es besser auf statistische Tests zu verzichtenund sich mit einer einfachen Beschreibung der Daten anhandtabellarischer und grafischer Darstellungen zu begnugen!

35 / 35