Prüfungsvorbereitungstutorat: Angewandte Methoden der...

Fachverein Polito

Prüfungsvorbereitungstutorat:

Angewandte Methoden der Politikwissenschaften

Thierry Joerin und Johannes von Mandach

29.12.2017 Seite 1Prüfungsvorbereitungstutorat: Angewandte Methoden, Thierry Joerin und Johannes von Mandach

Fachverein Polito

Assoziationsmasse für nominal- und ordinalskalierte Variablen

Fachverein Polito

Assoziationsmasse

Assoziationsmasse für nominalskalierte Variablen (1/4):

Chi-Quadrat

• Konstruktionslogik: Man vergleicht die beobachteten Häufigkeiten mit den Häufigkeiten, die auftreten

würden, wenn keine Beziehung zwischen den Variablen bestünde.

• Problem: Wert ist von der Anzahl Fälle abhängig ( somit kann der Wert nicht direkt interpretiert

werden)

Phi

• Baut auf Chi-Quadrat auf, berücksichtigt allerdings die Anzahl Fälle

• Interpretation: Vorausgesetzt Phi könnte den Maximalwert 1 annehmen, gibt sein Wert den Anteil an

der Differenz zur Kontingenztabelle an, die mit der unabhängigen Variable erklärt werden kann.

• Aber: in verschiedenen Fällen kann Phi grösser als 1 werden

29.12.2017 Prüfungsvorbereitungstutorat: Angewandte Methoden, Thierry Joerin und Johannes von Mandach Seite 3

Fachverein Polito

Assoziationsmasse


Cramér’s V

• Baut ebenfalls auf Chi-Quadrat auf

• Kann nur noch Werte zwischen 0 und 1 annehmen

(0 = kein statistischer Zusammenhang; 1 = perfekter statistischer Zusammenhang)

• Aber: Werte haben keine intuitive Bedeutung (wie bei Phi) mehr


Fachverein Polito

Assoziationsmasse


PRE-Masse

• Drücken aus, um wie viel besser die Ausprägung einer abhängigen Variable für einen beliebigen

Befragten vorhergesagt werden kann, wenn eine unabhängige Variable bekannt ist, d.h., um wie viel

Prozent sich der Vorhersagefehler reduziert (proportional reduction of error)

• Die Logik von PRE-Massen basiert darauf, dass wir ohne Kenntnis einer anderen Variablen das

Auftreten der am häufigsten besetzten Kategorie (Modalkategorie) prognostizieren würden.

• PRE = 𝐸1 − 𝐸2

𝐸1

wobei: 𝐸1 = Vorhersagefehler ohne Prädikator; 𝐸2 = Vorhersagefehler mit Prädikator


Fachverein Polito

Assoziationsmasse


Goodman und Kruskal’s Lambda ist ein PRE-Mass

• Nachteil: Kann den Wert 0 annehmen, obwohl beide Merkmale nicht unabhängig voneinander sind.


Fachverein Polito

Assoziationsmasse

Assoziationsmasse für ordinalskalierte Variablen:

Generell: Im Gegensatz zu nominalskalierten Zusammenhangsmassen informieren ordinalskalierte

Zusammenhangsmasse (auch «Rangkorrelationsmasse» genannt) zudem über die Richtung des

Zusammenhangs

Goodman und Kruskal’s Gamma

• Konstruktionslogik: Man vergleicht konkordante und diskordante Paare

o Konkordant: 𝑥𝑘 < 𝑥𝑗 und 𝑦𝑘 < 𝑦𝑗 oder 𝑥𝑘 > 𝑥𝑗 und 𝑦𝑘 > 𝑦𝑗

o Diskordant: 𝑥𝑘 < 𝑥𝑗 und 𝑦𝑘 > 𝑦𝑗 oder 𝑥𝑘 > 𝑥𝑗 und 𝑦𝑘 < 𝑦𝑗

• 𝛾 reicht von -1 bis +1

• 𝛾 = 0 = kein Zusammenhang; 𝛾 = 1 bzw. -1 = perfekter Zusammenhang


Fachverein Polito

Zusammenhangsmasse für metrische Variablen und Regression

Fachverein Polito

Zusammenhangsmasse für metrische Variablen

Kovarianz

𝑠𝑥𝑦 = 𝑐𝑜𝑣 𝑋, 𝑌 =1

𝑛−1 𝑖=1𝑛 (𝑥𝑖 − 𝑥) 𝑦𝑖 − 𝑦

Interpretation:

• Eine positive Kovarianz bedeutet eine positive lineare Assoziation zwischen X und Y.

• D.h. grosse (kleine) Werte von X gehen in der Regel mit grossen (kleinen) Werten von Y einher

• Eine negative Kovarianz bedeutet eine negative lineare Assoziation zwischen X und Y.

• D.h. grosse (kleine) Werte von X gehen in der Regel mit kleinen (grossen) Werten von Y einher


Fachverein Polito


Ein Beispiel für eine positive Kovarianz:


Fachverein Polito


Nachteil:

• Kovarianz hängt von den Einheiten von X und Y ab

• Daher kann die Stärke der Beziehung nicht beurteilt werden

• Lösung: Korrelationskoeffizient


Fachverein Polito


Korrelationskoeffizient

r = 𝑖=1𝑛 (𝑥𝑖− 𝑥) 𝑦𝑖− 𝑦

𝑖=1𝑛 (𝑥𝑖− 𝑥)

2 ∗ 𝑖=1𝑛 (𝑦𝑖− 𝑦)

2= 𝑠𝑥𝑦

𝑠𝑥𝑠𝑦

Die Korrelation erlaubt es uns, sowohl die Richtung als auch die Stärke der linearen Beziehung zwischen X

und Y zu beurteilen.

Eigenschaften:

• -1 ≤ 𝑟 ≤ 1

• 𝑟 = 1 bedeutet: perfekter linearer Zusammenhang

• r = 0 bedeutet: kein linearer Zusammenhang


Fachverein Polito


Beispiele für Korrelationskoeffizienten:


Quelle: Prof. Wolf UZH

Fachverein Polito

Regression

Mittels der einfachen Regressionsanalyse können drei Arten von Fragestellungen untersucht werden:

• Ursachenanalyse: Gibt es einen Zusammenhang zwischen der unabhängigen und der abhängigen

Variable? Wie stark ist dieser? (kann auch mit Korrelationskoeffizient beantwortet werden bzw. liefert

das gleiche Resultat)

• Wirkungsanalyse: Wie verändert sich die abhängige Variable bei einer Änderung der unabhängigen

Variablen? (neu)

• Prognose: Können die Messwerte der abhängigen Variable durch die Werte der unabhängigen Variable

vorhergesagt werden? (neu)


Fachverein Polito

Regression

• Die Regressionsanalyse beruht auf der Grundidee, einen Zusammenhang zwischen Variablen durch

eine lineare Funktion zu beschreiben (mathematisch: eine Gerade)

• In einer einfachen linearen Regression stellt die Y-Variable die abhängige und die X-Variable die

unabhängige Variable dar

Eine lineare Funktion der Grundgesamtheit wird dabei beschrieben als:

𝑦 = a + b∗𝑥𝑖 + 𝑢𝑖 oder oft auch als: 𝑦 = 𝛽0 + 𝛽1*𝑥𝑖 + 𝑢𝑖

• Der Teil a + b∗𝑥𝑖 bzw. 𝛽0 + 𝛽1*𝑥𝑖 beschreibt die Gerade

• a bzw. 𝛽0 = (Achsen-)Abschnitt

• b bzw. 𝛽1 = Steigung

• Der Fehler 𝑢𝑖 beschreibt die Abweichung von der Gerade


Fachverein Polito

Regression

Problem:

• Es sind praktisch nie alle Daten der Grundgesamtheit verfügbar

• Die betrachtete lineare Funktion ist somit rein theoretischer Natur

Lösung:

• Wir schätzen das Regressionsmodell bzw. die Gerade der Grundgesamtheit anhand der verfügbaren

(Stichproben-)Daten


Fachverein Polito

Regression

Die Notation verändert sich nun leicht

• Die Koeffizienten (oder mind. die Y-Variable) erhalten einen «Hut» da geschätzt

• Wir sprechen nun von Residuen und nicht von Fehler

Somit: 𝑦 = a + b∗𝑥𝑖 + 𝑒𝑖 oder oft auch als: 𝑦= 𝛽0 + 𝛽1*𝑥𝑖 + 𝑒𝑖

• Der Teil a + b∗𝑥𝑖 bzw. 𝛽0 + 𝛽1 ∗ 𝑥𝑖 beschreibt die Gerade

• a bzw. 𝛽0 = (Achsen-)Abschnitt

• b bzw. 𝛽1 = Steigung

• Das Residuum 𝑒𝑖 beschreibt die Abweichung von der Gerade

• 𝑒𝑖 = 𝑦𝑖 − 𝑦 bzw. 𝑦𝑖 − (a + b∗𝑥𝑖)


Fachverein Polito

Regression

Doch wie kommen wir zu unserer Gerade bzw. zu unserem Regressionsmodell?

Möglichkeit 1

• Idee: Wir schätzen eine passende Gerade mit Augenmass durch die Punktewolke

• Problem: Subjektive Methode Verschiedene Anwender kommen zu verschiedenen Antworten

Wir brauchen also eine mathematische «objektive» Methode

Möglichkeit 2

• Idee: Wir wählen die Gerade, welche insgesamt den kleinsten Fehler macht

• Minimierung von 𝑖=1𝑛 𝑒𝑖 sinnlos, da Fehler sich zum Teil wegsummieren

• Minimierung von 𝑖=1𝑛 𝑒𝑖

2 sinnvoll


Fachverein Polito

Regression

Konstruktionslogik: Wie wählen die Gerade bzw. das Regressionsmodel, welches die

Residuenquadratsumme ( 𝑖=1𝑛 𝑒𝑖

2) minimiert.


Fachverein Polito

Regression

R-Quadrat

Wir haben nun die optimale Gerade bzw. das Regressionsmodell, welches am Besten zu den Datenpunkten

passt. Doch wie «gut» ist dieses Modell?

𝑅2 = 1 − 𝑖=1𝑛 𝑒𝑖

2

𝑖=1𝑛 (𝑦𝑖− 𝑦)

2 = 1 -𝑆𝑆𝐸

𝑆𝑆𝑇=𝑆𝑆𝑅

𝑆𝑆𝑇

• SSE = Residuenquadratsumme («Die Abweichung, die das Modell nicht erklären kann»)

• SST = Gesamtabweichungsquadratsumme («Die gesamte Abweichung der Datenpunkte vom

geschätzen Modell»)

• 𝑅2 kann somit interpretiert werden als Prozentsatz der Variation von Y, der durch das Modell erklärt wird


Fachverein Polito

Regression

Zum besseren Verständnis von SSR und SST:


Fachverein Polito

Regression

Aufpassen!

• In gewissen Lehrbücher wird SSR und SSE miteinander vertauscht!

• Auch Dr. Milic bezeichnet in VL 6 die Residuenquadratsumme als SSR bzw. RSS

• Im HS 2016 wurde die Residuenquadratsumme noch als SSE bezeichnet

• ABER: halb so wild! Es geht mehr um das grundlegende Verständnis von R-Quadrat


Fachverein Polito

Regression

R-Quadrat

• Wertebereich: 0 ≤ 𝑅2 ≤ 1

o 𝑅2 = 0 Die Modellschätzung ist schlecht. X erklärt kaum etwas.

o 𝑅2 = 1 Die Modellschätzung ist perfekt. X erklärt alles.

• Zudem: In der einfachen linearen Regression entspricht R-Quadrat dem quadrierten

Korrelationskoeffizient.


Fachverein Polito

Zufallsvariablen und Verteilungen

Fachverein Polito

Zufallsvariablen

• Eine Zufallsvariable ist eine Variable, deren Merkmalsausprägung vom Zufall abhängt.

• Zufallsvariablen werden mit Grossbuchstaben (z.B. X) gekennzeichnet.

• Die einzelnen Werte («Realisationen») einer Zufallsvariablen werden mit dem entsprechenden

Kleinbuchstaben gekennzeichnet (z.B. x).

• P(X = x) steht demnach für «die Wahrscheinlichkeit, dass die (Zufalls-)Variable X den (spezifischen)

Wert x aufweist.


Fachverein Polito

(Zufalls-)Variablen

Es gibt zwei Arten von (Zufalls-)Variablen:

• Diskrete (Zufalls-)Variablen: Variablen, die eine endliche (oder abzählbar unendliche) Zahl von

Kategorien innerhalb einer Bandbreite aufweisen (z.B. Zahl der Kinder)

• Kontinuierliche (Zufalls-)Variablen: Variablen, die jeden beliebigen Wert eines bestimmten Intervalls

annehmen können bzw. eine nicht abzählbar unendliche Zahl möglicher Werte besitzen (z.B.

Körpergrösse)


Fachverein Polito

Wahrscheinlichkeitsverteilung

Eine Wahrscheinlichkeitsverteilung gibt an, wie sich die Wahrscheinlichkeiten auf die möglichen Werte einer

Zufallsvariablen verteilen

Typen von Wahrscheinlichkeitsverteilungen:

• Diskrete Verteilungen: Der Wertebereich einer diskreten Zufallsvariable X ist auf eine endliche Menge

konzentriert. So kann die Wahrscheinlichkeit für jeden einzelnen Wert (x) angegeben werden (P(X=x))

• Stetige Verteilungen: Hier besitzt die zugrunde liegende Zufallsvariable einen nicht abzählbaren

Wertebereich. Deshalb ist es auch nicht möglich, die Wahrscheinlichkeit für einen einzelnen Wert

anzugeben bzw. diese Wahrscheinlichkeit beträgt 0.

• Zudem: Jeder Verteilung liegt eine Funktion zu Grunde (diese werden wir im Folgenden besprechen).


Fachverein Polito

Diskrete Verteilungen

Die Wahrscheinlichkeits(massen)funktion ordnet jedem Wert einer diskreten Zufallsvariable X eine

Wahrscheinlichkeit zu:

Beispiel: Einmaliges Würfeln:


Fachverein Polito

Diskrete Verteilungen

Die (kumulative) Verteilungsfunktion gibt die Wahrscheinlichkeit an, dass X einen Wert kleiner oder

gleich x annimmt:

Beispiel: Einmaliges Würfeln


Fachverein Polito

Stetige Verteilungen

Zur Erinnerung:

• Stetige Zufallsvariablen haben eine nicht abzählbare unendliche Zahl möglicher Werte.

• Es ist demnach nicht möglich, Wahrscheinlichkeiten für bestimmte Werte anzugeben.

Lösung:

• Man gibt die Wahrscheinlichkeit für ein Intervall an.

Folge:

• Eine stetige Zufallsvariable hat eine Wahrscheinlichkeitsdichtefunktion (und keine

Wahrscheinlichkeitsmassenfunktion)

Eine Dichtefunktion gibt an, wie die Konzentration der Wahrscheinlichkeit X an einem Punkt ist

Um Wahrscheinlichkeiten für Zufallsvariablen zu erhalten, muss die Fläche unter der

Dichtefunktionskurve berechnet werden


Fachverein Polito


Beispiel: Ein Zufallsgenerator erzeugt zufällig eine Zahl zwischen 2.5 und 4.5:


Zur Erinnerung:

Die Wahrscheinlichkeit

errechnet sich über die Fläche

unterhalb der Kurve (wobei

die ganze Fläche = 1 ist).

Z.b. Die Wahrscheinlichkeit,

dass die Zufallsvariable einen

Wert ≤ 3.5 annimmt ist = 0.5

Fachverein Polito


Auch bei stetigen Zufallsvariablen gilt: die (kumulative) Verteilungsfunktion gibt die Wahrscheinlichkeit

an, dass X einen Wert kleiner oder gleich x annimmt:


Fachverein Polito

Zentrale Kenngrössen

Fachverein Polito


• Im Folgenden werden Kenngrössen betrachtet, die sich auf die durch tatsächliche Beobachtungen

erhaltene Häufigkeitsverteilung beziehen.

• Anschliessend wird kurz auf Kenngrössen von theoretischen (nicht empirisch beobachteten)

Häufigkeitsverteilungen eingegangen.


Fachverein Polito


• Median: entspricht derjenigen Ausprägung, welche die nach Rangplätzen geordnete Beobachtung in

genau zwei Hälften teilt

• Mittelwert:

(wird oft auch als μ bezeichnet – wobei sich μ meist auf den Parameter der Grundgesamtheit und

auf den Parameter der Stichprobe bezieht)


Fachverein Polito


• (Populations-)Varianz:

• Korrigierte Stichprobenvarianz:


Fachverein Polito


• Standardabweichung: Wurzel der Varianz = 𝜎2 = 𝜎 bzw. 𝑠2 = 𝑠

„durchschnittliche Abweichung“ der Datenwerte vom arithmetischen Mittelwert


Fachverein Polito


Aufgepasst! Kenngrössen von Stichprobenwerten werden meist anders abgekürzt als Kenngrössen der

Grundgesamtheit:


Fachverein Polito


• Möchte man Kenngrössen für theoretische Verteilungen betrachten, wird die Berechnung etwas

schwieriger (siehe VL 9)

• Problem: Wir können nun nicht mehr die beobachteten Werte aufsummieren und durch n teilen, sondern

müssen die Werte mit der jeweiligen theoretischen Wahrscheinlichkeit multiplizieren

• Als Beispiel:

• In der Regel reicht es aber, die Berechnung von tatsächlichen Beobachtungen zu kennen bzw. zu

verstehen


Fachverein Polito


Was allerdings bei theoretischen Verteilungen wichtig ist, ist das Konzept der Erwartungswerte

(Intuition: man spricht von Erwartungswerten, da man theoretische und nicht empirisch beobachtete

Verteilungen betrachtet)

Der Erwartungswert E(X) einer Zufallsvariable ist der Durchschnittswert eines Experiments auf lange Sicht

und identisch mit μ einer Verteilung:


Fachverein Polito

Normalverteilung

Fachverein Polito

Normalverteilung

• Die Normalverteilung ist eine stetige Verteilung

• Jede Normalverteilung ist durch zwei Paramater μ und σ2 eindeutig gekennzeichnet:

o Entsprechend ist eine Normalverteilung durch folgende Formel eindeutig definiert:

o Entsprechend unterscheiden sich Normalverteilungen nur hinsichtlich Mittelwert und Varianz:


Fachverein Polito

Normalverteilung

• Der «schönste» Fall der Normalverteilung ist die Standardnormalverteilung (𝜇 = 0, 𝜎 = 1)

• Mit ihr lässt es sich verhältnismässig einfach rechnen

Daher ist es von grossem Interesse, unterschiedliche Verteilungen zu «standardisieren» resp. die

Normalverteilungen so anzupassen, dass sie die Eigenschaften einer Standardnormalverteilung

besitzen.

Zudem: Durch die Standardisierung werden (anfänglich) unterschiedliche Normalverteilungen direkt

vergleichbar

Doch wie geht das?


Fachverein Polito

Normalverteilung

Doch wie geht das?

Dazu subtrahiert man von jedem Messwert den arithmetischen Mittelwert, teilt die resultierende Differenz

durch die Standardabweichung und erhält dadurch die sog. z-Werte (z-scores).

Als Formel: Z =𝒙 − 𝝁

𝝈

(mit x für den jeweiligen Messwert, μ für den arithmetischen Mittelwert und σ für die Standardabweichung)

(gutes Beispiel: https://de.wikihow.com/z-Werte-berechnen)

Nach der z-Transformation:

• ist der arithmetische Mittelwert der transformierten Messreihe immer Null und

• sind die Varianz sowie die Standardabweichung immer 1


Fachverein Polito

Normalverteilung

Dichtefunktion einer Standardnormalverteilung:


Fachverein Polito

Normalverteilung

Es können auch nur einzelne Variablenwerte transformiert werden (und nicht die ganze Verteilung):

Der Z-Score eines Variablenwertes informiert dann darüber, um wie viele Standardabweichungen der

beobachtete Wert vom Mittelwert entfernt liegt (da durch Standardisierung σ = 1) .

dies ist von grossem Interesse, da oft Flächen unterhalb der Normalverteilung berechnet werden müssen

(siehe nachfolgende Folien)

Beispiel:

• Die Ergebnisse eines Tests liefern: 𝜇 = 60 𝑢𝑛𝑑 𝜎 = 20

• Eigenes Resultat: 85 Punkte

• Z =𝒙 − 𝝁

𝝈=𝟖𝟓 − 𝟔𝟎

𝟐𝟎= 1.25 das Testergebnis liegt 1.25 Standardabweichungen vom Mittelwert entfernt


Fachverein Polito

Normalverteilung

Flächen unterhalb der Normalverteilung

• immer so – egal welche(n) Standardabweichung bzw. Mittelwert

Darum ist es so wichtig zu wissen, wie viele Standardabweichungen ein Wert vom Mittelwert entfernt liegt:


Fachverein Polito

Normalverteilung

Ganz wichtig (aber wir kommen später nochmals darauf zurück):

Fläche zwischen zwei Werten:

• 95% der Fläche unter der Normalverteilung liegt zwischen -1.96σ und +1.96σ

Fläche vom extremsten Wert bist hin zu spezifischem Wert

• 5% der Fläche unter der Normalverteilung liegen zwischen dem extremsten (positiven Wert) und +1.65σ

• 2.5% der Fläche unter der Normalverteilung liegen zwischen dem extremsten (positiven Wert) und +1.96σ


Fachverein Polito

Normalverteilung

Trick:

Um nun herauszufinden, wie wahrscheinlich es ist einen Variablenwert zu erhalten, der 2

Standardabweichungen (oder mehr) vom Mittelwert entfernt liegt, benutzt man einfach die

Standardnormalverteilung und berechnet die Fläche vom extremsten Wert hin zum «effektiven» Wert 2 (da

𝜎 = 1).

Wir können also jeden Variablenwert standardisieren und anschliessend die Fläche unterhalb der

Standardnormalverteilung bis hin zum erhaltenen, standardisierten Wert berechnen

Dies ist aber meist nicht Mals nötig (Es gibt exakte Verteilungstabellen oder unser geliebtes

Statistikprogramm R)


Fachverein Polito

Normalverteilung

Beachte (für Profis):

Für eine z-Transformation benötigt man sowohl 𝜇 wie auch 𝜎. Wenn diese Populationsparamter unbekannt

sind, rechnet man stattdessen mit den entsprechenden Stichprobenwerten die sog. t-Statistik aus (auch

«Studentisierung» genannt). ( siehe dazu auch letzte Folie)

Aber für grosse n ist die t-Verteilung praktisch identisch mit der Standardnormalverteilung


Fachverein Polito

Normalverteilung


Warum das Ganze?

• Viele Merkmale folgen einer Normalverteilung:

• Körpergrösse

• Zufällige Messfehler

• Stichprobenverteilung: Die Verteilung einer Stichprobenstatistik über alle möglichen

Stichproben ist normalverteilt

• Binominalverteilung (ab genug grosser Fallzahl)

Fachverein Polito

Stichprobenverteilung

Fachverein Polito


• Die Stichprobenverteilung erhält man, indem man alle möglichen Stichproben (derselben Grösse) aus

der Zielpopulation zieht, die gewünschte Stichprobenstatistik für jede einzelne Stichprobe berechnet und

daraus eine Wahrscheinlichkeitsverteilung erstellt.

• Die daraus resultierende Verteilung wird als die Stichprobenverteilung (sampling distribution) der

gewünschten Statistik bezeichnet.


Fachverein Polito


Illustration einer Stichprobenverteilung (hier ist die gewählte Stichprobenstatistik der Mittelwert):


Fachverein Polito


• Zentraler Grenzwertsatz: Jede Stichprobenstatistik (z.b. Stichprobenmittelwert) - unabängig von

der Verteilung der zugrunde liegenden Zufallsvariablen - nähert sich der Normalverteilung an,

wenn der Stichprobenumfang hinreichend gross ist.

• Stichprobenkennwerte können demnach selbst als Zufallsvariablen betrachtet werden.


Fachverein Polito


Am häufigsten ist als Stichprobenstatistik der Stichprobenmittelwert von Interesse:

Nochmals zur Repetition:

• Wir ziehen in einem Gedankenexperiment n mögliche Stichproben aus der interessierenden

Grundgesamtheit und errechnen für jede dieser n Stichproben den Mittelwert. Dadurch erhalten wir eine

neue Zufallsvariable

• enthält die Mittelwerte aller Stichproben

Eigenschaften:

• Der Mittelwert der Mittelwerte ( ) entspricht dem Populationsmittelwert:

• Der Erwartungswert der Stichprobenmittelwerte entspricht somit dem wahren Mittelwert der

Grundpopulation


Fachverein Polito


Weitere Eigenschaften:

• S (Achtung: Varianz des Stichprobenmittelwertes und nicht Varianz von x!)

• Standardabweichung (wird teilweise auch als Standardfehler bezeichnet): :

• Die Standardabweichung (bzw. der Standardfehler) gibt die Variabilität an, mit der man rechnen muss,

wenn man von Stichprobenwerten auf die Grundgesamtheit schliesst.


Fachverein Polito


Warum ist das von Interesse?

• In der Regel wollen wir Aussagen über eine Grundgesamtheit machen, es stehen jedoch nur

Stichprobenwerte zur Verfügung.

• Stichprobenwerte variieren (im Gegensatz zu Populationswerten!).

• Handelt es sich um eine Zufallsauswahl, variieren die entsprechenden Stichprobenwerte zufällig.

• Mit Hilfe des Konzeptes der Stichprobenverteilung haben wir nun ein Mass für die Variabilität, mit der

man rechnen muss, wenn man mit Stichprobenwerten arbeitet.


Fachverein Polito

Binominalverteilung

Fachverein Polito

Binominalverteilung

Die Binominalverteilung ist die Verteilung eines n-fach wiederholten Bernoulli-Experiments

Bernoulliexperiment:

• Ein Zufallsexperiment mit genau zwei möglichen Ergebnissen (z.B. «Erfolg» oder «Misserfolg»)

• Die Erfolgswahrscheinlichkeit (p) bzw. die Gegenwahrscheinlichkeit (1-p) ist immer (bzw. bei jeder

Wiederholung des Experiments) die Gleiche.

• Beispiele:

• Einmaliger Münzwurf (Kopf oder Zahl)

• Sympathisant der Partei X (ja oder nein)


Fachverein Polito

Binominalverteilung

Bernoulliverteilung:

• Ein Spezialfall der Binominalverteilung mit n = 1

• Der Erwartungswert einer Bernoulliverteilten Zufallsvariable mit Werten in der Menge {0,1} ist: E(X) = p

• Die Varianz einer Bernoulliverteilten Zufallsvariable ist: Var(X) = p*(1-p)

Binominalverteilung:

• Verteilung eines wiederholten Bernoulli-Experiments (kann geschrieben werden als: X ~ B(n,p))

• E(X) = n*p

• Var(X) = n*p*(1-p)


Fachverein Polito

Binominalverteilung

Wichtige Eigenschaft:

• Eine Binominalverteilung gleicht sich mit zunehmender Fallzahl einer Normalverteilung an.

• Faustregel: Wenn 𝜎 grösser als 3 oder p*n grösser als 4, dann lässt sich die Binominalverteilung durch

die Normalverteilung ersetzen.


Fachverein Polito

Binominalverteilung

• Oftmals ist von Interesse, wie hoch der Anteil von bestimmten Merkmalsträgern in der Population ist.

(z.B. Anzahl regelmässiger Nachtseminarbesucher unter den Polito-Studis)

• Die Zugehörigkeit zu dieser Kategorie wird als «Erfolg» im Sinne der Binominalverteilung interpretiert.

• Angenommen, die Variable X steht für die Anzahl an Merkmalträger (hier: regelmässige

Nachtseminarbesucher), dann erhalten wir den Anteil P, indem wir X durch n (der Stichprobe) dividieren.

• Aus den Folien zuvor wissen wir: X ~ B(n,p)

• Zudem: für hinreichend grosse Fallzahlen gilt: X ~ N(np, np(1-p))


Fachverein Polito

Stichprobenverteilung von Anteilen

Ist man nur am Anteilswert P interessiert (und nicht am Anteil n*p), lassen sich die Formeln analog zur

Stichprobenverteilung des Stichprobenmittelwerts herleiten.

• Die Varianz von P ist gegeben als 𝑝(1−𝑝)

𝑛

• Der Standardfehler des Anteils ist somit: 𝑝(1−𝑝)

𝑛

• Zur Erinnerung: Da der Anteilswert eine Stichprobenstatistik darstellt, gillt gemäss dem zentralem

Grenzwertsatz, dass sich die Verteilung von p bei hinreichend grosser Stichprobe einer

Normalverteilung annähert


Fachverein Polito

Stichprobenverteilung von Anteilen

Kurzer Exkurs: (Etwas vorgezogen - führt aber häufig zu Verwirrungen…):

Möchte man also von Anteilen auf die Grundgesammtheit schliessen, können zwei Wege gewählt werden:

• Einerseits über die Binominalverteilung: E(X) = n*p und Var(X) = n*p*(1-p) effektive Anteile

• Andererseits über die Verteilung des Anteilswertes: E(X) = p und Var(X) = 𝑝(1−𝑝)

𝑛 Anteilswerte


Fachverein Polito

Konfidenzintervalle

Fachverein Polito

Wozu das Ganze?

Wir haben nun mehrfach die Standardabweichung von Verteilungen berechnet (zuerst von

Stichprobenverteilungen und danach von Binominalverteilungen). Doch wozu?

Grundsätzliches Problem:

• Wir wollen Aussagen über eine Zielpopulation machen. Es liegen jedoch nur Stichprobenwerte vor.

Beispiel: Wir wollen einen Durchschnittswert der Zielpopulation schätzen, es liegt uns aber bloss der

Stichprobenmittelwert vor.

• Wie gezeigt werden konnte, ist der Stichprobenmittelwert ( 𝑋) ein erwartungstreuer Schätzer ( 𝜇) des

Populationsmittelwertes (𝜇). Wir erhalten so eine Punktschätzung.

• Unser Punktschätzer ist zwar die bestmögliche Schätzung des gewünschten Parameters, aber wir

können unter keinen Umständen sicher sein, dass er dem Populationsparameter exakt entspricht. Denn

Stichprobenwerte variieren.


Fachverein Polito

Wozu das Ganze?

• Diese Variabilität wollen wir angeben. Sie kann durch die Stichprobenverteilung (im Speziellen durch

den Standardfehler daher die ganze Herleitung!) messbar gemacht werden.

• Mit Hilfe des Standardfehlers können wir eine Intervallschätzung (im Gegensatz zu einer

Punktschätzung) angeben, welche die zuvor genannte Variabilität enthält.


Fachverein Polito

Wozu das Ganze?

• Unterschied zwischen Punktschätzung und Intervallschätzung:


Fachverein Polito

Konfidenzintervall

Doch wie gross soll unser Intervall sein?

• Wir wissen, dass 95% der Fläche unter der Normalverteilung zwischen -1.96 𝜎 und +1.96 𝜎 zuliegen

kommen.

• Unser geschätzter Parameter wird somit mit einer Sicherheit von 95% im Intervall zwischen -1.96 𝜎 und

+1.96 𝜎 liegen.

• Diese Überlegung funktioniert auch umgekehrt: Der wahre Parameter der Grundgesamtheit liegt

entsprechend in 95% der Fälle zwischen -1.96 𝜎 und +1.96 𝜎 vom Stichprobenparameter entfernt.


Fachverein Polito

Konfidenzintervall


Fachverein Polito

Konfidenzintervall

Somit können wir anstelle des Punktschätzers zusätzlich ein Konfidenzintervall angeben, in welchem der

wahre Parameter der Grundgesamtheit in 95% der Fälle zu Liegen kommt.

• 95% KI somit: 𝜇 ±1.96 𝜎

• wobei 𝜎 = 𝜎𝑥

𝑛bei Stichprobenparameter

• Wobei 𝜎 = 𝑝(1−𝑝)

𝑛bei Anteilswerten


Fachverein Polito

Konfidenzintervall

• Logisch: Ein Konfidenzintervall von 95% bedeutet, dass wir uns in 5% der Fälle täuschen.

• Es können demnach auch andere «sicherere» Konfidenzintervalle berechnet werden (z.B. 99% KI).

• Dazu muss der entsprechende Z-Wert berechnet werden (siehe nachfolgende Folien)


Fachverein Polito

Hypothesentest

Fachverein Polito

Hypothesentest

Einem Hypothesentest liegt immer eine Nullhypothese und eine Alternativhypothese zu Grunde.

• Die Nullhypothese (𝐻0) ist eine Annahme über die Wahrscheinlichkeitsverteilung einer (oder mehrerer)

Zufallsvariablen. Sie wird letztendlich überprüft.

• Die Alternativhypothese (𝐻𝐴) steht für eine beliebige Menge von alternativen Annahmen zur

Nullhypothese.

An der Nullhypothese wird so lange festgehalten, bis wir «genügend» Evidenz gegen sie

zusammengetragen haben.


Fachverein Polito

Hypothesentest

Am häufigsten sind die folgenden drei Formulierungsvarianten:

• Die Nullhypothese formuliert einen exakten Wert (z.B. 𝐻0 = 0.5). Dann wird die Alternativhypothese in

den meisten Fällen lauten: 𝐻𝐴 ≠ 0.5 («ist ungleich 0.5»). Daraus folgt: Zweiseitiger Hypothesentest.

• Die Nullhypothese formuliert einen «gleich oder grösser als»-Wert (z.B. 𝐻0 ≥ 0.5). Dann wird die

Alternativhypothese in der Regel lauten: 𝐻𝐴 < 0.5 («ist kleiner als»). Daraus folgt: Linksseitiger

Hypothesentest.

• Die Nullhypothese formuliert einen «gleich oder kleiner als»-Wert (z.B. 𝐻0 ≤ 0.5). Dann wird die

Alternativhypothese in der Regel lauten: 𝐻𝐴 > 0.5 («ist grösser als»). Daraus folgt: Rechtsseitiger

Hypothesentest.


Fachverein Polito

Hypothesentest

Problem:

• Wir formulieren Hypothesen zu Populationsparametern, aber es liegen uns meist nur Stichprobenwerte

vor. Stichprobenstatistiken variieren aber zufällig.

Beispiel:

• Wir gehen davon aus, dass rund 30% der Politostudis regelmässig ins Nachtseminar gehen (= 𝐻0).

• In unserer Stichprobe erhalten wir aber einen Anteil von 35%.

Grundsätzliche Frage: Kommt diese Differenz zufällig zu Stande (da Stichprobenstatistiken variieren),

oder ist unsere 𝐻0 falsch?

Idee: Wir lehnen die Nullhypothese ab einem gewissen Punkt ab.


Fachverein Polito

Hypothesentest

Doch ab welchem Punkt verwerfen wir die Nullhypothese?

Idee:

• Wir überlegen uns, wie wahrscheinlich es ist, mit der Wahrscheinlichkeitsverteilung unter 𝐻0, den

spezifisch Stichprobenwert zu erhalten.

Umsetzung:

• Wir überlegen uns, wie weit die erhaltene Stichprobenstatistik von der Nullhypothese entfernt liegt.

• Dies tun wir mit der standardisierten Teststatistik: z = 𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘 − 𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟

𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑓𝑒ℎ𝑙𝑒𝑟

• Der erhaltene Z-Wert gibt uns an, wie viele Standardabweichungen unsere Stichprobenstatistik von der

Nullhypothese entfernt liegt


Fachverein Polito

Hypothesentest

Doch ab welchem Z-Wert verwerfen wir die Nullhypothese?

Dies hängt von zwei Faktoren ab:

• Von der Art des Tests (rechtsseitig, linksseitig oder beidseitig)

• Vom Signifikanzniveau 𝛼


Fachverein Polito

Hypothesentest

Beispiel linksseitiger Test:

Überlegung:

• Wie wahrscheinlich ist es mit der Verteilungsannahme unter 𝐻0 den Stichprobenparameter oder einen

kleineren Wert zu erhalten?

Umsetzung:

• Wir berechnen die Fläche unter der Normalverteilung vom kleinsten Wert bis hin zum

Stichprobenparameter. (diese Fläche ist gleichbedeutend mit der Wahrscheinlichkeit und somit dem p-

Wert, da die ganze Fläche unter der Normalverteilung = 1 ist)

• Wenn die Wahrscheinlichkeit den Stichprobenparameter oder einen kleineren Wert zu erhalten tiefer ist,

als das Signifikanzniveau 𝛼, verwerfen wir die Nullhypothese.


Fachverein Polito

Hypothesentest

Beispiel linksseitiger Test:

𝐻0 = 30% der Politostudis mögen Statistik.

𝐻𝐴 = Weniger als 30% der Politostudis mögen Statistik.

Befragung von 100 Politostudis: davon geben 23 an, Statistik zu mögen.


Fachverein Polito

Hypothesentest

• Schritt 1: Wir berechnen, wie weit (bzw. wie viele Standardabweichungen) unsere Stichprobenstatistik

(0.23) von der Nullhypothese entfernt liegt:

z = 𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘 − 𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟

𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑓𝑒ℎ𝑙𝑒𝑟= 0.23 −0.3

0.3∗(1−0.3)

100

= -1.52752

• Schritt 2: Wir berechnen (R tut dies für uns), wie gross die Fläche unter der Normalverteilung vom

kleinsten Wert bis hin zu -1.52752𝜎 ist:

Trick: Wir berechnen wie gross die Fläche unter der Standardnormalverteilung (da 𝜎 = 1 gilt) vom

kleinsten Wert bis hin zu -1.52752 ist. Dies ergibt 0.0633.

Interpretation: Die Wahrscheinlichkeit in einer Stichprobe von 100 Leuten einen Anteilswert von 23%

oder einen kleineren zu erhalten, wenn in der Gesamtbevölkerung der Anteilswert 30% beträgt, ist somit

= 6.33%


Fachverein Polito

Hypothesentest

• Schritt 3: Ob wir nun die Nullhypothese verwerfen oder nicht, hängt vom Signifikanzniveau ab.

auf einem Signifikanzniveau von 90% würden wir die Nullhypothese verwerfen.

auf einem Signifikanzniveau von 95% würden wir die Nullhypothese nicht verwerfen.


Fachverein Polito

Hypothesentest

Linksseitiger Hypothesentest (Annahme: 𝛼 = 0.05):


-1.52752

Fachverein Polito

Hypothesentest

Die Überlegung für einen rechtsseitigen Hypothesentest läuft analog:

• Schritt 1: Wir berechnen (mit Hilfe der z-Statistik), wie weit (bzw. wie viele Standardabweichungen)

unsere Stichprobenstatistik von der Nullhypothese entfernt liegt

• Schritt 2: Wir berechnen (R tut dies für uns), wie gross die Fläche unter der Standardnormalverteilung

(da 𝜎 = 1 gilt) vom grössten Wert bis hin zum in Schritt 1 erhaltenen Z-Wert ist.

• Schritt 3: Wir verwerfen/behalten die Nullhypothese unserem Signifikanzniveau entsprechend.


Fachverein Polito

Hypothesentest

Rechtsseitiger Hypothesentest:


𝜇0

𝑓( 𝑥)

𝑥

Fachverein Polito

Hypothesentest

Der zweiseitige Hypothesentest läuft etwas anders: Da wir nun nicht mehr eine klar vorgegeben Richtung

haben (linksseitig oder rechtsseitig), interessieren uns sowohl positive, wie auch negative Abweichungen

von der Nullhypothese.

• Schritt 1 ist immer noch derselbe: Wir berechnen (mit Hilfe der z-Statistik), wie weit (bzw. wie viele

Standardabweichungen) unsere Stichprobenstatistik von der Nullhypothese entfernt liegt

• Schritt 2 ändert sich leicht: Wir berechnen nun, je nach Ergebnis aus Schritt 1, die Fläche unter der

Standardnormalverteilung zwischen dem kleinsten bzw. grössten Wert bis hin zum erhaltenen Z-Wert.

(wobei bei einem negativen (positiven) Z-Wert die Fläche vom kleinsten (grössten) Wert bis hin zum Z-

Wert berechnet wird)

• Schritt 3: Wir multiplizieren die erhaltene Fläche mal 2. (Intuition: Dies tun wir, da keine Testrichtung

vorgegeben wurde und uns somit die generelle Abweichung interessiert – oder etwas salopp: «die

Abweichung hätte sich ebenfalls in die andere Richtung ereignen können»)


Fachverein Polito

Hypothesentest

• Schritt 4: Wir verwerfen/behalten die Nullhypothese unserem Signifikanzniveau entsprechend.

Wichtige Erkenntnis:

• Da uns nur die generelle Abweichung interessiert (und nicht die Richtung der Abweichung),

multiplizieren wir die erhaltene Fläche unter der Standardnormalverteilung mit dem Faktor 2.

• Entsprechend muss eine Abweichung «extremer» sein als bei einem einseitigen Hypothesentest, bis

wird die Nullhypothese verwerfen.

• Wenn die Wahrscheinlichkeit den Stichprobenparameter oder einen extremeren Wert zu erhalten tiefer

ist, als die Hälfte des Signifikanzniveau (𝛼

2) , verwerfen wir die Nullhypothese

(bzw. wenn die mit 2 multiplizierte Wahrscheinlichkeit den Stichprobenparameter oder einen extremeren

Wert zu erhalten tiefer ist, als das Signifikanzniveau 𝛼, verwerfen wir die Nullhypothese)


Fachverein Polito

Hypothesentest

Zweiseitiger Hypothesentest:


Fachverein Polito

Hypothesentest

Nochmals zum leicht abgeänderten Beispiel von vorhin

Beispiel beidseitiger Test:

𝐻0 = 30% der Politostudis mögen Statistik.

𝐻𝐴 ≠ 30% der Politostudis mögen Statistik.

Befragung von 100 Politostudis: davon geben 22 an, Statistik zu mögen.


Fachverein Polito

Hypothesentest

• Schritt 1: Wir berechnen, wie weit (bzw. wie viele Standardabweichungen) unsere Stichprobenstatistik

(0.22) von der Nullhypothese entfernt liegt:

z = 𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘 − 𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟

𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑓𝑒ℎ𝑙𝑒𝑟= 0.22 −0.3

0.3∗(1−0.3)

100

= -1.7457

• Schritt 2: Wir berechnen (R tut dies für uns), wie gross die Fläche unter der Standardnormalverteilung

(da 𝜎 = 1 gilt) vom kleinsten Wert bis hin zu -1.7457 ist: = 0.0404.

• Schritt 3: Wir multiplizieren die erhaltene Fläche mit dem Faktor 2 = 0.0808

• Schritt 4: Ob wir nun die Nullhypothese verwerfen oder nicht, hängt vom Signifikanzniveau ab.

auf einem Signifikanzniveau von 90% würden wir die Nullhypothese verwerfen.

auf einem Signifikanzniveau von 95% würden wir die Nullhypothese nicht verwerfen.


Fachverein Polito

Hypothesentest

Interessant: Bei einem linksseitigen Test hätten wir die Nullhypothese auf einem Signifikanzniveau von 95%

verworfen (p-Wert = 0.0404)

Da wir aber nur an der generellen Abweichung interessiert sind, und somit den p-Wert bzw. die Fläche unter

der Standardnormalverteilung mit 2 multiplizieren, verwerfen wir die Nullhypothese nicht.


Fachverein Polito

Hypothesentest

Generell:

• Es ist sehr mühsam, jedes Mal die Fläche unter der Standardnormalverteilung (bzw. den p-Wert) zu

berechnen.

Lösung:

• Wir merken uns die «kritischen» Z-Werte für gängige Signifkanzniveaus (95%, 97.5%, 99%)

• Wir verwerfen unsere Nullhypothese, wenn der erhaltene Z-Wert (im Absolutbetrag) grösser ist als

der kritische Wert


Fachverein Polito

Hypothesentest

Beispiele:

• Wir verwerfen einen einseitigen Hypothesentest auf dem 95% Signifikanzniveau, wenn die

Stichprobestatistik mehr als 1.65 Standardabweichungen (bzw. der erhaltene Z-Wert im Absolutbetrag >

1.65) von der Nullhypothese entfernt liegt.

• Wir verwerfen einen beidseitigen Hypothesentest auf dem 95% Signifikanzniveau, wenn die

Stichprobestatistik mehr als 1.96 Standardabweichungen (bzw. der erhaltene Z-Wert im Absolutbetrag >

1.96) von der Nullhypothese entfernt liegt.


Signifikanzniveau P-Wert Z-Wert

95% 0.05 1.65

97.5% 0.025 1.96

99% 0.01 2.33

Fachverein Polito

t-Verteilung und z-Verteilung

Man benutzt die t-Verteilung (anstatt der Standardnormalverteilung):

• Wenn die Standardabweichung 𝜎 der Grundgesamtheit unbekannt ist

• Wenn die Fallzahl geringer als 30 ist. In diesem Fall kommt das zentrale Grenzwerttheorem nicht zum

Tragen, weshalb wir nicht von vornherein annehmen können, dass die Kennwertverteilung der

Mittelwerte normalverteilt ist.

Good News:

• An der Berechnung ändert sich praktisch nichts (standardisierte Prüfgrösse ist immer noch dieselbe).

• Allerdings ändern sich die Wahrscheinlichkeiten (für ein geringes n), bestimmte t-Wert (oder extremere)

zu erhalten. somit erhalten wir neue «kritische» Werte

Weitere Infos zur t-Verteilung: (https://matheguru.com/stochastik/t-verteilung-students-t-verteilung.html)


Prüfungsvorbereitungstutorat: Angewandte Methoden der...

Documents

Transcript of Prüfungsvorbereitungstutorat: Angewandte Methoden der...