Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird...

44
Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression

Transcript of Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird...

Page 1: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Statistik

GrundlagenCharakterisierung von VerteilungenEinführung WahrscheinlichkeitsrechnungWahrscheinlichkeitsverteilungenSchätzen und TestenKorrelationRegression

Page 2: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Einführung

Aus praktischen Gründen ist es in vielen Fällen nicht möglich, bei Untersuchungen die Daten in Form einer Kompletterfassung (Grundgesamtheit) zu erheben. Statt dessen werden Stichproben erhoben und diese untersucht.

Man hat eine Stichprobe erhoben und dafür gewisse Parameter bestimmt. Mit deren Hilfe soll nun auf die entsprechenden Parameter der Grundgesamtheit geschlossen und diese geschätzt werden. Dazu werden Hypothesen über die Parameter der Grundgesamtheit aufgestellt und Entscheidungen hinsichtlich der tatsächlichen Werte getroffen.

Test einer Stichprobe ob diese ein Verteilungsmuster, etwa eine Normalverteilung, aufweist.

Page 3: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Fragestellungen

• Man hat etwa die Hypothese, dass eine normalverteilte Grundgesamtheit den wahren Mittelwert µ = 18 hat, in einer Stichprobe ermittelt man jedoch einen Mittelwert x = 19.5. Mit Hilfe des Tests kann nun entschieden werden, ob diese Abweichung von µ nun geringfügig oder so groß ist, dass die Hypothese vom Mittelwert µ = 18 verändert werden muss.

Page 4: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

In der Schätzstatistik bedient man sich Schätzfunktionen, die einer STP eine reelle Zahl zuordnet, welche als Schätzwert für den zugehörigen unbekannten wahren GG-Parameter verwendet wird.

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7°C).

Punktschätzung: Erfolgt das Schätzen eines wahren Parameters der Grundgesamtheit auf der Grundlage von Stichproben, so ist dies das Konzept der Punktschätzung.

Intervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden ist, so wird eine Intervallschätzung vorgenommen.

Konfidenzintervall, Vertrauensbereich: Das Intervall (der Intervallschätzung), in dem ein Parameter mit vorgegebener Wahrscheinlichkeit liegt, nennt manKonfidenzintervall oder auch Vertrauensbereich. Aufgabe der Intervallschätzung ist es also, auf der Grundlage einer STP die untere und obere Grenze eines solchenKonfidenzintervalls zu schätzen.

Page 5: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Signifikanzniveau: Ist die Irrtumswahrscheinlichkeit mit der man das Konfidenzintervall schätzen will. Eine Irrtumswahrscheinlichkeit von α = 0.05 (also 5%) wird als signifikant, eine von α = 0.01 (1%) als eindeutigsignifikant und eine von α = 0.001 (0.1%) als hochsignifikant bezeichnet.

Sicherheitswahrscheinlichkeit: Ist diejenige Wahrscheinlichkeit p = 1 - α für dasKonfidenzintervall, so dass dieses den wahren Parameter enthält.

Erwartungstreue: Ein Schätzfunktion ist erwartungstreu, wenn für alle Stichprobenumfänge und alle Werte des Parameters, das arithmetische Mittel der gewonnenen Werte gleich dem zu schätzenden Parameter ist. Bei wiederholtem Schätzen (aus Stichproben derselben Grundgesamtheit) muss also der Schätzwert den gesuchten Parameter im Mittel genau treffen.

Page 6: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Bestmögliche Schätzfunktion: Eine Schätzfunktion heißt bestmöglich, wenn sie eine Reihe von Voraussetzungen erfüllt, von denen die wichtigsten sind:

• Erwartungstreue.

• Konsistenz: Je größer der STP-Umfang n ist, desto bessere Schätzwerte liefert die Schätzfunktion.

• Effizienz: Die Schätzfunktion mit dem kleinsten mittleren Schätzfehler ist diejenige mit der geringsten möglichen Varianz.

Page 7: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Schätzfunktion für das arithmetische Mittel der Grundgesamtheit: Werden aus einer GG mehrere Wiederholungen von Stichproben vorgenommen, so bekommt man mehrere Schätzungen für das wahre arithmetische Mittel µ der GG (Punktschätzung). Die geeignete Schätzung von µ ist dann:

und m, nj Umfang der jeweiligen Stichproben.∑=

=jn

jj

jj xn

Xmit1

1∑=

=m

iim

X X1

1

µ

Einzelwerte der GG Mittelwerte der STP

xi X Xj

Page 8: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Schätzfunktion für das arithmetische Mittel der Grundgesamtheit: Werden aus einer GG mehrere Wiederholungen von Stichproben vorgenommen, so bekommt man mehrere Schätzungen für das wahre arithmetische Mittel µ der GG (Punktschätzung). Die geeignete Schätzung von µ ist dann:

und m, nj Umfang der jeweiligen Stichproben.

Eigenschaften:

• Wird bei jeder Stichprobe immer die gleiche Anzahl von Stichproben entnommen und daraus die Mittelwertschätzungen berechnet, so zeigt die Häufigkeitsverteilung der unterschiedlichen Mittelwertsschätzungen Xj eine Normalverteilung mit dem zentralen Mittelwert X.

• Der Mittelwert X aus den STP stellt somit den geeignetsten Schätzwert für den Parameter µ der GG dar. Beim genauen Vergleich von X mit µ wird allerdings eine Differenz bestehen, die durch einen Schätzfehler ausgedrückt wird.

∑=

=jn

jj

jj xn

Xmit1

1∑=

=m

iim

X X1

1

Page 9: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Standardfehler des arithmetischen Mittels einer Grundgesamtheit: Stellt den mittleren Fehler bei der Schätzung des arithmetischen Mittels einer GG dar. Der Standardfehler σx gibt an, wie groß die Streuung der Xj um den wahren Mittelwert µder Grundgesamtheit ist mit:

, mit σ Standardabweichung der GG und n Umfang der STP.

Eigenschaften:

• Die Mittelwerte streuen dabei umso weniger, je größer der Stichprobenumfang ist.

• Sind die Mittelwerte Xj normalverteilt mit N(µ, ), dann besitzt die Zufallsvariable Z = (X - µ)/ eine Standardnormalverteilung.

nxσ

σ =

σn

Page 10: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Schätzfunktion für die Varianz der Grundgesamtheit: Für eine geeignete Schätzung der Varianz σ2 einer Grundgesamtheit wird verwendet mit:

und n, nj Umfang der jeweiligen Stichprobe.

Oftmals sind bei zu untersuchenden Daten einer Grundgesamtheit weder µ noch σbekannt. Für Fragestellungen etwa nach dem Konfidenzintervall wird dann µ durch X und σ durch σx geschätzt, jeweils also lediglich auf die STP bezogen.

σ̂2

( ) ∑∑==

=−−

=jn

jj

jj

n

iii x

nmit

n XXX1

2

1

111²σ̂

Page 11: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Konfidenzintervall: Sind anhand mehrerer Stichproben einer GG die Mittelwerte Xjnormalverteilt mit zentralem Mittelwert X und Streuung , so ist mit der geforderten Wahrscheinlichkeit p = 1 - α, mit α Signifikanzniveau, das (zweiseitige)Konfidenzintervall für den wahren Mittelwert µ der GG:

, mit n Anzahl der Stichproben (der Ziehungen) und tα,FG Wert der Students t-Verteilung inAbhängigkeit von der gefordertenWahrscheinlichkeit und dem Freiheitsgrad n-1.

Eigenschaften:

• Die Vertrauenswürdigkeit hängt von der Streuung der STP ab, je größer die Streuung, desto größer ist die Unsicherheit der Schätzung (Standardfehler).

• Die Vertrauenswürdigkeit hängt von der Anzahl der Stichproben ab, je größer die Stichprobenzahl, desto geringer wird die Unsicherheit der Schätzung und desto kleiner ist das Konfidenzintervall.

• Je größer man die statistische Sicherheit wählt, desto breiter ist dasKonfidenzintervall und damit desto unschärfer die Schätzung.

];[,2

,2 n

tXn

tX XFG

XFG

σσαα ⋅+⋅−

Page 12: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Konfidenzintervall: Sind anhand mehrerer Stichproben einer GG die Mittelwerte Xjnormalverteilt mit zentralem Mittelwert X und Streuung , so ist mit der geforderten Wahrscheinlichkeit p = 1 - α, mit α Signifikanzniveau, das (zweiseitige)Konfidenzintervall für den wahren Mittelwert µ der GG:

, mit n Anzahl der Stichproben (der Ziehungen) und tα,FG Wert der Students t-Verteilung inAbhängigkeit von der gefordertenWahrscheinlichkeit und dem Freiheitsgrad n-1.

];[,2

,2 n

tXn

tX XFG

XFG

σσαα ⋅+⋅−

X ,2 ntX X

FG

σα ⋅+

,2 ntX X

FG

σα ⋅−

Page 13: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik

Beispiel: Kaufkraft von Personen. Anhand einer Untersuchung von n = 30 Haushalten wird festgestellt, dass mittlere monatliche Ausgaben von X = 850 € anfallen bei einer Streuung von = 400 €. Die Frage ist, ob aus diesen Angaben auf die Situation der GG geschlossen werden kann. Man fordert dabei eine Irrtumswahrscheinlichkeit von p = 5% (zweiseitig), demzufolge also eine Sicherheitswahrscheinlichkeit von 95%.

Der tα/2,FG-Wert für α = 0.05 bei 29 Freiheitsgraden ist 2.045. Daraus ergibt sich das Konfidenzintervall zu [700.6; 999.3 ]. Innerhalb dieses Intervalls liegt mit 95% Wahrscheinlichkeit der wahre Mittelwert µ der Grundgesamtheit.

Page 14: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Schätzstatistik - Students t-Verteilung

Page 15: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Mit Hilfe von Testverfahren ist es möglich, aufgrund von Zufallsstichproben Hypothesen über ansonsten unbekannte Grundgesamtheiten zu testen. Weil dieseEntscheidung nur auf der Basis der STP erfolgt, kann sie immer nur mit einer Irrtumswahrscheinlichkeit getroffen werden.

Hypothesentests haben damit die Aufgabe, die Frage nach der Zufälligkeit beobachteter Abweichungen zu beantworten.

Fragestellungen:

• Sind die mittleren Jahrestemperaturen heute tatsächlich höher als noch vor 100 Jahren?

• Unterscheiden sich die mittleren Jahrestemperaturen in der Stadt von denen im Freiland?

• Ist der Ernteertrag nach Einführung einer neuen Düngemethode signifikant größer als vorher?

Page 16: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Solche statistischen Testverfahren sind nicht auf beliebig formulierte Arbeitshypothesen, sondern nur auf bestimmte Formen anwendbar, von denen die Nullhypothesen für praktische Anwendungen in den Geowissenschaften besonders wichtig sind. Grundlage der Einschätzung ist die Verwendung von Prüfparametern, die eine Normalverteilung (t-Test, z-Test) oder eine asymmetrische Verteilung (Chi-Quadrat-Test, F-Verteilung) haben und mit Tabellenwerten verglichen werden.

Page 17: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Nullhypothese, Alternativhypothese: Eine Nullhypothese H0 ist eine Behauptung über die Gleichheit statistischer Eigenschaften von STP und GG. Die Verneinung von H0 wird Alternativhypothese HA genannt. Die Nullhypothese wird auf der Basis der Irrtumswahrscheinlichkeit α überprüft, die den Vertrauensbereich der Nullhypothese einseitig oder zweiseitig begrenzt.

Ein statistischer Test liefert also genau genommen eine Entscheidung darüber, ob die Nullhypothese zu verwerfen ist und damit die Alternativhypothese mit einer gegebenen Irrtumswahrscheinlichkeit angenommen werden kann.

Das Beibehalten einer Nullhypothese bedeutet aber nicht, dass diese damit nachgewiesen wäre: Sie ist unter den gegebenen Testbedingungen nur nicht widerlegbar.

Page 18: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Mittelwert der Körpergrößen von Populationen.

H0: Der Mittelwert einer STP gleicht dem bereits bekannten Mittelwert einer anderen Population.

HA: Die Alternativhypothese besagt dann, dass der Mittelwert der STP sich signifikant von dem bekannten Vergleichswert unterscheidet, er gehört zu einer anderen Population.

Die Nullhypothese nimmt also an, dass die Abweichungen der Mittel rein zufällig, d.h. stochastischer Natur sind, während die Alternativhypothese diese Zufälligkeit ablehnt und sie einem oder mehreren unbekannten Faktoren zuschreibt.

Page 19: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Mittelwert.

Man hat die Hypothese, dass eine normalverteilte GG den wahren Mittelwert µ = 18 hat, in einer Stichprobe ermittelt man jedoch einen Mittelwert X = 19.5. Mit Hilfe des Tests kann nun entschieden werden, ob diese Abweichung von µ nun geringfügig ist oder so groß ist, dass die Hypothese vom Mittelwert µ = 18 verändert werden muss.

Page 20: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Ernteertrag und neue Düngemethode.

Bei der Fragestellung ob der mittlere Ernteertrag X nach Einführung einer neuen Düngemethode signifikant größer ist als vorher mit dem mittleren Ernteertrag µ, lassen sich die Hypothesen formulieren:

H0: Die unterschiedlichen Ernteerträge sind rein zufällig, also µ = X.

HA: Die durch die Düngemethode erzielten Erträge sind signifikant größer als vorher (hier einseitige Formulierung), also µ < X.

Page 21: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Fehlerwahrscheinlichkeiten: Die Teststatistik kann nur statistische Aussagen über den Wahrheitsgehalt von Hypothesen machen, dabei treten Irrtumswahrscheinlichkeiten bei der Entscheidung auf. Mit der Nullhypothese H0und der Alternativhypothese HA sind dabei mehrere Fälle zu unterscheiden, wobei mit Hilfe eines Stichprobenschätzwertes geklärt werden soll, ob der wahre Wert eines Sachverhaltes bestätigt oder abgelehnt wird.

Für die Ablehnung der Nullhypothese wird eine Irrtumswahrscheinlichkeit (Signifikanzniveau) gewählt, zumeist α = 0.05. In 5% der Fälle ist man also bereit die Nullhypothese abzulehnen, obwohl sie dennoch stimmen könnte.

Es ist auch möglich, dass die Nullhypothese beibehalten wird obwohl sie falsch ist, dafür wird eine Wahrscheinlichkeit β angenommen.

Page 22: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Fehlerwahrscheinlichkeiten: α und β - Fehler.

Wahrer Sachverhalt

Wahre Wert x ist gleich 0 Wahre Wert x ist ungleich 0

Entschei-dung des Tests

Annehmen von H0: x ist gleich 0

Richtige Entscheidung, wahre Sachverhalt stimmt mit Testergebnis überein, P = 1 - α

Falsche Entscheidung, HAwäre richtig, Testergebnis führt aber zu H0,P = β(β-Fehler)

Annehmen von HA: x ist ungleich 0

Falsche Entscheidung, H0wäre richtig, Testergebnis führt aber zu HA, P = α(α-Fehler, Irrtumswahrscheinlichkeit)

Richtige Entscheidung, wahre Sachverhalt stimmt mit Testergebnis überein,P = 1 - β

Page 23: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Fehlerwahrscheinlichkeiten:

• In dem Maße, in dem man das Signifikanzniveau verringert, nimmt die Wahrscheinlichkeit des β-Fehlers zu. Man läuft also zunehmend Gefahr, die Alternativhypothese zu widerlegen, obwohl sie eigentlich richtig ist. Geringe Werte von α sind daher mit größeren Werten von β verbunden und umgekehrt.

• Wenn die Nullhypothese abgelehnt wird, kann nur der Fehler mit Wahrscheinlichkeit α auftreten. Das Testergebnis kann dann entsprechend sicher formuliert werden, dass H0 mit vorgegebener Irrtumswahrscheinlichkeit verworfen wird.

Page 24: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Vorgehensweise des Hypothesentests (zweiseitiger Test): Frage nach dem statistischen Zusammenhang zweier Sachverhalte A und B.

• Formulierung der Nullhypothese H0 und der Alternativhypothese HA.

H0: Es besteht kein Unterschied zwischen A und B.

HA : Es besteht ein signifikanter Unterschied zwischen A und B.

• Festlegung einer Irrtumswahrscheinlichkeit α (Signifikanzniveau) und Ermittlung der Freiheitsgrade FG.

• Auswahl eines geeigneten statistisches Testverfahrens passend zur Fragestellung (mit Normalverteilung, t-Verteilung, χ² -Verteilung).

• Berechnung der Prüfgröße t mit Hilfe einer Schätzfunktion durch die empirischen Werte der STP.

Page 25: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Vorgehensweise des Hypothesentests (zweiseitiger Test): Frage nach dem statistischen Zusammenhang zweier Sachverhalte A und B.

• Bestimmung der Schwellenwerte des Signifikanzniveaus anhand von Tabellen, etwa tα1 und tα2 mit tα1 < tα2 und Vergleich der Prüfgröße t mit diesen Werten:

Ist t < tα1 oder t > tα2, so ist die Nullhypothese abzulehnen und die Alternativhypothese anzunehmen, die Prüfgröße liegt außerhalb der Grenzwahrscheinlichkeit, also im Bereich der Irrtumswahrscheinlichkeit.

Andernfalls ist die Nullhypothese anzunehmen und die Alternativhypothese abzulehnen, die Prüfgröße liegt also innerhalb der Grenzwahrscheinlichkeit.

tα1 tα2µ

1 - α

Ablehnungsbereich AblehnungsbereichAnnahmebereich

Page 26: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Vorgehensweise des Hypothesentests (einseitiger Test): Bei der Hypothesentestung muss lediglich ein Schwellenwert bestimmt und mit der Prüfgröße verglichen werden. Bei dieser Fragestellung kann Überschreitung oder Unterschreitung auftreten.

Eigenschaften des Hypothesentests (einseitig, zweiseitig):

• Je niedriger das Signifikanzniveau gewählt wird, desto kleiner ist der Ablehnungsbereich der Nullhypothese und umso extremere Werte muss die Prüfgröße t des jeweiligen Tests aufweisen, damit die Nullhypothese widerlegt werden kann. Man ist dann also nur noch etwa in 1% (vorher 5%) der Fälle bereit die Nullhypothese abzulehnen und die Alternativhypothese anzunehmen. Die Wahrscheinlichkeit, die Nullhypothese abzulehnen sinkt daher.

Page 27: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Ernteertrag und neue Düngemethode.

Für ein Untersuchungsgebiet soll bestimmt werden, ob der Ernteertrag nach der Einführung einer neuen Düngemethode signifikant größer ist als vorher. Der Ertrag vor Einführung der neuen Düngemethode lag im Mittel bei µ = 1100 kg/ha. Bei einem Versuchsprogramm werden in einer Stichprobe n = 30 Felder untersucht. Die Messungen ergaben einen mittleren Ertrag von X = 1300 kg/ha mit einer Streuung von σX = 500 kg/ha.

Frage:Ist dieser Mehrertrag zufällig oder ist er signifikant größer als der Ernteertrag vorher?

Page 28: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Ernteertrag und neue Düngemethode.

• Formulierung der Nullhypothese H0 und der Alternativhypothese HA:

H0: Die unterschiedlichen Ernteerträge sind rein zufällig, also µ = X.

HA: Die durch die Düngemethode erzielten Erträge sind signifikant größer als vorher (hier einseitige Formulierung), also µ < X.

• Aufgrund der Fragestellung wird ein Signifikanzniveau von 5% verwendet, also α = 0.05. Aufgrund des Stichprobenumfangs n = 30 wird eine Studentsche t-Verteilung zugrunde gelegt.

Page 29: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Ernteertrag und neue Düngemethode.

• Die Prüfgröße soll Unterschiede der Mittelwerte erfassen und ist daher bestimmt durch:

t = (X - µ)/ , mit X mittlerer Ertrag nach und µ Mittelwert vor Einführung der neuen Methode, Streuung und n Umfang der Stichproben.

Die Prüfgröße steht in engem Zusammenhang mit der Angabe der Intervallgrenzen des Konfidenzintervalls. Es ist t = 2.19.

Aus der t-Tabelle für einen einseitigen Test mit n-1 Freiheitsgraden und α = 0.05 ergibt sich für den Schwellenwert des Signifikanzniveaus der Wert tα2 = 1.7.

nXσ

Page 30: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Ernteertrag und neue Düngemethode.

• Wegen tα2 < t bei der geforderten Irrtumswahrscheinlichkeit von 5% liegt die Prüfgröße im Bereich des Ablehnungsbereiches, also oberhalb des aus der Tabelle bestimmten Schwellenwertes für den Vertrauensbereich.

Daher wird die Nullhypothese Ho abgelehnt und die Alternativhypothese HA angenommen. Die durch die Düngemethode erzielten Erträge sind daher signifikant größer als vorher.

Page 31: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Eigenschaften des Hypothesentests (einseitig, zweiseitig):

• Ist der Tabellenwert tα1 und die Prüfgröße t bereits bestimmt, dann führt eine nachträgliche Änderung des Signifikanzniveaus auch zu einer Änderung des Tabellenwertes tα1 und damit möglicherweise auch zu einer Änderung in der Entscheidung über die Annahme der Hypothese. Damit verbunden sind dann allerdings auch veränderte Annahmebedingungen.

• Ist etwa t < tα1 bei 10% (H0 wird beibehalten) aber tα1 < t bei 20% (H0 wird abgelehnt), so bedeutet dies, dass man nun in 20% der Fälle bereit ist, die Nullhypothese abzulehnen, obwohl sie dennoch stimmen könnte.

• Ist etwa tα1 < t bei 10% (H0 wird abgelehnt) aber t < tα1 bei 5% (H0 wird beibehalten), so bedeutet dies, dass man nun die Nullhypothese nicht mehr ablehnen kann, was eigentlich beabsichtigt war.

Page 32: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Temperaturdaten.

Als STP stehen die mittleren jährlichen Lufttemperaturen an n = 30Messstationen zur Verfügung. Die beiden NVT-Parameter µ und σsind zwar nicht bekannt, können aber durch die entsprechenden STP-Kennwerte geschätzt werden. Der Mittelwert ist X = 7,6°C und die Standardabweichung σX = 0,74°C. Die STP stützen die Annahme, dass die Grundgesamtheit normalverteilt ist.

Fragen:• Innerhalb welches Konfidenzintervalls liegt der tatsächliche Mittelwert µ der Grundgesamtheit mit 95% (99%) Wahrscheinlichkeit?

• Weichen die mittleren jährlichen Lufttemperaturen mit einer Irrtumswahrscheinlichkeit von 5% von 7°C ab ?

Page 33: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Temperaturdaten.

• Mit einer statistischen Sicherheit von 95% liegt der unbekannte Mittelwert µ der GG innerhalb des Intervalls [7.32; 7.87].

• Als Nullhypothese H0 wird formuliert: Die Abweichung von 7°C ist nur zufällig bedingt.

• Die Alternativhypothese HA lautet: Die Abweichung ist signifikant.

Page 34: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Temperaturdaten.

Für die Prüfgröße t für Mittelwerte erhält man t = 4.4. Aus der Tabelle für einen zweiseitigen Test mit n-1 Freiheitsgraden und α = 0.05 ergibt sich für den Schwellenwert tα des Signifikanzniveaus der Wert tα = 2.045.

Wegen tα < t bei der geforderten Irrtumswahrscheinlichkeit kann angenommen werden, dass die Temperatur im Mittel von 7°C verschieden ist.

Page 35: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

t-Anpassungstest (gepaart): Prüft die Daten zweier gepaarter Stichproben X1 und X2 (jedem xi1 ist ein xi2 zugeordnet) mit Hilfe der Prüfgröße t, ob sie ähnlich zueinander sind, oder ob signifikante Unterschiede festzustellen sind. Die geeignete Prüfgröße t ist:

, mit xi1 und xi2 Häufigkeiten der beiden STP, n Anzahl der jeweiligen STP, σX1, σX2 Standardabweichungen,Freiheitsgrad 2n-2.n

xxt

XX

n

iii

21

121 )(

σσ −

=∑=

Page 36: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

t-Anpassungstest (ungepaart): Prüft die Daten zweier gepaarter Stichproben X1und X2 (die xi1 haben keinen festen Bezug zu den xi2) mit Hilfe der Prüfgröße t, ob sie ähnlich zueinander sind, oder ob signifikante Unterschiede festzustellen sind. Die geeignete Prüfgröße t ist:

, mit X1 und X2 arithmetische Mittel der beiden STP, n Anzahl der jeweiligen STP, σX1, σX2 Standardabweichungen, Freiheitsgrad 2n-2.n

XXtXX22

21

21σσ −

−=

Page 37: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

F-Test: Prüft mit Hilfe der Prüfgröße F, ob zwei Stichproben X1 und X2 ähnliche Varianz haben, oder ob signifikante Unterschiede festzustellen sind. Die geeignete Prüfgröße F ist:

, mit σX12 < σX2

2 Varianzen, Freiheitsgrad n-2.2

2

2

1

X

XFσ

σ=

Page 38: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Chi-Quadrat Anpassungstest (zwei n × 1- Matrizen): Prüft die Daten einer Stichprobe mit Hilfe der Prüfgröße χ2, ob eine beobachtete Häufigkeitsverteilung Hbeo ähnlich zu der einer erwarteten Häufigkeitsverteilung Herw ist, oder ob signifikante Unterschiede festzustellen sind. Die geeignete Prüfgröße χ2 ist:

, mit herw erwarteten und hbeo beobachteten Häufigkeiten, n Anzahl der Daten, Freiheitsgrad n-1.

Eigenschaften:

• Damit lässt sich feststellen, welcher Verteilung (Normalverteilung, t-Verteilung, Chi2-Verteilung) die beobachtete Häufigkeitsverteilung Hbeo am ähnlichsten ist.

• Aus unterschiedlichen Klasseneinteilungen resultieren unterschiedliche Ergebnisse.

∑=

−=n

i i,erw

i,erwi,beo

h,hh

1

22 )(χ

Page 39: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Vergleich der Häufigkeit von Ergebnissen.

Bei einer Messung der Anzahl von eingetretenen verschiedenen Ereignisse ergibt sich folgende Verteilung:

Hbeo Herw

A 40 50

B 55 50

C 51 50

D 49 50

E 46 50

F 59 50

Summe 300 300

Page 40: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Vergleich der Häufigkeit von Ergebnissen.

Die Formulierung der Nullhypothese Ho besagt, dass die Abweichung nur zufällig bedingt ist. Mit der Prüfgröße χ2 ergibt sich:

Hbeo Herw (Hbeo-Herw)2/Herw

A 40 50 2

B 55 50 0.5

C 51 50 0.02

D 49 50 0.02

E 46 50 0.32

F 59 50 1.62

Summe 300 300 4.48

Page 41: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Vergleich der Häufigkeit von Ergebnissen.

Die Prüfgröße χ2 besitzt den Wert 4.48, der kritische Schwellenwert χα,FG

2 in Abhängigkeit vom geforderten Signifikanzniveau α = 0.05 und n-1 = 5 Freiheitsgraden ist χα,FG

2 = 11.1.

Wegen χ2 < χα,FG2 ist daher die Nullhypothese Ho anzunehmen, die

gemessene Streuung ist daher nur zufällig bedingt.

Page 42: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik - Chi Quadrat-Verteilung

Page 43: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Chi-Quadrat Anpassungstest (zwei n × m- Matrizen): Prüft die Daten einer Stichprobe mit Hilfe der Prüfgröße χ2, nachdem eine beobachtete Häufigkeitsverteilung Hbeo ähnlich zu der einer erwarteten Häufigkeitsverteilung Herw ist, oder ob signifikante Unterschiede festzustellen sind. Die geeignete Prüfgröße χ2 ist:

, mit hij,erw erwarteten und hij,beo beobachteten Häufigkeiten, n Anzahl der Merkmale, m Anzahl der Klassen, Freiheitsgrad (n-1)⋅(m-1).

( )∑ ∑

−= =

=m

j

n

i erwij

erwijbeoij

hhh

1 1 ,

,,2

Page 44: Statistik - Homepage Server Uni-Tübingen · PDF fileIntervallschätzung: Wird gefragt, in welchem Intervall ein gesuchter Parameter mit einer vorgegebenen Wahrscheinlichkeit zu finden

Teststatistik

Beispiel: Vergleich der Häufigkeit von Ergebnissen.

beobachtet erwartet

Männer Frauen Männer Frauen

Zustimmung 58 35 45.35 47.65

Unentschieden 11 25 17.56 18.11

Ablehnung 10 23 16.09 16.91