Statistische Sch¨atz- und Testverfahren - OptiV · 1 Einleitung 1.1 Statistische Sch¨atzungen...

31
Statistische Sch¨ atz- und Testverfahren Mike H¨ uftle 31. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1 Statistische Sch¨ atzungen ...................... 2 1.2 Statistische Tests ........................... 3 2 Statistische Sch¨ atzungen 4 2.1 Eigenschaften einer Sch¨ atzung .................... 4 2.2 Punktsch¨ atzung ............................ 5 2.2.1 Nebenpfad: Methode der kleinsten Quadrate ....... 5 2.3 Maximum-Likelihood-Methode ................... 6 2.3.1 Nebenpfad: Maximum-Likelihood-Sch¨ atzer ......... 6 2.4 Konfidenzsch¨ atzung ......................... 8 2.4.1 Nebenpfad: Konfidenzsch¨ atzung bei Normalverteilungsan- nahme ............................. 9 2.4.2 Nebenpfad: Bestimmung des Stichprobenumfanges .... 9 2.5 Toleranzsch¨ atzungen ......................... 11 3 Statistische Tests 13 3.1 Einleitung ............................... 13 3.2 Tests bei normalverteilter Grundgesamtheit ............ 14 3.3 Tests bei normalverteilter Grundgesamtheit ............ 15 3.4 Nichtparametrische Tests ...................... 16 3.5 Vorzeichentest ............................. 17 4 Anpassungstests 18 4.1 .................................... 18 4.2 Chi-Quadrat-Anpassungstest .................... 19 4.2.1 Nebenpfad: Bestimmung der beobachteten und theoreti- schen Verteilung ....................... 20 5 Ausreißer-Tests 21 5.1 .................................... 21 5.2 Faustregeln .............................. 22 5.3 Ausreißer-Tests nach Dixon und nach Grubbs ........... 23 1

Transcript of Statistische Sch¨atz- und Testverfahren - OptiV · 1 Einleitung 1.1 Statistische Sch¨atzungen...

Statistische Schatz- und Testverfahren

Mike Huftle

31. Juli 2006

Inhaltsverzeichnis

1 Einleitung 21.1 Statistische Schatzungen . . . . . . . . . . . . . . . . . . . . . . 21.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Statistische Schatzungen 42.1 Eigenschaften einer Schatzung . . . . . . . . . . . . . . . . . . . . 42.2 Punktschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.1 Nebenpfad: Methode der kleinsten Quadrate . . . . . . . 52.3 Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . 6

2.3.1 Nebenpfad: Maximum-Likelihood-Schatzer . . . . . . . . . 62.4 Konfidenzschatzung . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.1 Nebenpfad: Konfidenzschatzung bei Normalverteilungsan-nahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.2 Nebenpfad: Bestimmung des Stichprobenumfanges . . . . 92.5 Toleranzschatzungen . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Statistische Tests 133.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2 Tests bei normalverteilter Grundgesamtheit . . . . . . . . . . . . 143.3 Tests bei normalverteilter Grundgesamtheit . . . . . . . . . . . . 153.4 Nichtparametrische Tests . . . . . . . . . . . . . . . . . . . . . . 163.5 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Anpassungstests 184.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Chi-Quadrat-Anpassungstest . . . . . . . . . . . . . . . . . . . . 19

4.2.1 Nebenpfad: Bestimmung der beobachteten und theoreti-schen Verteilung . . . . . . . . . . . . . . . . . . . . . . . 20

5 Ausreißer-Tests 215.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215.2 Faustregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.3 Ausreißer-Tests nach Dixon und nach Grubbs . . . . . . . . . . . 23

1

5.3.1 Nebenpfad: Tabellierte Werte fur den Test nach Dixon . . 245.4 Ausreißer-Test nach Walsh . . . . . . . . . . . . . . . . . . . . . . 255.5 Weitere Ausreißer-Tests . . . . . . . . . . . . . . . . . . . . . . . 26

6 Variablenauswahl 276.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276.2 Losungsansatze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.2.1 Nebenpfad: Mallows Cp-Statistik . . . . . . . . . . . . . . 28

7 Literatur 307.1 Literatur zur Zeitreihenanalyse . . . . . . . . . . . . . . . . . . . 30

2

1 Einleitung

1.1 Statistische Schatzungen

Aussagen uberdie Vertei-

lungsfunktion

Statistische Schatzmethoden dienen dazu, Aussagen uber die unbekannte Ver-teilungsfunktion der Grundgesamtheitoder deren Parameter anhand von Stich-proben aus dieser Grundgesamtheit machen zu konnen.

Punktschatzung Diese Aussagen konnen in Form eines Schatzwertes fur den oder die unbe-kannten Parameter in der Grundgesamtheit gemacht werden (Punktschatzung).

KonfidenzschatzungUm eine Aussage uber die Genauigkeit und Sicherheit eines solchen Schatzwertesmachen zu konnen wird ein Schatzintervall berechnet (Konfidenzschatzung).

ToleranzschatzungToleranzschatzungen geben Intervalle fur den oder die Parameter der Vertei-lungsfunktion an, so dass die Intervalle einen vorgegebenen Anteil der Grund-gesamtheit mindestens beinhalten.

Geschatzte Funktionen und Parameter werden ublicherweise durch ein Dachgekennzeichnet, beispielsweise Θ oder α.

3

1.2 Statistische Tests

VerteilungsannahmenStatistische Tests dienen dazu, anhand von Stichproben Annahmen (Hypo-thesen) uber Verteilungen in der Grundgesamtheit der Daten zu uber-prufen.Insbesondere kann uberpruft werden, ob bestimmte Sachverhalte in den Stich-probendaten zufallig sind oder nicht.

4

2 Statistische Schatzungen

2.1 Eigenschaften einer Schatzung

Eigenschafteneiner gutenSchatzung

Eine gute Schatzung Θ soll die folgenden vier Eigenschaften aufweisen:

• Die Schatzung solloder unverzerrt sein, d.h. der Erwartungswert von Θsoll gleich dem zu schatzenden Parameter sein.

• Die Schatzung soll konsistent sein, d.h. Θ soll mit wachsendem Stichpro-benumfang gegen den wahren Parameter Θ konvergieren.

• Eine effiziente Schatzung schatzt mit einer geringen Varianz. Gilt furzwei erwartungstreue und konsistente Schatzungen Θ1 und Θ2 desselbenParameters Θ die Beziehung Var(Θ1) ¡ Var(Θ2) , so heißt Θ1 relativ effi-zienter als Θ2. Die effizientere Schatzung wird bevorzugt.

• Eine Schatzung soll erschopfend oder suffizient sein. Das bedeutet, dassdurch sie alle in der Stichprobe enthaltenen Informationen uber den un-bekannten Parameter Θ ausgenutzt werden und keine andere Schatzungzusatzliche Erkenntnisse uber Θ bringt.

Beispiel Beispielsweise ist die relative Haufigkeit eines Ereignisses A aus einer dichotomenStichprobe eine erwartungstreue, konsistente und effektive Schatzung fur dieEintrittswahrscheinlichkeit p des Ereignisses A.Die Wahrscheinlichkeit p ist hier der unbekannte Parameter Θ .

5

2.2 Punktschatzung

Problem derPunktschatzung

Das Problem der Punktschatzung besteht darin, fur die unbekannte Verteilungs-funktion der Grundgesamtheit oder fur ihre Parameter Θ anhand von Stichpro-ben Schatzungen zu bestimmen und eventuell aus mehreren Schatzungen diegeeignetste auszuwahlen.

Schatzfunkti-on

Eine Schatzfunktion, Punktschatzung oder auch kurz Schatzung genannt ist eineZufallsgroße und besitzt somit eine Verteilung, die von der Verteilungsfunk-tion der Grundgesamtheit abhangt und aus dieser hergeleitet werden kann.

Methode derkleinstenQuadrate

Die auf C.F. Gauss zuruckgehende Methode der kleinsten Quadrate ist derwohl am haufigsten angewendete Punktschatzer und kann im Gegensatz zurMaximum-Likelihood-Methode auch dann angewendet werden, wenn der Ver-teilungstyp der Grundgesamtheit nicht bekannt ist.

2.2.1 Nebenpfad: Methode der kleinsten Quadrate

Minimierungder

quadratischenAbweichungen

Die Methode der kleinsten Quadrate minimiert die quadratischen Abwei-chungen zwischen den Stichprobenwerten xi und dem unbekannten ParameterΘ. Hierzu muss fur Θ die Forderung

n∑i=1

(xi − Θ)2 = min

n∑i=1

(xi −Θ)2 (1)

gelten. Die Abweichung bzw. der Abstand zwischen der Schatzung Θ und dengemessenen Werten xi kann als eine Schatzung fur die in der Realitat auftretendeStorgroße interpretiert werden, welche durch die Schatzung minimiert werdensoll.

6

2.3 Maximum-Likelihood-Methode

MethodenbeschreibungDie von R.A. Fisher entwickelte Maximum-Likelihood-Schatzmethode bestimmtden geschatzten Parameter, welcher die Wahrscheinlichkeit (likelihood) desAuftretens der in einer Stichprobe beobachteten Messungen maximiert. Einedetailliertere Methodenbeschreibung finden Sie hier.

Eigenschaftender

ML-Schatzung

Existiert fur einen Parameter ein erschopfenderSchatzwert, dann entsprichtdieser dem nach der Maximum-Likelihood-Methode bestimmten Parameter.Hieraus folgt, dass erschopfende statistische Kennwerte, wie beispielsweise dasarithmetische Mittel oder die Varianz, gleichzeitig Maximum-Likelihood-Schatzun-gen der Parameter µ und σ2 sind.Jedoch sind die Maximum-Likelihood-Schatzungen nicht gleichzeitig erwar-tungstreueSchatzungen.

Anwendungder

ML-Schatzung

Die Maximum-Likelihood-Methode fuhrt in den meisten praktischen Fallen zumZiel. Sie setzt jedoch voraus, das der Verteilungstyp F der Zufallsgroße X inder Grundgesamtheit bekannt ist.Bei bekanntem Verteilungstyp liefern die Methode der kleinsten Quadrate unddie Maximum-Likelihood-Methode asymptotisch dieselben Schatzungen.

WeiterePunktschatzer

Weitere Schatzmethoden sind die Minimum-Chi-Quadrat-Methode und dieMomentenmethode.

2.3.1 Nebenpfad: Maximum-Likelihood-Schatzer

MethodenbeschreibungAusgangspunkt dieser Schatzmethode ist eine Stichprobe vom Umfang n auseiner nach F verteilten Grundgesamtheit. F hange von einem unbekannten Pa-rameter Θ ab.Um die maximale Auftretenswahrscheinlichkeit der Messungen in einer Stich-probe in Abhangigkeit vom unbekannten Parameter Θ zu ermitteln wird eineWahrscheinlichkeitsfunktion, die Likelihoodfunktion, definiert, welche nachΘ differenziert wird. Ist die Zufallsgroße X diskret verteilt, so ergibt sich dieLikelihoodfunktion zu

L(x1, ...xn; Θ) = P (X = x1) · ... · P (X = xn) =n∏

i=1

P (X = xi) (2)

7

und bei stetiger Verteilung zu

L(x1, ... xn; Θ) =n∏

i=1

fi(x) (3)

Wird die Ableitung dieser Gleichung Null gesetzt, so ergibt sich die Bestim-mungsgleichung fur den unbekannten Parameter Θ zu

d ln L

d Θ= 0 (4)

8

2.4 Konfidenzschatzung

ParameterintervalleDa Punktschatzungen zufallsabhangig sind und damit von Stichprobe zuStichprobe schwanken konnen, ist es oft sinnvoll Intervalle zu berechnen, indenen die unbekannten Parameter mit großer Wahrscheinlichkeit liegen.

KonfidenzgrenzenKonfidenzschatzungen (Intervallschatzungen, Bereichsschatzungen) berechnenaus der Stichprobe Intervalle, in denen der unbekannte Parameter der Ver-teilung der Grundgesamtheit mit einer Wahrscheinlichkeit ε zu erwarten ist.Solche Intervalle bezeichnet man als Konfidenz- oder Vertrauensintervalle J =(Gu, Go) mit der unteren bzw. oberen Konfidenzgrenze Gu bzw. Go. gu und go

sind die tatsachlichen Realisierungen der Konfidenzgrenzen.

Konfidenzkoeffizientund Signifi-kanzniveau

ε wird Konfidenzkoeffizient, Konfidenzniveau oder Uberdeckungswahrscheinlich-keit genannt und wird meist mit 0.95, 0.99 oder 0.999 vorgegeben.α =1-ε bezeichnet die Irrtumswahrscheinlichkeit oder das Signifikanzni-veau. Da die Konfidenzgrenzen von der Stichprobe abhangen und somit Zu-fallsgroßen sind, ist auch das Konfidenzintervall J ein zufalliges Intervall.

Genauigkeitder Schatzung

Die Lange des Konfidenzintervalls L = go−gu ist ein Maß fur die Genauigkeit derSchatzung. Mit wachsendem Stichprobenumfang wird das Konfidenzinter-vall kleiner, die Schatzung also genauer. Demgegenuber wird mit wachsenderUberdeckungswahrscheinlichkeit ε die Schatzung ungenauer.

Anwendung Welche Konfidenzschatzungen fur ein bestimmtes Problem anzuwenden sindhangt davon ab, welche Parameter der Verteilungsfunktion bekannt sindbzw. ob eine Annahme uber den Verteilungstyp getroffen werden kann.Beispielhaft werden die Konfidenzschatzungen fur die Parameter bei normal-verteilter Grundgesamtheit angegeben. Fur weitere Konfidenzschatzungen wirdauf die angegebene Literatur verwiesen. Nahere Erlauterungen zur Anwendungvon Konfidenzschatzungen bei der Bestimmung des Stichprobenumfanges findenSie hier.

9

2.4.1 Nebenpfad: Konfidenzschatzung bei Normalverteilungsannah-me

Konfidenzschatzungbei

unbekanntemµ/bekanntem

σ2

Ist das Verteilungsgesetz der Grundgesamtheit die Normalverteilung mit un-bekanntem Parameter µ und (aus Erfahrungswerten) bekanntem σ2, sokann das Konfidenzintervall fur den Mittelwert µ wie folgt berechnet werden:Der Mittelwert wird als arithmetisches Mittel X geschatzt. Das Konfidenzinter-vall fur µ lautet:

X − z1−α2

σ√n

< µ < X + z1−α2

σ√n

(5)

mit dem arithmetischen Mittel X und der Stichprobengroße n.Fur vorgegebene Werte von α liegen die Quantile der standardisierten Nor-malverteilung z1−α

2tabelliert vor.

Konfidenzschatzungbei

unbekanntemµ/unbekanntem

σ2

Zur Schatzung des Konfidenzintervalls fur den Mittelwert µ der normal-verteilten Grundgesamtheit bei unbekanntem σ2 wird zunachst die Standard-abweichung geschatzt und dann das Konfidenzintervall bestimmt zu

X − tm; 1−α2

S√n

< µ < X + tm; 1−α2

S√n

(6)

wobei S die empirische Standardabweichung als Schatzung fur σ2 ist und tm; 1−α2das

Quantil dert-Verteilung mit m Freiheitsgraden

2.4.2 Nebenpfad: Bestimmung des Stichprobenumfanges

Stichprobenumfangzur Schatzung

einesParameters

Konfidenzintervalle werden auch benutzt, um den notwendige Stichproben-umfang zur Schatzung eines Parameters zu bestimmen. Gibt der Benutzer einbestimmtes Konfidenzniveau vor, welches die Genauigkeit der Schatzung defi-niert, so kann hieraus der notwendige Stichprobenumfang zur Erreichung dieserGenauigkeit berechnet werden.

Berechnungdes Stichpro-benumfanges

Generell gilt, dass mit kleiner werdendem Konfidenzintervall bei konstantemKonfidenzniveau der benotigte Stichprobenumfang quadratisch wachst.Eine Formel zur Bestimmung des Stichprobenumfanges in Abhangigkeit von derLange L des Konfidenzintervalles und bekanntem bzw. geschatztem Erwartungs-wert µ gibt BORTZ (1985) an:

10

n =4 · z2

1−α/2 · σ2

L2(7)

Anwendung Schwierigkeiten bei der Ermittlung der notwendigen Stichprobenumfange be-reitet der Standardfehler, der im allgemeinen unbekannt ist, da die Parameterµ und σ2 nicht vorliegen. Deshalb sollten die unbekannten Parameter durchVoruntersuchungen abgeschatzt werden. Danach wird eine erste Schatzung desStichprobenumfanges vorgenommen, die eventuell mit neuen Daten verbessertwird, bis sich die Schatzungen der unbekannten Parameter stabilisiert haben.

11

2.5 Toleranzschatzungen

StatistischeToleranzinter-

valle

Toleranzschatzungen sind Parameterschatzungen unter der Annahme, dass einbestimmter Mindestanteil der Grundgesamtheit mit vorgegebener Wahr-scheinlichkeit innerhalb eines Intervalls liegt.Diese Intervalle, die anhand von Stichproben berechnet werden, heißen statisti-sche Toleranzintervalle und ihre Grenzen statistische Toleranzgrenzen.

Toleranzgrenzen Die untere bzw. obere statistischen Toleranzgrenzen Tu bzw. To sind Zufalls-zahlen und werden anhand einer Stichprobe vom Umfang n so bestimmt, dassdie Wahrscheinlichkeit dafur, dass zwischen den Grenzen mindestens der Anteilγ der Grundgesamtheit liegt, gleich β sein soll.Die Wahrscheinlichkeit β heißt Sicherheitsniveau, statistische Sicherheit oderVertrauensniveau. γ ist das Uberdeckungsniveau. Bei gegebenem β und γwerden fur eine Stichprobe n die Realisierung τu und τo als das zweiseitigestatistische Toleranzintervall (τu, τo) bestimmt.

Toleranzfaktoren Die Toleranzgrenzen konnen folgendermaßen berechnet werden:

τu = x− kn; β, γ · s (8)

undτ0 = x + kn; β, γ · s (9)

wobei xund s arithmetisches Mittel und Standardabweichung der Stichprobesind.Die Toleranzfaktoren kn;β,γ hangen vom Stichprobenumfang, vom Sicher-heitsniveau β und vom Uberdeckungsniveau γ ab und liegen in Tabellen vor.Ebenfalls liegen Toleranzfaktoren fur die Falle σ2 bekannt und µ unbekanntbzw. µ bekannt und σ2 unbekannt sowie fur einseitige Toleranzintervalle vor.

Verteilungsfreiestatistische

Toleranzgren-zen

Werden keine Annahmen uber den Verteilungstyp in der Grundgesamt-heit gemacht, so spricht man von verteilungsfreien statistischen Toleranzgren-zen. Es wird lediglich die Stetigkeit der Verteilungsfunktion vorausgesetzt.

MindesstichprobenumfangBei der verteilungsfreien Toleranzschatzung wird der minimale Stichprobe-numfang n0 gesucht, bei dem mit der Wahrscheinlichkeit β mindestens derAnteil γ der Grundgesamtheit zwischen dem kleinsten (xmin) und dem großten

12

(xmax) Wert der Stichprobe liegt. xmin und xmax werden als verteilungsfreieoder nichtparametrische statistische Toleranzgrenzen bezeichnet.

Der Mindeststichprobenumfang n0 ergibt sich bei zweiseitigem verteilungsfreienstatistischem Toleranzintervall aus der Beziehung

n · γn0−1 − (n− 1) · γn ≤ 1− β (10)

und bei einseitigem verteilungsfreien statistischem Toleranzintervall aus

γn0 ≤ 1− β (11)

Fur die einzelnen Werte von n existieren Tafeln, aus denen man den Mindest-stichprobenumfang ablesen kann.

13

3 Statistische Tests

3.1 Einleitung

Hypothesenuber die

Verteilung inder Grundge-

samtheit

Statistische Tests oder Prufverfahren dienen dazu, an Hand von StichprobenHypothesen uber das Verteilungsgesetz in der Grundgesamtheit zu uberprufen.Oft existiert uber die unbekannte Verteilungsfunktion oder ihre unbekanntenParameter (wie z.B. µ, σ2) eine bestimmte Vorstellung, die als statistischeHypothese H formuliert wird. Wird neben H noch eine weitere Hypothese be-trachtet, so nennt man H0 Nullhypothse und H1 die Alternativhypothese.

Uberprufungder

Hypothesen

Die Uberprufung der Hypothesen erfolgt mittels statistischer Tests. Ein Testentscheidet daruber, ob die Daten einer konkreten Stichprobe zur aufgestelltenHypothese H0 im Widerspruch stehen oder nicht, d.h. ob H0 abzulehnen istoder nicht.

Grundsatzlich wird zwischen parametrischen und nicht-parametrischen Testsunterschieden.

ParametrischeTests

Parametrische Tests gehen von der Annahme aus, dass die Daten der Grundge-samtheit ein bestimmtes Skalenniveau und eine bestimmte Verteilungaufweisen (haufig wird die Normalverteilung angenommen), deren Gestalt bisauf einen oder mehrere unbekannte Parameter bekannt ist. Werden diese An-nahmen verletzt, so hat dies Einschrankungen bei der Gute der Testergebnissezur Folge.

Nicht-parametrische

Tests

Nicht-parametrische (parameterfreie, verteilungsfreie) Tests hingegen setzenkeine bestimmte Verteilung in der Grundgesamtheit voraus. Sie ha-ben jedoch auch eine geringere Gute als parametrische Tests.Daher ist ein vorhandener Unterschied bei Anwendung eines nicht-parametrischenTests weniger oft signifikant als bei Anwendung eines parametrischen Tests.Wird ein Unterschied mit einem nicht-parametrischen Test als signifikant be-stimmt, so ist dieser auch bei Verwendung eines parametrischen Tests signifi-kant. Der Umkehrschluss gilt jedoch nicht.

14

3.2 Tests bei normalverteilter Grundgesamtheit

Existiert eine Hypothese H0 fur den unbekannten Mittelwert µ0 (H0 : µ =µ0) der normalverteilten Grundgesamtheit bei bekannter Streuung, so kanndieser anhand einer Stichprobe auf seine Richtigkeit gestestet werden. Weichtder, aus der Stichprobe berechnete Mittelwert (z.B. das arithmetische Mittel),vom hypothetischen Wert µ0 ab, so stellt sich die Frage ob die Hypothese H0

aufrecht erhalten werden kann oder wie groß die Abweichung hochstens seindarf, damit sie noch als unwesentlich betrachtet werden kann.

SignifikanteAbweichung

Ist die Wahrscheinlichkeit, dass die Abweichung großer oder gleich einem Wertd ist, kleiner oder gleich einer Schranke α, so wird die Abweichung als si-gnifikant oder statistisch gesichert bezeichnet. Dies fuhrt zur Ablehnungvon H0. Oder formal:

P (|X − µ0| ≥ d) ≤ α (12)

. Ist dagegen die Wahrscheinlichkeit fur das Ereignis ”Abweichung großer odergleich d“ großer als α, so ist die Abweichung zufallig oder nicht signifikant.Demzufolge wird H0 nicht abgelehnt.

Fehler 1. Art Dies bedeutet jedoch nicht, dass H0 angenommen wird. Es besagt lediglich,dass das Stichprobenergebnis nicht im Widerspruch zur aufgestellten Hypothesesteht. Dies bedeutet aber auch, dass eine Aussage daruber, ob eine Hypotheseabzulehnen richtig oder falsch ist, nur mit einer bestimmten Wahrscheinlichkeitα getroffen werden kann. Wird die Nullhypothese falschlicherweise abge-lehnt, so wird von einem Fehler 1. Art gesprochen.

SignifikanzniveauDieser Test auf Ablehnung von H0 wird Signifikanztest genannt und α entspre-chend Signifikanzniveau oder auch Irrtumswahrscheinlichkeit. Da α moglichstklein gehalten werden soll, wird in der Praxis mit α-Werten von 0,05, 0,01 oderauch 0,001 gearbeitet.

15

3.3 Tests bei normalverteilter Grundgesamtheit

Fehler 2. Art Ein Fehler 2. Art wird begangen, wenn die Hypothese H0 nicht verworfen wird,obwohl sie falsch ist. Dies hangt vom Wert des unbekannten Parameters in derGrundgesamtheit ab. Der Fehler 2. Art kann bei einem Signifikanztest dahernicht angegeben werden.Hierzu muss neben der Nullhypothese eine Alternativhypothese H1 aufgestelltund ein Alternativentest durchgefuhrt werden. Bei einem Alternativentestwird aufgrund einer konkreten Stichprobe entschieden, ob H0 abgelehnt (unddamit H1 angenommen) wird oder H0 angenommen (und damit H1 abgelehnt)wird.Dabei soll der Test so beschaffen sein, dass der Fehler 2. Art moglichst kleinwird. Zur Darstellung dieser Zusammenhange dient die Gutefunktion desTests, die in Abhangigkeit vom wahren Parameter die Wahrscheinlichkeit furdie Ablehnung der Nullhypothese angibt.

Einseitige undzweiseitige

Tests

Bei einem einseitigen Test interessiert nur die Abweichung nach einer Seite,z.B. wenn es nur darauf ankommt, ob ein Stichprobenmittelwert zu groß ist,wahrend ein zu kleiner Mittelwert ohne Bedeutung ist. Im Gegensatz dazu in-teressieren bei einem zweiseitigen Test die Abweichungen nach beiden Seiten.

16

3.4 Nichtparametrische Tests

Alle bisher dargestellten statistischen Tests setzen voraus, dass die Gestalt derVerteilungsfunktion bis auf einzelne Parameter bekannt ist. Die Hypothesenbeziehen sich dann auf die unbekannten Parameter.

Nichtparametrische, parameterfreie oder verteilungsfreie Tests prufen Hypothe-sen, ohne die zugrunde liegende Verteilungsfunktion der Grundge-samtheit zu kennen. Dies ist ein großer Vorteil dieser Methoden, da siebeispielsweise von der Annahme einer normalverteilten Grundgesamtheit un-abhangig sind. Allerdings haben die Methoden den Nachteil einer geringerenGute gegenuber den parametrischen Tests, d.h. die statistische Absicherung istoft geringer. Wird jedoch mit einem nichtparametrischen Test ein Unterschiedals signifikant erkannt, so ist dieser auch im parametrischen Test signifikant.

Effizienz einesTests

Die Effizienz oder die Wirksamkeit eines Tests (in Vergleich zu einem anderen)wird ermittelt als Verhaltnis der Stichprobenumfange beider Tests die zurErreichung der gleichen Gute notwendig sind. Dies basiert auf der Tatsache, dassdie Steilheit der Gutefunktion mit wachsendem Stichprobenumfang zunimmt.Somit lasst sich fur einen nichtparametrischen Test die gleiche Gute erzielenwie fur einen parametrischen, wenn nur der Stichprobenumfang genugend großgewahlt wird.

Anwendung Grundsatzlich gilt, dass wenn die Voraussetzungen fur einen Parametertesterfullt sind, ein solcher angewendet werden sollte. Ansonsten ist ein nichtpa-rametrischer Test meist wirksamer.

17

3.5 Vorzeichentest

ParameterfreierTest fur

verbundeneStichproben

Der Vorzeichentest zum Vergleich von zwei verbundenen Stichprobenist einer der rechnerisch einfachsten parameterfreien Tests. Er ist auf verbun-dene oder abhangige Stichproben anwendbar, also Stichproben, bei denen dieWerte paarweise einander zugeordnet werden konnen. Beispielsweise sinddies Messungen mit zwei verschiedenen Messinstrumenten an den gleichen Ob-jekten, so dass fur jedes Objekt zwei Messungen vorliegen.Die einzige Voraussetzung fur seine Anwendbarkeit ist die Stetigkeit der Vertei-lungsfunktion in der Grundgesamtheit.

Differenz derMesswertpaare

Fur den Vorzeichentest wird die Differenz jedes Messwert-Paares gebildet. Beieinseitiger Fragestellung, d.h. wenn lediglich interessiert, ob die Werte einesMessverfahrens wesentlich großer als die des anderen sind, so wird die Nullhypo-these (gleich viele negative wie positive Differenzen) abgelehnt, wenn die Anzahlder positiven Differenzen einen kritischen Wert ubersteigt.

18

4 Anpassungstests

4.1

Nullhypotheseund Alterna-tivhypothese

Anpassungstests prufen, ob eine gegebene Stichprobe aus einer Grundgesamt-heit mit einer bestimmten Verteilung stammt. Es wird also die NullhypotheseH0 gepruft:Das Merkmal x hat die Wahrscheinlichkeitsverteilung F (x0), d.h. H0 : F (x) =F (x0)

Als Alternativhypothese H1 wird in der Regel die zweiseitige FragestellungH1 : F (x) 6= F (x0)betrachtet.

Wichtige An-passungstests

Die wichtigsten Anpassungstests sind:

• χ2-Anpassungstest

• Kolmogorow-Smirnow-Test

• Shapiro-Wilk-Test

19

4.2 Chi-Quadrat-Anpassungstest

Nicht-parametrischer

Test

Der χ2-Anpassungstest ist ein nicht-parametrischer Test der uberpruft, obeine Stichprobe aus einer Grundgesamtheit mit einer bestimmten Verteilungstammt.Der Test vergleicht die beobachtete statistische Verteilung der Stichpro-be mit einer theoretischen Verteilung der Grundgesamtheit.

Testgroße Zur Prufung der Hypothese H0 wird die Testgroße

χ2 =k∑

j=1

(nj − nj0)2

njo(13)

berechnet, welche die theoretischen Haufigkeiten nj0 mit den empirischenHaufigkeiten nj der Klassen j vergleicht.

Ablehnung derNullhypothese

Die Nullhypothese wird abgelehnt, wenn die Testgroße groß, d.h. die Dif-ferenz zwischen beobachteten und theoretischen Haufigkeiten klein ist. Wenndie Nullhypothese richtig ist, also nicht abgelehnt wird, dann genugt diezugehorige Zufallsgroße naherungsweise einer χ2-Verteilung mit k-1 Freiheits-graden.Um dies zu entscheiden wird der Wert der Testgroße χ2 aus den beobachtetenWerten mit dem theoretischen Wert χ2

k−1;1−α verglichen. Dieser kann nach Wahleines Signifikanzniveaus α (z.B. α=0,05) aus Tabellen abgelesen werden (voneiner Statistiksoftware wird er berechnet).

Gilt

χ2 ≥ χ2k−1;1−α (14)

so wird H0 abgelehnt, d.h. die Grundgesamtheit hat mit hoher Wahrschein-lichkeit nicht die Verteilung F0(x). Fur

χ2 ≤ χ2k−1;1−α (15)

wird H0 nicht abgelehnt, d.h. die Verteilungsannahme F0(x)ist gerechtfertigt.

20

Damit dies gilt, durfen die theoretischen Haufigkeiten jedoch nicht zu kleinsein. In der Regel werden Haufigkeiten nj0 ≥ 5 gefordert. Ist dies nicht erfullt,so mussen benachbarte Klassen Kj , Kj−1

zusammengefasst werden.

4.2.1 Nebenpfad: Bestimmung der beobachteten und theoretischenVerteilung

BeobachteteHaufigkeiten

Die empirische Verteilung wird bestimmt, indem die Merkmalsauspragungen deszu untersuchenden Merkmals x in Klassen K1, K2, ...Kk eingeteilt werden unddie absoluten oder relativen beobachteten Haufigkeiten fur diese Klassenermittelt werden.

TheoretischeHaufigkeiten

Zur Bestimmung der theoretischen Haufigkeiten wird berechnet, wie vieleBeobachtungen einer Stichprobe der Große n in einer Klasse Kj liegen mussten,wenn das Merkmal x tatsachlich die Verteilung F0(x) hatte. Dann ist

nj0 = pj · n (16)

die unter der hypothetischen Verteilung F0(x) in der Klassej zu erwartendeHaufigkeit des Merkmals x.Um pj berechnen zu konnen, mussen die Parameter der angenommenen Vertei-lung aus der Stichprobe geschatztwerden.

21

5 Ausreißer-Tests

5.1

Problemstellung Die Messwerte einer Stichprobe enthalten teilweise einzelne Werte, welche vonden ubrigen Werten extrem abweichen. Dies kann beispielsweise auf Grundfalscher oder verfalschter Messungen der Fall sein.Das Auftreten solcher Ausreißer kann darauf basierende statistische Berechnun-gen stark beeinflussen.

Daher ist es wunschenswert, die Stichprobe von solchen Werten bereits im Vor-feld statistischer Analysen zu bereinigen. Hierzu muss jedoch entschiedenwerden, ob ein solcher Ausreißerwert tatsachlich ein verfalschter Wert ist oder obes sich um einen extremen Wert einer Stichprobe handelt, der in der Stichprobeenthalten bleiben sollte.

Nullhypothese Ein extremer Wert wird somit nur als Ausreißer identifiziert, wenn durch einenAusreißertest die Nullhypothese abgelehnt wird, die besagt, dass der Ausreißerein Stichprobenwert aus der Grundgesamtheit ist. Ein so erkannter Ausreißerkann mit einem anschließenden Bereinigungsverfahren aus der Stichprobe elimi-niert werden.

AlternativhypotheseBei den meisten Ausreißertests besteht die Alternativhypothese in der Annah-me, dass ein Stichprobenwert aus einer Grundgesamtheit mit einem große-ren bzw. kleiner Mittelwert stammt.

Einseitige undzweiseitigeAusreißer-

Tests

Sind Abweichungen vom Mittelwert nach beiden Seiten zugelassen, so handeltes sich um einen zweiseitigen Ausreißertest. Interessiert dagegen nur die Abwei-chung nach einer Seite, so handelt es sich um einen einseitigen Test. Mit solcheinem Test kann immer nur ein Ausreißer erkannt werden.

22

5.2 Faustregeln

Test beiNormalvertei-lungsannahme

Wird die Normalverteilungsannahme fur die Grundgesamtheit vorausgesetzt, sokann ein extremer Wert als Ausreisser angesehen werden, wenn er nicht in einembestimmten Bereich der Standardabweichung liegt.Meist wird dieser Bereich durch die 2,5-fache Standardabweichung definiert.Etwa 99% der Beobachtungen einer Normalverteilung liegen in diesem Bereich.

Test ohneNormalvertei-lungsannahme

Kann die Normalverteilungsannahme nicht vorausgesetzt werden, so wird oftein Bereich von +/- 4 Standardabweichungen verwendet. Hiermit kann si-chergestellt werden, dass mindestens 94% der Beobachtungen in diesem Bereichliegen.

Test bei un-symmetrischen

Verteilungen

Ist die zugrundeliegende Verteilung unsymmetrisch, so kann der Bereich, außer-halb dessen Werte als Ausreisser definiert werden, durch den Interquartilsab-stand zwischen dem 1. x0.25 und dem 3. Quartil x0.75 definiert werden:

x0.25 − 1.5(x0.75 − x0.25) < xi < x0.75 + 1.5(x0.75 − x0.25) (17)

Die bekannteste Darstellung, wo dieser Test eingesetzt wird, ist der Boxplot.

23

5.3 Ausreißer-Tests nach Dixon und nach Grubbs

Ausreißertestnach Dixon

Mit dem Ausreißertest bei normalverteilter Grundgesamtheit nach Di-xon kann die einseitige Fragestellung fur den großten bzw. den kleinstenWert einer geordneten Stichprobe uberpruft werden.Wird der großte Wertx(max) untersucht, so wird die Testgroße

t =x(max) − x(max−1)

x(max) − x(1)(18)

verwendet.

Wird der kleinste Wert der Stichprobe uberpruft, so wird als Testgroße

t =x(2) − x(1)

x(min) − x(1)(19)

verwendet. In beiden Fallen wird H0 abgelehnt, wenn t ≥ τn;α gilt.

Die Werte fur τn;α sind in Abhangigkeit vom Stichprobenumfang n und derIrrtumswahrscheinlichkeit α tabelliert.

ErweiterterGrubbs-Test

Eine Erweiterung des Grubbs-Test als zweiseitiger Test setzt ebenfalls einenormalverteilte Grundgesamtheit voraus, wobei die Parameter µ und σ2 nichtals bekannt vorausgesetzt werden.

Zur Prufung der Nullhypothese wird die Testgroße

t =max|xi − x|

s1(20)

verwendet mit x als arithmetischem Mittel der Stichprobenwerte und s1 alsMittel der quadratischen Abweichungen von x.Die Nullhypothese wird abgelehnt, wenn t ≥ wn;α gilt, wobei die Werte wn;α

tabelliert vorliegen. Ablehnung von H0 bedeutet, dass entweder der großte oderder kleinste Wert der Stichprobe als Ausreißer erkannt wird.

24

5.3.1 Nebenpfad: Tabellierte Werte fur den Test nach Dixon

Die Tabelle zeigt einen Auszug aus den tabellierten Werten τn;α in Abhangigkeitvom Stichprobenumfang n und der Irrtumswahrscheinlichkeit α.

τn;α 0.005 0.01 0.05 0.1 0.23 0.994 0.988 0.941 0.886 0.7825 0.824 0.782 0.643 0.559 0.4527 0.681 0.636 0.507 0.433 0.3449 0.596 0.555 0.436 0.370 0.29110 0.568 0.527 0.412 0.349 0.27415 0.473 0.438 0.338 0.284 0.22020 0.426 0.393 0.300 0.251 0.19325 0.395 0.364 0.277 0.230 0.17630 0.371 0.342 0.260 0.216 0.165

25

5.4 Ausreißer-Test nach Walsh

Ausreißertestnach Walsh

Der Test von Walsh kann bei nicht-normalverteilten Daten angewendet wer-den. Er benotigt jedoch eine relativ große Anzahl von Beobachtungen (z.B. n ¿220 fur ein Signifikanzniveau von α = 0.05).

Zur Durchfuhrung des Tests sind folgende Schritte erforderlich:

1. Sortieren des Datensatzes in aufsteigender Reihenfolge x1, x2, ... xn.

2. Festlegen einer Anzahl r≥1 moglicher Ausreisser.

3. Berechnen von c = [√

2n] ([x] ist die nachstgroßere ganze Zahl von x, z.B.[4.27]=5) und

a =1 +

√1/α ·

√c−1/αc−1

c− 1/α− 1(21)

4. Dann gilt:

• Die r kleinsten Beobachtungen sind Ausreisser (beim Signifikanz-niveau α), wenn gilt:

xr − (1 + a) · xr+1 + a · xk < 0

• Dier großten Beobachtungen sind Ausreißer, wenn gilt:

xn+1−r − (1 + a) · xn−r + a · xn+1−k > 0

• Gelten beide Ungleichungen, so konnen sowohl die r kleinsten alsauch die r großten Beobachtungen als Ausreißer betrachtet werden.

26

5.5 Weitere Ausreißer-Tests

Ausreißer inhochdimensio-

nalenRaumen

Ublicherweise konnen statistische Ausreißertests nur fur ein Attribut durch-gefuhrt werden. Dies ist jedoch fur viele reale Anwendungen zu wenig, meistmussen Ausreißer in hochdimensionalen Raumen gesucht werden.Außerdem sind fur statistische Tests meist Kenntnisse uber bestimmte Pa-rameter der Grundgesamtheit notwendig, die in der Realitat selten vorliegenund in dem Fall, fur den kein spezieller Test existiert, kann nicht garantiertwerden, dass alle Ausreißer gefunden werden.

DistanzmessungenEine weitere Strategie zum Auffinden von Ausreißern basiert auf Distanzmes-sungen zwischen Objekten.Ein Objekt wird als Ausreißer DB(p,d) identifiziert, wenn ein Anteil p aller Ob-jekte weiter als d vom betrachteten Objekt entfernt ist.Die Komplexitat dieses Problems liegt in der Suche nach Nachbarobjekteninnerhalb d fur jedes Objekt. Hierfur existieren eine Reihe von Losungen wiebeispielsweise die Verwaltung der Objekte in indizierten Baumen oder in ver-schachtelten Schleifen. Problematisch an diesen Algorithmen ist die Bestimmungder Parameter p und d, welche der Benutzer festlegen muss.

27

6 Variablenauswahl

6.1 Problemstellung

Teilmengender Merkmale

Obwohl in vielen Fallen eine große Anzahl an Merkmalen zur Untersuchungeiner statistischen Fragestellung zur Verfugung steht, ist es haufig wunschens-wert nur eine begrenzte, aussagekraftige Untermenge der Merkmale zuanalysieren. Grunde hierfur sind:

• Ist die Anzahl der verfugbaren Beobachtungen im Verhaltnis zur Anzahlder Merkmale relativ klein, so kann dies zu einer schlechten Anpassungdes Modells an die Daten fuhren, da die Modellparameter nur ungenaugeschatzt werden konnen.

• Zu viele Merkmale konnen zu einer Uberanpassung (Overfitting) desModells an die Daten fuhren (z.B. bei der Klassifikation).

• Eine haufige Fragestellung bei der statistischen Analyse ist die nach den

”wichtigen“, einflussreichen Merkmalen.

• Durch die Identifizierung aussagekraftiger Merkmale kann die (teure) Er-hebung nicht aussagekraftiger Merkmale vermieden werden.

28

6.2 Losungsansatze

VollstandigeEnumeration

Im Prinzip konnen alle moglichen Kombinationen von Merkmalen aus-probiert und die hiermit erzeilten Ergebnissen verglichen werden. Dies ist aberfur reale Probleme aufgrund der großen Anzahl moglicher Kombinationen nichtdurchfuhrbar.

Es gibt eine Vielzahl von Ansatzen zur Merkmalsauswahl, Beispiele sind:

• Mallows’ Cp-Statistik

• Schrittweise Prozeduren (Vorwartsselektion, Ruckwartselimination, Schritt-weise Regression)

6.2.1 Nebenpfad: Mallows Cp-Statistik

Mallows Cp-Statistik sucht aus einer Menge von Merkmalen eine Merkmals-kombination mit hoher Aussagekraft fur die Beobachtungen einer Stich-probe. Die Statistik tragt eine Testgroße Cp gegen die reduzierte Anzahl derMerkmale p auf und gibt auf Grundlage dieser Grafik einen Hinweis auf diegunstigste Merkmalskombination.Die Statistik setzt einen linearen Zusammenhang zwischen den Merkmalenvoraus.

Die Teststatistik wird berechnet zu:

Cp =∑n

i=1(Yi − βxi)1

n−P−1

∑ni=1(Yi − βxi)

− n + 2(p + 1) (22)

mit der Quadratsumme der Residuen fur das Regressionsmodell auf derBasis einer Teilmenge von p Merkmalen

n∑i=1

(Yi − βxi) (23)

und dem Mittelwert der quadrierten Residuen bei der Modellierung mit allen PMerkmalen

n∑i=1

(Yi − βxi) (24)

29

, n als Anzahl der Beobachtungen und p als Anzahl der Merkmale im reduzier-ten Modell.

Der Cp-Wert wird fur alle Kombinationen von Merkmalen berechnetund gegen die jeweilige Anzahl p der Merkmale geplottet. Das Modell bzw. dieMerkmalskombination mit dem niedrigsten Cp-Wert, der in etwa gleich demWert fur p ist, wird als das aussagekraftigste Modell betrachtet.

30

7 Literatur

7.1 Literatur zur Zeitreihenanalyse

Literaturverzeichnis

[] Bleymuller, J./Gehlert, G./Gulicher, H.: Statistik fur Wirtschaftswissen-schaftler. Franz Vahlen, Munchen 1991.

[] Bohley, P.: Statistik-Lehrbuch fur Wirtschaftswissenschaften. Oldenbourg,Munchen 1989.

[] Elpelt, H.: Grundkurs Statistik. Oldenbourg, Munchen 1987.

[] Fahrmeir, L./Kunstler, R./Pigeot, I./Tutz, G.: Statistik. 5. Aufl., Sprin-ger, Berlin Heidelberg New York 2004.

[] Hennig, C.: Modellwahl und Variablenselektion in der Statistik.Veroffentlichtes Vorlesungsskript, Universitat Hamburg, FachbereichMathematik (SPST), SS 2004, auf URL: http://www.math.uni-hamburg.de/home/hennig/lehre/mskript1.pdf

[] Hochstadter, D.: Statistische Methodenlehre. 8. Aufl., Verlag HarriDeutsch, Frankfurt/Main 1996.

[] Litz, H. P.: Statistische Methoden in den Wirtschafts- und Sozialwissen-schaften. Oldenbourg Verlag, Munchen Wien 2003.

[] Schlittgen, R.: Einfuhrung in die Statistik. Oldenbourg, Munchen 1991.

[] Zofel, P.: Statistik fur Wirtschaftswissenschaftler. Pearson Studium 2003.

31