Wie schätzt man die Zahl der Fische in einem See?

Post on 07-Jan-2016

17 views 0 download

description

Wie schätzt man die Zahl der Fische in einem See?. (Maximum-Likelihood-Schätzung). Prof. Dr. Michael Schürmann Oktober 2009. Schätzen 2. „Maximum-Likelihood“ 3. Testen. 1. Schätzen. Das Gourmant-Restaurant „Zum Fröhlichen Karpfen“ - PowerPoint PPT Presentation

Transcript of Wie schätzt man die Zahl der Fische in einem See?

Wie schätzt man die Zahl der Fische in einem See?

(Maximum-Likelihood-Schätzung)

Prof. Dr. Michael SchürmannOktober 2009

1.Schätzen2. „Maximum-Likelihood“3. Testen

1. Schätzen

Das Gourmant-Restaurant

„„Zum Fröhlichen Karpfen“Zum Fröhlichen Karpfen“verfügt über einen hauseigenen Fischteich, dessen Bestand in den letzten Jahren nicht mehr kontrolliert wurde.

Was könnten sie tun?

Die Restaurantbesitzer möchten sich nun einen ungefähren Überblick über den Fischbestand ihres Teiches verschaffen.

Vorschläge

Sie könnten ein U-Boot einsetzen und jedenvorbeischwimmenden Fisch fotografieren. Bei der späteren Auswertung müssten dann Doppel-zählungen erkannt werden.

Sie könnten das Wasser des Teiches abpumpen. Wenn der Teich fast leer ist, sollte es möglich sein, die (armen) Fische direkt zu zählen.

Sie könnten eine Woche ununterbrochen angeln. Die Ausbeute soll dann mithilfe der berühmten Formel des bekannten Statistikers Prof. Dr. Rainer Unsinn auf die geschätzte Gesamtzahl der Fische im Teich hochgerechnet werden.

Bessere Idee

Die Restaurantbesitzer gehen so vor:

Sie fahren mit dem Ruderboot auf den Teich hinausund fangen mit dem Spezialnetz eine größereAnzahl von Fischen,

die sie, ohne diese zu verletzen, mit einem kleinen weißen Punkt markieren.

Danach geben sie die markierten Fische zurück in den Teich.

(Achtung Tierschützer: Die Farbe ist biologisch abbaubar und verhält sich vollkommen neutral gegenüber der empfindlichen Fischhaut!)

Nachdem einige Tage vergangen sind, fahren die Restaurantbesitzer wieder hinaus auf den Teich,um erneut eine bestimmte Anzahl von Fischen zu fangen.

n Zahl der Fische im TeichN Zahl der markierten Fischem Zahl der beim 2. Mal gefangenen Fischek Zahl der markierten Fische beim 2. Fang

bekannt

unbekanntunbekannt

bekannt

bekannt

Sie notieren die Zahl der Fische, die bei diesem 2. Fang eine Markierung aufweisen.

Für diejenigen, die ausschmückender Text eher verwirrt,formulieren wir das Problem noch einmal etwas trockenerals „Urnenproblem“.

Die Zahl n der (weißen) Kugeln in einer Urne soll bestimmt werden. Dazu

zieht man N Kugelnund ersetzt sie durch rote Kugeln, d. h. in der Urne befinden sich jetzt N rote und n – N weiße Kugeln. (Dazu muss natürlich n größer als N sein.)

Dann zieht man erneut, diesmal m Kugeln,

und notiert die Anzahl k der roten Kugeln bei dieser 2. Ziehung.

Gut mischen!

n Zahl der Kugeln in der UrneN Zahl der roten Kugelnm Zahl der beim 2. Mal gezogenen Kugelnk Zahl der roten Kugeln bei der 2. Ziehung

bekannt

unbekanntunbekannt

bekannt

bekannt

Offenbar kann k jeden Wert annehmen zwischen0 und m, wenn die Zahl N größer oder gleich m ist(was wir annehmen).

Es ist nun nahe liegend zu vermuten, dass derprozentuale Anteil der roten Kugeln in der Urne mit dem der roten Kugeln bei der 2. Ziehungannähernd übereinstimmt, dass also der Quotientaus m und k ungefähr gleich dem Quotienten ausn und N sein sollte:

Dies führt zu der Schätzung

Schätzung für die Gesamtzahl der Fische im See:

Dabei bezeichnet die rechte Seite die größte natürliche Zahl kleineroder gleich (m/k) N. (Man könnte auch diejenige natürliche Zahl nehmen, die dem Wert (m/k) N am nächsten kommt.)

Wir wollen ausrechnen, wie groß die Wahrscheinlichkeitist, k rote Kugeln zu ziehen, wenn die Werte für n, N undm festliegen.

Mathematischer Hintergrund

Wir überlegen uns zunächst, wie viele Möglichkeitenes überhaupt gibt, m Kugeln aus n Kugeln auszuwählen.

Dazu stellen wir uns vor, dass die m Kugeln der Reihe nach vor uns liegen.

(Nachher müssen wir noch berücksichtigen,dass es auf die Reihenfolge nicht ankommt und wir des-wegen jetzt zunächst einige Fälle mehrfach zählen.)

Für die erste Kugel gibt es noch n Möglichkeiten, für die zweite dann n – 1, für die dritte n – 2 u. s. w.

Schließlich gibt es für die Kugel Nr. m n – m + 1 Möglichkeiten

insgesamt also n (n – 1 ) (n – 2 ) … (n – m + 1 ) Möglichkeiten.

…………

Diese Zahl müssen wir noch wegen der erwähnten Mehrfachzählungen durch

m (m – 1 ) … 3 2 1

dividieren.

..

Wir erhalten den BinomialkoeffizientenBinomialkoeffizienten

Anzahl der Möglichkeiten, aus n Kugeln m auszuwählen

Anzahl der Möglichkeiten, bei der zweiten Ziehung genau k rote Kugeln (d. h. k rote und m – k weiße Kugeln) zu ziehen:

Also:

(Hypergeometrische Verteilung)

2. „Maximum-Likelihood“

Likelihood-Funktion

Der Quotient der Likelihood-Funktion für 2 aufeinander-folgende Werte ergibt sich zu

Eine weitere Rechnung zeigt:

Rechnen!

Schlägt genau um bei unserem Schätzwert !!

Maximum-Likelihood-Schätzer

Die Wahrscheinlichkeit für das beobachtete k wirdbei unserem geschätzten Wert für n am größten.

SternschnuppenSternschnuppen

Man möchte eine Schätzung abgeben über die Zahl der Sternschnuppen, die in einer (sternenklaren) Nacht zwischen 23 und 1 Uhr beobachtet werden können.Dazu teilen wir das Zeitintervall von 2 Stunden in genügend kleine Teilintervalle,

23 Uhr 1 Uhr

so dass man nicht mehr als eine Sternschnuppe in einem Teilintervall beobachten kann, z. B.

2 x 60 min = 120 min

4000 gleich lange Teilintervalle

Ein Teilintervall dauert dann120 min : 4000 = 0,03 min = 0,03 x 60 sec = 1,8 sec

Außerdem nehmen wir an, dass sich die Zahl der beobachteten Sternschnuppen in den einzelnen Teilintervallen nicht beeinflussen, dass also z. B. die Zahl der Sternschnuppen im 10. Intervall keinen Einfluss auf die Zahl der Sterschnuppen im 19. Intervall hat.

Zahl der beobachteten Sternschnuppenim 1., …. , 4000. Intervall

Zahl der insgesamt von 23 bis1 Uhr beobachteten Sternschnuppen

Wahrscheinlichkeit, k Sternschnuppen zu beobachten(Binomialverteilung)

p ist die Wahrscheinlichkeit, dass in einem Intervall eine Sternschnuppe kommt.

Man kann annehmen, dass die Wahrscheinlichkeit, eine Sternschnuppe in einem kleinen Intervall zu beobachten, proportional zur Länge des Intervalls ist. Da die Länge eines Teilintervalls bei n gleich langen Intervallen gleich 120 x 60 sec : n ist, können wir annehmen, dass p proportional zu 1 : n ist, d. h. p n ist gleich einer Konstanten, die wir λ nennen.

Dann ist 1 - p die Wahrscheinlichkeit, dass in einem Intervall keine Sternschnuppe kommt.

Poisson-Verteilung

Problem: Man schätze λ !

Dazu führen wir unsere Beobachtung der Zahl der Sternschnuppen in 4 verschiedenen Nächten durch und erhalten die folgende Tabelle:

Abend Nr.

Zahl Sternschnuppen

1 2 3 4

1 3 2 0

Likelihood-Funktion

Maximum bei der mittleren Anzahl der Sterschnuppen,d. h. bei (1 + 3 + 2 + 0) : 4 = 1,5

Maximum-Likelihood-Schätzung für λ ist somit 1,5

Mit der Formel

kann man nun die geschätzten Wahrscheinlichkeiten dafür angeben, dass in einer Nacht k Sternschnuppen gesehen werden.

Zum Beispiel ergibt sich für 4 Sternschnuppeneine geschätzte Wahrscheinlichkeit von

3. Testen

TESTS

TESTS

TESTS

TESTS

TESTS

TESTSTESTS

Obstbauer MeyerObstbauer Meyer aus Halberstadt

Müller möchte die Äpfel nur dann kaufen, wenn ein Apfel im Durchschnitt nicht wesentlich weniger als 140 g wiegt.

Da die beiden im Herbst nicht jeden Apfel wiegen können (um dann das durchschnittliche Gewicht zu berechnen), kommen sie überein, den folgenden „Test“ durchzuführen:

Werbespruch: Wer keine weiche Birne hat, kauft harte Äpfel aus Halberstadt!

verhandelt mit dem Obstgroßhändler MüllerObstgroßhändler Müller über die Abnahme der diesjährigen Apfelernte.

Sie werden 16 zufällig herausgegriffene Äpfel der in Frage kommenden Ernte wiegen.

Liegt nun der Durchschnitt der 16 Apfelgewichte über 140 g, so will Müller kaufen, liegt er unter 140 g, dann schließt er das Geschäft mit einem anderen Obstbauern ab.

Damit ist Meyer nicht einverstanden. Will es der Zufall, so erwischen die beiden besonders leichte Äpfel, und dasDurchschnittsgewicht gibt die wahren Verhältnisse nicht wieder. Meyer meint, hier müsse ein anderer Weg beschrit-ten werden!

Müller, der BWL studiert hat und sich seiner Statistik-kenntnisse erinnert, sinniert:

Dann müssten wir uns vorher einigen, wie groß dieseWahrscheinlichkeit maximal sein darf, und dann müsstenwir entsprechend den Schwellenwert des Gewichtsfestlegen, der meine Entscheidung bestimmt.

Man müsste die Wahrscheinlichkeit berechnen, dass ich mich aufgrund der gemessenen Apfelgewichte gegen den Kauf entscheide, obwohl die Äpfel in Wirklichkeit ein mittleres Gewicht von über 140 g aufweisen.

AblehnungsbereichAblehnungsbereich Es wird ein mittleres Gewicht gemessen,das unter dem Schwellengewicht liegt.

AnnahmebereichAnnahmebereich Es wird ein mittleres Gewicht gemessen, das über dem Schwellengewicht liegt.

Test der „Nullhypothese“, dass das Gewicht über 140 g liegt

HypotheseHypotheseakzeptiertakzeptiert

Hypotheseabgelehnt

HypotheseHypothesewahrwahr

Hypothesefalsch

EntscheidungEntscheidung

RealitätRealität

Fehler 1. Art

Fehler 2. Art

Bei den Verhandlungen über die „Irrtumswahrscheinlichkeit“ (Fehler 1. Art) einigen sich Meyer und Müller auf die üblichen 5%.

Verteilung des Apfelgewichtes: Gauß-Verteilung (= Normalverteilung)

Wahrscheinlichkeit,dass ein Ei wenigerals 55 g wiegt= rote Fläche unter der Kurve

Leider keineApfelkurvegefunden …

Die Gauß-Verteilung besitzt zwei Parameter:

Erwartungswert

Varianz

Die Gauß- oder Normalverteilung

BeispielGewicht von ÄpfelnÄpfeln

Gewicht von Äpfeln aus Meyers Obstplantage

Schätzer von :

(angenommene Varianz: 249,64)

Durchschnittsgewicht der 16 Äpfel

Schwellengewicht, unter dem Müller ablehnt

Das Schwellengewicht , so dass dieseWahrscheinlichkeit gerade bei 0,05liegt, lässt sich mit Hilfe der NormalverteilungNormalverteilungberechnen.

Es ergibt sich:

In unserem Beispiel beträgt das Durchschnittsgewichtder 16 Äpfel ca. 133, 06 g und liegt damit knapp unterdem Schwellengewicht 133, 5 g.

Müller wird also den Handel mit Meyer nicht abschließen.