„Gruppen-Screening“ – ein Paradebeispiel für Anwendungsorientierung und...

Post on 06-Apr-2016

221 views 2 download

Transcript of „Gruppen-Screening“ – ein Paradebeispiel für Anwendungsorientierung und...

„Gruppen-Screening“ – ein Paradebeispiel für

Anwendungsorientierung und Vernetzungsmöglichkeiten

im Mathematikunterricht

Hans HUMENBERGER Universität Wien

Mit einfachen schulmath. Mitteln:

• ein Problem aus der Realität modellieren • Verbindung von elementarer Stochastik

(EW einer ZG) und Analysis schaffen (Funktionen, Graphen, Extremwerte, Grenzwerte, Kurvendiskussionen)

• Prinzip der Approximation veranschaulichen, (Näherungsverfahren, Näherungsformel)

• das Verhältnis zwischen diskreten und kontinuierlichen Problemen beleuchten

• ein CAS gut einsetzen 0

Einzel-Tests vs. Paar-Tests Aufgabe 1: Nach einem großen Sportfest sollen alle Sportler

Proben (Blut, Urin) abgeben: Dopingkontrolle!

Es werden 2 Möglichkeiten vorgeschlagen:

• Jede Probe wird einzeln überprüft.

• Je 2 Proben werden zusammengeschüttet und das Resultat getestet; falls nötig Einzeltests.

a) Wie viele Tests sind beim „Paartest“ unter welchen Umständen nötig (pro Paar) ?

Paar-Test negativ: beide „sauber“; 1 Test nötig Paar-Test positiv: 1. Person allein getestet:

• Negativ: 2. Person hat gedopt (2 Tests)

• Positiv: auch die 2. Person muss getestet werden (3 Tests)

b) Vergleich für 2n Personen:

Einzeltests: 2n Personen, 2n Tests Paar-Tests: jedenfalls n Tests für die n Paare Extremfälle:

Bei allen Paaren reicht 1 Test: n

Bei allen Paaren 3 Tests nötig: 3n

Klar: Paar-Test bringt dann Vorteile, wenn wenige positive Proben zu erwarten sind.

0102030405060708090

1 2 3

Aufgabe 2: Sportfest-Diagramm: Anzahl der Paare, bei denen 1, 2, 3 Tests benötigt wurden.

Was ist alles aus diesem Diagramm zu entnehmen?

• 80 + 30 + 10 = 120 Paare, d. h. 240 TN

• Tests: 80 + 30 2 + 10 3 = 170 , ca. 0,71 T/TN, - 29 %

• zwischen 40 und 50 Sportler/innen gedopt, Dopingquote: 16,7 % – 20,8 %

Aufgabe 3: (Erwartungswert)Wie viele nötige Tests sind pro Paar zu erwarten, wenn aus langjähriger Erfahrung bekannt ist, dass der Anteil p aller Sportler/innen Doping betreibt?

E = (1 – p)² 1 + (1 – p) p 2 + p 3 = – p² + 3p + 1

p 0

2p 3p 1 2 p 0,38

Gruppentests bei Krankheiten„Krankheitsanteil in der Bevölkerung ist p“

Modellannahme: n Individuen seien unabhängig voneinander und mit jeweils gleicher WS p von dieser Krankheit befallen

Auswahl der Testpersonen = Bernoulli-Exp.

Bei Einzelprüfung: 1 Test pro Person bzw. k Tests für k Personen

1

2-stufiger Gruppentest nach Dorfman

1. Stufe (Gruppentest): Mischen des Blutes von jeweils Personen

a) Gruppentest neg.: alle Personen gesund nur 1 Test für diese k Personen

b) Gruppentest pos.: mind. 1 Person krank: jede Blutprobe in der Gruppe wird anschließend (2. Stufe) einzeln untersucht: insgesamt k + 1 Tests.

2k

Problem: Gruppengröße k (?), so dass insges. möglichst wenige Tests zu erwarten sind:

• minimale zu erwartende Kosten

• Ergebnisse sollen möglichst schnell vorliegen.

2

q := 1 – p P(gesund) , „Gesundheitsanteil“ der Bev.

k 2 die gewählte Gruppengröße

EW einer Zufallsgröße, zunächst in einer k-Gruppe:

X := Anzahl der nötigen Analysen in einer k-GruppeX kann nur die Werte 1 und k + 1 annehmen: ( 1) kP X q ( 1) 1 kP X k q

( ) 1 ( 1) (1 ) 1k k kE X q k q k k q

E(X) für verschiedene k nicht gerecht vergleichbar; nicht allein. Krit.: je größer k, desto größer E(X)!

Gesamtzahl: n Individuen, (n/k) viele k-Gruppen,

insgesamt

zu erwartende Tests für alle n Personen.

Zur Vereinfachung sinnvoll: Division durch die feste Zahl n, „Normieren“ (pro Person), „relativer EW “

( )n E Xk

E( )E( ) Min Minn XXk k

3

EW der Anzahl der nötigen Untersuchungen

PRO PERSON (Gruppengr. k 2 )

Diese Funktion (Term) müssen wir genauer untersuchen!

E( ) 1 1( , ) : 1k

kX k k qf q k qk k k

Genau bei

bringt Gruppenbildung auf lange Sicht einen Vorteil gegenüber Einzeluntersuchung.

1( , ) 1 1kf q k qk

Bei festem q (0 ; 1) suchen wir k0 2 (k0 ) mit:

• f (q,k0) < 1 (Ersparnis geg. Einzelunt.)

• f (q,k0) ist minimal

f (q,k) als Fkt. in kontinuierlichen Var.:

obwohl ja eigentlich

Ein eigentlich diskretes Problem wird in ein kontinuierliches verwandelt:

kontinuierliche Graphen, Kraft der Analysis

z. B. beim Suchen der Minimumstelle

k 2 k

4

Wir setzen festes q (0,1) voraus, d. h. f(q,k) ist eine Funktion in einer Variable k (Gruppengröße) :

Kurvenschar, Funktionenschar mit Parameter q !

1( ) : 1 kqf k q

k

• von oben nach unten: q = 0.4; 0.6; 0.7; 0.8; 0.85 • Für kleinere q-Werte

q < 0.7 scheint zu gelten:

1( ) : 1 kqf k q

k für k (0,50):

: ( ) 1qk f k

5

Uninteressanter Bereich – keine Ersparnis gegenüber Einzeluntersuchungen!

• 2 Schnittp. mit y = 1, asympt. Annäh. v. oben

• eindeutiges Min. zw. 0 und 1: Min.stelle interessant (opt. Gruppengröße!)

• Wo liegt diese Stelle? 1) Ablesen: CAS-Graph 2) analyt. Überlegungen

1( ) : 1 kqf k q

k k (0,50), größere q :

1. Versuch: 1. Ableitung von ( )qf k

' 22

1( ) ln 0 ( ln )k kqf k q q k q q

k

: :

ln lnlnln2 2m b

qqk k

Log, : ( 2)

y = ln k hat mit einer Gerade y = mk + b „klarer Weise“ höchstens 2 Schnittpunkte (ln immer negativ d. h. nach rechts gekrümmt!) hat höchstens zwei lokale Extremstellen!( )qf k

6

Aber:

• nicht geschlossen lösbar

• für welche q gibt es 0, 1, 2 Lösungen? (Näherungslösungen!)

• für welche q ergibt sich ein Min/Max/Sattelpunkt?

'( ) 0qf k

Analog:

Schon nicht geschlossen lösbar:

( ) 1qf k 11( ) 1 k k

qf k q k qk

Log, ( 1)

ln lnk q k höchstens 2 Schnittpunkte (Lösungen) ! Zur weiteren Begründung und deren Ableitung besser vermeiden!

( )qf k

Die Teilfunktionen von 1( ) 1 kqf k q

k

Wohlbekannte Funkt. aus der Mittelstufe:

Hyperbel:

Exponentialfunktion: (fallend: 0 < q < 1)

Interessant nur (Ersparnis!) :

1k

kq 7

1 1( ) 1 1k kqf k q q

k k

Zunächst:

• 0, 1, 2 Schnittp., je nach q

• q groß fällt flach:

für (Berührwert) 2 Schnittp.

1( ) 1 kqf k q

k

kqBq q

Damit klar : Bei ist fürBq q1 2 :k k k

1( ) 1 kqf k q

k

Begründung des 2. Schnittpunktesauch für durch „de l‘Hospital“1q 8

Oben: höchstens 2 Schnittpunkte, damit genau 2 für ! Bq q

Berührkonstellation lässt sich sogar genau bestimmen: einfache, traditionelle, klassische „Rechnung“, Lösung des GLS:

CAS auf Knopfdruck (z. B. MAPLE, auch per Hand, DERIVE nicht: bei nichtlinearen GLS nur numerisch gut):

Einzelgleichungen nicht geschlossen nach k auflösbar, d. h. die beiden Gleichungen „passen“ gut zueinander.

'

'1 1k kq qk k

1/; 0,6922eB Bk e q e

9

Bis jetzt:

• Für ist , d. h. Gruppentests schlechter als Einzeltests (im Durchschnitt, „Erwartungswert“) !

• Auch für bringt Gruppenbildung im Durchschnitt keine Ersparnis:

• Erst ab kann Gruppenbildung im Durchschnitt überhaupt Ersparnis bringen (d. h. bei einem Gesundheitsanteil von mind. ca. 70%, so eine Grenze auch intuitiv zu erwarten)!

0,6922Bq q 1/ ( ) 1kqk q f k

Bq q1/ ( ) 1k

qq k f k

Bq q

Noch zu zeigen:

hat für

in genau 1 Minimumstelle k* Oben: hat höchstens 2 lokale Extremstellen

( )qf k1 2[ , ]k k

( )qf k

Im Folgenden: hat für mindestens eine lokale Minimumstelle k* in und eine lokale Maximumstelle genau diese beiden lokalen Extremstellen!

( )qf k Bq q

1 2[ , ]k k**

2k k

Bq q

Begründung für k* und k**:

1( ) 1qkf qk

k

besser „getrennt“:1 , k

kq

Bei : Differenz , dazwischen < 0 ! 1 2,k k1 0k

kq

stetig Min.stelle in bei k* (betraglich Differenz dort maximal !)

1 k

kq 1 2[ , ]k k

10

„Rechts“ von :

Salopp: Bei

und im Limes :

Differenz

„dazwischen“ :

Max.-stelle in : bei k**

2k

2k

k 1 0k

kq

2( , )k

1 0k

kq

I. A.: : k0 = [k*] oder k0 = [k*] + 1

Bei k* sehr flacher Graphverlauf, d. h. ziemlich gleichgültig, ob k0 = [k*] oder k0 = [k*] + 1

*k

Konkrete Lösung mit CAS (MAPLE, DERIVE o. ä.)

bei gegebenem Wert q > qB :

• Zeichnen des Graphen von fq(k): k* und k0 (die „bessere“ der natürlichen Nachbarzahlen) einfach ungefähr ablesen!

• oder die Gleichung wird näh.w. gelöst (CAS: mit „beliebiger“ Genauigkeit möglich), 2 Lösungen k* < k** ; k0 = [k*] oder k0 = [k*] + 1 (je nach kleinerem Funktionswert von fq )

'( ) 0qf k

11

12

Konkrete Lösung mit oder ohne CAS

Durch obige analyt. Überlegungen klar:fq(k) bis k* fallend,

dann „steigend bis 1“

Die Suche nach k0 kann sich also (begründet!) auf das Probieren einiger ganzzahliger Werte reduzieren: Ab welchem k werden die Funktionswerte fq(k) wieder größer?

1) Zusammenhang q k0 (geschlossene Formel unmöglich!)• Man könnte für viele einzelne q-Werte das

Problem lösen: q gegeben, k0 gesucht:

q 0,7 0,8 0,85 0,9 0,92 0,94 0,96 0,98 0,99 0,995 0,999

k0 3 3 3 4 4 5 6 8 11 15 32

Ersp.% 1 18 28 41 47 53 62 73 80 86 94

11 punktuelle Fälle gelöst, aber bei q = 0,93 ???

Weitere Möglichkeiten:

Umgekehrt: k0 vorgegeben, zugehöriger q-Bereich gesucht Z. B.: für welche q ist 4 die optimale Gruppengröße?

A priori klar: k0 monoton wachsend mit q (bei mehr Gesunden kann die optimale Gruppengröße nicht kleiner sein) !

Wo liegt q4 / 5? („Trenn-q“ zw. k0 = 4 und k0 = 5)

Idee: für welches q sind 4 und 5 gleich gute Gruppengrößen: fq(4) = fq(5): CAS: q4 / 5 0,934

13

Durch wenige Trenn-q-Werte großer q-Bereich abgedeckt

Zusammenhang effizienter beschrieben:

2) Elementare Numerik

Trenn-q-Werte:

/ 1 : ( ) ( 1)k k q qq f k f k 11

( 1) kqk k q

„Fixpunktgleichung“„Iterationsverfahren“

Analytischer Nachweis möglich (Wahlpflichtfach): Konvergenz bei Startwert 1qk / k+1 ist anziehender Fixpunkt (flacher Schnitt) !

Näherungsverf. bei Gleichungen, nicht nur black box (CAS), sondern konkretes Verfahren!

3) Gruppengröße k = 2 ist für KEIN q optimal !

141( , ) 1 ( )kkf q k q f q

k q als Variable:

für k = 2 und k = 3:

Differenz: f(q,2) – f(q,3)

f(q,2) – f(q,3) > 0 leicht analytisch zu begründen

4) Näherungsformel für k0 (kleine p!)

0 0

1:k kp

0k

q 0,7 0,8 0,85 0,9 0,92 0,94 0,96 0,98 0,99 0,995 0,999k0 3 3 3 4 4 5 6 8 11 15 32

2 3 3 4 4 5 5 8 10 15 32

• Wie gut ist diese Näherungsformel?

• Wie kann man sie plausibel machen?

15

Plausibilitätsbetrachtung (p statt q !)

Ersetze für kleine p den „unangenehmen“ Teilterm [ k im Exp! ] durch eine einfachere Funktion:

1( ) 1 (1 )kpf k pk

( ) : (1 )kg p p Fkt. v. p (p klein!)

„Lok. Linearisieren“ : Tangente in (0|1)

(1 ) ( ) ( ) 1kp g p t p kp Für kleine p :

16

Damit für kleine p Approx. möglich:

: ( )

1 1 1( ) 1 (1 ) 1 (1 )

p

kp

f k

f k p kp kpk k k

( )pf k hat das einzige Minimum bei 01 .kp

0

1:kp

Die Werte sind für kleine p

und praktische Zwecke genau genug für !0kDorfman: ; 80,443 % Ersparnis

Näherung: ; 80,438 % Ersparnis 0 11k 0 10k

Potenzial dieses Themas: Kernaufgabe von Schülern selbständig zu lösen; ausbaufähig in viele Richtungen

• Bei Begründungen gestufte Niveaus möglich

• Intensität des CAS-Einsatzes sehr variabel• k = 2 ist nie optimal• Numerische Mathematik:

„Umkehrfrage“, Iterationsverfahren, explizite Näherungsformel

„The main goal of all science is first to observe and then to explain phenomena. In mathematics the explanation is the proof.”

(D. GALE, 1990)

Literatur

Humenberger / Henn (2004): Gruppenscreening - ein Paradebeispiel für Vernetzungsmöglichkeiten im MU.

In: Biehler/Engel/Meyer (Hrsg.):

Neue Medien und innermathematische Vernetzungen in der Stochastik. Anregungen zum Stochastikunterricht, Band 2, S. 19 – 32; Franzbecker, Hildesheim.