Discussion: · Web viewDie Summe der Wahrscheinlichkeiten der Ereignisse einer Partition {A 1,,A n}...

1

Aufbau-SE Logik III: Wahrscheinlichkeit (G. Schurz, Ws 2016-17, Mi 10:30-

12:00, 23.31, U1.46)

Zeitplan:

19.10. : 1. Objektive (statistische) vs. subjektive (epistemische) Wahrscheinlichkeit

26.10. : 2. Mathematische Gesetze der Wahrscheinlichkeit

02.11. entfällt (Konferenzreise)

09.11. 3. Probabilistische Rechtfertigung von Schlussarten

16.11. 4. Probleme der objektiv-statistischen Wahrscheinlichkeit

4.1 Rechtfertigung statistischer W.keit

23.11. 4.2 Definition/Explikation statistischer W.keit

30.11. 4.3 Objektive Zufälligkeit, Determinismus und Indeterminismus

7.12. 5. Probleme der subjektiv-epistemischen Wahrscheinlichkeit: Kohärente faire

Wettquotienten

14.12. 6. Verbindungen von statistischer und subjektiver Wahrscheinlichkeit: das

statistische Koordinationsprinzip (StK)

21.12. 7. Von Ausgangswahrscheinlichkeiten zu aktualen Glaubensgraden

11.01. 8. StK, Vertauschbarkeit und induktives Lernen aus Erfahrung

18.01. 9. Überprüfungsverfahren für statistische Hypothesen

10. Bayesianismus, 10. 1 Bayes-Statistik: Die Likelihood-Intuition

25.01. 10.2 Objektiver Bayesianismus und Induktives Schließen I

10.3 Subjektiver Bayesianismus und Induktives Schließen II

01.02. Zeitpuffer / Wiederholung

08.02. Klausur/BN

2

Literatur: Das Aufbau-Seminar stützt sich auf mein Buch:

Gerhard Schurz: Wahrscheinlichkeit, De Gruyter, Berlin/Boston 2015

(25 Euro). Siehe:

https://www.amazon.de/Wahrscheinlichkeit-Grundthemen-Philosophie-Gerhard-

Schurz/dp/3110425505)

Weitere Literatur:

Adams, E.W. (1998): A Primer of Probability Logic, CSLI Publications, Stanford.

Bortz, J. (1985): Lehrbuch der Statistik, 2. Aufl., Springer, Berlin (Neuaufl. als

Statistik für Human- u. Sozialwissenschaflter, 6. überarb. Aufl. 2005).

Carnap, R. (1959): Induktive Logik und Wahrscheinlichkeit. Bearbeitet von W.

Stegmüller, Springer, Wien.

Carnap, R. und Jeffrey, R. (1971): Studies in Inductive Logic and Probability, Univ.

of California Press, Berkeley.

Gillies, D. (2000): Philosophical Theories of Probability, Routledge, London.

Earman, J. (1992): Bayes or Bust?, MIT Press, Cambridge/Mass

Howson, C. und Urbach, P. (1996): Scientific Reasoning: The Bayesian Approach,

Open Court, Chicago (2. Aufl.).

Stegmüller, W. (1973b), Probleme und Resultate der Wissenschaftstheorie und

Analytischen Philosophie. Band IV: Personelle und Statistische Wahrscheinlichkeit,

Springer, Berlin.

https://www.amazon.de/Wahrscheinlichkeit-Grundthemen-Philosophie-Gerhard-Schurz/dp/3110425505

https://www.amazon.de/Wahrscheinlichkeit-Grundthemen-Philosophie-Gerhard-Schurz/dp/3110425505

3

1. Objektive (statistische) vs. subjektive (epistemische) Wahrscheinlichkeit

Geschichte: Theorie der Wahrscheinlichkeit entstand im 16. und 17. Jahrhundert, im

Kontext von Glücksspielen: Galilei, 1654 Briefwechsel Pascal-Fermat, 1657 Huy-

gens, 1713 Bernoulli (Binomialverteilung, Gesetz der großen Zahlen), 1763 Theorem

von Bayes, 1814 Laplace, 1933 axiomatische Fundierung durch Kolmogorov.

Intuitive Begriff der Wahrscheinlichkeit involviert etwas Objektives („wahr-“) und

etwas Subjektives („-scheinlich“).

Erst im 20. Jahrhundert wurde die unterschiedliche Natur der beiden Wahrscheinlich-

keitsbegriffe herausgearbeitet.

Frühen Begründer hatten dies nur unzureichend bemerkt.

Laplace (1814) unterschied das subjektive „Gleichverteilungsprinzip“ nicht von der

objektiven Gleichwahrscheinlichkeit der Wurfresultate eines regulären Würfels; erst

von Mises (1928, 69) machte den Unterschied deutlich.

Gegenwärtige Wahrscheinlichkeitstheorie durch eine anhaltende Lagertrennung

gekennzeichnet (vgl. auch Gillies 2000):

in den empirischen Wissenschaften objektiv-statistische Wahrscheinlichkeit

(Begründer von Mises 1964, Reichenbach 1935, 1949, und Fisher 1956; Einführungs-

literatur Bortz 1985; Spezialvariante "objektive Einzelfallwahrscheinlichkeit").

in Philosophie und kognitiver Wissenschaft subjektiv-epistemische

Wahrscheinlichkeit im Sinn von rationalen Glaubensgraden (Begründer Ramsey

1926 und de Finetti 1934/70; Einführungsliteratur Earman 1992, Howson/Urbach

1996); Spezialvarianten "objektiver Bayesianismus", "logische Wahrscheinlichkeit"

Carnap 1959).

4

in Mathematik wird Interpretationskonflikt systematisch ignoriert.

Objektive Wahrscheinlichkeit drückt eine subjektunabhängige Eigenschaft der

Realität aus.

Subjektive Wahrscheinlichkeit drückt Glaubensgrad eines (aktualen oder

hypothetischen) rationalen Subjekts aus.

Wenn es sich dabei um intersubjektive Glaubensgrade handelt, spricht man auch von

„epistemischer“ Wahrscheinlichkeit.

Zur Unterscheidung beider verwenden wir die prädikatenlogische Schreibweise:

"Fx" für "x ist ein F" und „Fa“ für "a ist ein F".

"F" ist ein Prädikat, das wiederholbares (binäres) Merkmal / Ereignistyp F

bezeichnet, z.B. "rothaarig zu sein". „x“ Individuenvariable und „a“

Individuenkonstante.

(In Mathematik unterscheidet man das nicht formal, schreibt für beides eine binäre

mathematische 'Zufallsvariable' Xï)

Die statistische (objektive) Wahrscheinlichkeit eines Merkmals oder

wiederholbaren Ereignistyps, z.B. Fx, ist die relative Häufigkeit seines Eintretens

bzw. der Grenzwert seiner relativen Häufigkeit auf lange Sicht.

Formal kleines p(): p(Fx) = Häufigkeit bzw. Häufigkeitsgrenzwert, mit der

beliebige Individuen x eines gegebenen Bereichs die Eigenschaft F besitzen.

Beispiel: Die Häufigkeit von Sonnentagen in Düsseldorf.

Die epistemische (subjektive) Wahrscheinlichkeit eines bestimmten Ereignisses

bzw. Sachverhaltes, z.B. Fa, ist der rationale Glaubensgrad, in dem ein (oder

mehrere gegebene) Subjekt(e) an das Eintreten des Ereignisses glauben.

Formal großes P(): P(Fa) = der subjektive Glaubensgrad dafür, dass das Individuum

a die Eigenschaft F besitzt.

5

Beispiel: Unser Glaubensgrad, dass der morgige Tag in Düsseldorf ein Sonnentag

sein wird.

Für endlichen Individuenbereich (Population, Grundgesamtheit) D ist die statistische

Wahrscheinlichkeit gleich der relativen Häufigkeit eines Ereignistyps Fx in D:

h(Fx) = Anzahl aller Fs in D geteilt durch die Anzahl aller Individuen in D.

Problem: Endliche Häufigkeiten sind Zufallschwankungen unterworfen; sie geben

nicht direkt die Wahrscheinlichkeitsdispositionen wieder (Beispiel: Münzwurf)

Für unendlichen Individuenbereich D ist die relative Häufigkeit undefiniert.

Man bezieht sich auf eine zufällige Anordnung der Individuen in D in Form einer

(unendlichen) Zufallsfolge (a1,a2,), produziert durch ein "Zufallsexperiment".

Statistische Wahrscheinlichkeit p(Fx) =def limn hn(Fx) = Grenzwert der relativen

Häufigkeiten hn(Fx) von Fs in den n-gliedrigen Anfangsabschnitten einer

Zufallsfolge, für n gegen unendlich.

p(Fx) = 0,6 heißt per definitionen: für jedes noch so kleines >0 gibt es eine

Stellenzahl n, sodass für alle m n die relative Häufigkeit hm(Fx) vom Grenzwert 0,6

um weniger als abweicht (je kleiner , desto größer n)

hn(Fx)

limnhn(Fx)=0,6

n

6

Konvergenz der relativen Häufigkeiten eines Ereignisses mit Häufigkeitsgrenzwert p(Fx) = 0.6 in zwei Zufallsfolgen (programmiert in Visual Basic). Häufigkeitsgrenzwerte sind theoretische Idealisierungen p(Fx) = 0.6 bedeutet:

Zufallsexperiment hat gewisse Disposition, Ergebnis Fx mit einer auf lange Sicht

nach 0.6 konvergierenden Häufigkeit zu produzieren („generische Propensität“).

Auch zufälliges Ziehen eines Individuums aus Individuenbereich D ist

Zufallsexperiment.

Zusammenhang: Statistischen Wahrscheinlichkeit, zufällig ein F-Individuum aus D

zu ziehen = endliche Häufigkeit von Fx in D gdw. jedes Individuum in D dieselbe

statistische Chance besitzt gezogen zu werden. (Ziehen mit Zurücklegen)

Zur Interpretation von Eins- und Nullwahrscheinlichkeiten:

Im epistemischen Fall bedeutet die Aussage P(A) = 1, dass sich Subjekt hinsichtlich

der Aussage A sicher ist.

Im statistischen Fall komplizierter:

Nur bei endlichem Individuenbereichs ist p(Fx) = 1 gleichbedeutend mit

ausnahmslosen Allsatz xFx (Alle Individuen sind F), bzw. p(Fx) = 0 mit xFx.

Bei unendlichem Individuenbereichs ist p(Fx) = 1 schwächer als xFx, bedeutet nur,

dass die Häufigkeiten hn(Fx) gegen eins konvergieren.

Beispiel: Sei Zufallsfolge (1, 2,3) und Fx das Prädikat „x ist eine ganzzahlige

Potenz von 2“. Dann gibt unter den natürlichen Zahlen unendlich viele ganzzahlige

2er-Potenzen; dennoch gilt limk p(Fx) = limk(k/2k) = 0.

Grundlegender Unterschied: Statistische Wahrscheinlichkeit p(Fx) bezieht sich

immer auf wiederholbaren Ereignistyp (Sachverhaltstyp) ausgedrückt durch Prädikat

bzw. offene Formel Fx; der Operator "p" bindet die freie Individuenvariable ("px").

Subjektive Wahrscheinlichkeit p(Fa) bezieht sich auf bestimmtes Ereignis

7

(Sachverhalt) ausgedrückt in einem Satz bzw. einer geschlossenen Formel Fa.

Bekannteste Prinzip, um statistische Wahrscheinlichkeiten auf subjektive

Einzelfallwahrscheinlichkeiten zu übertragen (Reichenbach 1949, §72):

Prinzip der engsten Referenzklasse: Die subjektive Wahrscheinlichkeit P(Fa) eines

Einzelereignisses wird bestimmt als die (geschätzte) bedingte statistische

Wahrscheinlichkeit p(Fx|Rx) des entsprechenden Ereignistyps Fx in der engsten

(relevanten, nomologischen) Bezugsklasse bzw. Referenzklasse R, von der das

zugrundeliegende Subjekt 'weiß' bzw. mit Sicherheit glaubt, dass a in ihr liegt (also

Ra gilt).

Anwendung in Alltag und Wissenschaft:

Subjektive Wahrscheinlichkeit dafür, dass gegebene Person Autounfall hat

(Versicherungsstatistik): engste bekannte Referenzklasse, die nicht unter Datenschutz

fällt.

Wahrscheinlichkeit dafür, dass es morgen in NRW regnet: engste Referenzklasse =

die vom Meteorologen berücksichtigte vorausgehende Wetterentwicklung.

Bezug zum induktiven Spezialisierungsschluss (Carnap 1950; "direct inference" nach

Levi 1977):

Generelle Prämisse 1: r % aller Fs sind Gs

Singuläre Prämisse 2: Dies ist ein F

===================== [mit r % Glaubenswahrscheinlichkeit]

Konklusion: Dies ist ein G

Prinzip der Gesamtevidenz: die singuläre Prämisse muss die gesamte für die

Konklusion relevante Evidenz enthalten.

Mit Prinzip der engsten Referenzklasse kann nur subjektive Wahrscheinlichkeit

von Singulärsätzen durch statistische Wahrscheinlichkeiten bestimmt werden, nicht

8

subjektive W.keit von generellen Hypothesen (Problem des Bayesianismus).

9

2. Mathematische Gesetze der Wahrscheinlichkeit

Statistische und der epistemische Wahrscheinlichkeitsbegriff gehorchen denselben

Grundgesetzen (Kolmogorov 1933)

Kolmogorov benutzt die mathematisch übliche mengenalgebraische Darstellung:

Möglichkeitsraum = {e1,e2,.}

Elemente ei von = {e1,e2,}: mögliche (maximal bestimmte) Ergebnisse eines

Zufallsexperimentes.

"Ereignisse" = Teilmengen von , als Disjunktionen aufgefaßt.

Beispiel Würfelwurf:

= {1,2,3,4,5,6} Ergebnis z.B. "1" Ereignis z.B. "gerade Zahl" = {2,4,6}.

Anderes Beispiel: Ziehen eines Individuums aus dem Individuenbereich: = D.

Wir verwenden sprachliche Darstellung (zwecks Unterscheidung von p und P):

Im statistischen Fall:

= Menge möglicher Ergebnistypen eines (wiederholten) Zufallsexperimentes,

dargestellt durch maximal starke offene Formeln der Sprache:

Ei(x)(binäre Zufallsvariable), oder f(x) = ei (mehrstufige Zufallsvariable)

Beliebige Ereignisse dargestellt durch offene Formel (entsprechen Disjunktionen

maximal starker Formeln, z.B. "Gerade(x)" = "x=2 x=4 x=6".

Im epistemischen Fall:

= Menge möglicher Ergebnisse eine einzelnen Durchführung des

Zufallsexperimentes, dargestellt durch maximal starke geschlossene Formeln der

Sprache:

Ei(aj)(binäre Zufallsvariable) oder f(aj) = ei (mehrstufige Zufallsvariable).

Beliebige Ereignisse dargestellt durch geschlossene Formel.

10

Axiome der Wahrscheinlichkeit:

Im folgenden bezeichnen A, B, (Ereignisse)

offene Formeln im statistischen Wahrscheinlichkeitsaufbau,

geschlossene Formeln im epistemischen Aufbau,

-Teilmengen im mathematischen Aufbau.

Dass A und B disjunkt sind (können nicht gemeinsam auftreten) bedeutet

dass die Extension von AB faktisch (im gegebenen Modell) leer ist ist, im

statistischen Aufbau.

dass AB in allen (logisch, analytisch-epistemisch) möglichen Modellen der

Sprache unerfüllbar ist, im epistemischen Aufbau.

dass AB leer ist,im mathematischen Aufbau.

Zur Erinnerung: entspricht , entspricht , A entspricht A.

Grundaxiome der Wahrscheinlichkeit

Für alle A, B, , wobei statt „p“ auch „P“ stehen kann:

(A1) p(A) 0 (Nicht-Negativität)

In Worten: Wahrscheinlichkeiten sind immer größer-gleich null.

(A2) p(AA) = 1 (Normierung auf 1)

In Worten: die Wahrscheinlichkeit des gesamten Möglichkeitsraumes ist 1.

(A3) Wenn A, B disjunkt sind: p(AB) = p(A) + p(B) (endliche Additivität)

In Worten: für disjunkte Ereignis(typen) addieren sich die Wahrscheinlichkeiten.

11

Dass A exhaustiv (notwendig) ist bedeutet dass

A von allen Individuen erfüllt wird, im statistischen Aufbau,

A von allen möglichen Modellen wahr gemacht wird, im epistemischen Aufbau,

A = gilt, im mathematischen Aufbau.

Eine Partition von ist eine Menge {A1,,An} vom wechselseitig disjunkten und

zusammen exhaustiven Ereignissen Ai. Z.B. {gerade, ungerade}

Theoreme unbedingter Wahrscheinlichkeit

(T1) p(A) = 1p(A) (Komplementärwahrscheinlichkeit)

In Worten: Die Wahrscheinlichkeit der Negation eines Ereignisses ist 1 minus jener

des Ereignisses.

(T2) p(A) 1 (obere Schranke)

In Worten: Die Wahrscheinlichkeit jedes Ereignisses ist kleiner-gleich 1.

(T3) p(AA) = 0 (Kontradiktion).

In Worten: Ein Widerspruch besitzt die Wahrscheinlichkeit Null.

(T4) Für jede Partition A1,,An: 1in p(Ai) = 1 und p(B) = 1in p(BAi).

In Worten: Die Summe der Wahrscheinlichkeiten der Ereignisse einerPartition

{A1,,An} von addiert sich zu 1, und die Ereignisse {AiB: 1in} bilden eine

Partition von B, deren Wahrscheinlichkeiten sich zu p(B) aufaddieren.

(T5) p(A1A2) = p(A1) + p(A2) p(A1A2) (allgem. Additionsgesetz)

(T6) Wenn A1A2 =def A1A2 exhaustiv ist, dann gilt p(A1) p(A2) (Monotonie)

In Worten: Wenn A1 mit Notwendigkeit A2 impliziert, dann ist die

Wahrscheinlichkeitn von A1 kleiner-gleich der von A2.

(T7) Ist A1A2 exhaustiv, dann gilt p(A1) = p(A2) (Äquivalenz)

12

Die Wahrscheinlichkeit von A unter der Annahme, dass B vorliegt, nennt man die

bedingte Wahrscheinlichkeit von A gegeben B, p(A|B) bzw. P(A|B):

Bedingte Wahrscheinlichkeit: p(A|B) =def p (A∧B )

p (B ) , sofern p(B) > 0.(Analog für „P“ anstelle von „p“.)

B = bedingende Ereignis oder Antecedens; A = bedingte Ereignis oder Konsequens.

Im endlich-statistischen Fall ist p(A|B) die relative Häufigkeit von A-Individuen in

der Menge B siehe Abbildung. („x“ kann man weeglassen)

A

8 p(Bx|Ax) = 12/20 = 3/5

12 B p(Ax|Bx) = 12/16 = 3/4

4 |D| = 24, p(Ax) = 20/24 = 5/6

p(Bx) = 16/24 = 2/3

Im unendlich-statistischen Fall ist p(A|B) der Häufigkeitsgrenzwert von As in einer

(unendlichen) Zufallsfolge von B-Individuen.

Im subjektiv-epistemischen Fall ist P(A|B) der hypothetische Glaubensgrad an A

unter der hypothetischen Annahme, dass B sicher wäre.

Wird B tatsächlich mit Sicherheit geglaubt, gilt P(B) = 1 woraus P(A) = P(A|B) folgt.

Subjektive Sicherheit bzgl. A impliziert nicht, dass A wahr ist: subjektiver Glaube

ist fallibel und Glaubensfunktion P ist unabhängig von Wahrheitswertfunktion v.

Hinweis: Gewöhnliche Definition von p(A|B) hat Nachteil, dass p(A|B) für ein 0-

wahrscheinliches Ereignis B undefiniert.

Carnap 1971, Popper 1935: direkte Axiomatisierung bedingter Wahrscheinlichkeit.

13

Zwei (binäre) Ereignisse A, B heißen probabilistisch unabhängig voneinander,

abgekürzt AB, g.d.w. p(AB) = p(A)p(B).

Es gilt: AB g.d.w. p(A|B) = p(A) oderp(B) = 0

in Worten: g.d.w. die Annahme von B A's Wahrscheinlichkeit nicht ver

ändert, oder Null beträgt.

Ergo: Zwei nicht-nullwahrscheinliche Ereignisse sind probabilistisch abhängig g.d.w.

p(A|B) p(A) gilt.

A und B sind

positiv abhängig, wenn p(A|B) > p(A) (bzw. p(AB) > p(A)p(B))

negativ abhängig, wenn p(A|B) < p(A) (bzw. p(AB) < p(A)p(B)) gilt.

Wichtig ist die Nichtmonotonie bedingter Wahrscheinlichkeiten:

ein hoher Wert von p(A|B) impliziert nicht einen hohen Wert von p(A|BC); vielmehr

kann zugleich p(A|BC) = 0 gelten.

Beispiel:

A B BC

C

p(A|B) ist hoch, aber p(A|BC) beträgt Null.

Beispiel: Die meisten Einwohner Deutschlands essen Schweinefleisch, aber nicht:

Die meisten islamischen Einwohner Deutschlands essen Schweinefleisch.

14

Theoreme bedingter Wahrscheinlichkeit (sofern p(A|B) definiert):

(TB1): Für die auf B konditionalisierte Wahrscheinlichkeitsfunktion

pB(A) =def p(A|B) gelten alle Gesetze der unbedingten Wahrscheinlichkeit.

(TB2:) WennAB exhaustiv ist, dann gilt p(B|A) = 1. Die Umkehrung gilt nicht.

(TB3) p(AB) = p(A|B)p(B)

(TB4) Für jede Partition B1,,Bn giltp(A) = 1in p(ABi) p(Bi) (allg.

Multiplikationsprinzip). Speziell folgt: p(A) = p(A|B)p(B) + p(A|B)(1p(B))

(TB5) p(A|B) = p(B|A) p(A) / p(B) (Bayes-Theorem, 1. Version)

(TB6) Für jede Partition A1,,An giltp(Ai|B) = p(B|Ai)p(Ai) / 1in

p(BAi)p(Ai)

(Bayes-Theorem, 2. Version)

(TB7) Symmetrie der probabilistischen Abhängigkeit (sofern 1 > p(B), p(A) > 0):

p(A|B) > p(A) g.d.w. p(B|A) > p(B) g.d.w. p(A|B) > p(A|B) (analog für )

(TB7) Symmetrie probabilistischer Abhängigkeiten

(TB5), (TB6) Bedeutung bayesscher Theoreme liegt in Situationen, in denen man

an P(Ai|B) interessiert ist, aber nur inverse Wahrscheinlichkeit P(B|Ai) zugänglich ist.

Beispiel 1: Ai sind rivalisierende Hypothesen, B ein empirisches Resultat

Beispiel 2: Diagnoseprobleme, B Indikator für eine zu diagnostizierenden Zustand A.

Z.B.: B positiver Krebstestbefund, A Krebskrankheit.

Einfach messbar ist nur p(B|A). ("" für "unnegiert" oder "negiert")

p(B|A) die Sensitivität und p(B|A) die Spezifität des Indikators B für A.

p(A|B) Reliabilität des Indikators als Prognoseinstrument

Base rate fallacy: p(A|B) = p(B|A)p(A) / ( p(B|A)p(A) + p(B|A)p(A))

15

= 0,950,01 / ( 0,950,01 + 0,050,99) =

= nur = 0,0095/0.059 = 0,16 = 16%.

Statistische Unabhängigkeit, Binomialverteilung und Gesetz der großen Zahl:

Unabhängige Wiederholungen desselben (identischen) Zufallsexperiments:

Beispiel: Ergebnisse von n Münzwürfen (x1,,xn), mit xi {Zahl, Kopf}

Sprachlich dargestellt: Fx1Fxn ("F" für "Zahl", "F" für "Kopf")

Vereinbarung: i.te Variable der Formel, von links nach rechts angeordnet,

entspricht i.ter Durchführung des Zufallsexperimentes.

Unabhängigkeit bedeutet physikalisch, dass das Zufallsexperiment im Verlaufe

wiederholter Durchführungen seine Dispositionen nicht ändert (sonst: "Markov-

Kette").

Statistisches Unabhängigkeitsgesetz für Ereigniskombinationen:

Fx1Gx2, d.h. p(Fx1Gx2) = p(Fx)p(Gx) (Produktgesetz)

In Worten: Statistische Wahrscheinlichkeit, in zwei Durchführungen einmal F und

dann G zu erzielen = Produkt der beiden Wahrscheinlichkeiten, in einmaliger

Durchführung F respektive G zu erzielen.

Mathematische Notation: p(F1,G2) = p(F1)p(G2)

Daraus folgt: p(Gx2|Fx1) = p(Gx2) und p(Fx1|Gx2) = p(Fx1).

Beispiel: Wahrscheinlichkeit, in zwei Würfen einmal eine Sechs und ein anderes Mal

eine gerade Zahl zu würfeln = (1/6)(1/2) = (1/12).

Für subjektiven Wahrscheinlichkeiten kombinierter Ereignisse gilt das

Unabhängigkeitsgesetz im allgemeinen nicht.

Im Gegenteil: sobald das epistemische Wahrscheinlichkeitsmaß induktiv ist, wächst

unser Glaubensgrad dafür, dass das nächste Individuum ein F ist, mit der Häufigkeit

16

von bisher beobachteten F-Individuen an:

Es gilt also P(Fa|Fb) > P(Fa) und somit P(FaFb) > P(Fa)P(Fb).

17

Erklärung dieses Unterschieds:

In subjektiver Wahrscheinlichkeitstheorie geht man davon aus, dass man

statistische Wahrscheinlichkeit nicht mit Sicherheit kennt.

Ist gegebenen Münze symmetrisch (p = 1/2) oder asymmetrische Münze mit Bias?

Dann induktiv sinnvoll, aus gehäuften Eintreten von Kopf zu schließen, dass die

Münze eher Kopf als Zahl ergibt.

In der statistischen Wahrscheinlichkeitstheorie spricht man nicht über

Glaubensgrade, sondern über die statistische Wahrscheinlichkeit selbst und nimmt

diese als gegeben bzw. bekannt an.

Für diese gilt aufgrund physikalischen Unabhängigkeitsannahme das Produktgesetz.

D.h. wenn die Münze mit Häufigkeitsgrenzwert r auf Kopf landet, so tut sie dies

unabhängig von vorausliegenden Münzwürfen.

tiefliegender Unterschied zwischen obj. und subj. W.keit!

Aus statistischen Produktgesetz folgt Binomialgesetz (oder Bernoulli Gesetz) für n-

fache-Durchführung eines Zufallsexperimentes, bzw. Ziehen von n-elementigen

Zufallsstichproben:

Sei p(F) = p = Wahrscheinlichkeit von Merkmal F (schreibe kurz "p(F)" statt "p(Fx)")

hn(F) = relative Häufigkeit von Merkmal F in n-elementiger Zufallsstichprobe:

Binomialformel: p( hn(F) = kn ) = (

nk ) pk

(1p)nk .

(nk ) („n über k“) = n!k! ⋅( n-k ) ! = Anzahl der Möglichkeiten, aus n Individuen k

auszuwählen.

18

p(hn) ( = Wahrscheinlichkeit einer Stichprobe mit F-Häufigkeit hn)

n = 1000 n = 100 n = 10

hn=kn (Stichprobenhäufigkeit von F)

Drei Binomialverteilungen p(hn=k/n) für p=1/2 (approximiert durch Normalverteilungen).

Für zunehmende Stichprobengrößen n immer steilgipfeliger ( = √ p⋅(1-p ) /n ) .Daraus ergeben sich:

Gesetze der großen Zahlen:

Schwaches Gesetz der großen Zahlen: Für jede noch so kleine positive Zahl strebt

die Wahrscheinlichkeit dafür, dass hn(F) von p(F) um weniger als abweicht, für n

gegen unendlich gegen 1.

Starkes Gesetz der großen Zahlen: Die Wahrscheinlichkeit dafür, dass der

Häufigkeitsgrenzwert von F in einer unendlichen Zufallsfolge mit der

Wahrscheinlichkeit von F übereinstimmt, beträgt 1. (Beweis benötigt -Addditivität)

0

x

x x x

x x x x x

19

Intuition: Gesetze der großen Zahlen sei "Bestätigung" statistischer W.keitstheorie.

Doch nur formale Theoreme, die für W.keit in jeder Interpetation gelten.

Das erkennt man daran dass die Konvergenz der Häufigkeiten nur mit W.keit

behauptet wird was je nachdem, wie „W.keit“ interpretiert wird, unterschiedliches

bedeutet.

Interpretiert man Wahrscheinlichkeiten subjektiv, so besagt starkes Gesetz:

Mit subjektiver Sicherheit (P = 1) wird geglaubt, dass Häufigkeitsgrenzwert in einer

unendlichen Folge von (subjektiv) gleichwahrscheinlichen und voneinander unabhän-

gigen Ereignissen mit der Glaubenswahrscheinlichkeit der Ereignisse übereinstimmt.

20

Sigma-Additivität (unendliche Additivität): P/p heißt -additiv g.d.w.:

die Wahrscheinlichkeit der Vereinigung von unendlich vielen paarweise disjunkten

Ereignissen = unendliche Summe ihrer Wahrscheinlichkeiten.

Problem: Unendliche Summe iN p({i}) kann nur dann Wert 1 (bzw. einen Wert

größer als Null und kleiner enendlich) annehmen, wenn die Folge der

Wahrscheinlichkeiten p({i}) hinreichend schnell gegen Null strebt (ohne nur aus

Nullen zu bestehen):

p=1

p=0 |N

-additive Wahrscheinlichkeitsmaße über |N.

Annahme zwingt jeder Wahrscheinlichkeitsverteilung über einem abzählbar

unendlichen Möglichkeitsraumeinen Bias auf; ist daher nicht generall adäquates

Axiom.

Kelly (1996): -Additivität von subjektiven Wahrscheinlichkeiten impliziert

schwache induktive Annahme: Für universelle Hypothese xFx über unendlichen

Bereich D muss W.keit, dass das n.te Individuum die erste falsifizierende Instanz von

xA(x) ist, mit zunehmenden n schnell gegen Null gehen.

Humescher Induktionsskeptiker würde nicht zustimmen:

nach jeder noch so großen endlichen Anzahl bestätigender Beobachtungen Fa1,,Fan

verbleiben unendlich viele unbeobachtete Individuen, die Allyypothese falsifizieren

können, weshalb für Induktionsskeptiker W.keit nicht gesunken ist.

Nicht--additive W.keitsmaße: Bhaskara Rao & Rao (1983), Schurz & Leitgeb

21

(2008). Erfüllen schwächerer Gesetze, z.B. p(ip({i})) iN p({i}).

3. Probabilistische Rechtfertigung von Schlussarten

Deduktive Schlüsse sind sicher; induktive bzw. nichtdeduktive Schlüsse sind

unsicher. Beispiel:

Deduktiver Schluss Induktiver Schluss

Alle Fische sind Kiemenatmer. Alle bisher beobachteten Fische (Nr. 1,

Dieses Tier ist ein Fisch. (2,....,n) waren Kiemenatmer.

Also ist dieses Tier ein Kiemenatmer. Also sind (wahrscheinlich) alle Fische

Kiemenatmer.

Sicher: Wahrheitsübertragung in allen Unsicher: Wahrheitsübertragung nur in

möglichen Welten genügend ,uniformen‘ möglichen Welten.

Einfache Schlussstrich indiziert Sicherheit, der Doppelstrich Unsicherheit.

Induktive Schlüsse (im engen "Humeschen" Sinn) übertragen beobachtete

Zusammenhänge auf neue nicht beobachtete Fälle sind "gehaltserweiternd".

Weitere nicht-deduktive Schlussart:

Abduktion bzw. Schluss auf die beste Erklärung.

Geht auf C.S. Peirce zurück.

Einfach gesagt: Schluss von beobachteter Wirkung auf unbeobachtete) Ursache.

Schlussschema der Abduktion (Niiniluoto 1999):

Prämisse 1: Ein erklärungsbedürftiges (singuläres oder generelles) Faktum E.

,Prämisse‘ 2: Ein Hintergrundwissen W, das für eine gewisse Hypothese H

impliziert: H ist eine plausible und unter den gegenwärtig bekannten

Erklärungskandidaten die beste Erklärung für E.

22

Abduktive Vermutung: H ist wahr.

Durch abduktive Schlüsse können neue theoretische Begriffe/Modelle eingeführt

werden: Newton schloss aus der Bewegung der Planeten um die Sonne abduktiv auf

die Existenz einer Gravitationskraft.

Geltungsstatus einer abduktiv erschlossenen Hypothese sehr unsicher und

vorläufig: die abduzierte Hypothese muss durch Deduktion und Induktion weiter

getestet werden.

Probabilistische Rechtferigung von Schlussarten: Man fragt nach der Höhe der

bedingten epistemischen Wahrscheinlichkeit der Konklusion, gegeben die Prämissen.

Soll möglichst hoch sein und von möglichst wenig subjektiven Annahmen

abhängen.

23

3.1 Deduktives Schließen

"||" für logische Folgebeziehung

Wahrscheinlichkeitstheorie und logische Folgerung:

Sei P die Menge aller möglichen epistemischen Wahrscheinlichkeitsfunktionen über

den Propositionen einer Sprache L. Es stehe U(A) =def 1P(A) für die sogenannte P-

Unsicherheit von Satz A. Dann gilt für alle Sätze A1,,An, B:

(1.) (i) A1,,An B g.d.w.

(ii) PP: P(B|A1An) = 1 g.d.w.

(iii) PP: P(B) P(A1An) g.d.w.

(iv) PP: wenn P(A1An) = 1 dann P(B) = 1.

In Worten: (i) Eine Konklusion folgt aus einer Menge von Prämissen, g.d.w.

(ii) die bedingte Konklusionswahrscheinlichkeit gegeben die Prämissenkonjunktion

ist für alle Wahrscheinlichkeitsfunktionen 1, g.d.w.

(iii) die Konklusionswahrscheinlichkeit ist für alle Wahrscheinlichkeitsfunktionen

größer oder gleich der Wahrscheinlichkeit der Prämissenkonjunktion, g.d.w.

(iv) die Konklusionswahrscheinlichkeit beträgt für alle

Wahrscheinlichkeitsfunktionen 1, für die Wahrscheinlichkeit der

Prämissenkonjunktion 1 beträgt.

(2.) PP: U(A1An) U(A1) + + U(An).

In Worten: Die Unsicherheit einer Satzkonjunktion für alle

Wahrscheinlichkeitsfunktionen kleiner oder gleich der Summe der Unsicherheiten

der Einzelsätze.

("Unsicherheitssummenregel", "uncertainty sum rule", Suppes 1966).

(3.) (folgt aus 1.+2.) A1,,An B g.d.w.

PP: U(B) U(A1) + + U(An).

24

In Worten: Eine Konklusion folgt aus einer Menge von Prämissen, g.d.w. die Summe

der Prämissenunsicherheiten für alle Wahrscheinlichkeitsfunktionen kleiner oder

gleich der Konklusionsunsicherheit ist.

Zusammenhang zwischen logischer Folgerung und Wahrscheinlichkeit bezieht

sich auf das, was in allen Wahrscheinlichkeitsmodellen gilt.

ur Erfassung des Zusammenhangs muß man die Wahrscheinlichkeit der Konjunktion

aller Prämissen kennen.

Hinweis: Popper (1935/76, Anhänge II*, IV*) zeigt, dass sich die Komolgorov-

W.keit sogar ohne vorausgesetzten Folgerungsbegriff axiomatisieren lässt, woraus

man eine Definition von logischer Folgerung durch Wahrscheinlichkeit gewinnt.

25

3.1* Schließen aus unsicheren Konditionalen

Unsicheres Konditionale ausgedrückt durch Doppelpfeil A B:

Bedeutet: As sind normalerweise/meistens Bs; d.h. bedingte W.keit P(B|A) ist hoch.

Nicht dasselbe wie hohe unbedingte Wahrscheinlichkeit der materialen Implikation.

Es gilt nur P(AB) = P(AB) P(B|A), aber trotz hohem P(AB) kann P(B|A) klein

sein.

Beispiel: P(BundeskanzlerZirkusclown) ist hoch, weil die meisten Personen keine

Bundeskanzler sind, aber P(Zirkusclown|Bundeskanzler) ist sehr gering.

Für gelten schwächere Gesetze als für : Beispiel:

erfüllt Transitivität: Alle Fs sind Gs, Alle Gs sind Hs Alle Fs sind Hs“.

aber erfüllt Transitivität nicht. Z.B.:

"Die meisten Deutschen leben nicht in München"

"die meisten nicht in München lebenden Menschen sind keine Deutschen", aber nicht

"Die meisten Deutschen sind Nichtdeutsche".

26

Regeln der konditionalen Wahrscheinlichkeitslogik, System P (Adams 1975)

Vorsichtige Transitivität VT: A B, AB C |P A CVorsichtige Monotonie VM: A B, A C |P AB C

Vorsichtige Disjunktion VD: A C, B C |P AB C

Supraklassikalität SK: Wenn A B, dann |P A B.

Einige abgeleitete Regeln:

Konjunktion K: A B, A C |P A BC

Linke Logische Äquivalenz LLÄ: Wenn | A B, dann A C |P B C

Rechte Abschwächung RA: Wenn | B C, dann A B |P A C

Vorsichtiger Konditionalbeweis VKP: AC B |P A (B C)

Theorem (Adams 1975): A1 ,,An Bn |P C D g.d.w. für alle

Wahrscheinlichkeitsfunktionen Pgilt: U(D|C) U(B1|A1) + + U(BnAn).

(Semantik dieses Schließens beschränkt sich auf Unsicherheitssummenregel)

Problem: Bei mehreren unsicheren Prämissen gibt es einen

Unsicherheitszuwachs: Konjunktionsproblem.

27

3.2 Induktives Schließen

Die wichtigsten probabilistischen Formen induktiver Schlüsse:

Induktiver Generalisierungsschluss:

(a) Statistisch:

Informell: r% aller bisher beobachteten Indiviuduen waren Fs, also sind

wahrscheinlich zirka r% aller Individuen Fs.

Halbformal: (wobei "[r]" symmetrisches 2-Intervall um r für kleines ):

Der Wert von

P(„p(Fx) [kn]“ | hn(F) =

kn ) ist so-und-so hoch (abhängig von und n), und strebt

für n gegen 1.

(b) Strikt: (Spezialfall von (a)):

Alle bisher beobachtetenIndividuen waren Fs, also sind wahrscheinlich alle

Individuen Fs.

Der Wert von P(xFx | Fa1Fan) ist so-und-so hoch (abhängig von n), und strebt

für n gegen 1.

Damit induktive Schlüsse probabilistisch gelten, muss zugrundeliegende W.keits-

funktion zusätzliche induktive Bedingungen erfüllen (z.B. Vertauschbarkeit,

Indifferenz) genaues später. Erst dann kann man genaue W.keitswerte (rot)

präzisieren.

Vertauschbarkeit: P(F(a1)) = P(F(ai)) für beliebige Individuenkonstanten ai (schwach)

Indifferenz: P(F(a)) = P(F(a)) und P(Fa) = P(Ga) für beliebige Prädikate G; somit

P(F(a)) = 0.5 (stark!)

Nicht-zirkuläre Rechtfertigung induktiver Wahrscheinlichkeitsschlüsse ist ohne

28

Annahme zusätzliche induktiver Axiome nicht möglich.

29

Induktiver Voraussageschluss:

(a) Statistisch:

r% aller beobachteten Individuen waren Fs, also wird mit einer r% nahekommenden

Wahrscheinlichkeit auch das nächste Individuum ein F sein.

Halbformal: P(Fan+1 | hn(F) = kn ) liegt -nahe bei

kn ( abhängig von n) und strebt für

n gegen r.

(b) Strikt (Spezialfall von (a)):

Alle bisher beobachteten Indivuduen waren Fs, also ist mit hoher Wahrscheinlichkeit

auch das nächste Individuum ein F.

Halbformal: P(Fan+1 | Fa1Fan) = so-und-so hoch (abhängig von n), und strebt für

n gegen 1.

Induktiver Spezialisierungsschluss:

(a) Statistisch:

r % aller Fs sind Gs, dies ist ein F, also wird dies mit r% Wahrscheinlichkeit ein G

sein.

Formal: P(Ga| p(Gx|Fx) = r Fa) = r.

(b) Strikt dieser Schluss ist deduktiv gültig: x(FxGx), Fa / Ga.

Auch statistischer Spezialisierungsschluss (a) beruht auf induktiver

Uniformitätsannahme (Grundgesamtheit Einzelfall).

Macht nur Sinn, wenn "F" die Bedingung der engsten Referenzklasse erfüllt.

Diese induktiven Schlussarten sind obwohl unsicher formale Schlussarten:

Gelten inhaltsungebunden. Ihre Korrektheit ist unter Ersetzung ihrer nichtlogischen

Symbole durch syntaktisch formgleiche Symbole abgeschlossen.

30

3.3 Abduktives Schließen (verallgemeinerter Bayesianismus)

Auch Rechtfertigung abduktiver Schlüsse bedarf zusätzlicher probabilistischer

Annahmen aber:

diese sind im Regelfall nicht mehr durch zusätzliche formale Axiome begründbar,

sondern benötigen inhaltsspezifische Annahmen für P (sind auf inhaltlich bestimmte

Hypothesen bezogen; sind abhängig von relevantem Hintergrundwissen).

Konklusion abduktiver Schlüsse im einfachsten Fall:

P(H1|E) > P(H2|E) H1 und H2 rivalisierende Hypothesen, die Erfahrungs-

daten E implizieren oder wahrscheinlich machen.

Beispiel: Gegeben heutiger Beobachtungsstand ist Darwinsche Evolutuionstheorie

wahrscheinlicher als Linnésche Theorie unvergänglicher Arten.

Bayes-Theorem und abduktives Schließen:

P(H1|E) > P(H2|E) g.d.w. P(E|H1)P(H1) > P(E|H2)P(H2).

In Worten: Eine Evidenz macht eine Hypothese wahrscheinlicher als eine zweite,

genau dann wenn das Produkt aus Likelihood und Ausgangswahrscheinlichkeit der

ersten Hypothese größer ist als das der zweiten.

Welches Hi von am wahrscheinlichsten gemacht wird, hängt von zwei Faktoren ab:

(1) dem Likelihood von Hi, P(E|Hi), = inverse Wahrscheinlichkeit von E gegeben Hi,

mißt die Stärke der Implikationsbeziehung von Hi für E, sowie

(2) der Ausgangswahrscheinlichkeit P(Hi) der Hypothesen (Problem: Subjektivität)

Beide Faktoren hängen – zumindest oft - von inhaltlichen Natur von E und H i und

dem gegebenen Hintergrundwissen ab.

Rechtfertigung abduktiven Schließens als formale Schlussart so nicht möglich.

(Man müsste hierfür die formale Struktur von Hi und E spezifizieren.)

31

4. Probleme des objektiv-statistischen Wahrscheinlichkeitsbegriffs

Definitionsfragen: Was ist Wahrscheinlichkeit? Wie lässt sie sich explizieren?

Rechtfertigungsfragen: Wie lassen sich die Wahrscheinlichkeitsaxiome rechtfertigen?

Warum ist der so explizierte W.keitsbegriff wissenschaftlich/praktisch relevant?

Die Probleme des statistischen Wahrscheinlichkeitsbegriff sind vor alledem

Definitionsprobleme, die des subjektiven Wahrscheinlichkeitsbegriffs Recht-

fertigungsprobleme.

4.1 Rechtfertigung statistischer Wahrscheinlichkeit

Geltung der Axiome: Man kann zeigen, dass sowohl Häufigkeiten wie

Häufigkeitsgrenzwerte die Basisaxiome erfüllen.

(Nur -Additivität ist nicht erfüllt. Ausserdem: Menge der Ereignisse, die

Häufigkeitsgrenzwert besitzen, nicht immer abgeschlosseen unter algebraischen

Operationen; lösbare Spezialprobleme: Schurz und Leitgeb 2008).

Relevanz der statist. W.keit: Entscheidungstheorie (z.B. Raiffa 1973):

Erwartungswert (langfristiger Mittelwert) des Nutzen einer Handlungsweise hängt

von den statistischen W.keiten der möglichen Umstände ab, die für ihre

Auswirkungen relevant sind.

(Allerdings hat Kenntnis des "Häufigkeitsgrenzwertes" nur praktische Relevanz,

wenn es induktiven Zusammenhang zur "Häufigkeit auf kurze Sicht" gibt; s. später.)

32

Mögliche Handlungsweisen: h1,,hn Mögliche Umstände: u1,,um

Erwartungsnutzen der Handlung hi: EN(hi) = 1im N(hi,uj)p(uj)

In Worten: Der EN einer Handlung ist die Summe ihrer Nutzwerte in allen möglichen

Umständen, jeweils multipliziert mit dem Wahrscheinlichkeitswert des Umstandes.

Um den Durchschnittsnutzen zu maximieren, müssen die statistischen

Wahrscheinlichkeiten zumindest näherungsweise bekannt sind darin liegt ihre

Relevanz.

Beispiel: Ich stehe vor der Entscheidung, ein Auto zu kaufen oder nicht.

Nutzenmatrix (relative Nutzwerte; mit Konstante multiplizierbar):

Mit dem Auto Mit öffentlichen Verkehrsmitteln

Nutzen Stadtfahrten (Häufigkeit p) 1 2

Nutzen Landfahrten (Häufigkeit 1p) 3 2

EN(Auto) = 1p + 3(1p) = 3 2p EN(Öffentlich) = p2 +(1p)2 = 2

Annahme p = 2/3: Dann EN(Auto) = 5/3 < EN(Öffentlich) = 2 liegt.

Gleichgewichtswahrscheinlichkeit: 32p = 2 p = 0.5.

33

4.2 Definition / Explikation statistischer Wahrscheinlichkeit

Begriff des Häufigkeitsgrenzwertes ist theoretische Idealisierung definierbar nur

durch "kontrafaktische" Aussage:

p(Fx) = r bedeutet: wenn man das zugrundeliegende Zufallsexperiment (mit

möglichem Ergebnis F) unendlich oft wiederholen würde, würden die Häufigkeiten

von F gegen den Grenzwert r konvergieren.

ist gesetzesartige Aussage über die Disposition des zugrundeliegenden

Zufallsexperimentes bzw. physikalischen Prozesstyps.

Problem 1: Kontrafaktische Aussagen lassen sich durch die Beobachtungen endlicher

Häufigkeiten niemals definitiv verifizieren/falsifizieren, sondern nur induktiv

bestätigen/schwächen.

Nicht "schwerwiegend": auch strikte Gesetzesaussagen wie Zucker ist

wasserlöslich müssen durch kontrafaktische Konditionale expliziert werden: Zucker

ist auch dann wasserlöslich, wenn man ihn nie ins Wasser gegeben nicht.

Problem 2 (Kernproblem, spezifisch für statistische W.keiten): durch wiederholte

Durchführungen des Zufallsexperimentes können potentiell unendlich viele potentiell

unendlich anwachsende Ergebnisfolgen (e1,e2,) produziert werden.

Beispiele:

Gesamtfolge aller Würfe aller Personen (hypothetisch verlängert…)

jede Person ihre eigene Folge

jeder Würfel hat seine eigene Folge,

Folge aller Würfelwürfe in Januarmonaten (usw. ...).

34

Warum sollten alle diese (idealisierten) Folgen denselben Häufigkeitsgrenzwert p(Fx)

besitzen. Warum sollten sie alle überhaupt einen Häufigkeitsgrenzwert besitzen?

Problem: Häufigkeitsgrenzwerte sind abhängig von der Anordnung der Ereignisse

in einer gegebenen Folge.

Durch Permutationen (Umordnungen) oder Stellenauswahlen einer gegebenen

Ereignisfolge kann sich ihr Häufigkeitsgrenzwert drastisch ändern;

Beispiel:

Sei (1,0,0,1,1,0,1,0,) beliebige Zufallsfolge mit vielen 1en und 0en und

beliebigen Häufigkeitsgrentzwert (z.B. p = 1/5).

Wir können daraus durch Umordnung Folgen mit beliebigem anderen Grenzwert

r = kn konstruieren (für k<n; k,n > 0):

Wir nehmen die ersten k 1en, die ersten n-k 0en, die nächsten k 1en, die nächsten nk

0en, usw. [Zeichnung]

1en und 0en gehen diese niemals aus

jedes Element der Folge "kommt dran".

Man kann auch Folgen ohne Häufigkeitsgrenzwert konstruieren, z.B. eine Folge

deren Häufigkeiten ewig zwischen 2/3 oszillieren:

Nimm so viele Einsen wie nötig um hx(1) auf 2/3 hochzutreiben, dann soviele 0en

wie nötig, um die Häufigkeit hn(1) auf 1/3 zu senken, usw. [Zeichnung]

Noch einfacher sind ,seltsamen‘ Folgen statt durch Umordnungen durch

Stellenauswahlen erzeugbar. [Zeichnung]

Von Mises beschränkt sich auf Stellenauswahlen.

35

Knackpunkt des Problems (von Mises):

Solche Konstruktionen sind ergebnisabhängig: Man muss das Ergebnis der Stelle n

kennen, um zu wissen, ob man sie auswählt (bzw. bei Umordnung vorzieht).

Solche Folgen sind keine Zufallsfolgen. Sie "zählen" daher nicht.

Einwand: Wäre es nicht möglich, dass häufigkeitsabweichende Ergebnisfolgen mit

einer regulären Münze durch extrem unwahrscheinlichen Zufall erzielt werden?

"Naiver" Lösungsvorschlag: Gesetz der großen Zahlen (GGZ) besagt ja nicht, dass in

allen Zufallsfolgen der Häufigkeitsgrenzwert von Fx mit p(Fx) übereinstimmt,

sondern lediglich, dass er dies mit Wahrscheinlichkeit 1 tut.

Einwand: Als Definition betrachtet ist GGZ zirkulär:

im Definiens kommt Ausdruck „mit Wahrscheinlichkeit 1“ vor.

Vgl. Literatur: Skyrms (1980, 29f), Eagle (2004, 396f). Hájek (1999, 223),

Kutschera (1972, 104). Stegmüller (1973b, 37): „tödlicher Einwand“.

Inwiefern ist die zirkuläre Definition wertlos?

Weil sie Wahrscheinlichkeitsbegriff inhaltlich nicht bestimmt; nicht zwangsweise mit

Häufigkeiten verbindet folgt schon daraus, dass GGZ aus Axiomen logisch folgt.

Fiktives Beispiel: Angenommen P bedeutet "rationaler Erwünschtheitsgrad":

Dann besagt GGZ, dass es in maximalem Grad erwünscht ist, dass die Häufigkeiten

mit Erwünschtheitsgrad übereinstimmt.

Versucht man Bedingung „p = 1“ erneut mit GGZ umzuformen, gerät man in

infiniten Regress (Spezialfall des Zirkularitätsproblems):

„p(Fx) = r“ „mit Wahrscheinlichkeit 1 ist in einerZufallsfolge vonZufallsfolgen

Häufigkeitsgrenzwert jener Folgen mit Häufigkeitsgrenzwert = p(Fx) gleich 1“.

Bedingung „mit Wahrscheinlichkeit 1“ kann so nicht eliminiert werden.

36

Lösung(sversuch) des Zirkularitätsproblem durch von Mises (1928, 1964):

Annahme einer einzigen Grundfolge von Experimentrealisierungen

Z.B. "Folge aller Würfe mit Würfeln desselben physikalischen Typs" hypothetisch

verlängert in die Zukunft: ein "statistisches Kollektiv".

Reale Einzelfolgen werden durch den Begriff der ergebnisunabhängigen

Stellenauswahl charakterisiert wird gemäß Weiterführung durch Wald und Church

mittels Begriffs der berechenbaren Funktion erklärt:

Definition (von Mises 1928, Church 1940):

Eine zulässige Stellenauswahl s der Grundfolge g = (e1,e2,) ist eine berechenbare

Funktion, die angewandt auf eine beliebige Stelle n|N von g besagt, ob diese Stelle

ausgewählt werden soll (+) oder nicht () (s(n,Input) {+,}).

Als zusätzlicher Input für s(n) fungieren die vorausliegenden Ergebnisse der

Grundfolge (e1,,en1), aber nicht aber das Ergebnisse en.

s(g) = die durch Stellenauswahl s aus g erzeugte Folge.

Eine Grundfolge g ist statistische Grundfolge g.d.w.t:

(a) (Konvergenzbedingung). Jedes mögliche (disjunktive) Ereignis E in der Algebra

AL über (abzählbarem) besitzt in g einen Häufigkeitsgrenzwert p(E)

(b) (Zufälligkeitsbedingung): dieser Häufigkeitsgrenzwert ist insensitiv gegenüber

zulässigen Stellenauswahlen.

Zufallsfolgen = alle durch zulässige Stellenauswahlen gewonnene Teilfolgen von g.

37

Leistungen des von Mises Ansatz:

Natürliche Definition von "Zufallsfolge"

Ermöglicht Beweis statistischen Unabhängigkeitsgesetzes für Zufallsfolgen:

p(Fx1Gx2) = p(Fx)p(Gx) d.h. bei von Mises:

Limes-h von Paaren (Fn,Gn+1) in g = (Limes-h von F-in-g)(Limes-h von G-in-g)

für endliche Häufigkeiten gilt Unabhängigkeit schon durch simple Kombinatorik)

Beweis Binomialgesetz im von Mises Rahmen

GGZ im von Mises Rahmen:

Grundfolge enthält unendliche Folge von überlappenden unendlichen Folgen:

Für Folgen von zulässig ausgewählten Teilfolgen gilt GGZ "per definitionem".

GGZ ist im von Mises Rahmen für noch größere Klasse beweisbar (Schurz 2015).

Von Mises‘schen Ansatzes löst fast alle bekannten Einwände gegen

frequentistische Wahrscheinlichkeiten (Übersicht in Hájek 1999).

Nur ein Einwand verbleibt (Wiederholung):

Einwand Schritt 1: W.keit als idealisierte Dispositionon ist nicht empirisch (nur

kontrafaktisch) definierbar.

Antwort: ist positive Einsicht! Statistische W.keit ist theoretischer Begriff.

Bezieht sich auf mögliche Verlängerungen der bisher erzeugten Zufallsfolge.

Einwand Schritt 2: Dann gibt es aber doch nicht nur eine, sondern unendliche

vielen Zufallsfolgen (auch ‚Grundfolgen‘) qua theoretisch (physikalisch) mögliche

Fortsetzungen realer (bisheriger) Zufallsfolgen (der Einwand kehrt wieder).

38

M.E. gibt es nur zwei sinnvollen Methoden, auf den Einwand zu reagieren:

Methode 1: Annahme dass strikt alle physikalisch mögliche (hypothetisch

fortgesetzte) Zufallsfolgen gegen denselben Grenzwert konvergieren.

Nullwahrscheinliche Zufallsfolgen werden als physikalisch unmöglich erachtet.

Methode ist "im Geiste von Mises' (enthält nur "statistische" W.keit.)

Methode 2: Nullwahrscheinliche Zufallsfolgen sind physikalisch möglich.

Phrase „mit Wahrscheinlichkeit 1“wird um der Zirkularität zu entgehen als

epistemische (induktive) Wahrscheinlichkeitsaussage betrachtet (Kolmogorov 1933,

Cramér 1946: „praktischen Sicherheit“).

Vorschlag führt zu dualistischen W.keitsbegriff.

Schurz 2015: Vorteil "statistischer Reinheit" von Methode 1 ist oberflächlich, denn:

Sobald man die Frage des empirischen Gehaltes statistischer W.keitsaussagen

stellt, ist man (auch bei Methode 1) gezwungen, induktiv-epistemische

Wahrscheinlichkeitsannahmen zu machen.

Diese Aussagen bleiben dieselben, egal ob man Methode 1 oder 2 anwendet

(w.keitstheoretisch besteht zwischen "p=1" und "unmöglich" kein Unterschied.)

Schurz 2015: statistisch-dualistischer Wahrscheinlichkeitsbegriff.

39

Empirischer Gehalt statistischer Wahrscheinlichkeitsaussagen:

Es gibt keine Beobachtungsaussage, die aus Aussage über Häufigkeitsgrenzwert

logisch folgt: limnhn(E) = r ist mit jedem hn(E) = q logisch verträglich. [Zeichnung]

Problem wurde weder von von Mises noch von Reichenbach befriedigend gelöst.

Konvergenzkriterium sagt uns nie, wie nahe wir "jetzt" schon am Grenzwert sind

(Lenz 1974).

Traditionelle Definition von "empirischer Gehalt" ist deduktiv.

Muß auf beobachtbare induktive-wahrscheinliche Konsequenzen erweitert werden.

Mithilfe des induktiven Spezialisierungsschlusses, der Häufigkeitsgrenzwert von

Stichprobenhäufigkeiten (berechenbar mittels Binomialgesetz) als

Glaubenswahrscheinlichkeit auf einzelne Stichproben überträgt (vorbehaltlich

"Prinzips der engsten Referenzklasse").

Ist ein induktives Prinzip ("statistisch-induktives Koordinationsprinzip", Strevens

2004, s. später).

Beispiel: Glaubenswahrscheinlichkeit, in einem Münzwurfexperiment mit einer

regulären Münze in 10.000 Würfen zwischen 4900 und 5100 mal Kopf zu erzielen,

beträgt 95%.

Gehört zum induktiv-empirischen Gehalt der statistischen Hypothese p(Kopf) = 1/2.

Grundidee der statistischen Testtheorie: Statistische Hypothese "p(Fx)=r" nur

solange akzeptierbar, solange die beobachteten Stichprobenhäufigkeit hn(Fx) unter

Annahme von der Wahrheit von "p(Fx)=r" nicht zu unwahrscheinlich ist (s. später.)

40

4.3 Objektive Zufälligkeit, Determinismus und Indeterminismus

Ontologie: Statistische Wahrscheinlichkeitsbegriff ist Dispositionsbegriff.

Generische Propensität des zugrundeliegenden Zufallsexperimentes (Popper 1959).

Statistische W.keit wird nicht identifiziert mit Häufigkeitsgrenzwert, sondern mit

Disposition, diesen Häufigkeitsgrenzwert tendenziell zu produzieren.

Ganz anders singuläre Propensitäten = objektive Wahrscheinlichkeiten von

Einzelereignissen die von Popper (1990) einführte um seinen Deduktivismus zu

verteidigen.

Singuläre Propensitäten, die nicht generischen Propensitäten beruhen, sind kognitiv

fragwürdig, weil völlig unüberprüfbar.

Beispiel: In diesem Münzwurf gelang es dem Mentalisten Uri Geller mithilfe seiner

Geisteskraft, die Münze auf Kopf landen zu lassen (allerdings gelingt ihm dies nur in

50% aller Fälle).

W.keit, eine 1 in diesem Münzwurf zu werfen, ist bestimmt durch statistische W.keit

in zugrundeliegenden Zufallsexperiment ...

... plus Reichenbachs Prinzip der engsten Referenzklasse: ich muß auf gesamte

relevante Information über Zufallsexperiment konditionalisieren.

Führt uns zum Unterschied zwischen (folgen-)interner und objektiver Zufälligkeit.

Interne Zufälligkeit (von Mises' Definition): betrachtet nur Abhängigkeiten (der

Stellenauswahlen) von vorausliegenden Ereignissen innerhalb der Folge

Objektive (externe) Zufälligkeit: auch Abhängigkeiten von vorausliegenden externen

Ereignissen werden mit einbezogen (Reichenbach 1949, Salmon 1984).

41

Die Ergebnisse eines Zufallsexperimentes sind objektv zufällig, wenn sie intern

zufälig (im Sinne von von Mises) sind und der Häufigkeitsgrenzwert ihrer

Zufallsfolgen auch insensitiv gegenüber zulässigen externen Stellenasuwahlen ist

(Stellenauswahlen abhängig von externen Fakten in der Vergangenheit des

Zufallsereignisses)

Beispiel:

Prozess des Werfens eines Würfels erzeugt interne und objektive Zufallsfolge.

Prozess des willentlichen Legens eines Würfels kann ebenfalls intern zufällige

Ergebnisfolge generieren, die aber nicht objektiv zufällig ist, weil sich die Resultate

durch Willensentschluss der Person voraussagen lassen.

Frage: Setzt der Begriff der objektiven Zufälligkeit die Annahme eines

Indeterminismus der Naturgesetze voraus?

Traditionelle Ansicht: Ja. Z.B. Coffa (1974), Salmon (1989).

Moderne Ansicht: Nein. Z.B. Norton (2009), Strevens (2008).

Traditionelle Ansicht: Genuinen Zufall gibt es nur in der Mikrophysik /

Quantenphysik, aber nicht in der klassischen Physik, denn die Gesetze der

klassischen Physik sind deterministisch.

Beispiel: Radiokative Zerfall ist objektiver Zufallsprozess.

Regulärer Münzwurf nur interner und epistemischer Zufallsprozess.

W.keit dafür, dass dieses radioaktive Cäsium-137 Atom in nächsten 30 Jahren

zerfällt, ist 1/2, gegeben vollständiges physikalisches Wissen über

Anfangsbedingungen.

W.keit dass Münze in diesem Münzwurf auf Kopf fällt, gegeben vollständiges

physikalisches Wissen, ist nicht 1/2, sondern 0 oder 1. (?)

42

Problem der traditionellen Ansicht:

Warum spielen scheinbar objektive Zufallsprozesse in Alltagswelt (Bereichen

der klassischen Physik) eine so große Rolle?

Warum ist es noch niemandem gelungen, die Resultate eines Roulettespiels mit

signifikant überzufälligem Erfolg vorauszusagen?

D.h.: wie erklären sich makrophysikalische Zufallsprozesse?

Eine moderne Ansicht: Es gibt auch in klassischer Physik objektive Zufallsprozesse.

Instabile Systeme sind trotz deterministischer Gesetze unvoraussagbar und objektiv

zufällig.

Erster Teil der Erklärung:

Lösungen von gewöhnlichen deterministischen Differentialgleichungen können

instabile Punkte (Bifurkationen) besitzen.

Systeme in instabilen Zuständen sind hochgradig sensitiv gegenüber minimalen

Variationen der Anfangsbedingungen: für jede (unmeßbar) kleine Variation derselben

weichen die hervorgehenden Trajektorien schon bald maximal voneinander ab.

Beispiel: Ideale Kugel plaziert auf der Spitze einer idealen Halbkugel auf welcher

Seite die Kugel herunterrollen wird, wird von unmessbar kleinen Fluktuationen

bestimmt und ist daher unmöglich voraussagbar.

Chaotische Systeme: Anhäufung instabiler Punkte

"deterministisches Chaos", Schuster 1994)

Determinismusfreundliche Philosophen wenden ein, dass es sich hier nur um

praktische und keine prinzipielle Unmöglichkeit handle.

Irrtum, da Fluktuationen so gering sind, dass sie in quantenphysikalische

Dimensionen fallen, wo genauer Messbarkeit prinzipielle Grenzen gesetzt sind.

43

Zweiter Teil der Erklärung:

Bisher wurde nur erklärt, warum Würfelwurf ein objektiv unvoraussagbarer

Zufallsprozess ist weil minimale Schwankungen in Anfangsbedingungen (minimale

Luftbewegungen etc.) darüber entscheiden, welche Würfelseite oben liegen wird.

Frage: Warum führt dies (bei einem symmetrischen gebauten Würfel) zu einer

stabilen Gleichverteilung der Ergebnisse?

Nichts garantiert, dass die W.keitsverteilung über makrophysikalische

Anfangsbedingungen gleichverteilt ist:typischerweise werfen unterschiedliche

Personen anders; einige heftiger, anderen sanfter, usw.

Warum produzieren verschiedenen Personen und Wurftechniken dennoch

dieselben Häufigkeitsgrenzwerte?

Erklärung der Gleichverteilung von Würfelwurfergebnissen trotz fast beliebiger

makrophysikalischer Anfangsverteilung

Weil nicht alle, aber fast alle (99,99% aller) Häufigkeitsverteilungen über

makrophysikalischen Anfangsbedingungen zu Gleichverteilung der

Ergebnishäufigkeiten des Würfelwurfes führen (Strevens 2008, Schurz 2015):

Wir betrachten die Abhängigkeit der Würfelwurfresultate (Y) von

makrophysikalischen Anfangsbedingungen (X).

Einfacheres Beispiel Glücksrad: X umfaßt nur Anfangsgeschwindigkeit des Glücks-

rades; abhängige Variable Y diskret, umfasst Werte 0,,n.

Knackpunkt ist „Mikroperiodizität“ (Strevens): Minimale Änderungen der X-

Variable bewirken Maximalveränderung und damit einen Periodenzyklus der Y-

Variable.

44

Funktionsgraph von Y in Abhängigkeit von X ist extrem steil

Fast alle makrophysikalischen Wahrscheinlichkeitsverteilungen haben viel flachere

Steigung. Resultierenden Y-Verteilungen sind daher annäherend gleichverteilt.

Y (Würfelergebnis) Hell:Y Dunkel: Häufigkeit von X 123456 X

(a) Y hängt mikroperiodisch (b) X in extrem gedehnter Darstellung

von X ab; Verteilung extrem steil. Dunkel: eine Anfangsverteilung, die

ein bestimmtes Y-Ergebnis präferieren

würde sie müsste noch steiler sein.

Hell: Y Dunkel: Häufigkeit von X Hell: Y Dunkel: Häufigkeit von X123456 X

(c) Wie (a). Dunkel: makrophysikalische (d) X in extrem gedehnter Darstellung

Verteilungen über X. Sie führen alle zu Dunkel: Häufigkeit der X-Werte ist über

Gleichverteilungen über Y: siehe (d). extrem kleine X-Intervalle gleichverteilt.

Führt zu Gleichverteilung über

Häufigkeit von Y-Werten.

45

5. Probleme der subjektiv-epistemischen Wahrscheinlichkeit

5.1 Definition

Kein Problem: Subjektive Wahrscheinlichkeiten sind definiert als die epistemischen

Glaubensgrade von Subjekten, die Kolmogorovschen Basisaxiome erfüllen.

5.2 Rechtfertigungsprobleme: Kohärente faire Wettquotienten

Hartnäckiger Befund der Kognitionspsychologie (z.B. Kahneman et al. 1982):

die realen Glaubensgrade von Versuchspersonen erfüllen Basisaxiome häufig nicht.

Vertretern des Baysianismus: Axiome seien Rationalitätsbedingungen.

Herausforderung:

Warum müssen rationale Glaubensgrade die Axiome erfüllen?

Warum sind solche Glaubensgrade wisenschaftlich/praktisch bedeutsam?

Bekannteste subjektive Rechtfertigung der Wahrscheinlichkeitsaxiome A1-3:

Subjektive Glaubensgrade werden aufgrund des Wettverhalten rationaler Personen als

faire Wettquotienten expliziert (Frank Ramsey 1926 und Bruno de Finetti 1937).

(vgl. Carnap 1971, Skyrms 1999, Howson/Urbach 1996, Gillies 2000)

46

Wette W auf eine Proposition A = abstrakt definiert als Tripel W = (A, g, v).

g monetäre Gewinnbetrag, den Wettperson gewinnt und Wettgegner verliert, wenn

sich A als wahr herausstellt.

v Verlustbetrag, den Wettperson verliert und Wettgegner gewinnt, wenn sich A als

falsch herausstellt. (g, v nichtnegative reelle Zahlen)

e = g+v heißt ‚stake‘ (Erläuterung: e Wetteinsatz des Wettgegners = Ausschüttung, v

Kaufpreis der Wette), und

q = v/(g+v) Wettquotient (betting quotient).

Ergo: g = (1q)e v = qe

Wc = (A, v, g) ist Gegenwette von W = (A, g, v); Wettgegner von W wettet auf Wc.

Wann ist es für die Wettperson rational, Wette W = (A, g, v) anzunehmen?

Bayesianismus: wenn subjektiver Erwartungswert E(W) des Wettgewinns 0 ist:

E((A,g,v)) = gP(A) vP(A) 0.

Wette W heißt fair, wenn E(W) = 0.

Fairness meint, dass Wettperson und Wettgegner gleichen Gewinnchancen

besitzen, denn es gilt nachweislich E(W) = E(Wc). [Aufgabe]

D.h. meine Bereitschaft, Wette und Gegenwette einzugehen, ist gleich hoch.

Für eine faire Wette auf A gilt unter der Annahme P(A) = 1P(A):

P(A) = Wettquotient q = v/(g+v) [Beweis: Aufgabe]

Idee der subjektiven Wahrscheinlichkeitstheorie (Ramsey, de Finetti):

Identifiziere subjektiven Glaubensgrade mit fairen Wettquotienten der Person

Warum sollten faire Wettquotienten Axiome der Wahrscheinlichkeitstheorie erfüllen?

Hauptresultat von Ramsey (1926) und de Finetti (1937):

47

Definition Kohärenz: Die durch fairer Wettquotienten explizierte Glaubensfunktion

qX:AL[0,1] einer Wettperson X heißt kohärent g.d.w. es kein endliches und aus

(bzgl. qX) fairen Einzelwetten bestehendes Wettsystem WS ={W1,,Wn} gibt, das in

jedem möglichen Weltzustand w für X zu einem Gesamtverlust < 0 führt.

Inkohärente Wettperson würde faires Wettsystem annehmen, bei der sie mit

Sicherheit verliert damit könnte man Person ,übers Ohr hauen‘ = 'Dutch book'.

Beispiel eines Dutch Books: Sie wetten mit Wettquotient 1/2 darauf, dass es

morgen regnet, und zugleich mit Wettquotient 3/4 darauf, dass es morgen nicht

regnet.

Mit e als Wetteinsatz ist Gesamtgewinn dann

0,5e 0,75e = 0,25e wenn es morgen regnet und

0,5e+0,25e = 0,25e, wenn es nicht regnet.

Sie verlieren in jedem Fall ein Viertel des Wetteinsatzes.

Theorem Kohärenz: Eine durch faire Wettquotienten explizierte subjektive

Glaubensfunktion q genau dann die drei Wahrscheinlichkeitsaxiome (A1)-(A3, wenn

sie kohärent ist.

Definition strikte Kohärenz: Eine Glaubensfunktion q über abzählbarem

Möglichkeitsraum heißt strikt kohärent g.d.w. es kein aus fairen Einzelwetten

bestehendes Wettsystem gibt, dass in keiner möglichen Welt einen Gewinn und in

mindestens einer möglichen Welt einen Verlust liefert.

Definition Regularität: Eine Wahrscheinlichkeitsfunktion P über abzählbarem

Möglichkeitsraum heißt regulär g.d.w. q allen möglichen Propositionen einen

Glaubensgrad größer 0 zuordnet.

Theorem strikte Kohörenz: Eine durch faire Wettquotienten explizierte

48

Glaubensfunktion ist strikt kohärent g.d.w. sie Axiome (A1-3) erfüllt und regulär ist.

Kritik der Rechtfertigung subjektiven Wahrscheinlichkeit durch faire

Wettquotienten: (Earman 1992; Howson 1995; Gillies 2000).

Drei Einwände, auf die es passable Antworten gibt, auch wenn diese von starken

Idealisierungen Gebrauch machen:

(1.) Der Erwartungswert einer fairen Wette ist null. Weshalb sollten rationale

Nutzenmaximierer eine faire Wette überhaupt annehmen?

Antwort: Mag sein; wenn sie das nicht tun, stellt sich die Frage, wie kann ich dann

fairen Wettquotienten bestimmen? Faire Wettquotienten einer Person werden durch

Befragung zu einer hypothetischen Situation ermittelt, in der die Wettperson sagen

soll, welche Wette sie vorziehen würde. Fairer Wettquotient (rationaler

Glaubensgrad) = Wettquotient bei Antwort „gleich“ ist.

(2.) Der Nutzen einer Wette hängt typischerweise nicht linear vom Wettgewinn ab

(was in der Bildung des Erwartungswertes angenommen wird).

Steigt für höhere Gewinne (in Geldeinheiten) schwächer als linear, sinkt für hohe

Wettverluste stärker als linear.

Antwort: Befragung zu hypothetischen Wettsituationen mit Wetteinsätzen, die

verglichen zum Vermögen der Person gering sind. (?: sind dann die Antworten

reliabel?)

(3.) Echte Wetten kann man nur auf empirisch verifizierbare Propositionen

abschließen. Gerade auf jene Propositionen, die für Anwendungen des Bayesianismus

am bedeutsamsten sind nämlich unverifizierbare wissenschaftliche Hypothesen

kann man nicht echt wetten.

Antwort: Man benutzt kontrafaktische Fragen folgender Form: Wie viele Euro

würden Sie darauf wetten, dass die Relativitätstheorie wahr ist, wenn es angenommen

einen perfekten Experten gäbe, der nach Abschluss der Wette eine mit Sicherheit

49

wahre Auskunft über diese Frage gibt?

(? seltsame Idealisierungen, die reale Personen überfordern können)

Drei schwerwiegende Einwände:

(4.) Sollten vernünftige Personen quantitative Glaubensgrade über alle Propositionen

besitzen?

Beispiel: Welche vernünftige Person besitzt Glaubensgrade zu Fragen wie ob es

einen Urknall oder mehrere gegeben hat, oder ob es Gott gibt?

Meisten Personen würden hier stattdessen mit qualitativen Urteilen aufwarten, wie

„für hinreichend erwiesen“, „für eher wahrscheinlich als sein Gegenteil“, oder „zu

unwahrscheinlich, um diese Möglichkeit in Betracht zu ziehen“.

Subjektive Glaubensgrade scheinen nur dann stabil zu sein, wenn sie sich auf

Erfahrungen von Häufigkeiten gründen (psychologischen Experimente)

(5.) Erster philosophischer Haupteinwand: Kohärente faire Wettquotienten sind noch

lange nicht rational im Sinne von objektiv wahrheitsorientiert.

Reale Erfolgshäufigkeit wird durch faire Wett-Rechtfertigung gar nicht berührt.

Beispiel: Ein Subjektivist wettet begeistert 1:1 darauf, dass er mit einem regulären

Würfel eine Sechs würfelt. Sein Wettquotient ist fair, d.h. er wäre bereit, die

Gegenwette 1:1 darauf anzunehmen, dass er keine Sechs würfelt.

Er bleibt auch dann noch kohärent, wenn er sein ganzes Vermögen verloren hat und

er wird keinen "logischen Fehler" in seinem Wettverhalten erblicken können. Wird

sich nur darüber wundern, dass ihm die nach seiner Ansicht nach ebenso fairen

Gegenwetten nie abgenommen wurden.

Kann sich nicht erklären, warum er sein Vermögen verlor, während andere abgesahnt

haben, solange er nicht objektiven Häufigkeitendes Ereignistyps in Betracht zieht.

50

Einwand (5.) zeigt, dass die Axiome A1-3 nur eine Minimalbedingung für

rationale Glaubensgrade liefern, die viel zu schwach ist, um aus objektiver Sicht

irrationales Wettverhalten auszuschließen. Howson (2000, 133)

Darüber hinaus folgt aus Einwand (5.), dass kohärente subjektive Glaubensgrade

unterschiedlicher Personen beliebig voneinander abweichen können.

(6.) Zweiter Haupteinwand (Ryder 1981): Sobald mehrere Personen zur selben

Proposition unterschiedliche Glaubensgrade besitzen, kann ein Dutch book gegen die

Gruppe von Personen konstruiert werden.

Es gibt dann ein System fairer Wetten, die für alle möglichen Weltzustände zu einem

Gesamtverlust für die Gruppe und zu einem Gesamtgewinn der gegen die Gruppe

wettenden Person führt.

Beispiel: Gruppe = {X,Y}. Person X wettet mit einem fairen Wettquotient von 1/2

darauf, dass es morgen regnet, und Person Y mit einem fairen Wettquotient von 3/4

dagegen.

Ich nehme beide Wetten als Wettgegner an und gewinne in jeder möglichen Welt ein

Viertel des Wetteinsatzes e, denn:

(i) wenn es morgen nicht regnet, erhalte ich von X die Hälfte von e und muss Y

ein Viertel von e auszahlen, und

(ii) wenn es morgen regnet, erhalte ich von Y drei Viertel von e und muss X die

Hälfte von e auszahlen.

Somit verlieren X und Y zusammen auf jeden Fall ein Viertel von e, obwohl beide

Wettquotienten kohärent sind.

Ryder (1981): eine Regel des Wettverhaltens, die wenn von mehreren Personen

befolgt zu einem notwendigen Verlust dieser Personen führen kann, kann nicht als

„rational“ bezeichnet werden.

51

Gillies (2000, 170ff): auf Kooperation ausgerichtete Personen sollten ein Interesse

daran haben, Übereinstimmung ihrer Glaubensgrade herzustellen.

Es fragt sichwie kann eine solche intersubjektive Übereinstimmung in nicht-

willkürlicher Weise hergestellt werden kann. Artifizielle Übereinstimmung der

Glaubensgrade durch Diktator löst nicht das Problem (5.) nicht.

Nur intrinsischen Bezug zu statistischen Wahrscheinlichkeiten löst gleichzeitig

Problem (5.) und (6.).

Damit ergibt sich überlegener Weg, die Grundaxiome (A1-3) für subjektiven

Wahrscheinlichkeitsein zu rechtfertigen: weil sie intendieren, die objektiven

statistischen Wahrscheinlichkeiten widerzuspiegeln können sie nur, wenn sie die

Grundaxiome (A1-3) erfüllen.

"häufigkeitsintendierte Rechtfertigung" von A1-3 (Carnap 1950, Earman 1992, 46).

Das gelingt nur, wenn funktionsfähige Brückenbeziehungen zwischen subjektiven

und statistischen Wahrscheinlichkeiten hergestellt werden, wie z.B. Prinzip der

engsten Referenzklasse (nächstes Kapitel).

52

6. Verbindungen von statistischer und subjektiver Wahrscheinlichkeit: das

statistische Koordinationsprinzip (StK)

Zwei Versionen:

1. Das singuläre Koordinationsprinzip (Lewis 1980 "principal principle"): verbindet

subjektive W.keiten mit Einzelfallpropensitäten ('chances'). Einfacher als statistisches

Koordinationsprinzip, da sich Einzelfallpropensitäten so wie subjektive W.keiten auf

singuläre Sätze und nicht auf offene Formeln beziehen. Problem:

Einzelfallpropensitäten empirisch gehaltleer sind (daher führen wir dies nicht weiter

aus).

2. Das statistische Koordinationsprinzip StK (Kutschera 1972, Howson/Urbach 1996,

Strevens 2004, Williamson 2010).

StK für einstellige Prädikate (verallgemeinerbar auf mehrstellige Prädikate)

Fx (bzw. Fa) steht für eine möglicherweise komplexe Formel in genau einer

Individuenvariable x (bzw. Individuenkonstante a).

h(F|{a1,,an}) für die Häufigkeit von Fx in einer bestimmten n-elementigen

Stichprobe bestehend aus den Individuen a1,,an.

53

Definition Statistisches Koordinationsprinzip StK:

(a) Sei H statistische Hypothese, die p(Fx)=r wahrscheinlichkeitstheoretisch impli-

ziert. Dann gilt: P(Fa | H E(b1,,bn)) = r,

sofern die Zulässigkeitsbedingung „a bj für alle j{1,,n}“ erfüllt ist.

Spezialfall: P(Fa | p(Fx)=r E(b1,,bn)) = r.

In Worten: Der rationale Glaubensgrad dafür, dass ein bestimmtes Individuum a die

Eigenschaft F besitzt, unter der Annahme, dass die statistische Wahrscheinlichkeit

von Fs im gegebenen Individuenbereich den Wert r besitzt wobei im Antecedens

sonst nichts über a, sondern höchstens über von a verschiedene Individuen b j oder

über weitere statistische Fakten angenommen wird) ist identisch mit dem Wert r.

(b) Sei H eine statistische Hypothese, die p(Gx|Fx)=r wahrscheinlichkeitstheoretisch

impliziert. Dann gilt: P( Ga | H Fa E(b1,,bn) ) = r, wobei die

Zulässigkeitsbedingung wie in (a) erfüllt ist.

Spezialfall: P( Ga | p(Gx|Fx)=r Fa E(b1,,bn) ) = r.

In Worten: Der rationale Glaubensgrad dafür, dass ein bestimmtes Individuum a die

Eigenschaft G besitzt, unter der Annahme, dass die statistische Wahrscheinlichkeit

von Gs in der Klasse der Fs den Wert r besitzt und a die Eigenschaft F besitzt wobei

(Klammerbemerkung wie in (a) ist identisch mit dem Wert r.

(c) StK für Zufallsstichproben:

P(h(Fx|{a1,,an}) = kn | p(Fx)=r E(bj))= (

nk ) rk (1r)nk.

In Worten: Die rationale Glaubensgrad dafür, dass die Häufigkeit von Fs in einer

bestimmten Zufallsstichprobe von n Individuen k/n beträgt, unter der Annahme einer

statistischen F-Wahrscheinlichkeit vom Wert r, stimmt mit der durch die

Binomialformel berechneten Häufigkeit von k r-wahrscheinlichen Ergebnissen in

Wiederholungen eines binären Zufallsexperimentes.

54

(StK) ist Grundlage der Bayesianischen Statistik. Inverse W.keit P(E|H) der Evidenz

(Stichprobe) E gegeben Hypothese H heißt Likelihood von H.

Wenn subjektives Likelihood mit statistischem Likelihood übereinstimmt,

konvergieren subjektiven Hypothesenw.keiten P(H|E) mit zunehmendem

Stichprobenumfang gegen statistische W.keiten.

(b) folgt wahrscheinlichkeitstheoretisch aus (a).

Mögliche Verstärkung der statistische Hypothese in (a) und (b) wird zur Herleitung

des StK für unabhängige Kombinationen von Zufallsexperimenten benötigt.

Beispiel: P(FaGb | p(Fx)=r p(Gx)=q) Ec) = rq [= p(FxGy)]

Zulässigkeitsbedingung: Konditionalisierung auf zusätzliche (hypothetische)

Evidenzen E(b1,,bn) nur erlaubt, wenn diese nichts über jenes Individuum a

besagen, auf die das StK angewandt wird daher bj a (für 1jn).

Ohne Zulässigkeitsbedingung könnte StK zu Inkohärenzen führen:

Beispiel: H = (p(Fx|Gx) = 0.5) (p(Fx|Qx) = 0.8), dann erhielte man zugleich

P(Fa|GaQaH) = 0,5 und P(Fa|GaQaH) = 0,8 (Widerspruch).

Gemäß dem (StK) sind nur P(Fa|QaH) = 0,8 und P(Fa|GaH) = 0,5 korrekt.

(„All I know“ Interpretation; Pearl 1988)

Um StK auf kombinierte Evidenz GaQa anzuwenden, muss man (gemäss dem

Prinzip der engsten Referenzklasse" die statistische W.keit auf "GxQx"

konditionalisieren, sofern diese bekannt ist: P(Fa|GaQa p(Fx|GxQx) = s) = s.

55

Durch das StK für Zufallsstichproben ergibt sich der induktive empirische Gehalt

statistischer Hypothesen die Menge aller epistemischen Wahrscheinlichkeitssätze,

die aus StK und Akzeptanz der Hypothese mit P=1 folgen:

Beispiel: Induktiv-empirischer Gehalt einer statistischen Hypothese p(Fx) = r:

Alle W.keitssätze der Form „P(h(Fx |{a1,,an}) = kn ) =

(nk)rk(1r)nk“

für alle individuellen Stichproben{a1,,an}.

Darauf beruhen die Überprüfungsverfahren für statistische Hypothesen (später).

Weitere Einschränkung des StK:

Bei P soll es sich gemäß Carnap um eine erfahrungsunabhängige

Ausgangswahrscheinlichkeit handeln: "apriori W.keit"

Moderne Bayesianer: Zumindest darf P von keiner Beobachtung über jene

Individuen (ai) abhängen, auf die das StK angewandt wird: Ausgangsw.keit, prior

probability

Sonst kann das StK ebenfalls zu Widersprüchen führen.

Beispiel: Wissen wir durch Beobachtung zum Zeitpunkt t, dass die eben geworfene

Münze (a) auf Kopf gelandet ist (Ga), dann gilt für aktuale Glaubensfunktion Pt

zum Zeitpunkt t: Pt(Ga) = 1 auch wenn wir wissen, dass statistische W.keit von

Kopf 1/2 beträgt.

Für aktuale Glaubensfunktion Pt gilt: Pt(Ga|p(Gx)=1/2) = 1 Widerspruch zum StK.

Auch wenn wir unserer Beobachtung von „Ga“ nicht sicher sind, sondern P t(Ga) =

0,95 gilt, würde Konflikt zum StK entstehen.

Nur wenn wir Ausgang des Münzwurfes (Ga oder Ga) noch nicht beobachtet haben

und abgesehen von statistischen W.keit 1/2 nichts darüber wissen, macht es Sinn,

56

dem Ergebnis Ga den Glaubensgrad 1/2 zuzuschreiben.

7. Von Ausgangswahrscheinlichkeiten zu aktualen Glaubensgraden

Konditionalisierung auf Gesamtevidenz und Reichenbachs Prinzip der engsten

Referenzklasse (Carnap 1971, Earman 1992, Howson/Urbach 1996, 102f).

Pt : aktuale Glaubensfunktion des Subjekts zur Zeit t

P erfahrungsunabhängige Ausgangsw.keit

Konditionalisierung auf die Gesamtevidenz ("strikte Konditionalisierung"):

Sei P = P0 die Ausgangswahrscheinlichkeitsfunktion (eines gegebenen Subjekts) zu

Startzeitpunkt t0,

sei Pt die aktuale Wahrscheinlichkeit zur Zeit t, und

sei W0-t das gesamte singuläre und statistische Wissen (eine lange Konjunktion),

dass diese Person zwischen t0 und t erworben hat (Pt(W0-t) = 1).

Dann gilt für jede Proposition S: Pt(S) = P0(S | W0-t).

Aus StK und Konditionalisierungsregel folgt Reichenbachs Prinzip der engsten

Referenzklasse:

Denn:

Gemäß StK gilt, sofern H p(Gx|Rx)=r impliziert: P0(Ga | RaE(bj)H)= r.

Angenommen: W0-t = R(a)E(bj)H (d.h., das ist die Gesamtevidenz).

Dann ergibt die Konditionalisierungsregel Pt(Ga) = r ( = Prinzip der engsten

Referenzklasse).

57

Verbleibende Frage:

Warum sollte die ausgewählte Referenzklasse immer die engste Referenzklasse sein?

Beispiel: P(KannFliegen(a)|Vogel(a)) = 0,95.

P(KannFliegen(a)| Vogel(a) Lebt_in_Antarktis(a)) = 0,01.

Entscheidungstheoretisches Argument von Good (1966):

Betrachte Erwartungsnutzen (Durchschnittsnutzen) EN(hi) von möglichen

alternativen Handlungen h1, ,hm unter möglichen alternativen Umständen u1,un.

(Möglichen Handlungen können auch Voraussagen und der Nutzen Voraussageerfolg

sein.)

Erwartungsnutzen der Handlung hk: EN(hk) = 1in P(ui) N(hkui).

Rationale Entscheider wählt Handlung mit maximalem Erwartungsnutzen aus.

Good (1966) zeigt: Konditionalisierung von P auf neue Evidenzen E kann

Erwartungsnutzen der gewählten Handlung niemals senken, wohl aber erhöhen

nämlich dann, wenn die Konditionalisierung von P (also der Austausch von P()

durch P(|E)) einen Unterschied für die gewählte nutzenmaximale Handlung

ausmacht.

Erwartungsnutzen von hk nach Durchführung des Experimentes (E,E):

EN(hk|(E,E)) = P(E)1inP(ui|E)N(hk,ui) + P(E)1inP(ui|E)N(hk.ui)

In Worten: E(hk|(E,E)) ist der Erwartungsnutzen von hk konditionalisiert auf E

multipliziert mit E‘s Wahrscheinlichkeit, plus dem Erwartungsnutzen von hk

konditionalisiert auf E multipliziert mit E‘s Wahrscheinlichkeit.

58

EN(hk|(E,E)) und EN(hk) sind für jede Handlung hk nachweislich identisch.

D.h. Konditionalisierung auf (E,E) ändert Erwartungsnutzen der gewählten

Handlung nicht, wenn sich die Handlung mit maxuimalem Erwartungsnutzen durch

Konditionalisierung auf (E,E) nicht ändert.

Sobald sich die erwartungsnutzenmaximale Handlung unter einer möglichen

Evidenz ändert, sagen wir unter E von hk zu hr, wählt Nutzenmaximierer unter E hr

und unter E hk, wodurch der Erwartungsnutzen der 'konditionalen Handlung' h* =

"hr wenn E, hk wenn E" ansteigt:

EN(h*|(E,E)) = P(E)1inP(ui|E)N(hr,ui) + P(E)1inP(ui|E)N(hk,ui).

Wogegen: EN(hk) = 1in P(ui)N(hkui).

Aus 1inP(ui|E)N(hr,ui) > 1in P(ui)N(hkui)

folgt EN(h*|(E,E)) > EN(hk|(E,E)).

59

8. StK, Vertauschbarkeit und induktives Lernen aus Erfahrung

Dem StK kommt im eine fundamentale Rolle für die Ausbildung rationaler

Glaubensgrade zu.

Zwei Probleme verbleiben:

(1.) StK legt nur die Ausgangswahrscheinlichkeit für singuläre Sätze fest (deren I.k.'s

durch I.v.'s ersetzt werden können), aber nicht für generelle Hypothesen wie „alle Fs

sind Gs“ oder „90% aller Fs sind Gs“.

Subjektiver Bayesianismus: Ausgangswahrscheinlichkeit („prior probability“)

genereller Hypothesen wird als 'subjektiv gegeben' angenommen.

Endwahrscheinlichkeit („posterior probability“) von Hypothesen H, gegeben die

empirische Evidenz E, wird daraus mithilfe des Bayes-Theorems berechnet:

P(H|E) = P(E|H)P(H)/P(E), wobei P(E|H) = pH(E),

d.h. das Likelihood P(E|H) wird mithilfe des StK bestimmt.

(2.) StK legt epistemische Ausgangswahrscheinlichkeit für Singulärsätze nur

konditional zu statistischen Hypothesen fest, also P(Ga|FaH).

Die unkonditionalisierte Ausgangswahrscheinlichkeit P(Ga|Fa) eines

Singulärsatzeswird damit nur festgelegt, wenn die statistische Wahrscheinlichkeit der

zugeordneten Formel (Gx) gewußt wird:

Wenn P(H) = 1, dann P(Ga|Fa) = P(Ga|FaH).

Dieser Einschränkung kann durch Annahme einer subjektive Ausgangsw.keitsver-

teilung abgeholfen werden:

60

Stützungswahrscheinlichkeiten von Singulärsätzen als subjektive Erwartungswerte

statistischer Wahrscheinlichkeiten:

P(GaE(b)) = 1in P(Ga|HiE(b))P(Hi|E(b)) = 1in riP(Hi|E(b)) (gemäß dem

StK). Dabei ist Hi die Hypothese „p(Gx) = ri“, und {H1,,Hn} einer Partition aller

möglichen Hypothesen dieser Form. E(b) ist zulässige Evidenz.

Für kontinuierliche Partitionen Integral statt Summe: r rD(r|E(b))dr.

Spezialfall: Hypothese Hk wird gewußt: P(Hk) = 1; P(Hi) = 0 für i≠k.

Hawthorne (2005): "support probabilities"; so weit als möglich statistisch gestützte

Glaubensgrade; aufgrund subjektiver Ausgangsverteilung dennoch subjektiv.

Die mithilfe des StK und Ausgangswahrscheinlichkeiten gebildeten rationalen

Glaubensgrade erfüllen das (Zusatz-)Axiom der Vertauschbarkeit (exchangeability)

nach de Finetti (1964) bzw. das (Zusatz-)Axiom der Symmetrie nach Carnap (1971):

Definition: Gegeben eine Sprache L mit einer abzählbaren Menge K = {a1,a2,} von

Individuenkonstanten.

Eine epistemische Wahrscheinlichkeitsfunktion P heißt vertauschbar (bzgl. der

abzählbaren Menge K) g.d.w. P invariant ist bzgl. beliebigen Permutationen von

Individuenkonstanten

d.h. für alle Sätze A(a1an) und Permutationsfunktionen (bijektiven Funktionen)

K gilt P(A(a1,,an)) = P(A((a1),,(an)).

Vertauschbarkeit ist unmittelbare Konsequenz der Definition von

Stützungswahrscheinlichkeiten.

61

Hinweis 1: Vertauschbarkeitsannahme nur widerspruchsfrei, wenn alle definierten

Prädikate durch Grundprädikaten ersetzt werden (Goodman-Paradoxie).

Hinweis 2: Vertauschbarkeit von P ist schwächer als probabilistische

Unabhängigkeit; erlaubt (impliziert sogar!) induktive Stützungsbeziehungen der Form

P(Fai|Faj) > P(Fai) > P(Fai|Faj) (für alle ai aj in K)

solange diese Stützungen individuenunabhängig sind.

Induktive Natur von P begründet sich dadurch, dass wahre statistische

Wahrscheinlichkeit als unbekannt angenommen wird.

Repräsentationstheorem (de Finetti 1931): Folgenden Aussagen sind äquivalent:

(1) P ist vertauschbar.

(2) Für singuläre Sätze (Fa) ist P darstellbar als Stützungswahrscheinlichkeit, d.h., als

P-Erwartungswert (gewichtetes Mittel) von statistischen W.keiten:

P(Fa) = HPartition pH(Fx) P(H).

(3) Mit subjektiver W.keit P = 1 besitzt jede Formel Fx einen Häufigkeitsgrenzwert

p(Fx), wobei P und p durch das StK verbunden sind.

Zusatz: Ist P in (1) sigma-addditiv, dann ist p in (2)+(3) statistisch unabhängig.

Vertauschbarkeit bzw. das äquivalente StK sind schwache probabilistische

Induktionsannahmen (aber stärker induktiv als bloße sigma-Additivität). Es besagt:

Individuen besitzen unabhängig von ihren besonderen Eigenschaften die gleichen

probabilistischen Tendenzen.

Uniformität in Raum und Zeit: Probabilistischen Tendenzen von Ereignissen,

andere Ereignisse hervorzubringen, sind unabhängig von besonderer

Raumzeitposition.

62

Vertauschbarkeit zusammen mit Regularität impliziert uniformes induktives

Lernen aus Erfahrung. Regularität: P(S) ≠ 0, 1 für alle logisch kontingenten Sätze S.

Regularität heißt auch Nichtdogmatizität: Ist Voraussetzung induktiven Lernens, denn

ist P(H) 0 oder 1, kann dies durch keine neu eintreffende Erfahrung E mehr verändert

werden. D.h. P(H) = 0 bzw. 1 impliziert P(H|E) = 0 bzw. 1 für beliebige E.

Uniformes induktives Lernen („Instanzenrelevanz“): Ist P vertauschbar und regulär

über Singulärsätzen der Sprache, dann wächst induktive Bestätigung singulärer

Voraussagen mit der Zahl der sie stützenden Instanzen kontinuierlich an:

P(Fan+1|Fa1Fan) > P(Fan+1| Fa1Fank) (für alle k mit 0 < k < n und n|N).

Beweis basiert auf Cauchy-Schwartzscher Ungleichung. Humburg 1971, Kutschera

1972, Earman 1992, Gillies 2000.

63

9. Überprüfungsverfahren für statistische Hypothesen

Beispiel: p(K|A) = 80% 80% aller Bäume an Autobahnen sind geschädigt

9.1 Überprüfung auf Wahrheit: Akzeptanz- und Konfidenzintervalle

Nimm eine möglichst repräsentative A-Stichprobe (Zufallsstichprobe)

z.B. 100 A's -- darunter 75 K's.

Wähle den Akzeptanzkoeffizient: z.B. 95%

Berechne aus Stichprobengröße (n=100) und Akzeptanzkoeffizient (95%) das:

Akzeptanzintervall (in unserem Fall:) 72 - 88

Definition: Das Akzeptanzintervall ist jenes Intervall von Stichprobenhäufigkeiten,

(i) in dem Stichprobenhäufigkeit mit (statistischer) W.keit = Akzeptanzkoeffizient

(üblicherweise 95%) liegt, gegeben zu prüfende statistische Hypothese ist wahr, und

(ii) welches unter allen solchen Intervallen die höchste durchschnittliche W.keit

besitzt (höchstes Durchschnittslikelihood von H).

W.keit des Stichprobenresultates gegeben p(K|A) = 0,8 Akzeptanzintervall (grau) = 95%

der Gesamtfläche unter der Kurve

Zurückweisungsintervall (weiß)

= 5% der Gesamtfläche

unter der Kurve

0 20 40 60 70 80 90 100Absoluthäufigkeit von K in 100 A 72 88 (= Akzeptanzintervall)

Liegt die A-Stichprobenhäufigkeit Nein: Hypothese ist stark geschwächt von K im Akzeptanzintervall? Ja: Hypothese ist schwach bestätigt

(In unserem Beispiel: ja)

0,05

0,01

0,1

64

Höhe des Akzeptanzkoeffizient von 95% ist pragmatisch, aber nicht willkürlich:

Wählt man Akzeptanzkoeffizient zu groß [bzw. zu klein] werden zu wenige [bzw. zu

viele] Hypothesen ausgeschieden.

Nähert man die Binomialverteilung durch Normalverteilung an (bei

Stichprobengrößen > 30 legitim) berechnen sich Akzeptanzintervalle wie folgt

(Nachschlagen der Intervalle in z-Verteilung (=1,=0), multipliziert mit s):

s = σ√n die Streuung der Stichprobenhäufigkeiten

Streuung der Variable; für binäre Variablen √ p⋅(1-p ) , mit p = p(K|A).

Akzeptanzkoeff.: Akzeptanzintervall Beispiel für p=0,8, n=100:

99,5%: p 2,8s [0,69 , 0,91]

95%: p 1,96s [0,72 , 0,88]

70%: p 1,03s [0,76 , 0,84]

Für größere Stichprobenumfänge wird das Akzeptanzintervall immer enger und die

95%-wahrscheinlichen Prognosen schärfer. Zugleich gilt Gesetz des abnehmenden

Ertrags: Vervierfachung des Stichprobenumfangs bringt Halbierung des Akzeptanz-

intervalls.

Akzeptanzintervalle für p = 0,8 (Akzeptanzkoeff. = 0,95) für variierendes n:

n = 1: [0 , 1] n =50: [0,69 , 0,91] n = 1600: [0,78 , 0,82]

n =10: [0,56 , 1] n =100: [0,72 , 0,88] n = 10.000: [0,79 , 0,81]

n = 20: [0,63 , 0,97] n = 400: [0,76 , 0,84]

Beachte: Größe der Gesamtpopulation für Fragen von Stichprobenumfängen

unerheblich ist; vorausgesetzt wird nur, dass sie wesentlich (mindestens 100 mal)

größer ist als der Stichprobenumfang (Bortz 1985).

65

Grundannahmen der Teststatistik: man betrachtet statistisches Likelihood der Hypothese, pH(Stichprobenresultat), als

Indikator für Wahrscheinlichkeit von H. (Wird bezogen auf vorliegendes

Stichprobenresultat durch das StK; dieser Schritt bleibt implizit)

Man verwirft H wenn zu unwahrscheinlich.

Annahme: Die zu testende Hypothese H hat wurde anderwärtig plausibel gemacht.

Im negativen Fall starke Zurückweisung, im positiven Fall nur schwache

(zusätzliche) Bestätigung.

Alle statistischen Alternativhypothesen, welche Wert von p(K|A) im Intervall 0,75

0,8 behaupten, werden durch Stichprobenresultat "75 von 100 As waren Ks"

ebenso schwach bestätigt bzw. würden beibehalten, wenn sie zur Überprüfung

anstünden.

Stark durch die Stichprobe bestätigt ist nur die (schwächere)

Konfidenzintervallhypothese, die man erhält, indem man das Akzeptanzintervall

symmetrisch um das Stichprobenresultat aufträgt: 67% ≤ p(K/A) ≤ 83%.

Zusammenhang von Akzeptanz- und Konfidenzintervall:

1 Wahrscheinlichkeit des Stichprobenresultates

gegeben p(K|A) = r Konfidenzintervall r[0.67, 0.83]

r% = 67 75 83

Stichprobenresultat 75 von 100

0 Stichprobenresultat:

0 100 Absoluthäufigkeit von K in 100 A

Akzeptanzintervalle für r = 67 75 83

Methode der Akzeptanz- und Konfidenzintervalle geht auf Fisher und Neyman

zurück.9.2 Überprüfung auf Relevanz (Abhängigkeit): signifikanten Unterschiede

66

Beispiel: p(K/A) = 80% 80% aller Bäume an Autobahnen sind geschädigt Gegegen A-Stichprobenhäufigkeit von K: 75 von 100

Nimm eine A-Kontrollstichprobe z.B. 100 Non-A's -- darunter 50 K's.

Wähle den Signifikanzkoeffizient: z.B. 5%

Berechne aus Stichprobengröße (n=100) und Signifikanzkoeffizient (5%) die:

signifikante Differenz (in unserem Fall:) 13 von 100

Definition: Die signifikante Stichprobendifferenz ist jener Betrag, den die Differenz

zwischen der Häufigkeit von K in einer A-Stichprobe und einer A-Kontrollstichprobe

mit einer Wahrscheinlichkeit gleich dem Signifikanzkoeffizienten (üblicherweise

5%) übersteigt, gegeben dass in der Grundgesamtheit kein statistischer

Zusammenhang zwischen A und K besteht (die Differenz also rein zufällig zustande

kam).

Ist die tatsächliche Differenz zwischen der Nein: Relevanz von A für K

A-Stichprobenhäufigkeit von K und der ist (stark) geschwächt,

A-Kontrollstichprobenhäufigkeit von K Irrelevanz = Nullhypothese

größer als die signifikante Differenz? stark bestätigt

Ja: Relevanz von A für K= Alternativhypothese ist (stark) bestätigt:

signifikante Korrelation

Positiv Negativ

In unserem Fall: 75-50 = 25 > 13 signifikante positive Korrelation

Dieselbe Grundidee: Likelihood der Nullhypothese [ = Wahrscheinlichkeit der K-

Häufigkeitsdifferenz zwischen Stichprobe und Kontrollstichprobe gegeben

Nullhypothese] wird als Indikator der Wahrscheinlichkeit der Nullhypothese

67

angenommen.Wahrscheinlichkeitsverteilung von Stichprobendifferenzen und signifikante Stichprobendifferenz (approximiert durch Normalverteilung):

Wahrscheinlichkeit unter Annahme der Nullhypothese p(K|A) = p(K|A) Akzeptanzintervall

der Nullhypothese (grau)

Signifikante Stichproben- Akzeptanzintervall

differenz = 13 der Alternativhypothese (weiß)

Absolute Häufigkeits- differenz zwischen A- und

-100 -40 -13 0 +13 40 100 AStichprobe (n=100)

Wahl des Signifikanzkoeffizienten pragmatisch, aber nicht willkürlich.

Signifikant bei Signifikanzkoeffizienten von 1%: "hochsignifikant". man gibt Signifikanzkoeffizient an, bei dem vorgefundene Differenz gerade noch signifikant ist n unserem Beispiel: Differenz von 0,15 ist bei Koeffizient von 2,5% gerade noch signifikant, was bedeutet: W.keit unter Voraussetzung der Nullhypothese Stichprobendifferenz von größer-gleich 15 zu erhalten, beträgt 2,5%.

Streuung der Stichprobenhäufigkeitsdifferenzen und signifikante Differenz nimmt

proportional zur Wurzel der Stichprobengröße (n) ab. diff = √ 1n1+

1n 2

(Damit Berechnung der 95%-Intervallgrenzen: nachsehen in z-Tabelle).

Jede noch so kleine relative Stichprobendifferenz wird damit signifikant, wenn

Stichprobengröße hinreichend groß ist. bloße Behauptung, dass zwischen A und K hochsignifikante Korrelation vorliegt, ist

ohne eine Information über die Stichprobengröße schwache Behauptung: sagt nur,

dass mit hoher Wahrscheinlichkeit irgendeine evtl. sehr geringe Korrelation zwischen

A und K vorliegt; sagt aber nichts über Höhe dieser Korrelation. Über letztere

informiert Korrelationskoeffizient, oder Effektstärke: [p(K|A) p(K|A)]/.

68

Anmerkung zu Korrelation und Kausalität:

Aus einer (echten) Korrelation kann man nicht unbedingt auf eine Kausalbeziehung

schließen aus vorwiegend zwei Gründen: 1. Versteckte gemeinsame Ursachen

A B Scheinkausalität "Scheinkorrelation"

C

(Direkte) Verursachung Korrelation

Beispiel: A = Das Fallen des BarometerstandesB = Das Aufziehen eines SturmsC = Druckabfall in der Atmosphäre

A = Positive/negative Einstellung des Beschäftigten zum Betrieb (Lazarsfeld)B = Psychologischer GesundheitszustandC = Arbeitsplatzbelastung 2. Frage der Kausalrichtung (stellt sich, auch wenn keine versteckte Variablen im Spiel sind)

A B Korrelationen sind immer symmetrisch.

Beispiele in welche Richtung geht hier Kausalität?

(1) Höhe des IQ Sozialer Status

(2) Aggressive Sehen von aggressions- Neigung geladenen Filmen

Kriterien zur Erkennung der Kausalrichtung:a) Für Sukzessionsgesetze: Zeitrichtungb) Für Koexistenzgesetze: Hintergrundwissen

69

10. Bayes-Statistik: Die Likelihood-IntuitionStatistisch definiert sind nur Wahrscheinlichkeiten unserer Erfahrungen

(Stichprobenresultate) E unter Annahme einer statistischen Populationshypothese H,

also statistische Wahrscheinlichkeit pH(E)

wird auf vorliegendes Stichprobenresultat bezogen mithilfe StK: P(E|H).

Wahrscheinlichkeit einer Hypothesen H gegeben Erfahrung E, P(H|E), ist

epistemischer Natur, da es keine wiederholbaren Zufallsexperimente mit "möglichen

Welten" gibt. Wir beziehen uns mit P(H|E) auf unsere mögliche Welt.

Grundintuition statistischer Überprüfungsverfahren Likelihood-Intuition:

die inverse Wahrscheinlichkeit pH(E) ist Indikator für Wahrscheinlichkeit und

Bestätigungsgrad der Hypothese H bei gegebenem E und für die Auswahl einer

Hypothese unter mehreren Alternativhypothesen.

Zwei Varianten:

(i) Methode des Likelihood-Maximalwertes (Fisher 1956, Hacking 1965): Man

wählt unter konkurrierenden Hypothesen die mit dem höchsten Likelihood.

D.h.: man vermutet jene Hypothese, für die das Stichprobenresultatmit dem

Maximum (Modalwert) der von H vorausgesagten Stichprobenhäufigkeitsverteilung

zusammenfällt. schwache Bestätigung

[Alternative: Mittelwert statt Modalwert; fällt bei symmetrischen Verteilungen

zusammen]

(ii) Methode der Konfidenzintervalls maximaler Likelihoods: Man das wählt

Konfidenzintervall jener Hypothesen, für die das Stichprobenresultat im

Akzeptanzintervall der Stichprobenresultate mit maximalem Durchschnittslikelihood

liegt.

starke Bestätigung

70

Philosophisches Problem: Warum sollte die inverse Wahrscheinlichkeit pH(E) als

Maß der Wahrscheinlichkeit von H bei gegebener Evidenz E herangezogen werden?

Statistische W.keitstheorie besitzt keine Antwort auf die Frage.

Subjektive W.keitstheorie besitzt eine Antwort: Aufgrund dem StK, der Bayes-Regel

und aufgrund des Indifferenzprinzips, wonach konkurrierende statistische Hypothesen

dieselbe Ausgangswahrscheinlichkeit besitzen.

P(H|E) = P(E|H) P(H) / P(E) (gemäß der Bayes-Regel I)

= pH(E) P(H) / P(E) (gemäß dem StK)

In Worten: Glaubensgrad von H, gegeben das Stichprobenresultat E, ist gleich dem statistischen Likelihood von H gegeben E multipliziert mit Verhältnis von Ausgangswahrscheinlichkeit von H und Ausgangswahrscheinlichkeit von E.

Daraus folgt für komparative Hypothesenbewertungen:

P (H 1E )P (H 2E) =

P (EH 1)P (EH 2)

P (H 1)P (H 2) =

P (EH 1)P (EH 2) sofern P(H1) = P(H2).

Bayesianische Rechtfertigung der Likelihood-Intuition: Unter Voraussetzung des

Indifferenzprinzips ist die Höhe des Likelihoods von H gegeben E ein Indikator für

die epistemische Wahrscheinlichkeit von H gegeben E.

Für Hypothesenpartition {H1,,Hn} gilt P(E) = ∑i=1

np Hi(E )⋅P(Hi )

. Daraus ergibt sich:

Numerisch berechnete Endwahrscheinlichkeitsverteilung:

Diskret: P(Hq|E) = pHq(E)P(Hq) /∑i=1

np Hi(E )⋅P(Hi )

(1qn)

Kontinuierlich: D(Hq|E) = pHq(E)D(Hq) / 0

1pHr (E)⋅D(Hr ) dr

. (q[0,1])

71

("D" für "Wahrscheinlichkeitsdichte")

11. Objektiver Bayesianismus und Induktives Schließen I

Objektive Bayesismus (Laplace, Keynes, H. Jefffrey, Williamson 2010) und logische

W.keitstheorie (Carnap) nehmen Indifferenzprinzip für statistische Hypothesen als

Kriterium für "objektiv-rationale" Ausgangswahrscheinlichkeiten an.

Damit gelangt man zu numerischen Werten für Endwahrscheinlichkeiten von H's.

Betrachte Hypothesen über statistischen W.keit eines binären Merkmals F

Hr =def "p(F)=r" (für r[0,1]).

Fakn =def Fai1FikFaik+1Fain (1kn) "Zustandsbeschreibung ZB"

hn(F) =kn relative Stichprobenhäufigkeit =

kn "statistische Beschreibung SB"

Indifferenzprinzip: (1) Alle SB's haben gleiche W.keit; und (2) alle ZB's, die zur

selben SB gehören, haben gleiche W.keit:

Konsequenzen dieses Indifferenzprinzips (+ StK) für ein binäres Merkmal F:

(a) P(hn(F) =kn ) =

1n+1 (b) P(Fa

kn ) =

1

(nk)⋅(n+1 )

(a) in Worten: Alle (n+1) möglichen Häufigkeiten von Fs unter n Individuen besitzen

dieselbe Ausgangswahrscheinlichkeit 1/n+1. (b) folgt daraus.

(c) P(Fan+1 | hn(F) =kn ) = P(Fan+1| Fa

kn ) =

k+1n+2 (Folgeregel von Laplace)

(c) in Worten: Mit einer Wahrscheinlichkeit von k+1/n+2 besitzt der nächste Fall die

Eigenschaft F, gegeben unter n bisher beobachteten Fällen befanden sich k Fs.

(d) D(p(Fx)=r | hn(F)=kn ) = (n+1)

(nk)rk(1r)(nk).

72

Laplace-Regel (c) gilt für binäres Merkmal.

Ist X ein -fach gestuften Attribut (z.B. Farbraum mit Farbschattierungen) und hat

der Attributwert Fdie logische Weite w, dann gilt stattdessen

Carnaps c*-Regel: P(Fan+1 |Fakn ) = (k+w)/(n+).

Dies führt uns zur Hauptkritik am Indifferenzprinzip:

Das Prinzip ist sprachabhängig (z.B. Keynes, Gillies 2000)

Beispiel: Uniforme Ausgangsverteilung über Frequenzwerte () einer Strahlung.

Wellenlänge () = Geschwindigkeit (c) geteilt durch Strahlungsfrequenz ()

Transformiert man Gleichverteilung über [0,µmax] in Verteilung über , so erhält

man negativ-exponentiell abnehmende Verteilung:

Wahrscheinlichkeitsdichte D

D()

1 D( max

c

1 (=c/)

Eine uniforme Dichteverteilung über (Frequenz) führt zu einer nicht-uniformen Verteilung über (Wellenlänge).

73

Weiterer Einwand: Gemäß Binomialformel gibt es (nk )

Zustandsbeschreibungen Fa

kn

mit F-Häufigkeit k/n. Es gibt viel mehr ZBs, wenn k/n nahe bei 0.5 als wenn k/n nahe

bei 1 oder 0 liegt.

Ergo: wenn statistische Beschreibungen gleichverteilt sind, sind ZBs mit nahe bei 1

oder 0 liegender Häufigkeit viel wahrscheinlicher ( induktive Annahme).

Nimmt man Indifferenz nicht unter allen statistischen Beschreibungen, sondern

unter allen Zustandsbeschreibungen an, dann wird induktives Lernen durch

Erfahrung unmöglich und es ergibt sich das Resultat P(Fan+1|Fakn ) = 1/2 für jede

mögliche Zustandsbeschreibung Fakn einer n-elementigen Stichprobe (Carnap,

Howson/Urbach) Grundlage des "no free lunch theorem" im Bereich machine

learning.

Konsequenz Kritik des objektiven Bayesianismus:

Keine Ausgangsverteilung ist vorurteilsfrei bzw. informationslos, auch nicht die

Gleichverteilung, da sie sprachabhängig bzw. partitionsabhängig ist.

74

12. Subjektiver Bayesianismus und Induktives Schließen II

Subjektive Bayesianer verwerfen Indifferenzprinzip für statistischen Hypothesen und

lassen viele (doch nicht beliebig viele) Ausgangsw.keitsverteilung über möglichen

statistischen Hypothesen zu.

Versuchen zu zeigen: Unabhängig von der speziellen Form der Ausgangsverteilung

bewirkt deren Konditionalisierung auf beobachtete Stichprobenhäufigkeit eine

Verschiebung der Wahrscheinlichkeitsmasse in Richtung der Stichprobenhäufigkeit.

Dabei konzentriert sich Verteilung mit zunehmendem Stichprobenumfang über dem

Stichprobenresultat und erzeugt dort einen immer höher und steiler werdenden Gipfel

"Auswaschen von priors"

(de Finetti 1974, Earman 1992, Howson und Urbach 1996, van Fraassen 1980 ).

Voraussetzung der Verteilungskonvergenz (u.a.): Ausgangsverteilung undogmatisch

in Bezug auf die wahre Populationshäufigkeit p(Fx) = r d.h.

Wahrscheinlichkeitsdichte in endlichem Intervall um Stelle r herum positiv und

stetig.

Zwei Arten von Konvergenz: Kontinuierlich (aber beliebig langsam) und im Limes

Nur im Limes.

Voraussetzungen für kontinuierliche Konvergenz: Undogmatizität und

Vertauschbarkeit.

Voraussetzungen für Limes-Konvergenz siehe unten.

75

Kontinuierliche Konvergenz für induktive Voraussagen (dabei ist [r] die ganzzahlige

Rundung der reellen Zahl r):

(a) P(Fan+1| hn(F)=(k+1)/n) > P(Fan+1|hn(F) = k/n).

In Worten: Die Wahrscheinlichkeit, ein neues F zu finden, steigt für jede

Stichprobengröße n mit der relativen Häufigkeit der Fs in der Stichprobe

kontinuierlich an.

Voraussetzung: P ist vertauschbar und in Bezug auf keinen Wert r[0,1] dogmatisch.

(b) limn P(Fan+1| hn(F)=[rn]/n) = r.

In Worten: Die Wahrscheinlichkeit, ein neues F zu finden, konvergiert mit

wachsender Stichprobengröße gegen die Häufigkeit von F in der Stichprobe.

Voraussetzung: P ist vertauschbar und in Bezug auf r nicht dogmatisch.

Kontinuierliche Konvergenz für induktive Generalisierungen („Hr“ für „p(F) = r“):

D(Hr|hn(F) = [rn]/n) > D(Hr|hm(F) = [rm]/m) für n > m.

In Worten: Die Wahrscheinlichkeitsdichte der gemäß der Maximum-Likelihood-

Methode zu bevorzugenden Hypothese Hr, gegeben eine bestimmte

Stichprobenhäufigkeit, nimmt mit zunehmendem n kontinuierlich zu.

Voraussetzug: P ist vertauschbar und in Bezug auf r nicht dogmatisch.

Die Schattenseite der "beliebigen Langsamkeit" der Konvergenz:

Endliche Unbelehrbarkeit vorurteilslastiger Ausgangswahrscheinlichkeiten:

Sei H eine wahre Hypothese über unendlichem Individuenbereich mit Standardnamen

{ai:i|N}, dann gibt es für jede beliebig lange Konjunktion von Erfahrungssätzen E

=def E1,,En, die zusammen H beliebig stark stützen (1 P(E|H) > P(E)) und mit

dem Gegenteil von H logisch konsistent sind, eine nichtdogmatische jedoch

hinreichend vorurteilslastige Ausgangsverteilung P (i.e. P(H) {0,1}), sodass P(H|E)

76

> P(H|E).

H(L) = Menge aller möglichen Hypothesen in einer Sprache, in der Arithmetik

ausdrückbar ist (mit Standardnamen für abzählbar-unendlichen Individuenbereich).

Sequenz (wAi:i|N) besteht aus allen Basissätzen, die in dem möglichen Modell

(Welt) w wahr sind.

Einfache Konvergenzresultate:

(a) Gaifman/Snir-Konvergenz: Für alle Hypothesen H in H(L) besitzt die Menge der

möglichen Welten w, in denen limnP(H|wA1wAn) mit Hs Wahrheitswert in

w überstimmt, die Wahrscheinlichkeit P = 1.

In Worten: Mit P-Sicherheit konvergiert die Endwahrscheinlichkeit von H in Welt

w gegen den Wahrheitswert von H in w, konditional zu einer unendlich

anwachsenden Datensequenz, die vollständige Information über w enthält.

Voraussetzung für (a)+(b): -Additivität von P.

(b) Spezialfall von (a): limnP(p(Fx)=r | hn(F) = [rn]/n) = 1.

In Worten: Die Wahrscheinlichkeit einer Hypothese der Form „p(Fx)=r“ mit

positiver Ausgangswahrscheinlichkeit konvergiert gegen 1, gegeben eine unendlich

anwachsende Stichprobe mit einer F-Häufigkeit von annähernd r (gerundet auf eine

durch n teilbare Zahl).

Voraussetzung für (b): Undogmatizität bzgl. r und -Additivität von P.

(c) Jeffrey-Konvergenz für strikte Voraussagen: limnP(Fan+1|Fa1Fan) = 1.

In Worten: Die Wahrscheinlichkeit, dass der nächste Fall ein F ist, geht gegen 1

angesichts von unendlich anwachsende bisherigen Fällen, die alle F waren.

Voraussetzung: P(xFx) > 0.

(d) Konvergenz für strikte Generalisierungen: limnP(xFx|Fa1Fan) = 1.

In Worten: Die Wahrscheinlichkeit, dass alle Individuen Fs sind, geht gegen 1

angesichts von unendlich anwachsenden bisherigen Fällen, die alle F waren.

77

Voraussetzung: P(xFx) > 0 und -Additivität von P.

78

Übungsaufgaben:

Zu Kap. 1:

Was sind die wesentlichen Unterschiede zwischen statistischer und subjektiver

(epistemischer) Wahrscheinlichkeit?

Bei welcher Aussage handelt es sich um eine statistische und bei welcher um eine

subjektive Wahrscheinlichkeit? (a) Morgen hat es 70% Regenwahrscheinlichkeit. (b)

In Salzburg hat es 60% Regenwahrscheinlichkeit. (c) Mein Freund ist 30% seiner

Zeit krank. (d) Dieser Münzwurf wird mit 50% W.keit auf Kopf landen, (e) Meine

Schwester wirft in 60% der Fälle mit ihrer Münze Kopf.

Was besagt Reichenbachs Prinzip der engsten Referenzklasse?

Analysieren Sie folgende Aussagen nach dem Prinzip der engsten Referenzklasse:

Wie wird die jeweilige Wahrscheinlichkeit plausiblerweise bestimmt? Was ist mit

engster Referenzklasse im allgemeinen gemeint? Und was ist dieselbe in den

folgenden Beispielen?

(a) So wenig, wie du geschlafen hast, wirst du morgen wahrscheinlich müde sein. (b)

Wahrscheinlich wirst du dich von ihm anstecken. (c) Unwahrscheinlich, dass morgen

die Berggipfel nebelfrei sind. (d) Das Plastikspielzeug deines Kindes geht sicher nach

spätestens drei Wochen kaputt.

Ein Redaktionsmitglied eines Kirchenblattes schlägt vor, in das Blatt sollten auch

einige freizügige Fotos aufgenommen werden. Er argumentiert dabei wie folgt: es ist

statistisch bewiesen, dass Zeitungen mit freizügigen Fotos mehr Käufer finden.

Inwiefern verstößt seine Hoffnung, damit den Absatz des Kirchenblattes erhöhen zu

können, gegen das Prinzip der engsten Referenzklasse? Finden Sie ein ähnliches

Beispiele.

Zu Kap. 2:

Die Häufigkeiten von unverheirateten (U) vs. verheirateten (V) Frauen (F) und

79

Männern (M) im Seminar sind so verteilt: UF 20%, UM 30%, VF 27%.

Visualisieren Sie dies durch Kreisdiagramme. Wie hoch sind die Häufigkeiten von:

(i) VM, (ii) V, (iii) U, (iv) M, (v) F, (vi) UM, (vii) VF, (viii) MF, (ix) VU? Wie

hoch sind folgende bedingten Häufigkeiten: V gegeben M, V gegeben F, M gegeben

U, F gegeben U, F gegeben (VM), (VM) gegeben M ?

Beweisen Sie aus den Axiomen A1-A3 folgende Theoreme:

T1) p(A) =1p(A)

T2) p(A) 1

T3) p(A∧A) = 0

(T5) p(A1A2) = p(A1) + p(A2) p(A1A2)

TB3) p(AB=p(A|B) p(B)

TB5) p(A|B)=p(B|A)p(A)/p(B)

TB7) Sofern 1 > p(B), p(A) > 0): p(A|B) > p(A) g.d.w. p(B|A) > p(B)

Wie lautet das Binomialgesetz?

Wie groß ist die Wahrscheinlichkeit, mit einer regulären Münze von 10 Würfen

mindestens 5 mal Kopf zu erzielen?

Zeichnen Sie die Binomialverteilung für p(Fx) = 0.4 und n = 10, 100, 1000 und

10000 qualitativ auf. Erklären Sie damit anschaulich das Gesetz der großen Zahlen.

Wie lautet die Formel für die Streuung der Stichprobenhäufigkeiten? Inwiefern gilt

hier ein "Gesetz des abnehmenden Ertrages"?

Was besagt das schwache nund was das starke Gesetz der großen Zahlen?

Was besagt das Prinzip der -Additivität? Inwiefern impliziert es eine schwache

induktive Annahme?

Zu Kap. 3:

Um welche Schlussart handelt es sich bei folgenden Schlüssen deduktiv, induktiv

oder abduktiv? Geben Sie im induktiven Fall weiteren Charakterisierungen der

Schlussart an.

(i) Die meisten Lichtschalter funktionieren. Ich drücke den Lichtschalter. Also geht

80

das Licht an. (ii) Alle Menschen sind sterblich. Aristoteles ist ein Mensch. Also ist

auch Aristoteles sterblich. (iii) Bisher hat mich meine Menschenkenntnis nie ge-

täuscht. Also beruht meine Menschenkenntnis auf Wissen. (iv) Bisher hat mein Kühl-

schrank gut funktioniert. Also kann ich mich auch in Zukunft auf ihn verlassen. (v)

Immer wenn Gregor von seinem Bruder spricht, nimmt sein Gesicht gespannte Züge

an. Also nimmt Gregors Gesicht auch jetzt, wo er gerade von seinem Bruder spricht,

gespannte Züge an. (vi) Immer wenn Gregor von seinem Bruder spricht, nimmt sein

Gesicht gespannte Züge an. Also hat er ein Problem mit seinem Bruder.

Wie lautet die Unsicherheitssummenregel für deduktive Schlüsse?

Mit welcher Wahrscheinlichkeitsbedingung ist die Aussage "Aus A und B folgt

logisch C" äquivalent?

Inwiefern ist das Bayes-Theorem für abduktives Schließen (bzw. für die

Wahrscheinlichkeitsbewertung abduktiv gewonnener Hypothesen) bedeutsam?

Von welchen zwei Wahrscheinlichkeitsfaktoren hängt die Endwahrscheinlichkeit

einer Hypothese gemäß der Bayes-Regel ab?

Zu Kap. 4:

Sie sind erst 16 und dürfen nur Fahrrad oder Moped fahren und für Sie ist der

Gesamtnutzen (=Nutzen minus Kosten) eines Fahrrades ist im Stadtverkehr 2.5 mal

so hoch wie der eines Mopeds, im Landverkehr 0.7 mal so hoch. Mit welcher

Häufigkeit müssen sie sich in der Stadt versus im Land zweirädrig fort bewegen,

damit ein Fahrrad für sie nützlicher ist als ein Moped?

Wie lautet die Definition statistischer W.keit mithilfe des starken Gesetzes der

großen Zahlen? Warum ist diese Definition zirkulär? Weshalb sind zirkuläre

Definitionen zu kritisieren?

Wie lautet die von Misessche Definition einer Zufallsfolge?

Warum gibt keine Beobachtungsaussage, die aus einer Aussage über einen

Häufigkeitsgrenzwert (n) logisch folgt?

Erläutern sie den Unterschied zwischen interner und objektiven Zufallsfolge.

81

Warum führen fast alle Ausgangsverteilungen eines Münzwurfes zu einer

Gleichverteilung über den beiden Ergebnissen Kopf und Zahl?

Zu Kap. 5:

Wie charakterisiert man eine Wette (auf eine Proposition A)? Wann ist die Wette

fair?

Wie bestimmt man die Glaubenfunktion einer Person über ihren fairen

Wettquotienten?

Wann ist eine als fairer Wettquotient bestimmte Glaubensfunktion kohärent?

Wann ist sie strikt kohärent?

Eine faire Wettperson schließt folgende Wetten ab. Ist sie kohärent? Wenn nein, bei

welcher Menge von Wetten, die sie akzeptiert, erleidet sie einen sicheren

Gesamtverlust? (a) W1 = (p,2,3), W2 = (p,2,2), (b) W1 = (p,3,1), W2 = (q,2,1), W3 =

(pq,2,4), (c) W1 = (p,1,1), W2 = (q,2,1), W3 = (pq,3,1) ,(d) W1 = (p,0,1), W2 = (p,

1,1), (e) W1 = (p, 2,1), W2 = (q, 2,1), pq, 3,1), (f) W1 = (p, 2,1), W2 = (q, 2,1), pq,

1,2).

Erläutern Sie Ryders Dutch book Argument gegen eine Gruppe von Personen mit

unterschiedlichen Glaubensfunktionen.

Zu Kap. 6;

Erläutern Sie das statistische Koordinationsprinzip (StK) für unbedingte W.keiten?

Erläutern Sie das statistische Koordinationsprinzip (StK) für Zufallsstichproben?

Wie lautet der induktiv-empirische Gehalt einer statistischen Häufigkeitsaussage

p(Fx) = r?

Wieso benötigt man beim StK die Zulässigkeitsbedingung? Erläutern Sie, wie das

StK bei verletzung dieser Regel zu Widersprüchen führen kann.

Warum gilt das StK nur für solche subjektive Wahrscheinlichkeitsfunktionen, die

von keiner Beobachtung über jene Individuen abhängen, auf die das StK angewandt

wird?

82

Zu Kap. 7:

Erläutern Sie das Prinzip der Konditionalisierung auf die Gesamtevidenz.

Wie lautet meine Glaubensw.keit für morgigen Regen gemäß dem StK konditional

zur Annahme dass es die zwei Vortrage geregnet hat und die statistische Häufigkeit

von für Regen einem Tag, gegeben Regen an zwei Vortagen , 70% beträgt?

Fortsetzung obigen Beispiels: Unter welcher Bedingung an mein WIssenssystem

darf ich diese W.keit auf meinen aktuale Glaubensgrad für morgigen Regen

übertragen?

Wie folgt aus StK und obigem Prinzip Reichenbachs Prinzip der engsten

Referenzklasse?

Warum sollte die ausgewählte Referenzklasse immer die engste sein? Erläutern Sie

die Grundidee des Beweises von Good, dass Konditionalisierung auf die engste

Referenzklasse den Erwartungsnutzen höchstens erhöhen, aber nicht erniedrigen

kann.

Zu Kap. 8:

Was versteht man unter der Ausgangswahrscheinlichkeit einer Hypothese und was

unter ihrer Endwahrscheinlichkeit?

Was versteht man unter einer Stützungswahrscheinlichkeit? Erläutern sie die

Definition.

Was versteht man unter dem Axiom der Vertauschbarkeit? Inwiefern involviert

Vertauschbarkeit eine schwache Induktionsannahme?

Erläutern Sie das Repräsentationstheorem nach de Finetti.

Was versteht man unter der Nichtdogmatizität einer W.keitsfunktion P?

In welchem (wahrscheinlichkeitstheoretischen) Sinn implizieren Nichtdogmatizität

und Vertauschbarkeit von P induktives Lernen aus Erfahrung?

Zu Kap. 9:

83

Die Häufigkeiten von unverheirateten (U) vs. verheirateten (V) Frauen (F) und

Männern (M) im Seminar sind (wiemoben) so verteilt: UF 20%, UM 30%, VF

27%.

Welches statistischen Relevanzbeziehungen liegen hier zwischen Geschlecht und

Familienstand vor? Wie hoch sind die Korrelationen gemäß einfachen Differenzmaß?

Ihre Hypothese lautet: 60% aller Biertrinker sind Raucher. Gegeben eine Stichprobe

von 500 Biertrinkern, für die Sie mit einem bei Akzeptanzkoeffizient = 95% ein

Akzeptanzintervall von 282-318 berechnen. Bei welchem Stichprobenergebnis wäre

obige Hypothese schwach bestätigt, und bei welchen Stichprobenergebnissen wäre

sie stark geschwächt?

Weiterführung obigen Beispiels: Angenommen, Sie finden in Ihrer Stichprobe 315

Raucher. Wie lautet das 95% Konfidenzintervall für die Häufigkeit von Rauchern

unter den Biertrinkern in der Population?

Gegeben eine Stichprobe von Kaffeetrinkern mit 48% Rauchern, und eine

Kontrollstichprobe von Nicht-Kaffeetrinkern mit 32% Rauchern. Die 5%-signifikante

Stichprobendifferenz hängt von der Stichprobengröße ab, die Sie nicht kennen. In

welchem Intervall müsste dies signifikante Stichprobendifferenz liegen, damit aus

diesen Befunden auf eine signifikante Korrelation geschlossen werden kann, und in

welchem Intervall müsste sie liegen, damit das nicht der Fall ist?

Um wieviel schrumpfen Akzeptanzintervalle und signifikante Differenz, wenn Sie

ihre Stichprobengrössen verzehnfachen?

Ihrer Hypothese H zufolge liegt das durchschnittliche Gewicht von männlichen

Deutschen bei 80 kg. Sie ziehen eine 30-elementige Stichprobe von männlichen

Deutschen und ermitteln einen Mittelwert von 76 kg. Die korrigierte Streuung dieser

Stichprobe betrage 8 kg. Damit schätzen Sie die Populationsstreuung. Berechnen Sie

das 95%ige Akzeptanzintervall von H. Kann H beibehalten werden?

Fortsetzung obigen Beispiels: Nun ziehen Sie eine 34-elementige Stichprobe von

männlichen Japanern. Das durchschnittliche Gewicht liegt bei 70 kg. Sie vergleichen

diese Stichprobe mit der Stichprobe männlicher Deutschen. Die aus beiden

84

Stichproben geschätzte Streuung betrage 7 kg. Berechnen Sie die signifikante

Differenz bei Signifikanzniveau 5%. Ist der Unterschied signifikant? Wie hoch ist die

Effektstärke?

Zu Kap. 10:

Was versteht man unter dem Likelihood einer (statistischen) Hypothese?

Inwiefern beruht die Bayes-Statistik auf dem Prinzip StK?

Was besagt die Likelihood-Intuition?

Wie lautet die Bayesianische Rechtfertigung der Likelihood-Intuition?

Angenommen die Ausgangswahrscheinlichkeit der Hypothese H1: "Gott existiert"

beträgt nur ein Drittel der Ausgangswahrscheinlichkeit der Alternativhypothese H2:

"Gott existiert nicht". Wieviel mal höher muss das Likelihood von H1, gegeben

unsere Gesamtevidenz, sein, damit die Endwahrscheinlichkeit von H1 grösser wird

als die von H2?

Zu Kap. 11:

Was unterscheidet den objektiven Bayesianismus vom subjektiven Bayesianismus?

Erläutern Sie das Indifferenzprinzip.

Wenden Sie das Indifferenzprinzip auf die beiden konkurrierenden H1: "Gott

existiert" und H2: "Gott existiert nicht". Angenommen das Likelihood von H1,

gegeben unsere Gesamtevidenz, ist 1.2 mal so hoch wie das Likelihood von H2. Wie

lauten die Endwahrscheinlichkeiten der beiden Hypothesen?

Fortsetzung des obigen Beispiels: Erweitern Sie diese Hypothesenpartition um H3 =

"Der Teufel existiert", H2 lautet nun "Weder Gott noch Teufel existieren" (H1 wie

oben). Die Likelihoodverhältnisse von H1 zu H2 sei wie oben 1.2, das von H3 zu H2

jedoch sei 1.3. Wie lauten nun die Endwahrscheinlichkeiten, gegeben das

Indifferenzprinzip?

Forsetzung obigen Beispiels: Erläutern Sie anhand des Ergebnisses das Problem der

Sprachabhängigkeit des Indifferenzprinzips.

85

Erläutern Sie die Laplacesche Voraussageregel. Berechnen Sie damit die W.keit,

dass der nächste Rabe schwarz ein wird, gegeben ich habe bisher 117 schwarze

Raben und 2 weiße Raben gesehen.

Erläutern Sie am Beispiel einer uniformen Verteilung über den Frequenzen einer

Strahlung und ihrer der korrespondierenden Verteilung über den Wellenlängen der

Strahlung das Problem der Sprachabhängigkeit des Indifferenzprinzips.

Zu Kap 12:

Erläutern Sie die Idee des "Auswaschen von priors" im subjektiven Bayesianismus.

Was versteht man unter kontinuierliche Konvergenz der subjektiven

Wahrscheinlichkeit von Voraussagen zur objektiven Häufigkeit?

Welche induktive Voraussetzungen erfordert kontinuierliche Konvergenz?

Erläutern Sie die Schattenseite der kontinuierlichen Konvergenz aufgrund beliebiger

Langsamkeit der Konvergenz (endliche Unbelehrbarkeit).

Erläutern Sie die Gaifman/Snir Limes-Konvergenz.

Erläutern Sie die Jeffrey Limes-Konvergenz.

:

Discussion: · Web viewDie Summe der Wahrscheinlichkeiten der Ereignisse einer Partition {A 1,,A n}...

Documents

Transcript of Discussion: · Web viewDie Summe der Wahrscheinlichkeiten der Ereignisse einer Partition {A 1,,A n}...