Vorlesung: Rechnernutzung in der Physik -...

28
Fakultät für Physik Institut für Experimentelle Kernphysik www.kit.edu KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft Günter Quast WS 17/18 Vorlesung: Rechnernutzung in der Physik VL 12b: Testen von Hypothesen

Transcript of Vorlesung: Rechnernutzung in der Physik -...

Page 1: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Fakultaumlt fuumlr PhysikInstitut fuumlr Experimentelle Kernphysik

wwwkiteduKIT ndash Die Forschungsuniversitaumlt in der Helmholtz-Gemeinschaft

Guumlnter Quast WS 1718

Vorlesung

Rechnernutzung in der Physik

VL 12b Testen von Hypothesen

Entscheidungsfindung mit Statistik

Gibt es einen Unterschied bei Pruumlfungsergebnisse verschiedener Gruppen (Geschlecht Jahrgang Studienfach Dozent Kurskonzept hellip)

Wirkt ein Medikament

Soll ich morgen einen Regenschirm mitnehmen

Soll ich Aktien der Firma KleinWeich kaufen

Gibt es in den Daten eines Experiments einen Hinweis auf einen neuen Effekt (kalte Fusion Higgs-Boson Supersymmetrie hellip)

Biete ich Kunden die rote Schuhe kaufen lieber gruumlne oder rote Huumlte an

Ist der Online-Kunde ein potenzieller Betruumlger

hellip

Das Ziel einer jeden Datenanlyse ist die Beantwortung von Fragen und das Treffen von Entscheidungen

ganz allgemein Hypothesentest Vergleich von (empirischen) Daten mit verschiedenen Hypothesen Hi

Beispiel Verursacht Rauchen Lungenkrebs

25 Personengruppen Rauchindex 100 wenn Zahl

der Zigaretten pro Tag dem Durchschnitt von allen Maumlnnern desselben Alters entspricht

Lungenkrebs-Index 100 wenn Zahl der Lungenkrebstoten dem Durchschnitt entspricht

Korrelations-Koeffizient 0716

Frage Kann bdquoNull-Hypotheseldquo H

0 (=kein

Zusammenhang) verworfen werden

Beispiel 2 Entdeckung des Higgs-Bosons

Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant

zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet

Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet

Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo

CMS Experiment Juli 2012

Hypothesentest

Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese

spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig

PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo

Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter

PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt

zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung

= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi

Hypothesentest Prinzip

Zu testende Hypothese Null-Hypothese H0

( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)

Andere Hypothesen Alternativhypothese(n) H

1 H

2 hellip

(zB Abweichung von der Norm neuer Effekt hellip )

fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)

Typisches Ergebnis

Verwerfen einer oder mehrerer Hypothesen

aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben

Hypothesentest Pruumlfgroumlszlige

Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )

Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi

ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)

ndash idealerweise ist t(x) eine skalare Groumlszlige

t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 2: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Entscheidungsfindung mit Statistik

Gibt es einen Unterschied bei Pruumlfungsergebnisse verschiedener Gruppen (Geschlecht Jahrgang Studienfach Dozent Kurskonzept hellip)

Wirkt ein Medikament

Soll ich morgen einen Regenschirm mitnehmen

Soll ich Aktien der Firma KleinWeich kaufen

Gibt es in den Daten eines Experiments einen Hinweis auf einen neuen Effekt (kalte Fusion Higgs-Boson Supersymmetrie hellip)

Biete ich Kunden die rote Schuhe kaufen lieber gruumlne oder rote Huumlte an

Ist der Online-Kunde ein potenzieller Betruumlger

hellip

Das Ziel einer jeden Datenanlyse ist die Beantwortung von Fragen und das Treffen von Entscheidungen

ganz allgemein Hypothesentest Vergleich von (empirischen) Daten mit verschiedenen Hypothesen Hi

Beispiel Verursacht Rauchen Lungenkrebs

25 Personengruppen Rauchindex 100 wenn Zahl

der Zigaretten pro Tag dem Durchschnitt von allen Maumlnnern desselben Alters entspricht

Lungenkrebs-Index 100 wenn Zahl der Lungenkrebstoten dem Durchschnitt entspricht

Korrelations-Koeffizient 0716

Frage Kann bdquoNull-Hypotheseldquo H

0 (=kein

Zusammenhang) verworfen werden

Beispiel 2 Entdeckung des Higgs-Bosons

Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant

zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet

Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet

Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo

CMS Experiment Juli 2012

Hypothesentest

Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese

spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig

PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo

Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter

PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt

zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung

= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi

Hypothesentest Prinzip

Zu testende Hypothese Null-Hypothese H0

( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)

Andere Hypothesen Alternativhypothese(n) H

1 H

2 hellip

(zB Abweichung von der Norm neuer Effekt hellip )

fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)

Typisches Ergebnis

Verwerfen einer oder mehrerer Hypothesen

aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben

Hypothesentest Pruumlfgroumlszlige

Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )

Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi

ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)

ndash idealerweise ist t(x) eine skalare Groumlszlige

t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 3: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Beispiel Verursacht Rauchen Lungenkrebs

25 Personengruppen Rauchindex 100 wenn Zahl

der Zigaretten pro Tag dem Durchschnitt von allen Maumlnnern desselben Alters entspricht

Lungenkrebs-Index 100 wenn Zahl der Lungenkrebstoten dem Durchschnitt entspricht

Korrelations-Koeffizient 0716

Frage Kann bdquoNull-Hypotheseldquo H

0 (=kein

Zusammenhang) verworfen werden

Beispiel 2 Entdeckung des Higgs-Bosons

Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant

zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet

Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet

Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo

CMS Experiment Juli 2012

Hypothesentest

Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese

spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig

PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo

Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter

PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt

zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung

= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi

Hypothesentest Prinzip

Zu testende Hypothese Null-Hypothese H0

( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)

Andere Hypothesen Alternativhypothese(n) H

1 H

2 hellip

(zB Abweichung von der Norm neuer Effekt hellip )

fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)

Typisches Ergebnis

Verwerfen einer oder mehrerer Hypothesen

aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben

Hypothesentest Pruumlfgroumlszlige

Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )

Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi

ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)

ndash idealerweise ist t(x) eine skalare Groumlszlige

t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 4: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Beispiel 2 Entdeckung des Higgs-Bosons

Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant

zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet

Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet

Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo

CMS Experiment Juli 2012

Hypothesentest

Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese

spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig

PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo

Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter

PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt

zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung

= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi

Hypothesentest Prinzip

Zu testende Hypothese Null-Hypothese H0

( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)

Andere Hypothesen Alternativhypothese(n) H

1 H

2 hellip

(zB Abweichung von der Norm neuer Effekt hellip )

fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)

Typisches Ergebnis

Verwerfen einer oder mehrerer Hypothesen

aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben

Hypothesentest Pruumlfgroumlszlige

Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )

Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi

ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)

ndash idealerweise ist t(x) eine skalare Groumlszlige

t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 5: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Hypothesentest

Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese

spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig

PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo

Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter

PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt

zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung

= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi

Hypothesentest Prinzip

Zu testende Hypothese Null-Hypothese H0

( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)

Andere Hypothesen Alternativhypothese(n) H

1 H

2 hellip

(zB Abweichung von der Norm neuer Effekt hellip )

fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)

Typisches Ergebnis

Verwerfen einer oder mehrerer Hypothesen

aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben

Hypothesentest Pruumlfgroumlszlige

Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )

Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi

ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)

ndash idealerweise ist t(x) eine skalare Groumlszlige

t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 6: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Hypothesentest Prinzip

Zu testende Hypothese Null-Hypothese H0

( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)

Andere Hypothesen Alternativhypothese(n) H

1 H

2 hellip

(zB Abweichung von der Norm neuer Effekt hellip )

fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)

Typisches Ergebnis

Verwerfen einer oder mehrerer Hypothesen

aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben

Hypothesentest Pruumlfgroumlszlige

Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )

Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi

ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)

ndash idealerweise ist t(x) eine skalare Groumlszlige

t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 7: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Hypothesentest Pruumlfgroumlszlige

Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )

Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi

ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)

ndash idealerweise ist t(x) eine skalare Groumlszlige

t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 8: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Hypothesentest Signifikanzniveau

Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0

α Signifikanzniveau

Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 9: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Hypothesentest Messung

Schritt 3 Messung liefert t = t1

Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1

Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α

In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 10: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Hypothesentest Fehlertypen

Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α

Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β

Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft

Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert

Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren

1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 11: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Hypothesentest Signifikanz und p-Wert

Haumlufige Missverstaumlndnisse

p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist

p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist

Unterscheidung Signifikanz und p-Wert

α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )

p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )

xkcdcom

Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7

bdquoExtraordinary Claims require Extraordinary Signifcanceldquo

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 12: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Beispiel Muumlnzwurf

Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe

Grundlage fuumlr die statistische Analyse ist die Binomialverteilung

Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05

aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten

bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen

bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 13: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Beispiel2 Binomial mit bdquoUntergrundldquo

Ist eine medizinische Behandlung effektiv

60 bdquospontane Heilungldquo 100 Patienten behandelt rarr

Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)

Alternative die Behandlung wirkt

Pruumlfgroumlszlige Zahl der geheilten Patienten

Entscheidung uumlber Wirksamkeit mit 5 Signifikanz

Grundlage ist wieder die Binomial-Verteilung

rarr

mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen

Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung

einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 14: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

kennen wir schon χsup2 - Test

Die χ2-Wahrscheinlichkeit

dient zur Quantifizierung der Qualitaumlt einer Anpassung

Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre

Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi

einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1

N Messungenk Parameter

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 15: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung

fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen

f(xy) = fx(x) middot fy(y)

Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y

Daraus laumlsst sich ein

Test auf Unabhaumlngigkeit konstruieren

Nullhypothese

folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y

rarr p-value of chi2-independence test 21

x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 16: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Qualitaumlt der Anpassung aus Likelihood

⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung

Beispiel Likelihood der Gauszligverteilung

Referenz

χ2 o

bdquofully saturated modelldquo

in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )

Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis

der beobachteten Daten und (geeigneter) Referenzdaten

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 17: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Qualitaumlt der Anpassung binned Likelihood-Fit

Beispiel 2 Likelihood der Poisson-Verteilung

Referenz

gof = goodness of fit

Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren

gofPoisson

konvergiert fuumlr groszlige N t gegen χsup2 2

Script gof-testpy

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 18: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Mittelwert einer Stichprobe als Pruumlfgroumlszlige

n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert

wenn nicht bekannt ist nutzt man die Stichprobenvarianz

die normierte Groumlszlige folgt dann nicht der Gauszligverteilung

sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade

insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung

Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden

Studentsche t-Verteilung

1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht

erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 19: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Anwendung Studentsche t-Verteilung

Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert

Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden

mit

Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen

Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen

d h Unterschied nicht signifikant

Script t-testpy

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 20: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Einseitiger oder zweiseitiger Test

Nullhypothese x1 = x2

Nullhypothese x1 nicht groumlszliger x2

Nullhypothese x2 nicht groumlszliger x1

kritische Region symmetrisch

Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab

kritische Region rechts (rechtsseitiger Test)

kritische Region links (linksseitiger Test)

Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1

verwerfen wenn mit hoher Signifikanz x2 gt x1

verwerfen wenn mit hoher Signifikanz x1 gt x2

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 21: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

weitere Testverfahren

Welch-Test als Alternative zum Studentschen t-Test

zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben

Kolmogorov-Smirnov-Test

zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt

Alternativen Anderson-Darling- oder Cramer-von Mises-Test

F-Test

auf gleiche Varianz von Stichproben

allg Testverfahren die auf dem Likelihood-Verhaumlltnis

beruhen

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 22: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Optimale Wahl der Pruumlfgroumlszlige

Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen

aumlquivalent

Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden

ndash Monte Carlo ndash Simulation

Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit

freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 23: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig

ndash ist der Buchstabe ein bdquoaldquo

ndash ist das Teilchen ein Elektron oder Myon

ndash ist der Kunde ein potentieller Betruumlger

ndash Signal oder Untergrund

ndash ist die E-Mail Spam

- hellip

Ausblick Klassifizierung als Hypothesentest

Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn

ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)

x

Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung

allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)

x1

x2

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 24: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Suche nach neuen Phaumlnomenen

Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik

- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)

- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)

Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung

Nullhypothese μ = μ0

Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt

Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 25: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Beispiel Entdeckung des Higgs-Bosons

Bestimmung von Grenzen aus p-Werten

Untergrundhypothese Signalhypothese

Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann

b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen

erhaltenes Limit fuumlr130 GeV

Haumlufigkeit

erwarteter Ausschluss

Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr

verschiedene H-Massen

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 26: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons

Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS

H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 27: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied

Higgs-Entdeckung statistische Analyse

Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()

Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC

Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC

() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28
Page 28: Vorlesung: Rechnernutzung in der Physik - comp…comp.physik.kit.edu/Lehre/Rechnernutzung/Vorlesungsfolien/V12b... · Entscheidungsfindung mit Statistik Gibt es einen Unterschied
  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
  • Folie 25
  • Folie 26
  • Folie 27
  • Folie 28