Post on 06-Aug-2019
Biometrisches Tutorial I
Montag 16-18 Uhr
Sitzung 1
03.06.2019
Dr. Christoph Borzikowsky
1. Organisatorisches
2. Statistik in der Medizin
3. Medizinische Forschung
4. Phasen der medizinischen Doktorarbeit
5. Parameterschätzung
6. Hypothesentest
Biometrisches Tutorial I
2
1. Organisatorisches
2. Statistik in der Medizin
3. Medizinische Forschung
4. Phasen der medizinischen Doktorarbeit
5. Parameterschätzung
6. Hypothesentest
Biometrisches Tutorial I
3
Dienstleistung des Instituts für Medizinische
Informatik und Statistik für
(1) Doktoranden (180 Minuten kostenfrei,
danach 85 € pro 60 Minuten),
(2) Habilitanden und wissenschaftlichen
Mitarbeitern/Mitarbeiterinnen der
Medizinischen Fakultät (ab der ersten
Stunde 85 € pro 60 Minuten).
Biometrische Beratung
4
Beratung wissenschaftlicher Arbeiten umfasst:
- Studien- und Versuchsplanung
- Datenerfassung
- statistische Auswertungsverfahren
- Darstellung/Interpretation von Ergebnissen
- wissenschaftliche Publikationen
- …
Biometrische Beratung
5
Als Vorbereitung auf weiterführende Beratungen wird die
Teilnahme am biometrischen Tutorial vorausgesetzt.
Darin werden folgende Themen behandelt:
- Statistik in der Medizin
- Studienplanung
- Datenaufbereitung / beschreibende Statistik
- statistisches Testen
- Auswertungsverfahren
Biometrisches Tutorial
6
Danach können Sie…
… ihre Fragestellung formulieren,
… ihr Forschungsvorhaben strukturieren,
… ihre Daten aufbereiten,
… statistische Verfahren unterscheiden/anwenden,
… ihre Ergebnisse interpretieren.
Biometrisches Tutorial
7
… sich von uns beraten lassen!
Biometrisches Tutorial
Sandra Freitag-Wolf
Amke Caliebe
Caroline Knecht Silke Szymzcak
Astrid Dempfle
Christoph
Borzikowsky
Thomas Möbius
8
Anmeldung und Termine
Die Anmeldung zu einem Beratungstermin erfolgt über das
Sekretariat (Frau Neumann, Telefon 500 30701).
Melden Sie sich rechtzeitig an (längere Wartezeiten) und bringen sie
den ausgefüllten Beratungsbogen mit.
Voraussetzungen
- Grundkenntnisse der statistischen Methodik
- vollständiger Besuch des biometrischen Tutorials
Zeitpunkt einer Beratung
Anmeldung muss innerhalb von zwei Monaten (!) nach
Unterzeichnen der Promotionsvereinbarung erfolgen.
Richtlinien biometrische Beratung
9
Anmeldebogen zur statistischen Beratung
10
http://www.uni-kiel.de/medinfo/institut/
Anmeldebogen zur statistischen Beratung
11
Anmeldebogen zur statistischen Beratung
12
Anmeldebogen zur statistischen Beratung
13
PDF für Promovierende PDF für sonstige Wissenschaftler/innen
Anmeldebogen zur statistischen Beratung
14
PDF für Promovierende (3 Seiten)
Infos zur
Person
Infos zur
Studie
Infos zur
Studie
Unter- schriften
+ Stempel
Anmeldebogen zur statistischen Beratung
15
PDF für Promovierende (Seite 3):
Unterschriften
PDF für Promovierende (Seite 4):
Beratungsrichtlinien des IMIS
Was wir nicht machen:
- die Verantwortung für die Richtigkeit der Daten übernehmen
- komplette Auswertungen (nur Anleitung!)
- Grafiken erstellen
- Notfallambulanzen (z.B. am Telefon)
Die Beratung kann von unserer Seite
abgelehnt oder abgebrochen werden!
Richtlinien biometrische Beratung
16
1. Organisatorisches
2. Statistik in der Medizin
3. Medizinische Forschung
4. Phasen der medizinischen Doktorarbeit
5. Parameterschätzung
6. Hypothesentest
Biometrisches Tutorial I
17
Definition
"Statistik bezeichnet die Mathematik des
Sammelns, Ordnens und Interpretierens
numerischer Daten, insbesondere zur Analyse
von Populationscharakteristika auf der Grundlage
von Stichproben." American Heritage® Dictionary
Statistik kann helfen, systematisch(er) und
strukturiert(er) über einen Forschungsgegenstand
zu reflektieren.
Was ist Statistik?
18
1) Deskriptive Statistik Zusammenfassung und Beschreibung von empirischen
Daten (z.B. absolute Häufigkeiten).
Aussagekraft begrenzt auf die Personen, die tatsächlich
untersucht wurden (Stichprobe).
2) Inferenzstatistik Mit einer gewissen Fehlerwahrscheinlichkeit wird von den
Verhältnissen in der Stichprobe auf die Verhältnisse in
der Population geschlossen.
Was ist Statistik ?
19
Population
Stichprobe
Beobachtung
Population und Stichprobe Prinzip wiederholbarer Beobachtungen
Auswahl
20
Maße der zentralen Tendenz – Mittelwert
– Median
– Modalwert
– Summe aller Werte
Maße der Streuung – Standardabweichung
– Varianz
– Spannweite
– Minimum
– Maximum
– Standardfehler des Mittelwertes
Deskriptive Analysen
21
kritische Bewertung von Beobachtungen
- Berücksichtigung des Zufalls
- Erkennen von systematischen Zusammenhängen
Verständnis der wissenschaftlichen Literatur
- Verstehen von Zweck und Design
- Beurteilung der wissenschaftlichen Glaubwürdigkeit
Design und Durchführung von Experimenten
- Wahl des angemessenen Studiendesigns
- Gebrauch angemessener statistischer Methoden
- richtige Interpretation von Resultaten
Wozu Statistik in der Medizin?
22
"... das systematische Auffinden, Bewerten, und Nutzen
aktueller wissenschaftlicher Ergebnisse als Grundlage
klinischer Entscheidungen."
Evidenzbasierte Medizin
Rosenberg W, Donald A (1995). Evidence based medicine:
an approach to clinical problem solving. BMJ 310: 1122-1126
"... verlangt, dass Sie den richtigen Artikel zur richtigen
Zeit lesen und anschließend Ihr Verhalten (und, was oft
viel schwieriger ist, das Verhalten anderer Leute)
dementsprechend ändern"
Greenhalgh T (1997). How to read a paper: the basics of
evidence based medicine. BMJ, London
23
Ziel Verbesserung der medizinischen Praxis auf der Grundlage valider wissenschaftlicher Forschung.
Frage Versuchs-
design Studie
Daten Analyse Schluss- folgerung
Methodik
Alltag Studienrealität
valide Forschung als Grundlage
Evidenzbasierte Medizin
24
R. A. Fisher (1938):
"Einen Statistiker zu konsultieren,
wenn das Experiment vorbei ist,
kommt meistens der Bitte um eine Obduktion gleich.
Der Statistiker kann vielleicht noch sagen,
woran das Experiment gestorben ist.”
Statistische Beratung in der Medizin
Nehmen Sie bitte rechtzeitig
die statistische Beratung in Anspruch!
25
1. Organisatorisches
2. Statistik in der Medizin
3. Medizinische Forschung
4. Phasen der medizinischen Doktorarbeit
5. Parameterschätzung
6. Hypothesentest
Biometrisches Tutorial I
26
• Hat eine bestimmte Ursache einen bestimmten Effekt?
• Wie groß ist der Effekt einer bestimmten Ursache?
• Verursacht Rauchen Krebs und Herzerkrankungen?
• Erhöht regelmäßiger Sport die Lebenserwartung?
• Prädisponiert Accutan zum Selbstmord?
• Um wie viel erhöht Asbest das Krebsrisiko?
• Wie groß ist das Geburtsgewicht von Frühgeborenen?
Beispiele
Medizinische Forschung
Typische Fragestellungen
27
experimentell
Klinische
Prüfung,
Phase I-IV
Grundlagen-
forschung
Klinische
Forschung
Epidemiologische
Forschung
beobachtend
Therapie-,
Prognose-, Diagnose-
Anwendungs-
Beobachtung
experimentell
Interventions-
studien
beobachtend
Querschnittstudien,
Kohortenstudien,
Fall-Kontroll-Studien
Sekundär-
forschung
Primär-
forschung
Metaanalyse
Reviews
Medizinische Forschung
28
Die meisten medizinisch-wissenschaftlichen Studien
lassen sich grob klassifizieren als:
• experimentelle Studien einer oder mehrere Faktoren werden
bewusst auf einem bestimmten Niveau
festgelegt.
• Beobachtungsstudien Daten werden in einer gegebenen Situation
ohne Eingriff des Beobachters erhoben.
experimentell oder beobachtend
Medizinische Forschung
29
Eine der grundlegenden Methoden des
wissenschaftlichen Arbeitens besteht im Vergleich zweier
Gruppierungen:
• Behandlungsgruppe
• Kontrollgruppe
- erhält eine bestimmte Behandlung
- weist ein gewisses Merkmal (eine Krankheit) auf
- ist (war) einem bestimmten Einfluss ausgesetzt
- erhielt keine bzw. eine Vergleichs- oder
Kontrollbehandlung (Placebo)
- weist ein gewisses Merkmal (eine Krankheit) nicht auf
- ist (war) einem bestimmten Einfluss nicht ausgesetzt
Behandlung oder Kontrolle
Medizinische Forschung
30
• Stichprobenfehler reflektieren zufällige Komponenten des Mess- bzw.
Beobachtungsvorgangs, verfälschen aber "im Mittel"
nicht das Ergebnis.
Medizinische Forschung Stichprobenfehler oder systematische Fehler
Die Aussagekraft wissenschaftlicher Studien wird durch
zwei Arten von Fehlern beeinträchtigt:
• systematische Fehler (engl. Bias) verfälschen "im Mittel" Beobachtungen oder
Messungen (zufällig oder deterministisch) in eine
bestimmte Richtung.
31
• 18 schwarz (2/3)
• 6 grün (1/3)
• 3 schwarz (3/5)
• 2 grün (2/5)
• 4 schwarz (4/5)
• 1 grün (1/5)
• 5 schwarz (5/5)
• 0 grün (0/5)
18 schwarz (3/4)
6 grün (1/4)
Medizinische Forschung Stichprobenfehler
32
Population
Stichprobe 1 Stichprobe 2
Stichprobe 3
Medizinische Forschung Sytematischer Fehler
• Das untersuchte Merkmal besitzt in der Stichprobe
eine systematisch andere
Auftretenswahrscheinlichkeit als in der Population.
• Die Zusammensetzung der Stichprobe
unterscheidet sich systematisch von der
Zusammensetzung der Population.
• Beispiel:
Eine klinische Studie, die die Sicherheit und
Effektivität von Adalimumab im Vergleich zu einem
Placebo nur bei Patientinnen mit Ulcerative Colitis
untersucht, nicht jedoch bei Patienten.
33
Typ Stadium
Auswahlbias (Verfügbarkeit)
Zuweisung, Rekrutierung
Durchführungsbias (Aufmerksamkeit)
Intervention, Beobachtung
Zermürbungsbias (Compliance)
Intervention, Nachverfolgung
Entdeckungsbias (Interpretation)
Erhebung, Auswertung
Medizinische Forschung systematische Fehlermöglichkeiten (Bias)
34
Zur Begrenzung von Fehlern müssen Behandlungs- und
Kontrollgruppe vergleichbar sein hinsichtlich ...
Struktur
Behandlung
… gleiche Verteilung kritischer Einflussfaktoren wie z.B.
Alter und Geschlecht.
… gleiche Behandlungsbedingungen, außer eventuell
für experimentell relevante Faktoren.
Beobachtung … gleiche Beobachtungs- und
Dokumentationsbedingungen.
Fehlerbegrenzung
Medizinische Forschung
35
Fehlerbegrenzung
Systematische und zufällige Fehler werden in
Beobachtungsstudien begrenzt durch
- Matching (= Parallelisierung der Stichproben)
- Stratifizierung (= Auswertung in „Schichten“)
- Adjustierung für Störgrößen (Berücksichtigung von Kovariablen)
- Erhöhung des Stichprobenumfangs (Repräsentativität)
- Replikation (= Wiederholung der Studie)
Medizinische Forschung
36
Systematische und zufällige Fehler werden in
experimentellen Studien begrenzt durch
- Randomisierung (= zufällige Zuteilung)
- Verblindung (= keine Kenntnis über die Versuchsbedingung)
- Matching (= Parallelisierung der Stichproben)
- Stratifizierung (= Auswertung in „Schichten“)
- Vermeidung von Störgrößen (= Confounder)
- Erhöhung des Stichprobenumfangs, Replikation (= Wiederholung)
Fehlerbegrenzung
Medizinische Forschung
37
Phase 0 Labor- /Tierexperiment, Pharmakokinetik,
Toxizität (Präklinik)
Phase I "first-in-man", freiwillige Probanden, Dosis-Wirkung,
Sicherheit, Verträglichkeit
Phase II "proof of concept", Untersuchung von Effizienz und
Wirksamkeit, Dosisfindung, eventuell Kontrollgruppe
Phase III an Patienten (große Fallzahlen), Vergleich mit
etablierten Behandlungen oder Placebo
(Kontrollgruppe), Nebenwirkungen, Nachweis der
Wirksamkeit als Voraussetzung für die Zulassung
Phase IV Etablierung als Standardbehandlung, Nebeneffekten
Experimentelle Studie
Klinische Forschung
38
gesund
PTCA+Stent
Patienten mit akutem Myocardinfarkt
Reinfarkt
Randomisierung
Nutzen eines zusätzlichen Stents in der MI-Therapie
PTCA: Percutaneous Transluminal Coronary Angioplasty
gesund
PTCA
Reinfarkt
39
Exkurs (Beginn):
Ein Datenbeispiel
40
gesund
PTCA+Stent
Patienten mit akutem Myocardinfarkt
Reinfarkt
Randomisierung
PTCA: Percutaneous Transluminal Coronary Angioplasty
gesund
PTCA
Reinfarkt
Ein Datenbeispiel
41
gesund
PTCA+Stent
Patienten mit akutem Myocardinfarkt
Reinfarkt
Randomisierung
Ein Datenbeispiel
PTCA: Percutaneous Transluminal Coronary Angioplasty
gesund
PTCA
Reinfarkt
Unabhängige Variable
(UV)
Abhängige Variable
(AV)
42
• 1. Variable „Stent“ mit zwei Abstufungen (PTCA+Stent
vs. PTCA); dichotom; between.
• Gruppierungsvariable (auch: unabhängige Variable)
– Between: jede Person wird nur einer Stufe der
unabhängigen Variable zugeordnet.
– Within (= Cross-Over): dieselbe Person absolviert
nacheinander alle experimentellen Bedingungen.
• 2. Variable „Zustand“ mit zwei Abstufungen (Reinfarkt
vs. gesund); dichotom.
• Outcome-Variable (auch: abhängige Variable)
Ein Datenbeispiel
43
Unabhängige Variable
(UV)
Abhängige Variable
(AV)
Merke:
- Erste Zeile enthält stets die Variablennamen
- Ab der zweiten Zeile folgen dann die Patientendaten
- Jede Zeile entspricht einem Patienten
- Jede Spalte einer Variablen
- Erste Variable ist immer ein eindeutiger Identifier
- Tabellenblatt mit den Daten enthält im besten Fall
nur Zahlen (aber: „String“-Variablen auch erlaubt)
Ein Datenbeispiel: Tabellenblatt mit Daten
Tabellenblatt mit Daten
44
Identifier
Merke:
- Tabellenblatt mit den Daten enthält im besten
Fall nur Zahlen (aber: „String“-Variablen auch
erlaubt)
- Legende auf einem zweiten Tabellenblatt
- Hinweise zur Kodierung („Codebook“)
Ein Datenbeispiel: Tabellenblatt mit Legende
Tabellenblatt mit Legende
45
Exkurs (Ende):
Ein Datenbeispiel
46
- prospektiv an nicht betroffenen Individuen mit
bekanntem Expositionsstatus
- Neuerkrankungen werden dokumentiert
Beobachtungsstudien
Kohortenstudie
Fall-Kontrollstudie - retrospektiv an Individuen mit bekanntem
Erkrankungsstatus
- Expositionsstatus wird dokumentiert
Epidemiologische Forschung
47
Beispiel Kohortenstudie Die Framingham-Studie
Kontrollen
exponiert
(z.B. Raucher)
Kohorte 485 209 Männer und Frauen
nicht exponiert
(z.B. Nichtraucher)
Rekrutierung
Kontrollen KHK-Fälle KHK-Fälle
Die Framingham-
Studie ist eine
bekannte, sehr
umfangreiche
Kohortenstudie, die
den Einfluss
kardiovaskulärer
Risikofaktoren
untersucht.
KHK = Koronare Herzerkrankung 48
prospektiv!
exponiert
Serum-Cholesterin
>200mg/dl
Fälle
(MI)
nicht exponiert
Serum-Cholesterin
<200mg/dl
Kontrollen
(kein MI)
exponiert
Serum-Cholesterin
>200mg/dl
Rekrutierung
nicht exponiert
Serum-Cholesterin
<200mg/dl
Risikopopulation
Fälle und Kontrollen
Beispiel Fall-Kontrollstudie MI-Risiko und erhöhtes Serum-Cholesterin
49
retrospektiv!
Explorative Datenanalyse
Anhand eines Datensatzes wird eine statistische Analyse
durchgeführt. Die Ziele sind dabei:
- Annahmen (Hypothesen) über die Ursache und den Grund
der beobachteten Daten zu bilden (explorativ).
- Annahmen einzuschätzen, worauf statistische Inferenz
basieren kann.
- Die Auswahl von passenden statistischen Werkzeugen und
Techniken zu unterstützen.
- Eine Basis für die weitere Daten-Sammlung durch Umfragen
oder Design von Experimenten bereitzustellen.
50
Explorative Studie - gibt Hinweise auf Hypothesen (Pilot-Studien).
- entdeckt neue Hypothesen (Modellbildung).
- verwendet statistische Testverfahren nur deskriptiv, d.h. ohne inferentielle Interpretation einer Signifikanz.
- zeigt statistisch auffällige Ergebnisse an (P-Werte).
Konfirmatorische Studie
- soll eine spezifische Frage (Hypothese) klar und eindeutig beantworten, z.B. in Phase III Studien.
- sichert a-priori formulierte Hypothesen unter Einhaltung eines Signifikanzniveaus α ab.
- muss unter Umständen einen multiplen α-Fehler kontrollieren.
- zeigt statistisch signifikante Ergebnisse an.
51
Studienansatz
Zusammenfassung
Die erfolgreiche Implementierung evidenzbasierter Medizin
setzt valide wissenschaftliche Forschung voraus, die für jeden
Arzt zugänglich und verständlich ist.
Stichproben können systematischen und unsystematischen
Fehlern unterliegen, die sich durch Design, Sorgfalt und
hinreichend große Fallzahlen reduzieren lassen.
Medizinische Forschung vollzieht sich typischer Weise in
kontrollierten experimentellen Studien oder, wenn dies nicht
möglich ist, in Beobachtungsstudien unter Adjustierung
eventueller Gruppenunterschiede.
52
1. Organisatorisches
2. Statistik in der Medizin
3. Medizinische Forschung
4. Phasen der medizinischen Doktorarbeit
5. Parameterschätzung
6. Hypothesentest
Biometrisches Tutorial I
53
ERKUNDUNG
INTERPRETATION
AUSWERTUNG
THEORETISCHE
PHASE
PLANUNGSPHASE
PRETEST HAUPTERHEBUNG
Phasen der medizinischen Studie (z.B. für eine medizinische Doktorarbeit)
54
Phasen der medizinischen Studie (z.B. für eine medizinische Doktorarbeit)
1) Erkundungsphase
Literaturstudium, Diskussion, Befragung von Fachleuten etc.
2) Theoretische Phase
Formulierung der Hypothese, Erwartungen
3) Analytisch-statistische Phase
Planung, Datenerhebung und statistische Auswertung
4) Entscheidungsphase
Entscheidung für oder gegen die Nullhypothese
Veröffentlichung/Dr.-Arbeit
55
1) Erkundungsphase
• Themenfindung (welches Thema interessiert mich?)
• Literaturrecherche (was gibt es zu diesem Thema bereits?)
• Fragestellung (was soll untersucht werden?)
• Hypothesenfindung (was erwarte ich?)
• Suche nach Betreuung (Fachgebiet?)
• Vorbereitung (welche Software nötig?, Ethikantrag?)
• Softskills (Zeitmanagement, Selbstregulation)
• Zeitplan (Zielsetzung, Meilensteine)
• Prinzip der kleinen Schritte
56
Anmeldebogen zur statistischen Beratung
PDF für Promovierende (3 Seiten)
Infos zur
Person
Infos zur
Studie
Infos zur
Studie
Unter- schriften
+ Stempel
57
2) Theoretische Phase Hypothese formulieren
Primäres Ziel
Hauptfragestellung: Probiotika reduzieren die unerwünschten
Nebenwirkungen (Symptomatik) des Impfstoffes
Nullhypothese: Probiotika hat keinen Einfluss auf die Symptomatik
Alternativhypothese: Probiotika hat Einfluss auf die Symptomatik
Sekundäres Ziel
Nebenaspekte: die Medikation zur Behandlung der Nebenwirkung
reduziert sich durch Probiotikagabe, Frauen haben weniger
Komplikationen, Schwerbetroffene profitieren von…
Nullhypothesen und dazugehörige Alternativhypothese formulieren
58
Hedderich-Sachs: Angewandte Statistik, Springer (2016)
2) Theoretische Phase Variablenarten
59
2) Theoretische Phase Ziel- und Einflussgrößen
Primäre Zielgröße
Symptomscore im Vergleich zur Baseline (Einheit)
→ Skalenniveau metrisch
Einflussgröße
Probiotikagabe (ja/nein)
→ Skalenniveau dichotom
60
Beispiel Modellbildung
Probiotika bei Immunisierung
Einflussgröße
Probiotika
Zielgröße
Reduktion im
Symptomscore
Schritt 1:
Spezifizierung der
angenommenen
Wirkrichtung
61
Einflussgröße
Probiotika
Zielgröße
Reduktion im
Symptomscore
Störgröße
Alter, Geschlecht
Störgröße
Art der Allergie
Beispiel Modellbildung
Probiotika bei Immunisierung
Schritt 2:
Spezifizierung von
möglichen
Confoundern
62
Einflussgröße
Probiotika
Zielgröße
Reduktion im
Symptomscore
Störgröße
Alter, Geschlecht
Störgröße
Art der Allergie
Beispiel Modellbildung
Probiotika bei Immunisierung Schritt 3:
Spezifizierung der
Zusammenhänge
63
2) Theoretische Phase Ziel- und Einflussgrößen
Primäre Zielgröße
Symptomscore im Vergleich zur Baseline (Einheit)
Einflussgröße
Probiotikagabe (ja/nein)
Störgrößen / sekundäre Zielgrößen
Alter (Jahre), Schweregrad der Allergie (I-V), Allergieart
(H,P,…)
andere Krankheiten (D,KHK), behandelnder Arzt (1,…)
64
2) Theoretische Phase Studiendesign
Die Daten sind prospektiv oder retrospektiv
Die Beobachtungen sind
- unabhängig
- gruppiert
- longitudinal
- Messwiederholungen
65
Anmeldebogen zur statistischen Beratung
PDF für Promovierende (3 Seiten)
Infos zur
Person
Infos zur
Studie
Infos zur
Studie
Unter- schriften
+ Stempel
Prospektiv? Retrospektiv?
66
Eine Population ist eine (üblicherweise große) Gruppe von
Objekten, über die eine Aussage getroffen werden soll.
Eine Stichprobe besteht aus einer (üblicherweise kleinen)
Anzahl von Mitgliedern der Population.
3) Analytisch-statistische Phase Population und Stichprobe
67
Population
Populations-
parameter
Stichprobe
Stichproben-
statistik
Daten
erheben
Schluss-
folgerung
Stichprobe ziehen
Inferenz bilden
Analytisch-statistische Phase Population und Stichprobe
68
3) Analytisch-statistische Phase Stichprobentechniken
systematisch
jedes k.-Mitglied der Population
zufällig
jedes Mitglied der Population mit
gleicher Wahrscheinlichkeit (z.B.
mittels Zufallszahlen)
stratifiziert
in vorgegebenem Verhältnis aus
Teilpopulationen
69
3) Analytisch-statistische Phase Datenaufbereitung
Datenerfassung: Datenbankprogramm (z.B. ACCESS, D-Base)
oder Statistikprogramm (z.B. SPSS, SAS) - EXCEL geht aber
auch!
Anordnung:
• Fälle (Patienten, Probanden, Versuche, ...) in Zeilen und
• in deren Spalten die Merkmale/Variablen,
• in jeder Zeile wird ein Fall dokumentiert, in jeder Spalte ein
Merkmal
Verschlüsselung: Pseudonymisierung von identifizierenden Daten,
kategorielle Merkmale verschlüsseln in Zahlenkodierung (keine
Wörter!), metrische Merkmale mit festen Dezimalstellen,…
Dokumentieren: verwendete Schlüssel, Aufbereitungsschritte,… 70
3) Analytisch-statistische Phase Beispiel 1: sehr schlechte Datenaufbereitung
71
3) Analytisch-statistische Phase Beispiel 2: bessere, aber nicht gute Datenaufbereitung
72
3) Analytisch-statistische Phase Beispiel 3: sehr gute Datenaufbereitung
73
Die deskriptive Statistik dient dazu, Daten in
verständlicher Weise zusammenzufassen.
Graphische Methoden sind besser als numerische
Methoden dazu geeignet, Muster in Daten zu
erkennen.
Numerische Ansätze sind meistens präziser und
objektiver.
3) Analytisch-statistische Phase Deskriptive Statistik
74
3) Analytisch-statistische Phase Qualitative Merkmale
Tortendiagramm Balkendiagramm
75
3) Analytisch-statistische Phase Quantitative Merkmale
Boxplot Histogramm
76
Die Wahl des gewählten statistischen Auswertungs-
verfahrens hängt von der Skala des Merkmals ab.
Qualitative Variable
- nominal: Kategorien ohne Anordnung (z.B. Blutgruppe)
- ordinal: Kategorien mit Anordnung (z.B. Tumor-Stadien)
Quantitative Variable
- diskret: ganze Zahlen (z.B. Zellzahl)
- stetig: reelle Zahlen (z.B. Blutdruck)
3) Analytisch-statistische Phase Qualitative/Quantitative Merkmale
77
• Skala
– Abbildungsfunktion von empirischem und
numerischem Relativ.
– Beispiel: MAYO-Score für die Beurteilung von
Krankheitsaktivität und Schweregrad bei Colitis
Ulcerosa.
• Unterschiedliche Skalenniveaus
– Niveau abhängig von Art der Relationen der Elemente
des Objekts.
3) Analytisch-statistische Phase Definition Skala
78
• Nominalskala: Ausprägungen sind gleich
oder unterschiedlich (Mann ungleich Frau)
• Ordinalskala: Ausprägungen sind ihrer
Ordnung nach größer oder kleiner (Admiral >
Leutnant)
• Intervallskala: Differenzen von Ausprägungen
sind gleich (IQ)
• Verhältnisskala: Verhältnisse von
Ausprägungen sind gleich (Körpergröße)
3) Analytisch-statistische Phase Skalenniveaus
79
Blutgruppe: z.B. AB+, AB-, 0+
Nominal
Schulnoten: z.B. eins, zwei, sechs
Ordinalskala
Temperatur: z.B. 2⁰ Celsius, 8⁰ Celsius
Intervall
Unterrichtsstunden: z.B. 2 Stunden, 5 Stunden, 7 Stunden
Verhältnisskala
3) Analytisch-statistische Phase Beispiele für Skalenniveaus
80
• induktive, schließende Statistik
• Stichprobe wird als repräsentative Teilmenge der
Population aufgefasst.
• Signifikanztests:
– Entscheidung für oder gegen die Nullhypothese
– mit einer gewissen Fehlerwahrscheinlichkeit wird von
den Verhältnissen in der Stichprobe auf die
Verhältnisse in der Population geschlossen.
4) Entscheidungsphase
81
1. Organisatorisches
2. Statistik in der Medizin
3. Medizinische Forschung
4. Phasen der medizinischen Doktorarbeit
5. Parameterschätzung
6. Hypothesentest
Biometrisches Tutorial I
82
• Parameterschätzung: Ermittlung eines Schätzwertes für
einen unbekannten Populationsparameter der
Grundgesamtheit auf der Basis von
Stichprobenkennwerten.
• Genauigkeit bezieht sich auf die Differenz zwischen dem
Erwartungswert eines Schätzers und dem wahren
Parameter.
• Präzision bezieht sich auf die Varianz eines Schätzers.
Parameterschätzung
83
Parameterschätzung Eigenschaften von „guten“ Schätzern
84
Parameterschätzung Beispiele
85
Um Anhaltspunkte bezüglich der Genauigkeit der
Schätzung zu gewinnen, konstruiert man aus den Daten
der Stichprobe ein so genanntes Konfidenzintervall
(oder Vertrauensbereich).
Das Konfidenzintervall überdeckt den unbekannten
Parameter mit einer Wahrscheinlichkeit von z.B. 95%.
Je größer der Stichprobenumfang ist,
desto schmaler ist das Konfidenzintervall.
Parameterschätzung Konfidenzintervall
86
Geschlecht
Quartal
Jan.-Mär. Apr.-Jun. Jul.-Sep. Okt.-Dez.
weiblich 202 184 213 170
männlich 206 205 224 227
total 408 389 437 397
Wahrscheinlichkeit für die Geburt eines Jungen
87
Geschlecht
Quartal
Jan.-Mär. Apr.-Jun. Jul.-Sep. Okt.-Dez.
weiblich 202 184 213 170
männlich 206 205 224 227
total 408 389 437 397
0.505 (0.455-0.554)
0.527 (0.476-0.557)
0.513 (0.465-0.560)
0.572 (0.521-0.621)
Wahrscheinlichkeit für die Geburt eines Jungen
88
Geschlecht
Quartal
Jan.-Mär. Apr.-Jun. Jul.-Sep. Okt.-Dez.
weiblich 202 184 213 170
männlich 206 205 224 227
total 408 389 437 397
0.505 (0.455-0.554)
0.527 (0.476-0.557)
0.513 (0.465-0.560)
0.572 (0.521-0.621)
Geschlecht Jan.-Dez.
weiblich 769
männlich 862
total 1631
0.529 (0.504-0.553)
Ist die Wahrscheinlichkeit
für die Geburt eines Jungen
> 0.5?
Wahrscheinlichkeit für die Geburt eines Jungen
89
Geschlecht
Quartal
Jan.-Mär. Apr.-Jun. Jul.-Sep. Okt.-Dez.
weiblich 202 184 213 170
männlich 206 205 224 227
total 408 389 437 397
0.505 (0.455-0.554)
0.527 (0.476-0.557)
0.513 (0.465-0.560)
0.572 (0.521-0.621)
Geschlecht Jan.-Dez.
weiblich 769
männlich 862
total 1631
0.529 (0.504-0.553)
Ist die Wahrscheinlichkeit
für die Geburt eines Jungen
> 0.5?
Viele Fragen können auch mit Hilfe
eines KI beantwortet werden!
Wahrscheinlichkeit für die Geburt eines Jungen
90
1. Organisatorisches
2. Statistik in der Medizin
3. Medizinische Forschung
4. Phasen der medizinischen Doktorarbeit
5. Parameterschätzung
6. Hypothesentest
Biometrisches Tutorial I
91
Theoretische Phase
derzeitiges
Wissen
Falsifikation
neues
Wissen
H0 HA
neues Wissen durch Falsifikation
92
Eine Aussage - bislang unwidersprochen - wird in Frage gestellt und damit zu einer Vermutung:
Nullhypothese
Im statistischen Test soll diese anhand von Beobachtungen widerlegt werden:
Alternativ-Hypothese
93
Hypothesen
Die Nullhypothese impliziert üblicherweise das,
wovon der Wissenschaftler erwartet (oder
wünscht), dass es falsch ist. Sie repräsentiert
meistens Konservativismus bzw. die allgemeine
Meinung.
Die Nullhypothese nicht zu verwerfen,
bedeutet nicht, dass sie wahr ist! Es liegt
unter Umständen lediglich nicht genügend
Evidenz gegen die Nullhypothese vor.
H0: Die Wahrscheinlichkeit für die Geburt eines Jungen
beträgt 50%.
Nullhypothese
94
Die Alternativhypothese impliziert üblicherweise
das, wovon der Wissenschaftler erwartet (oder
wünscht), dass es wahr ist. Die
Alternativhypothese gilt als etabliert, wenn
die Nullhypothese verworfen wurde.
HA: Die Wahrscheinlichkeit für die Geburt eines Jungen
ist größer als 50%.
Alternativhypothese
95
Daten
Problem/ Fragestellung
Prüfgröße
Entscheidung
Teststatistik
Prüfverteilung
96
- Formel / Vorschrift
- berechneter Wert
- statistisches Modell
- p-Wert / Signifikanz
- Hypothesen
- Signifikanzniveau
- Power
Statistisches Testen Typischer Ablauf in der Praxis
ungleich ()
größer (>)
kleiner (<)
gleich (=)
höchstens ()
mindestens ()
HA H0
zweiseitig
(ungerichtet)
einseitig
(gerichtet)
HA: Die Wahrscheinlichkeit für einen Jungen ist ungleich 50%.
HA: Die Wahrscheinlichkeit für einen Jungen ist größer/kleiner 50%.
Statistisches Testen Einseitig versus zweiseitig
97
Binomialtest
Teststatistik
Zufallsvariable XBin(n, )
Hypothesen
5.0 π:HA
Binomialverteilung
H0 wird abgelehnt, wenn x > ? ist.
Beobachtung 10 Geburten, davon 8 Jungen
Entscheidung
5.0 π:H0
98
Ist die Wahrscheinlichkeit für die Geburt eines Jungen größer
als 50%?
Unter Annahme der H0 wird eine zum Test gehörige
Wahrscheinlichkeitsfunktion berechnet.
Mit dieser Teststatistik kann jedes Ergebnis durch eine
Wahrscheinlichkeit unter H0 bewertet werden.
Folgt aus der Teststatistik, dass das Ergebnis unter H0
sehr unwahrscheinlich ist (z.B. < 5%), wird H0 abgelehnt.
Statistische Analyse Teststatistik
99
Wahrscheinlichkeit für die Geburt eines Jungen
Anzahl der Jungen
Wahrscheinlichkeit für die Geburt eines Jungen Binomialverteilung unter H0
Wie wahrscheinlich ist unser Ergebnis?
10
0
Wahrscheinlichkeit für die Geburt eines Jungen
Anzahl der Jungen
Wahrscheinlichkeit für die Geburt eines Jungen Binomialverteilung unter H0
P(X = 8) + P(X = 9) + P(X =10)
0.045 + 0.01 + 0.001 = 0.0561
10
1
Wahrscheinlichkeit für die Geburt eines Jungen
Anzahl der Jungen
Wahrscheinlichkeit für die Geburt eines Jungen Binomialverteilung unter H0
P(X = 8) + P(X = 9) + P(X =10)
0.045 + 0.01 + 0.001 = 0.0561
Annahmebereich Ablehnungs-
bereich
kritischer Wert
102
Die kritischen Werte werden so gewählt, dass das Signifikanzniveau des zugehörigen Tests höchstens einen fest vorgegebenen Wert annimmt (z.B. 5 %).
Die Wahl der kritischen Werte hängt nur von der Nullhypothese H0 ab, aber nicht von HA.
Sind die kritischen Werte einmal gewählt, hängt die Power des Tests nur von HA ab.
Statistische Analyse kritischer Wert
103
p
tobs T
H0
Der p-Wert ist die Wahrscheinlichkeit dafür, dass die
Teststatistik T den beobachteten oder einen noch
unwahrscheinlicheren, extremeren Wert als tobs
annimmt, wenn die Nullhypothese wahr ist.
Er entspricht dem Signifikanzniveau, bei dem H0 gerade
eben verworfen würde.
Statistische Analyse p-Wert
104
Wahrscheinlichkeit für die Geburt eines Jungen
Anzahl der Jungen
Wahrscheinlichkeit für die Geburt eines Jungen Binomialverteilung unter H0
P(X = 8) + P(X = 9) + P(X =10)
= 0.0561 p –Wert!
=> Die Nullhypothese wird nicht
abgelehnt (p = 0.0561).
5.0π :H0
105
H0 beibehalten richtig Typ-II- Fehler
H0 verworfen richtig
Entscheidung
Wahrheit
Typ-I- Fehler
H0 HA
Ein Typ-I-Fehler (α-Fehler) wird begangen, wenn die
Nullhypothese H0 verworfen wird, obwohl sie wahr ist.
Ein Typ-II-Fehler (β-Fehler) wird begangen, wenn die
Nullhypothese H0 beibehalten wird, obwohl sie falsch ist.
Statistische Analyse mögliche Fehler
106
Das Signifikanzniveau () eines Tests ist die
Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen.
Die Power (1-) eines Tests ist die Wahrscheinlichkeit,
einen Typ-II-Fehler zu vermeiden.
H0 beibehalten
H0 verworfen
Entscheidung
Wahrheit
H0 HA
1-
1-
Statistische Analyse mögliche Fehler
107
verwerfe
H0 H0
HA
Statistische Analyse Entscheidung
verwerfe
H0 nicht
H0 wird getestet
HA wird angenommen ?
H0
108
Entscheidungsphase p-Wert
Der p-Wert beschreibt die Wahrscheinlichkeit dafür,
dass sich die Beobachtungen unter der Annahme der
Nullhypothese so (oder noch extremer) realisieren.
Veröffentlichung der Ergebnisse
109
Parameterschätzung
Statistisches Testen
Modellbildung
Effektmaße
Multiples Testproblem
Biometrisches Tutorial II
110