Biostatistik, Sommer 2019 · Beschreibende Statistik Beispiel: Versuch zur Keimhemmung Keimhemmung...

Post on 29-Aug-2019

9 views 0 download

Transcript of Biostatistik, Sommer 2019 · Beschreibende Statistik Beispiel: Versuch zur Keimhemmung Keimhemmung...

Biostatistik, Sommer 2019Beschreibende Statistik

Prof. Dr. Achim Klenke

https://www.aklenke.de

4. Vorlesung: 17.05.2019

1/59

Inhalt1 Vorbetrachtungen2 Beschreibende Statistik

Beispiel: Versuch zur KeimhemmungHistogrammMittelwertStandardabweichungMedian und QuantileBoxplotVergleichende Histogramme

3 Bivariate MerkmaleKorrelationLineare Regression

4 Statistik mit dem Statistikpaket R

2/59

Vorbetrachtungen

It is easy to lie with statistics.But, it is hard to tell the truth without it.

Andrejs Dunkels

3/59

Vorbetrachtungen

Was kann und soll Statistik?Beispiel: 200-facher WurfelwurfDaten:2 3 1 6 5 2 5 2 3 2 6 1 1 6 6 3 6 3 5 1 2 2 2 3 5 5 4 5 2 1 5 4 5 46 2 6 2 6 6 6 2 6 6 6 6 3 2 5 4 6 2 2 3 6 5 6 5 4 6 4 4 1 1 5 2 5 16 5 1 1 2 1 5 6 3 4 3 2 4 5 1 5 1 2 3 6 4 6 3 2 2 4 2 6 4 3 5 4 4 55 3 3 6 2 2 2 2 4 2 3 2 2 1 4 4 5 5 3 6 2 1 4 6 6 5 1 1 3 5 2 6 2 26 5 6 5 6 4 3 5 2 6 2 4 4 3 6 5 3 5 2 5 3 2 3 1 4 1 6 3 2 4 4 3 4 66 3 2 6 2 5 1 3 3 4 2 5 1 6 6 1 6 4 2 4 2 3 4 2 3 1 5 5 2 1

Erster Schritt: Daten sortieren / reduzieren.

Augen 1 2 3 4 5 6

Anzahl 24 44 29 29 34 40

Fur diesen Schritt muss man schon wissen, was man wissenmochte! Mochte man wissen, wie oft zwei Sechsenhintereinander gefallen sind, hat man bereits zu viel verloren.

4/59

Vorbetrachtungen

Was kann und soll Statistik?Beispiel: 200-facher Wurfelwurf

Augen 1 2 3 4 5 6

Anzahl 24 44 29 29 34 40

2. Schritt: Daten darstellen. (hier: Histogramm)

1 2 3 4 5 6

010

3050

5/59

Vorbetrachtungen

Was kann und soll Statistik?

Beispiel: 200-facher Wurfelwurf

1 2 3 4 5 6

010

3050

3. Schritt: Daten bewerten / Schlusse ziehen.

Ist der Wurfel fair? (=⇒ Test)

Wahrscheinlichkeit fur die Sechs? (=⇒ Schatzung)Hierzu notwendig: Modell fur den Zufall.Etwa: Jede Seite mit gleicher Wahrscheinlichkeit, Wurfe sindunabhangig etc.

6/59

Vorbetrachtungen

Das kann und soll Statistik.

Beschreibende (deskriptive) StatistikDaten sortieren / reduzieren, Kenngroßen ausrechnenDaten darstellen

Schließende StatistikSchlussfolgerungen ziehen (setzt Modell voraus):

Modellparameter schatzen (mit Fehlerschranken)Hypothesen testen

7/59

Vorbetrachtungen

Programm bis Semesterende

1 Elemente der beschreibenden StatistikHistogrammeKenngroßenRegression

2 Wahrscheinlichkeitstheorie: Gangige Modelle aufstellen unduntersuchen

3 Schließende Statistik: Fur die Modelle aus (2):SchatzwerteKonfidenzintervalleTests

8/59

Beschreibende Statistik Beispiel: Versuch zur Keimhemmung

Keimhemmung durch ABS und SaccharoseVersuch aus dem Pflanzenphysiologischen Praktikum (Prof. Paulsen)

In Tomaten keimen die Samen (typischerweise) nicht.Vermutung: Keimhemmung durch

Osmose (Saccharose)Abscisinsaure (ABS)ein Zusammenwirken von beidem

Ein Versuch soll klaren, welche Stoffe wirklich keimhemmendsind.

9/59

Beschreibende Statistik Beispiel: Versuch zur Keimhemmung

Keimhemmung durch ABS und SaccharoseVersuchsaufbau im Pflanzenphysiologischen Praktikum

Versuch (mit Gartenkresse statt Tomaten).In vier Petrischalen werden jeweils exakt 100 SamenGartenkresse ausgebracht. Gewassert wird mit

(A) Aqua dest. (zur Kontrolle)(B) ABS Losung(C) Saccharose-Losung(D) Saccharose-ABS-Losung

Nach zwei Tagen wird gezahlt, wie viele Samen gekeimt haben.(Fiktives) Ergebnis:

Versuch A B C D

Keime 90 85 45 25

10/59

Beschreibende Statistik Histogramm

Keimhemmung durch ABS und Saccharose

Versuch A B C D

Keime 90 85 45 25

Beschreibende Statistik: Daten darstellen.

A B C D

020

6010

0

Schlussfolgerung?11/59

Beschreibende Statistik Histogramm

Keimhemmung durch ABS und Saccharose

A B C D

020

6010

0

Um die Daten bewerten zu konnen, muss man dieSchwankungen kennen.

Moglichkeit 1. Modell fur die Schwankungen aufstellen.(=⇒W-Theorie)

Moglichkeit 2. Weitere Versuche anstellen und Schwankungenmessen.

12/59

Beschreibende Statistik Histogramm

Keimhemmung durch ABS und SaccharoseIm Praktikum wird jeder Versuch dreimal durchgefuhrt.

Versuch A B C DKeime Schale 1 90 85 45 25Keime Schale 2 88 87 44 27Keime Schale 3 91 75 45 29

A B C D

020

6010

0

Wie quantifiziert man die Streuung der Werte? 13/59

Beschreibende Statistik Histogramm

Keimhemmung durch ABS und SaccharoseIm Praktikum wird jeder Versuch dreimal durchgefuhrt. 20Versuchsgruppen. Ergebnis fur Saccharose (C)

53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49

C

020

4060

14/59

Beschreibende Statistik Mittelwert

Keimhemmung durch ABS und Saccharose

Daten mussen auf wenige Kenngroßen reduziert werden, damitman sie versteht.Die zwei wesentlichen Maße:

Lagemaße: Mittelwert, Median, QuantileStreumaße: Standardabweichung, Interquartilabstand

15/59

Beschreibende Statistik Mittelwert

Keimhemmung durch ABS und SaccharoseArithmetischer Mittelwert

x =Summe der Datenwerte

Anzahl der DatenAlso

x =160

60∑i=1

xi = 44.133.

C

020

4060

16/59

Beschreibende Statistik Standardabweichung

Keimhemmung durch ABS und SaccharoseStandardabweichung

Maß fur die Streuung: quadratische Abweichung vom Mittelwert.Standardabweichung:

s =

√√√√ 159

60∑i=1

(xi − x)2 = 5.31.

In vielen Fallen:Im Intervall x ± s liegen ca. 68% der Daten.Im Intervall x ± 2s liegen ca. 95% der Daten.Im Intervall x ± 3s liegen ca. 99% der Daten.

17/59

Beschreibende Statistik Standardabweichung

Keimhemmung durch ABS und SaccharoseStandardabweichung

Mittelwert: x = 44.13.Standardabweichung: s = 5.31.Wie viele Daten liegen in x ± s = [38.82, 49.44]?

53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49

C

020

4060

18/59

Beschreibende Statistik Standardabweichung

Keimhemmung durch ABS und SaccharoseStandardabweichung

Mittelwert: x = 44.13.Standardabweichung: s = 5.31.Wie viele Daten liegen in x ± s = [38.82, 49.44]?

53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49

41 Daten in [38.82, 49.44], entsprechend 4160 = 68.3%.

19/59

Beschreibende Statistik Standardabweichung

Keimhemmung durch ABS und SaccharoseStandardabweichung

Mittelwert: x = 44.13.Standardabweichung: s = 5.31.Wie viele Daten liegen in x ± 2s = [33.51,54.75]?

53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49

58 Daten in [33.51,54.75], entsprechend 5860 = 96.7%.

20/59

Beschreibende Statistik Standardabweichung

Mittelwert und Standardabweichung

FazitDer (arithmetische) Mittelwert

x =1n

n∑i=1

xi

ist eine Kennzahl fur die Lage der Daten.Die Standardabweichung

s =

√√√√ 1n − 1

n∑i=1

(xi − x)2

ist ein Maß fur die Streuung der Daten.21/59

Beschreibende Statistik Standardabweichung

Mittelwert und Standardabweichung

Fazit (2)In vielen Fallen (wenn die Daten etwa normalverteilt sind) gilt

Im Intervall x ± s liegen ca. 68% der Daten.Im Intervall x ± 2s liegen ca. 95% der Daten.Im Intervall x ± 3s liegen ca. 99% der Daten.

22/59

Beschreibende Statistik Median und Quantile

Keimhemmung durch ABS und SaccharoseMedian

Definition (Median)Der Median ist diejenige Zahl m, so dass

hochstens die Halfte der Daten strikt darunter undhochstens die Halfte strikt daruber liegt.

Hier: m = 43.

53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49

26 Werte unter 43; 29 Werte uber 43.

23/59

Beschreibende Statistik Median und Quantile

Keimhemmung durch ABS und SaccharoseMedian

Definition (Median)Der Median ist diejenige Zahl m, so dass

hochstens die Halfte der Daten strikt darunter undhochstens die Halfte strikt daruber liegt.

Der Median ist ein robustes Maß fur die Lage der Daten.Einzelne große Messabweichungen verandern den Mediannicht.

24/59

Beschreibende Statistik Median und Quantile

Keimhemmung durch ABS und Saccharose1. Quartil

Definition (1. Quartil)Das erste Quartil ist diejenige Zahl Q1, so dass

hochstens 25% der Daten strikt darunter undhochstens 75% strikt daruber liegt.

Hier Q1 = 41.

53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49

14 Werte (23.3%) unter 41; 41 Werte (68.3%) uber 41.

25/59

Beschreibende Statistik Median und Quantile

Keimhemmung durch ABS und Saccharose3. Quartil

Definition (3. Quartil)Das dritte Quartil ist diejenige Zahl Q3, so dass

hochstens 75% der Daten strikt darunter undhochstens 25% strikt daruber liegt.

Hier Q3 = 47.

53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49

41 Werte (68.3%) unter 47; 14 Werte (23.3%) uber 47.

26/59

Beschreibende Statistik Median und Quantile

Median und Quartile

FazitDer Median ist ein robustes Maß fur die Lage der Daten.Der Interquartilabstand

IQR := Q3−Q1

ist ein Maß fur die Streuung der Daten.

27/59

Beschreibende Statistik Median und Quantile

Quantile

Definition (Quantil)Fur jedes α ∈ (0,1) ist das α-Quantil diejenige Zahl mα, so dass

hochstens der Anteil α der Daten kleiner als mα ist undhochstens der Anteil 1− α der Daten großer als mα.

Beispielm0.25 = Q1, m0.5 =Median, m0.75 = Q3.

28/59

Beschreibende Statistik Boxplot

Keimhemmung durch ABS und SaccharoseBoxplot

Median und Quartile werden grafisch oft im Boxplot dargestellt.

Mittellinie = Median (=43)Obere Box-Kante: Q3 (=47)Untere Box-Kante: Q1 (=41)Antennen (whiskers) gebengroßten (=58) und kleinsten (=34)Datenpunkt an, haben aberhochstens die Lange 1.5×IQR(=9). Daher geht die obereAntenne nur bisQ3+1.5IQR=47+9=56. Der großteDatenpunkt ist als Referenzeingezeichnet.

3545

55

29/59

Beschreibende Statistik Boxplot

Boxplot

Ein Boxplot ist eine grafische Darstellung von Daten.Mittellinie = MedianOberer Box-Kante: Q3Untere Box-Kante: Q1Die obere Antenne gibt den großten Datenwert an, der nichtgroßer als Q3 + 1.5× IQR ist. Daruberliegende Wertewerden manchmal einzeln dargestellt.Die untere Antenne gibt den kleinsten Datenwert an, dernicht kleiner als Q1− 1.5× IQR ist. DarunterliegendeWerte werden manchmal einzeln dargestellt.

30/59

Beschreibende Statistik Boxplot

Keimhemmung durch ABS und Saccharose

Wird jeder der vier Versuche A, B, C, D sechzigmaldurchgefuhrt, so konnen wir die Ergebnisse im gemeinsamenBoxplot darstellen:

A B C D

2040

6080

31/59

Beschreibende Statistik Vergleichende Histogramme

Keimhemmung durch ABS und SaccharoseHistogramm A

Die Ergebnisse von Versuch A konnen wir in einem Histogrammdarstellen.

74 76 78 80 82 84 86 88 90 92 94

02

46

810

32/59

Beschreibende Statistik Vergleichende Histogramme

Keimhemmung durch ABS und SaccharoseHistogramm B

Die Ergebnisse von Versuch B konnen wir in einem Histogrammdarstellen.

74 76 78 80 82 84 86 88 90 92 94

02

46

8

33/59

Beschreibende Statistik Vergleichende Histogramme

Keimhemmung durch ABS und SaccharoseGemeinsames Histogramm

Die Ergebnisse der Versuche A und B (jeweils 60) konnen wir ineinem Histogramm darstellen.

74 76 78 80 82 84 86 88 90 92 94

02

46

810

AB

34/59

Beschreibende Statistik Vergleichende Histogramme

Keimhemmung durch ABS und SaccharoseGemeinsames Histogramm bei unterschiedlichem Datenumfang

Angenommen, von Versuch A wurden nur 30 Daten erhoben,von Versuch B aber 60.Direktes Histogramm nutzlos.

74 76 78 80 82 84 86 88 90 92 94

02

46

8

AB

35/59

Beschreibende Statistik Vergleichende Histogramme

Keimhemmung durch ABS und SaccharoseGemeinsames Histogramm bei unterschiedlichem Datenumfang

Angenommen, von Versuch A wurden nur 30 Daten erhoben,von Versuch B aber 60.Histogramm umskalieren, so dass Balkenhohe = relativeHaufigkeit.

74 76 78 80 82 84 86 88 90 92 940.00

0.10

0.20 A

B

36/59

Bivariate Merkmale Korrelation

Messung zweier Merkmale

An einer Reihe von Tieren 1, . . . ,n werden zwei Merkmale xund y gemessen. Etwa:

xi = Korpergewicht von Tier iyi = Sauerstoffverbrauch von Tier i pro Stunde und pro kgKorpergewicht

37/59

Bivariate Merkmale Korrelation

Positive Korrelationx und y sind positiv korreliert, wenn große Werte von xtendenziell große Werte von y mit sich bringen.

●●

●●

3 4 5 6 7

34

56

78

x

y

Starke positive Korrelation.38/59

Bivariate Merkmale Korrelation

Positive Korrelationx und y sind positiv korreliert, wenn große Werte von xtendenziell große Werte von y mit sich bringen.

●●

●●

● ●

●●

3 4 5 6 7

45

67

89

x

y

Maßige positive Korrelation.39/59

Bivariate Merkmale Korrelation

Negative Korrelationx und y sind negativ korreliert, wenn große Werte von xtendenziell kleine Werte von y mit sich bringen.

● ●

●●

●●

3 4 5 6 7−16

−14

−12

−10

−8

−6

x

y

Starke negative Korrelation.40/59

Bivariate Merkmale Korrelation

Negative Korrelationx und y sind negativ korreliert, wenn große Werte von xtendenziell kleine Werte von y mit sich bringen.

●●

●●

● ●

●●

3 4 5 6 7

−9

−8

−7

−6

−5

−4

x

y

Maßige negative Korrelation.41/59

Bivariate Merkmale Korrelation

Unkorreliert

x und y sind unkorreliert, wenn große Werte von x keineTendenz zu großen oder kleinen Werten von y mit sich bringen.

●●

●●

● ●

●●

●●

●●

● ●

●●

3 4 5 6 7

12

34

5

x

y

42/59

Bivariate Merkmale Korrelation

Korrelationskoeffizient

Wie quantifiziert man die Korrelation?Korrelationskoeffizient:

% :=

∑ni=1(xi − x)(yi − y)√(∑n

i=1(xi − x)2) (∑n

i=1(yi − y)2)

−1 ≤ % ≤ +1. Es gilt% > 0: positiv korreliert% nahe bei 1: stark positiv korreliert% < 0: negativ korreliert% nahe bei -1: stark negativ korreliert% = 0: unkorreliert

43/59

Bivariate Merkmale Korrelation

Starke Positive Korrelation

% = 0.996

●●

●●

3 4 5 6 7

34

56

78

x

y

44/59

Bivariate Merkmale Korrelation

Maßige Positive Korrelation

% = 0.88

●●

●●

● ●

●●

3 4 5 6 7

45

67

89

x

y

45/59

Bivariate Merkmale Korrelation

Unkorreliert

% = −0.03

●●

●●

● ●

●●

●●

●●

● ●

●●

3 4 5 6 7

12

34

5

x

y

46/59

Bivariate Merkmale Korrelation

Maßige Negative Korrelation

% = −0.88

●●

●●

● ●

●●

3 4 5 6 7

−9

−8

−7

−6

−5

−4

x

y

47/59

Bivariate Merkmale Korrelation

Starke Negative Korrelation

% = −0.999

● ●

●●

●●

3 4 5 6 7−16

−14

−12

−10

−8

−6

x

y

48/59

Bivariate Merkmale Lineare Regression

Lineare Regression

Ist % ≈ 1 oder % ≈ −1, so gibt es vermutlich ein Gesetz der Art

y = ax + b,

aber die Messwerte von y (oder auch von x) sind fehlerhaft.Wie konnen wir a und b aus den Daten schatzen?Idee (Gauß): Summe der Abweichungsquadrate alsFehlerfunktion

Q(a,b) =n∑

i=1

(yi − axi − b)2.

Finde a und b, so dass Q(a,b) minimal wird.

49/59

Bivariate Merkmale Lineare Regression

Lineare RegressionBestimmung von a und b

Q(a,b) =n∑

i=1

(yi − axi − b)2.

Wir kurzen ab:

x2 =1n

n∑i=1

x2i , y2 =

1n

n∑i=1

y2i , xy =

1n

n∑i=1

xiyi .

An der Minimalstelle muss die Ableitung von Q(a,b) nach bverschwinden:

0 = −n∑

i=1

2(yi − axi − b) = 2n (b + ax − y).

50/59

Bivariate Merkmale Lineare Regression

Lineare RegressionBestimmung von a und b

0 =n∑

i=1

2(yi − axi − b) = 2n(b + ax − y).

Es folgtb + xa− y = 0. (1)

An der Minimalstelle muss die Ableitung von Q(a,b) nach averschwinden:

0 = −2n∑

i=1

xi(yi − axi − b) = −2n(xy − ax2 − bx)

Es folgtx b + x2 a− xy = 0. (2)

51/59

Bivariate Merkmale Lineare Regression

Lineare RegressionBestimmung von a und b

Wir haben alsob + xa− y = 0. (1)

undx b + x2 a− xy = 0. (2)

Auflosen von (1) und (2) nach a und b ergibt:

a =xy − x · yx2 − x2 und b =

x2 · y − x · xyx2 − x2 .

52/59

Bivariate Merkmale Lineare Regression

Lineare Regression

SatzFur die Ausgleichsgerade y = ax + b sind

a =xy − x · yx2 − x2 und b =

x2 · y − x · xyx2 − x2

optimal im Sinne des Prinzips der Summe der Fehlerquadrate.Die Ausgleichsgerade nahert die Daten gut an, falls derKorrelationskoeffizient

% :=xy − x · y√

x2 − x2√

y2 − y2

nahe bei 1 oder −1 ist.

53/59

Bivariate Merkmale Lineare Regression

Regression Beispiel

i 1 2 3 4 5 6

xi 1.0 2.2 2.7 2.7 3.5 5.0

yi 4.9 7.2 8.8 8.4 10.4 11.2

Aus diesen Daten berechnen wir

x = 2.85y = 8.48

x2 = 9.611

y2 = 76.24xy = 26.6.

54/59

Bivariate Merkmale Lineare Regression

Regression Beispiel

x = 2.85y = 8.48

x2 = 9.611

y2 = 76.24xy = 26.6.

Es folgt

a =xy − x · yx2 − x2 = 1.625

b =x2 · y − x · xy

x2 − x2 = 3.853

% =xy − x · y√

x2 − x2√

y2 − y2= 0.96

55/59

Bivariate Merkmale Lineare Regression

Regression Beispiel

y = ax + b, a = 1.625, b = 3.853, % = 0.96.

1 2 3 4 5

56

78

910

11

x

y

56/59

Statistik mit dem Statistikpaket R

Median, Quantile

Datensatz yc fur Versuch in R eingeben.yc <− c( 53,52,41,41,42,58,40,43,42,38,43,49,34,51,45,

39,41,45,45,39,37,36,42,44,47,43,46,43,43,45,

42,52,49,44,50,40,47,46,50,50,41,51,41,47,42,

52,36,46,42,56,39,40,36,42,36,36,47,45,47,49

)

Mittelwert (mean), Standardabweichung (sd), Median, undQuantilemean(yc)

sd(yc)

median(yc)

quantile(yc, 0.25, type=1)

quantile(yc, 0.75, type=1)

summary(yc)

57/59

Statistik mit dem Statistikpaket R

Boxplot, Balkendiagramm, Histrogramm

Darstellung eines Datensatzesboxplot(yc)

barplot(yc)

hist(yc)

Boxplot der Datensatze ya, yb, yc, yd (mussen wie yc

eingegeben werden) der Versuche A, B, C, D in einemDiagramm:boxplot(ya, yb, yc, yd, col=2:5)

58/59

Statistik mit dem Statistikpaket R

Lineare Regression

Eingabe der Datensatze x und y:x <− c(1.0, 2.2, 2.7, 2.7, 3.5, 5.0)

y <− c(4.9, 7.2, 8.8, 8.4, 10.4, 11.2)

Ausgabe von Steigung und y -Achsenabschnitt derAusgleichsgeraden, sowie Korrelationskoeffizient %lm(y ∼ x)

cor(x, y)

Grafische Darstellungplot(x, y) # Malen der Punkte

abline(lm(y ∼ x), col=2, lwd=3) #Ausgleichsgerade

59/59