Statistik und wahrscheinlichkeit 1_cd_phst

Statistik und Wahrscheinlichkeit 1

LV-Leiter: Arno Raunegger

• Stochastik

• Statistik• Wahrscheinli

ch-keitstheorie

• Deskriptive (beschreibende

) Statistik

• Induktive (schließende)

Statistik

Begriffsklärung 1

Deskriptive Statistik: Ausgangspunkt sind Daten, die in

ihrer Rohform oft als Urlisten vorliegen. Meistens sind

diese Daten sehr umfangreich und im Einzelnen garnicht mehr überblickbar.

Um die Daten systematisch zu ordnen,zu charakterisieren und übersichtlichdarzustellen wendet man die Methodender beschreibenden Statistik an.

Begriffsklärung 2

Häufig wird in statistischen Erhebungen eine bestimmte Grundgesamtheit (eine z.B. Anzahl von Personen mittels Fragebogen) hinsichtlich bestimmter Variablen (Merkmale) befragt. Beispiele dazu sind:

Variable(Merkmal)

Variablenwerte(Merkmalsausprägungen) Skalenniveau

Geschlecht männlich, weiblich nominal

Fitness-Studio pro Woche nie, einmal, zweimal, … ordinal

Kalendertag/Geburtstag 1., 2., …, 31. Intervallskaliert

Körpergröße 158 cm, 165 cm, … metrisch

Ungeordnete/Geordnete DatenreiheBsp.: Gewicht von Schülern in einer Schulklasse

• Ungeordnete Datenreihe (Urliste):38, 29, 33, 31, 35, 30, 28, 33

• Geordnete Datenreihe:28, 29, 30, 31, 33, 33, 35, 38

• Variable (Merkmal)

• Variablenwerte (Merkmalsaus-

prägungen)

Absolute und relative HäufigkeitenAbsolute Häufigkeit ha:

28, 29, 30, 31, 33, 33, 35, 38

Wert ha28 129 130 131 132 033 234 035 136 037 038 1 28 29 30 31 32 33 34 35 36 37 38

0

1

2

ha

Absolute und relative HäufigkeitenRelative Häufigkeit:

Relative Häufigkeit in Prozent:

n

hh ar

%100n

hh arp

Absolute und relative HäufigkeitenRelative Häufigkeit:

Wert ha hr hrp28 1 0,125 12,529 1 0,125 12,530 1 0,125 12,531 1 0,125 12,532 0 0 033 2 0,25 2534 0 0 035 1 0,125 12,536 0 0 037 0 0 038 1 0,125 12,5

28 29 30 31 32 33 34 35 36 37 380

5

10

15

20

25

30

hrp

Anwendungsbeispiele

a) Geschlecht Seminargruppe:=> Absolute, relative und prozentuelle Häufigkeit=> Säulen- und Kreisdiagramm

b) Zweitfachverteilung Seminargruppe:=> Absolute, relative und prozentuelle Häufigkeit=> Säulen- und Kreisdiagramm

Spannweite, Minimum und Maximum• Geordnete Datenreihe:

28, 29, 30, 31, 33, 33, 35, 38

• Spannweite: R = xMax - xMin

R =

• xMin • xMax

Arithmetischer Mittelwert

n

ii

n

xn

x

n

xxxx

1

21

1

...

125,328

3835333331302928

x

x

• Geordnete Datenreihe:• 28, 29, 30, 31, 33, 33,

35, 38

Modalwert (Modus)

• Der Modalwert (Modus) ist jener Wert, welcher am häufigsten in einer Datenreihe vorkommt.

28, 29, 30, 31, 33, 33, 35, 38

Es ist auch möglich, dass eine Datenreihe mehrere Modalwerte enthält.

• m = 32

Median (Zentralwert)

• Der Median (Zentralwert) teilt eine sortierte Datenreihe in genau zwei Hälften.

28, 29, 30, 31, 33, 33, 35, 38

Bei einer geraden Anzahl von Elementen in einer geordneten Datenreihe, ergibt sich der Median aus dem arithmetischen Mittelwert der beiden zentralen Elemente.

• z = 32

Median (Zentralwert)

Ungerade Anzahl von Datenelementen:

28, 29, 30, 31, 33, 33, 35, 38, 40

Bei einer ungeraden Anzahl von Elementen in einer geordneten Datenreihe, ergibt sich der Median genau aus dem mittleren Element.

• xMed=33

Robustheit von Zentralmaßen

Gehaltsstruktur in einer Firma:

1000, 1000, 1200, 1200, 1200, 1200, 1500, 4000

„Ausreißer“ bereinigen:

1000, 1000, 1200, 1200, 1200, 1200, 1500, 4000

• x = • z = • m =

• x = • z = • m =

Quartile

Mit den Quartilen q0, q1, q2, q3, q4 wird eine geordnete Datenreihe „geviertelt“.

• xMin

• xMa

x

• q0 • q1 • q2 • q3 • q4

• geordnete Datenreihe

Quartile

Es gilt definitionsgemäß: q2 = z

q3 und q1 sind die Mediane der oberen und unteren Hälfte.

• q0=xMin

• q1

=zu

• q2

=z

• q3

=zo

• q4=x

Max

Quartile

Gerade Anzahl von Datenelementen:

28, 29, 30, 31, 33, 33, 35, 38

q2=z q2=

q1=zu q1=

q3=zo q3=

• q2

=z• q3• q1

Quartile

Ungerade Anzahl von Datenelementen:

28, 29, 30, 31, 33, 33, 35, 38, 40

q2=z q2=

q1=zu q1=

q3=zo q3=

• q2

=z• q3• q1

Grafische Darstellung von Quartilen

Die grafische Darstellung von Quartilen erfolgt in so genannten Kastenschau-bildern (Boxplots)

Analog kann man geordnete Listen auch z.B. in 10 Teile (Dezile) oder 100 Teile (Centile) teilen.

• 40

• 33

• 29,5

• 28

• 36,5

• Klasse 1a • Klass

e 1b

• Schulklasse

• Gewicht / kg

Standardabweichung

• Die Standardabweichung s ist ein Maß für die Streuung der Merkmalswerte xi um den arithmetischen Mittelwert .

n

ii

n

xxn

s

n

xxxxxxs

1

2

222

21

)(1

)(...)()(

x

Standardabweichung

s

s8

)125,3238(...)125,3228( 22

• Geordnete Datenreihe:

• 28, 29, 30, 31, 33, 33, 35, 38

• Arithm. Mittelwert125,32x

Varianz

• Die Standardabweichung s ergibt sich aus der Quadratwurzel der Varianz, daher gilt für die Varianz:

• Häufig ist in der Literatur auch folgende Formel zu finden:

n

xxxxxxs n

222

212 )(...)()(

1

)(...)()( 222

212

n

xxxxxxs n

Stichproben-umfang

„Ausreißer bereinigt“

Statistik und wahrscheinlichkeit 1_cd_phst

Documents

Transcript of Statistik und wahrscheinlichkeit 1_cd_phst