Statistik - ronaldbalestra.ch · 1 Statistik 1.1 Beschreibende Statistik Um was geht’s ? Wie...

22
Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010

Transcript of Statistik - ronaldbalestra.ch · 1 Statistik 1.1 Beschreibende Statistik Um was geht’s ? Wie...

Statistik

Ronald BalestraCH - 7028 St. Peter

www.ronaldbalestra.ch

17. Januar 2010

Inhaltsverzeichnis

1 Statistik 11.1 Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . 11.2 Charakterisierung von Haufigkeitsverteilungen . . . . . . . . . . . 81.3 Die passende Gerade (lineare Regression) . . . . . . . . . . . . . 121.4 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

I

1 Statistik

1.1 Beschreibende Statistik

Um was geht’s ?

Wie entstehen statistische Informationen?

1.

2.

••••

3.

4.

5.

6.

Die mehrfachen Beobachtungen eines Merkmals bilden eine Stichprobeund die Anzahl der Beobachtungen wird der Umfang der Stichprobe genannt.Die konkreten Beobachtungswerte heissen Daten und werden in der Reihenfol-ge ihres Auftretens in einer Urliste zusammengefasst.

Beispiel 1.1.1 Ein Konsumentenmagazin ermittelt in einer Stichprobe diePreise (in Fr) fur ein Produkt bei verschiedenen Anbietern:

53 53 53 56 53 59 5354 53 52 49 52 53 5956 53 49 53 52 54 5454 49 51

Probleme:

1

Strichliste

Haufigkeitstabelle

Um Stichproben unterschiedlichen Umfangs oder Stichproben aus verschie-denen Regionen (Lander, Stadte, . . . ) besser miteinander vergleichen zu konnenbrauchen wir die relative Haufigkeit:

relative Haufigkeit =absolute Haufigkeit

Umfang der Stichprobe

=

Beispiel 1.1.2 (Kosumentenmagazin, 1.1.1)

x1 = Hn(x1) = hn(x1) =x2 = Hn(x2) = hn(x2) =x3 = Hn(x3) = hn(x3) =x4 = Hn(x4) = hn(x4) =x5 = Hn(x5) = hn(x5) =x6 = Hn(x6) = hn(x6) =x7 = Hn(x7) = hn(x7) =

Haufigkeitsverteilung:

2

Um bei grosseren Datenmengen eine bessere Uebersichtlickeit zu erhalten,konnen benachbarte mogliche Beobachtungswerte zu Klassen zusammengefasstwerden.

Beispiel 1.1.3 Rangliste des Riesenslaloms der Herren in Park City(22.11.2002)

Klasseneinteilung x1 = , x2 =

x3 = , x4 =

x5 = , x6 =

zugehorige graphische Darstellung:

3

Beispiel 1.1.4 Klassisches Beispiel: Alterspyramide

4

Aufgaben : Suche im Internet ein Histogramm

- bestimme das Merkmal,

- bestimme die Klasseneinteilung und

- formuliere eine eigene Frage.

5

Beispiel 1.1.5 Um uber die Brenndauer von Gluhlampen Aufschluss zu er-halten, wurde eine Stichprobe im Umfang von n = 90 gezo-gen und die Brenndauer gemessen. Als kurzeste Brenndauerwurde 513h und als langste 1571h gefunden.Die gesamten 90 Ergebnisse wurden in einer Urliste zusam-mengetragen. Leicht bearbeitet ist die folgende Liste ent-standen:

Aufgaben : Mit Hilfe von Excel sind die folgenden Darstellungenzu erstellen:

• Die relativen Haufigkeiten (in einem Histo-gramm)

• Die relativen Summenhaufigkeiten (als Kurve)

6

Aufgaben : Besuche die homepage des Bundesamtes fur Stati-stik, suche einen fur Dich interessanten Datenensatzheraus und erstelle dafur ein Histogramm mit derzugehorigen Summenhaufigkeit.

7

1.2 Charakterisierung von Haufigkeitsverteilungen

Bei einer Haufigkeitsverteilung geht es um eine Zusammenstellung der ursprung-lich beobachteten Daten. Fur die Charakterisierung einer Haufigkeitsvertei-lung fuhren wir statistische Masszahlen ein:

• Mittelwert

• Streuungsmass

Am Beispiel der Zeugnisnoten der Klasse X wollen wir die fur uns notwen-digen Begriffe einfuhren:

4, 5 5 3, 5 4, 55, 5 3, 5 4 4, 56 4 4 4, 55 2, 5 5 5

5, 5 4, 5 4

8

Streuung um das Verteilungszentrum

9

Eine weitere Moglichkeit zur Berechnung der Varianz, bzw. der Standardab-weichung, besteht in der Anwendung des Verschiebungssatzes :

10

Einsatz des TR/ von Excel:

Aufgaben : Lose die Aufgabeserie Statistik 1 mit dem TR/ mitExcel.

11

1.3 Die passende Gerade (lineare Regression)

Wir wollen im Folgenden eine sogenannte verbundene Stichprobe untersuchenund versuchen die erhobenen Merkmale in einen funktionalen Zusammenhangzu bringen.

Beispiel 1.3.1 Um den Zusammenhang zwischen der Motorenleistung undder maximalen Geschwindigkeit eines Autos zu untersu-chen, wurden in einer Stichprobe mit dem Umfang n = 8die folgenden Werte ermittelt:

85kW ↔ 198km/h 100kW ↔ 207km/h147kW ↔ 233km/h 126kW ↔ 217km/h141kW ↔ 230km/h 95kW ↔ 196km/h84kW ↔ 190km/h 100kW ↔ 210km/h

Wir sprechen in diesem Beispiel von einer verbundenen Stichprobe, weildie erhobenen Merkmale Leistung und maximale Geschwindigkeit voneinan-der abhangig sind.

Wie bei unseren bisherigen Stichproben haben wir auch hier nur diskreteWerte erhalten und konnen keine Aussagen machen uber die maximale Ge-schwindigkeit bei einer Motorenleistung von z.B. 120kW . Um solche Aussagedoch naherungsweise machen zu konnen, wollen wir versuchen einen funktiona-len Zusammenhang zwischen den erhobenen Merkmalen herzustellen.

12

Wir wollen in einem ersten Schritt die Stichprobe im folgenden Koordina-tensystem graphisch darstellen:

Verwende fur die Leistung die x-Achse und fur die maximale Geschwindigkeit die

y-Achse.

Diskutiere die folgenden Fragen:

• Warum lasst sich sicher keine Funktionsgleichung finden, welche den Zu-sammenhang in diesem Beispiel exakt beschreibt?

• Eine Funktionsgleichung von welchem Typ kann den geforderten Zusam-menhang naherungsweise darstellen ?

• Bestimme eine mogliche Losung.

13

Wenn wir die Losungen untereinander vergleichen, konnen wir feststellen,dass die meisten eine affine Funktionsgleichung aufgestellt haben, jedoch mitverschiedenen Steigungen und Achsenabschnitten.Um eine einheitliche Losung zu finden, mussen wir ein Kriterium einfuhren,welche alle Personen zur gleichen Losung fuhrt:

Die Methode der kleinsten Quadrate (nach Carl Friedrich Gauss).

Methode der kleinsten Quadrate

Gegeben sind n Zahlenpaare (x1/y1), (x2/y2), (x3/y3), . . . (xn/yn).Gesucht sind die reellen Zahlen a und b mit der folgenden Eigenschaft:

s(a, b) = [y1−(a·x1+b)]2+[y2−(a·x2+b)]2+ . . . [yn−(a·xn+b)]2 ist minimal

Bemerkungen : • Geometrische Bedeutung:

• s(a, b) minimal bedeutet . . .

Wir haben zwei Unbekannte und brauchen fur eine eindeutige Losung zweiunabhangige Gleichungen:

• Um die Suche zu erleichtern wollen wir eine weitere Zusatzbedingungeinfuhren:Im Mittel soll die gesuchte Gerade den Zusammenhang exakt wiedergeben,d.h.:

14

Die Losung zu obigem Problem kann zusammengefasst wie folgt formuliertwerden:

Die affine Funktionsgleichung/ Gerade, welche im Sinne der Methode derkleinsten Quadrate eine gegebene verbundene Stichprobe am besten beschreibt,erfullt die folgenden Gleichung:

y =sxy

s2x

· (x− x) + y

mit sxy =1n·[(y1 − y) · (x1 − x) + (y2 − y) · (x2 − x) + . . . + (yn − y) · (xn − x)]

s2x =

1n·[(x1 − x)2 + (x2 − x)2 + . . . + (xn − x)2

]Die Gerade wird als Regressionsgerade bezeichnet.

Aufgaben : Bestimme die Regressionsgerade fur unser Beispiel.(Verwende zur Berechnung der Hilfsgrossen Excel)

15

Aufgaben : Fuhre die Herleitung zur Funktionsgleichung der Re-gressionsgerade aus.

16

Um uber die Qualitat eines linearen Zusammenhangs zwischen den Beob-achtungswerten zweier Merkmale etwas aussagen zu konnen, gibt es eine Kenn-grosse, die sogenannte lineare Korrelation/ der Korrelationskoeffizient:

Def.: Der Korrelationskoeffizient r von n Beobachtungspaaren (x1/y1),(x2/y2), (x3/y3), . . . (xn/yn) ist wie folgt definiert:

r =sxy

sxsy

=(x1 − x) · (y1 − y) + . . . + (xn − x)) · (yn − y√

(x1 − x)2 + . . . + (xn − x)2 ·√

(y1 − y)2 + . . . + (yn − y)2

Aufgaben : Bestimme den Korrelationskoeffizienten aus unseremLeistung - Geschwindigkeits - Beispiel.

Bemerkungen : 1. | r |≤ 1.Je naher r bei +1 oder -1 liegt, desto besserschmiegen sich die Beobachtungspaare der Re-gressionsgeraden an.Mit r = 0 wird die zugehorige Beobachtungunkorreliert genannt.

2. Es besteht nicht zwingend eine Beziehung zwi-schen der Korrelation und der Kausalitat:Wir konnen voraussagen, dass bei einer Zu-nahme um eine Einheit in x-Richtung, die y-Richtung um ungefahr a Einheiten zunimmt.Wir konnen jedoch nicht sagen, dass weil x umeine Einheit zunimmt, y um ungefahr a Einhei-ten zunimmt.

17

Ein schones Beispiel um die letzte Bemerkung zu illustrieren ist die folgendeAufgabe:

Aufgaben : Das Deutsche Statistische Bundesamt lieferte 1991aus den einzelnen Bundeslandern die folgenden Be-obachtungswerte uber die Anzahl x (in 1000) derVerkehrsunfalle mit Personenschaden und die Anzahly in (1000) der Ehescheidungen:

(x, y) (45/17, 7) (63/20, 5) (17/6, 1) (12/1, 6)(4/1, 6) (10/4, 4) (29/11, 7) (8/1, 2)

(42/13, 6) (78/36, 8) (18/8, 1) (5/2, 6)(16/2, 2) (12/1, 5) (17/5, 5) (10/1, 6)

1. Stelle die Situation graphisch mit Excel dar.

2. Bestimme die Regressionsgerade.

3. Bestimme den Korrelationskoeffizienten.

18

Einsatz des TR/ von Excel:

Aufgaben : Lose die Aufgabeserie Statistik 2 mit dem TR/ mitExcel.

19

1.4 Anwendungen

zu folgenden Themen:

• Lesen und Visualiseren von Datenan Erhebungsdaten zu Wir lernen uns kennen - Eine Fragebogenerhebung.

• Mittelwert und Standardabweichungan Erhebungsdaten zu Wie gross ist die Lichtgeschwindigkeit (S. New-comb, 1882)

• Korrelationan Erhebungsdaten zu Wahlen grosse Menschen grosse Partner ?

• Lineare Regressionan Erhebungsdaten zu Wie entwickelt sich die Gangliendichte ?

20