Vorlesung 23.10.2006:
Erste Auswertungen von erfassten Daten: absolute und relative Häufigkeiten; Lage- und Streuungsmaße
Vorlesung 30.10.2006: Gleichzeitige Untersuchung von 2 Merkmalen
Mengentheoretische Grundbegriffe
Untersuchung von Datenmengen
geeignete (= aussagekräftige und intuitive) Darstellung finden
Aber: Vorsicht beim Lesen von Diagrammen
Dem ersten Eindruck nicht bedingungslos trauen!
Beeindruckende Ergebnisse – oder?
Tipp: Achten Sie auf die Achsen-beschriftung!
Eine gute graphische Darstellung von statistischen Daten?Vorsicht beim Lesen!
Lage- und Streuungsparameter für eine gegebene Stichprobe
Beispiel: Clownspiel meine Würfelserie: 5 3 1 2 2 5 6 3 5 6 1 2 5 2 4
Augenzahl H(a) h(a)
1 2 2/15
2 4 4/15
3 2 2/15
4 1 1/15
5 4 4/15
6 2 2/15
StichprobenumfangHier: Länge der Würfelserie = 15
Arithmetisches Mittel
...46,3)425216536522135( 1552
151
1 2 3 4 5 6
Arithmetisches Mittel =Schwerpunkt=Unterstützungspunkt für das Gleichgewicht unserer Waage
Frage: Wie schwanken, wie streuen die Ausprägungen um den „zentralen Wert“ , d. h. um das arithmetische Mittel?
Berechnung der Standardabweichung
Berechnen der Stichprobenvarianz und der Standardabweichung für meine Würfelserie:
Würfelserie: 5 3 1 2 2 5 6 3 5 6 1 2 5 2 4
n
iin aas
1
21
12 )( Für meine Serie:
2 2 2 2115 1 ((5 3,46) (3 3,46) (1 3,46) ... (4 3,46) )
2 2 2 2114 (1,54 0,46 2,46 ... 0,54 )
83817,2...
Die gewürfelten Augenzahlen streuen im Bereich
(3,46-1,6847 , 3,46 + 1,6847) = (1,7753 , 5,1447)
Übergang zur Standardabweichung: 6847,183817,22 s
6847,183817,22 sStandardabweichung
(durchschnittliche Streuung)
1 2 3 4 5 6
Streubereich um den Mittelwert 3,46 ,in dem die meisten der Ausprägungen der (= meiner konkreten) Stichprobe liegen.
Gleichzeitige Untersuchung von zwei Merkmalen
Vorgegeben: eine Gruppe von Merkmalsträgern
Wir betrachten für diese Merkmalsträger gleichzeitig zwei Merkmale:
Jedem Merkmalsträger werden gleichzeitig zwei Ausprägungen zugeordnet:
seine Ausprägung bezüglich des 1. Merkmals und seine Ausprägung bezüglich des 2. Merkmals
Merkmalsträger Nr. j Zuordnung (x (j), y(j))
Datenmatrix: tabellarische Darstellung, die für jeden Merkmals- träger der untersuchten Gruppe die zu ihm gehörigen Merkmalsausprägungen enthält
Beispiel: Erfassung von Geburtstagsdaten für eine Gruppe von 49 Studierenden
Merkmalsträger, durch eine laufende Nummer „benannt“
Geburtsmonat Geburtsjahr
1 März 1985
2 Januar 1986
3 März 1985
… … …
49 Oktober 1986
laufende Nummer
Geburts-monat
Geburts-jahr
1 März 1985
2 Januar 1986
3 März 1985
… … …
49 Oktober 1986
Aus der Datenmatrix kann die Tabelle der zugehörigen absoluten (oder relativen ) Häufigkeiten abgelesen werden.
1985 1986 1987
Januar 2
Februar 4 2
März 11 1
April 6
Mai
Juni
Juli 4
August 2
September 4
Oktober 3 4
November 4
Dezember 2
Tabelle der absoluten Häufigkeiten
Darstellung der Merkmalsausprägungskombinationen (Geburtsmonat, Geburtsjahr)
für jedes Mitglied unsere Gruppe in einem Punktediagramm:
Achtung: hinter manchen dieser Punkte stehen mehrere Merkmalsträger!
Geburtsmonate und -jahre
84
85
86
87
88
0 1 2 3 4 5 6 7 8 9 10 11 12
Monate
Jah
r
11 Geb.
1 Geb.
1985 1986 1987
Januar 2
Februar 4 2
März 11 1
April 6
Mai
Juni
Juli 4
August 2
September 4
Oktober 3 4
November 4
Dezember 2
Achtung: Für die Monate ist die (willkürliche) Kodierung durch die Zahlen 1,2,…,12 gewählt, für die Jahre die (willkürliche) Kodierung durch 85,86,87.
Zweidimensionale Häufigkeitsverteilung zur gegebenen Datenmatrix:
für jede Ausprägungskombination wird die zugehörige absolute (oder relative) Auftrittshäufigkeit aufgetragen
02468
1012
1 2 3 4 5 6 7 8 9 10 11 12
85
86
87
Hier: Verteilung der absoluten Häufigkeiten der Ausprägungskombinationen (Geburtsmonat, Geburtsjahr)
Frage: Bestehen Zusammenhänge zwischen den beiden uns interessierenden Merkmalen?
Lassen sich aus unseren Daten statistische Zusammenhänge zwischen den beiden Merkmalen vermuten?
Vorgehen:
n Merkmalsträger, jeweils bezüglich beider Merkmale befragt
Merkmal 1: Merkmalsausprägungen x1, … , xn werden notiert,
Merkmal 2: Merkmalsausprägungen y1, … , yn werden notiert,
Die arithmetischen Mittel und werden berechnet,
die Stichprobenvarianzen s2(Merkmal 1) und s2(Merkmal 2) werden berechnet.
x y
Korrelationskoeffizient der beiden Merkmale bezüglich der untersuchten Stichprobe
))(...)(())(...)((
)()(...)()(:
221
221
11
yyyyxxxx
yyxxyyxxr
nn
nn
EXCEL-Befehle zur Berechnung der Standardabweichung und des Korrelationskoeffizienten für Datenreihen von Merkmalsausprägungspaaren:
STABWN(A1:A49) , STABWN(B1:B49)
KORREL(A1:A49;B1:B49)
Geburtstagsbeispiel:
)212411)43(1049284764)111(3)24(221(49
1x
= … 16,6
78,85...))422(87)2434612(86)4114(85(49
1y
Monatsnummer 1985 1986 1987
1 (=Januar) 2
2 (=Februar) 4 2
3 (=März) 11 1
4 (=April) 6
5 (=Mai)
6 (=Juni)
7 (=Juli) 4
8 (=August) 2
9 (=September) 4
10 (=Oktober) 3 4
11 (=November) 4
12 (=Dezember) 2
jx x
Mögl. Merkmals-ausprägung
Abweichung vom Mittelwert Quadratische Abweichung vom Mittelwert
1 1 - 6,16 = -5,16 (1 – 6,16) 2= 5,162 = 26,63
2 2 - 6,16 = -4,16 (2 – 6,16) 2= 4,162 =17,31
3 3 - 6,16 = -3,16 (3 – 6,16) 2= 3,162 =9,98
…
12 12 - 6,16 = 5,84 (12 – 6,16) 2= 5,842 =34,11
2j(x x)
jx
Berechnung von Zähler und Nenner der Formel für den Korrelationskoeffizienten
))(...)(())(...)((
)()(...)()(:
221
221
11
yyyyxxxx
yyxxyyxxr
nn
nn
Achtung: Unter den 49 Merkmalsträgern kommen manche xj-Werte mehrmals vor!
yj
85 85 - 85,78 = -0,78 (85 - 85,78)2 = 0,782 = 0,61
86 86 - 85,78 = 0,22 (86 - 85,78)2 = 0,222 = 0,048
87 87 – 85,78 = 1,22 (87 – 85,78)2 = 1,222 = 1,49
jy y 2j(y y)
Entsprechend für das 2. Merkmal:
Achtung: Die 3 Ausprägungen treten sämtlich mehrmals für die Gruppe unserer 49 Merkmalsträger auf!
))78,8587()78,8586()78,8585(())16,610(..)16,61()16,63((
)78,8586()16,610(...)78,8586()16,61()78,8585()16,63(222222
r
Daraus Berechnung des Korrelationskoeffizienten für unsere Stichprobe:
Interpretation: Es gilt für unsere Stichprobe r= 0,396925 Also besteht - gemäß unserer Stichprobe - nur ein niedriger Zusammenhang zwischen den beiden Merkmalen.
laufende Nummer
Geburts-monat
Geburts-jahr
1 März 1985
2 Januar 1986
3 März 1985
… … …
49 Oktober 19861( x -x )1( y -y )
49( x -x )49( y -y ). . .
r = 0 kein (linearer ) Zusammenhang
0 < 0,4 niedriger Zusammenhang
0,4 < 0,7 mittlerer Zusammenhang
0,7 < < 1 starker Zusammenhang
= 1 linearer Zusammenhang
r
r
r
r
Eigenschaften:
Der Korrelationskoeffizient stellt ein Maß für die Abweichung des Zusammenhangs der beiden Merkmale vom strikt linearen Zusammenhang dar:
• r nimmt nur Werte zwischen -1 und +1 (jeweils einschließlilch) an.
• r=-1 oder r=+1 bedeutet, dass die beiden Merkmale linear voneinander abhängen.
• r nahe bei -1 oder nahe bei +1 bedeutet annähernd linearen Zusammenhang.
• Wenn beide Merkmale sich im gleichen Sinn verändern, ist r positiv.
• Wenn beide Merkmale sich im entgegengesetzten Sinn verändern, ist r negativ.
Achtung: r = 0 bedeutet nicht, dass gar kein Zusammenhang zwischen den beiden Merkmalen besteht! Wir können ihn nur nicht mit unserer Datenmenge nachweisen!
Darstellung der Merkmalsausprägungskombinationen (Geburtsmonat, Geburtsjahr)
für jedes Mitglied unsere Gruppe in einem Punktediagramm
Versuch, eine „möglichst gut passende“ Gerade durch die Wolke zu legen:
Geburtsmonate und -jahre
84
85
86
87
88
0 1 2 3 4 5 6 7 8 9 10 11 12
Monate
Jah
r
Die Geraden „passen nicht richtig“: viele Punkte liegen ober- und unterhalb.
Also: Niedriger Zusammenhang!
Wichtige Grundbegriffe der Mengentheorie
Aus: K. Dahl, S. Nordquist: Zahlen, Spiralen und magische Quadrate
Die Sprache der Mathematik ist wie ein Code. Auf diese Weise kann man mathematische Gedanken sehr kurz fassen.
Menge: Familie von Objekten, Zusammenstellung bestimmter Objekte, Familie von Objekten, die eine bestimmte gemeinsame Eigenschaft haben
Menge der Merkmalsträger = Grundgesamtheit
Menge aller Studierenden, die jetzt in diesem Hörsaal sind
Teilmenge
Menge der Merkmalsträger, die für eine bestimmter Stichprobe herangezogen werden
Element einer Menge: jedes einzelne Objekt der Menge
jeder einzelne Merkmalsträger
GAx Das Element x ist enthalten in der Teilmenge A der Menge G.
Vereinigungsmenge, Vereinigung von zwei Mengen:
Menge aller Objekte, die zu A oder zu B gehören
AB
Die Elemente aus der Vereinigungsmenge von A und B gehören jeweils zu mindestens einer der beiden Mengen A oder B.
BA
Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.
Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind
A B: Menge aller Studierenden im Hörsaal, die weiblich sind
oder im Jahr 1985 geboren wurden
Durchschnittsmenge, Durchschnitt von zwei Mengen:
Menge aller Objekte, die zu A und zu B gehören
AB
BADie Elemente aus der Durchschnittsmenge von A und B gehören sowohl zu der beiden Menge A als auch zu der Menge B.
Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.
Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind
A B: Menge aller Studierenden im Hörsaal, die sowohl weiblich
sind als auch im Jahr 1985 geboren wurden
Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.
Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind
A-B: Menge aller Studierenden im Hörsaal,
die weiblich sind, aber nicht im Jahr 1985 geboren wurden
B-A: Menge aller Studierenden im Hörsaal,
die im Jahr 1985 geboren wurden, aber nicht weiblich (also männlich) sind.
Differenzmengemenge, Differenz A - B:
Menge aller Objekte, die zu A, aber nicht gleichzeitig auch zu B gehören
Rein gelber Bereich: A-B Rein grüner Bereich: B-A
Zum kommenden Montag zu lösende Übungsaufgaben:
Aufgabe Nr. 13 und Aufgabe Nr. 16 aus dem Skript
Wichtige Begriffe aus der heutigen Vorlesung:
Arithmetisches Mittel (= „Durchschnittswert“ = erwarteter Wert einer Stichprobe)
Standardabweichung vom erwarteten Wert einer Stichprobe
Zwei Merkmale für ein und dieselbe Klasse von Merkmalsträgern
Korrelationskoeffizient: Stärke (Ausmaß) des Zusammenhangs zwischen zwei Merkmalen
Mengentheoretische Grundbegriffe: Menge, Element, Teilmenge, Vereinigung, Durchschnitt, Differenz
1 2 3 4 56
Top Related