Grundlagen der empirischen SozialforschungSitzung 10 - Datenanalyseverfahren
Jan Finsel
Lehrstuhl für empirische SozialforschungProf. Dr. Petra Stein
22. Dezember 2008
1 / 21
Online-Materialien
I Die Materialien zur Vorlesung finden Sie auf der Homepagehttp://www.uni-due.de/soziologie/stein_lehre.php
I Die ganze Vorlesung ist dort auch als Stream verfügbarI Es gibt eine Übung von Dawid Bekalarczyk um 14 bis 16 Uhr
am Montag in Raum S-E 005 hier in EssenI Im Sekretariat von Frau Werner in Raum R12 R06 A30
können CDs bzw. DVDs erstanden werdenI Meine Materialien finden Sie auf meiner Seite
http://www.uni-due.de/soziologie/finsel.phpI Mail: [email protected]
2 / 21
Der Plan für heute I1 Die Hausaufgabe2 Struktur des Vorlesungsblockes Datenanalyseverfahren
Vorlesungsblock Datenanalyseverfahren - sechs Sitzungen3 Aufgabe
Die Bedeutung von Messniveaus für Lage-, Streuungsmaße,Grafiken und für bivariate Zusammenhangsmaße
4 Maßzahlen zur Beschreibung univariater Verteilungen -Verdichtete InformationenVerdichtete Informationen
Arithmetisches MittelBerechnung von xMedianBeispiel: MedianBestimmung des MediansModus (h)
5 Maßzahlen zur Beschreibung univariater Verteilungen -StreuungsmaßeGrafik zur Veranschaulichung
3 / 21
Der Plan für heute IIStreuungsmaße: Range und Quartilsabstand
Grafik zur VeranschaulichungStreuungsmaße: Varianz und Standardabweichung
Berechnung von s2 und s
6 SelberrechnenAufgabe: Berechnung vonLösung: Berechnung von
4 / 21
Vorlesungsblock Datenanalyse - sechs Sitzungen
Ablauf1. Einführung, Univariate Verteilungen: Tabellarische Darstellung2. Univariate Verteilungen: Graphische Darstellung3. Verdichtete Informationen: Maßzahlen zur Beschreibung
univariater Verteilungen4. Bivariate Analyse der Beziehung zwischen nominalen Variablen5. Bivariate Analyse der Beziehung zwischen ordinalen Variablen6. Bivariate Analyse der Beziehung zwischen metrischen
Variablen
Abweichung vom Online-MaterialDie Regressionsanalyse fällt raus
5 / 21
Aufgabe
Anhand des Fragebogens jeweils zwei Variablen fürjedes Messniveau finden und die Entscheidungbegründen.
Die Frägebögen finden sich ab Seite 267 in:Wolfgang Melzer & Wilfried Schubarth 2006: Gewalt als sozialesProblem an Schulen Untersuchungsergebnisse undPräventionsstrategien. Ein eBook im Open Access. Verlag BarbaraBudrich, Opladen
6 / 21
Die Bedeutung von Messniveaus für Lage-, Streuungsmaße,Grafiken und für bivariate Zusammenhangsmaße
Skalenniveau
Nominal Ordinal Metrisch
Lagemaße häufigster Wert Median arithmetisches= Modus (h) (x̃) Mittel (x)
Streuungsmaße Quartile, Varianz (s2),(mittlerer) Standard-Quartilsabstand abweichung (s)(QA)
Grafiken Balken-, Kreis- Balken-, Kreis- Histogramm,(Torten-)diagramm (Torten-)diagramm, Polygonzug,
Box-plot (box- box-and-and-whisker-plot) whisker-plot
(Bivariate) χ2 basierte Maß- Rangkorrelations- Pearsons rZusammen- zahlen: koeffizient Spear- Produkt-Moment-hangsmaße Phi, Cramers V, mans rho rs Korrelations-
Kontingenz- koeffizientkoeffizient C 7 / 21
Maßzahlen zur Beschreibung univariater Verteilungen
I Maßzahlen der Maßzahlen der zentralen Tendenz(Mittelwerte)
I Variabilität (Streuungswerte)
8 / 21
Verdichtete InformationenLagemaße (Maße der zentralen Tendenz)
Eine Maßzahl der zentralen Tendenz (im Benninghaus: Mittelwert)ist der Kennwert, der die gesamte Verteilung am bestenrepräsentiert
I Arithmetisches MittelI MedianI Modus
9 / 21
Arithmetisches MittelLagemaße (Maße der zentralen Tendenz)
Arithmetisches Mittel x (liest sich x quer)
I Erfordert metrisches MessniveauI x = x1+x2+...+xN
NI oder einfacher zu rechnenI x = Σfi ·xi
N
10 / 21
Berechnung von xxi Häufigkeit fi · xi
fi10 2 2011 550 605012 454 544813 599 778714 604 845615 711 1066516 400 640017 84 142818 4 7219 1 1928 1 28
Gesamt 3410∑
fi · xi = 46373
x = Σfi ·xiN = 46373
3410 = 13, 611 / 21
MedianLagemaße (Maße der zentralen Tendenz)
Median x̃I Erfordert metrisches MessniveauI x̃ (liest sich x Schlange)I Der Median ist der Wert, welcher eine geordnete Reihe in zwei
Hälften spaltet.I 50 % der Fälle liegen über bzw. unter dem Median.I Vorteil: Im Gegensatz zum arithmetischen Mittel wird der
Median nicht von Extremwerten beeinflusst.
12 / 21
Beispiel: Anzahl der Kühe pro Bauer in einem Dorf mit 5BauernLagemaße (Maße der zentralen Tendenz)
0 0 0 0 200
⇒ x̃ = 0 und x = 40
13 / 21
Berechnung von x̃Häufigkeitstabelle des Merkmales Alter
xi Häufigkeit Kumuliertefi Prozente∑
fiN · 100
10 2 0.111 550 16.212 454 29.513 599 47.114 604 64.8 ⇐ x̃ = 1415 711 85.616 400 97.417 84 99.818 4 99.919 1 100.028 1 100.0
N = 341014 / 21
Modus (h)Lagemaße (Maße der zentralen Tendenz)
Der Modus ist der Wert, der in einer Verteilung am häufigstenvorkommt (dichtester Wert)
Beispiel: h = 75 6 6 7 7 7 8 8 9 10
Beispiel: h = 7,5 aufgrund von benachbartenHäufigkeitsmaxima5 6 6 7 7 7 8 8 8 9 10
15 / 21
Abbildung: Zwei Verteilungen mit gleicher
zentraler Tendenz ( 100~ === hxx ),
aber ungleicher Streuung
70 80 100 110 130
100~ === hxx
Streuungsmaße: Range und Quartilsabstand
Die Streuungswerte haben die Aufgabe, die Variabilität desgemessenen Merkmals zu beschreiben
Der RangeI Der Range ist definiert als die Differenz zwischen dem größten
und dem kleinsten Messwert einer VerteilungI Der Range ist das einfachste StreungsmaßI R = xmax − xminI Nachteil: Wird sehr stark durch Extremwerte beeinflusst
Der Quartilsabstand und der mittlere QuartilsabstandQuartilsabstand = Q3 - Q1
16 / 21
STREUUNGSWERTE (VARIABILITÄTSMAßE)
Die Streuungswerte haben die Aufgabe, die Variabilität des gemessenen Merkmals zu beschreiben.
1. Der Range Der Range ist definiert als die Differenz zwischen dem größten
und dem kleinsten Messwert einer Verteilung.
R = xmax – xmin
2. Der Quartilsabstand und der mittlere Quartilsabstand
Abbildung: Illustration der Quartile und des Quartilsabstandes
Quartilsabstand = Q3 - Q1
Q1 xQ ~2 =
50 %
Quartilsabstand
1 4
14
14
14
Q3
Streuungsmaße s2 und s
StreuungsmaßeI Lagemaße geben typische Werte einer Verteilung anI Streuungsmaße geben an wie stark vom typischen Wert
arithmetisches Mittel abgewichen wird
Varianz s2
I Varianz = s2 =∑
(xi−x)2
N =∑
fi ·(xi−x)2
NI Die Varianz steht für den Gesamtumfang der Abweichungen
vom Mittelwert
17 / 21
Streuungsmaße s2 und s
Standardabweichung s
I Standardabweichung = s =
√∑(xi−x)2
NI Die Standardabweichung bezeichnet die durchschnittliche
Abweichung in der originären MaßeinheitI Standardabweichung und Varianz erfordern metrisches
Messniveau
18 / 21
Berechnung von s und s2xi Häufigkeit xi − x (xi − x)2 fi · (xi − x)2
fi
10 2 -3.6 12.96 25.9211 550 -2.6 6.76 3718 s2 =
∑fi ·(xi−x)2
N12 454 -1.6 2.56 1162.2413 599 -0.6 0.36 215.64 x = 13, 614 604 0.4 0.16 96.6415 711 1.4 1.96 1393.56 s2 = 10201
341016 400 2.4 5.76 230417 84 3.4 11.56 971.04 s2 = 2, 9918 4 4.4 19.36 77.4419 1 5.4 29.16 29.1628 1 14.4 207.36 207.36 s =
√s2 = 1, 73
N = 3410∑
= 10201
19 / 21
Aufgabe: Berechnung von x , x̃ , s und s2xi Häufigkeit fi · xi
∑fi% xi − x (xi − x)2 fi · (xi − x)2
fi
10 111 32312 61413 38914 68115 49916 55117 3818 2
N = 3098∑
=∑
=
x =; x̃ =
s2 = Σfi ·(xi−x)2
N =; s =20 / 21
Lösung: Berechnung von x , x̃ , s und s2xi Häufigkeit fi × xi
∑fi% xi − x (xi − x)2 fi × (xi − x)2
fi
10 1 10 0.03 -3.72 13.84 13.8411 323 3553 10.46 -2.72 7.40 2389.6812 614 7368 30.28 -1.72 2.96 1816.4613 389 5057 42.83 -0.72 0.52 201.6614 681 9534 64.82 0.28 0.08 53.3915 499 7485 80.92 1.28 1.64 817.5616 551 8816 98.71 2.28 5.20 2864.3217 38 646 99.94 3.28 10.76 408.8218 2 36 100.00 4.28 18.32 36.64
N = 3098∑
= 42505∑
= 8602.37
x = 425053098 = 13, 72; x̃ = 14
s2 = Σfi×(xi−x)2
N = 8602.373098 = 2, 78; s = 1, 67
21 / 21
Top Related