Sitzung10-Datenanalyseverfahren JanFinsel · DieBedeutungvonMessniveausfürLage-,Streuungsmaße,...

23
Grundlagen der empirischen Sozialforschung Sitzung 10 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 22. Dezember 2008 1 / 21

Transcript of Sitzung10-Datenanalyseverfahren JanFinsel · DieBedeutungvonMessniveausfürLage-,Streuungsmaße,...

Grundlagen der empirischen SozialforschungSitzung 10 - Datenanalyseverfahren

Jan Finsel

Lehrstuhl für empirische SozialforschungProf. Dr. Petra Stein

22. Dezember 2008

1 / 21

Online-Materialien

I Die Materialien zur Vorlesung finden Sie auf der Homepagehttp://www.uni-due.de/soziologie/stein_lehre.php

I Die ganze Vorlesung ist dort auch als Stream verfügbarI Es gibt eine Übung von Dawid Bekalarczyk um 14 bis 16 Uhr

am Montag in Raum S-E 005 hier in EssenI Im Sekretariat von Frau Werner in Raum R12 R06 A30

können CDs bzw. DVDs erstanden werdenI Meine Materialien finden Sie auf meiner Seite

http://www.uni-due.de/soziologie/finsel.phpI Mail: [email protected]

2 / 21

Der Plan für heute I1 Die Hausaufgabe2 Struktur des Vorlesungsblockes Datenanalyseverfahren

Vorlesungsblock Datenanalyseverfahren - sechs Sitzungen3 Aufgabe

Die Bedeutung von Messniveaus für Lage-, Streuungsmaße,Grafiken und für bivariate Zusammenhangsmaße

4 Maßzahlen zur Beschreibung univariater Verteilungen -Verdichtete InformationenVerdichtete Informationen

Arithmetisches MittelBerechnung von xMedianBeispiel: MedianBestimmung des MediansModus (h)

5 Maßzahlen zur Beschreibung univariater Verteilungen -StreuungsmaßeGrafik zur Veranschaulichung

3 / 21

Der Plan für heute IIStreuungsmaße: Range und Quartilsabstand

Grafik zur VeranschaulichungStreuungsmaße: Varianz und Standardabweichung

Berechnung von s2 und s

6 SelberrechnenAufgabe: Berechnung vonLösung: Berechnung von

4 / 21

Vorlesungsblock Datenanalyse - sechs Sitzungen

Ablauf1. Einführung, Univariate Verteilungen: Tabellarische Darstellung2. Univariate Verteilungen: Graphische Darstellung3. Verdichtete Informationen: Maßzahlen zur Beschreibung

univariater Verteilungen4. Bivariate Analyse der Beziehung zwischen nominalen Variablen5. Bivariate Analyse der Beziehung zwischen ordinalen Variablen6. Bivariate Analyse der Beziehung zwischen metrischen

Variablen

Abweichung vom Online-MaterialDie Regressionsanalyse fällt raus

5 / 21

Aufgabe

Anhand des Fragebogens jeweils zwei Variablen fürjedes Messniveau finden und die Entscheidungbegründen.

Die Frägebögen finden sich ab Seite 267 in:Wolfgang Melzer & Wilfried Schubarth 2006: Gewalt als sozialesProblem an Schulen Untersuchungsergebnisse undPräventionsstrategien. Ein eBook im Open Access. Verlag BarbaraBudrich, Opladen

6 / 21

Die Bedeutung von Messniveaus für Lage-, Streuungsmaße,Grafiken und für bivariate Zusammenhangsmaße

Skalenniveau

Nominal Ordinal Metrisch

Lagemaße häufigster Wert Median arithmetisches= Modus (h) (x̃) Mittel (x)

Streuungsmaße Quartile, Varianz (s2),(mittlerer) Standard-Quartilsabstand abweichung (s)(QA)

Grafiken Balken-, Kreis- Balken-, Kreis- Histogramm,(Torten-)diagramm (Torten-)diagramm, Polygonzug,

Box-plot (box- box-and-and-whisker-plot) whisker-plot

(Bivariate) χ2 basierte Maß- Rangkorrelations- Pearsons rZusammen- zahlen: koeffizient Spear- Produkt-Moment-hangsmaße Phi, Cramers V, mans rho rs Korrelations-

Kontingenz- koeffizientkoeffizient C 7 / 21

Maßzahlen zur Beschreibung univariater Verteilungen

I Maßzahlen der Maßzahlen der zentralen Tendenz(Mittelwerte)

I Variabilität (Streuungswerte)

8 / 21

Verdichtete InformationenLagemaße (Maße der zentralen Tendenz)

Eine Maßzahl der zentralen Tendenz (im Benninghaus: Mittelwert)ist der Kennwert, der die gesamte Verteilung am bestenrepräsentiert

I Arithmetisches MittelI MedianI Modus

9 / 21

Arithmetisches MittelLagemaße (Maße der zentralen Tendenz)

Arithmetisches Mittel x (liest sich x quer)

I Erfordert metrisches MessniveauI x = x1+x2+...+xN

NI oder einfacher zu rechnenI x = Σfi ·xi

N

10 / 21

Berechnung von xxi Häufigkeit fi · xi

fi10 2 2011 550 605012 454 544813 599 778714 604 845615 711 1066516 400 640017 84 142818 4 7219 1 1928 1 28

Gesamt 3410∑

fi · xi = 46373

x = Σfi ·xiN = 46373

3410 = 13, 611 / 21

MedianLagemaße (Maße der zentralen Tendenz)

Median x̃I Erfordert metrisches MessniveauI x̃ (liest sich x Schlange)I Der Median ist der Wert, welcher eine geordnete Reihe in zwei

Hälften spaltet.I 50 % der Fälle liegen über bzw. unter dem Median.I Vorteil: Im Gegensatz zum arithmetischen Mittel wird der

Median nicht von Extremwerten beeinflusst.

12 / 21

Beispiel: Anzahl der Kühe pro Bauer in einem Dorf mit 5BauernLagemaße (Maße der zentralen Tendenz)

0 0 0 0 200

⇒ x̃ = 0 und x = 40

13 / 21

Berechnung von x̃Häufigkeitstabelle des Merkmales Alter

xi Häufigkeit Kumuliertefi Prozente∑

fiN · 100

10 2 0.111 550 16.212 454 29.513 599 47.114 604 64.8 ⇐ x̃ = 1415 711 85.616 400 97.417 84 99.818 4 99.919 1 100.028 1 100.0

N = 341014 / 21

Modus (h)Lagemaße (Maße der zentralen Tendenz)

Der Modus ist der Wert, der in einer Verteilung am häufigstenvorkommt (dichtester Wert)

Beispiel: h = 75 6 6 7 7 7 8 8 9 10

Beispiel: h = 7,5 aufgrund von benachbartenHäufigkeitsmaxima5 6 6 7 7 7 8 8 8 9 10

15 / 21

Abbildung: Zwei Verteilungen mit gleicher

zentraler Tendenz ( 100~ === hxx ),

aber ungleicher Streuung

70 80 100 110 130

100~ === hxx

Streuungsmaße: Range und Quartilsabstand

Die Streuungswerte haben die Aufgabe, die Variabilität desgemessenen Merkmals zu beschreiben

Der RangeI Der Range ist definiert als die Differenz zwischen dem größten

und dem kleinsten Messwert einer VerteilungI Der Range ist das einfachste StreungsmaßI R = xmax − xminI Nachteil: Wird sehr stark durch Extremwerte beeinflusst

Der Quartilsabstand und der mittlere QuartilsabstandQuartilsabstand = Q3 - Q1

16 / 21

STREUUNGSWERTE (VARIABILITÄTSMAßE)

Die Streuungswerte haben die Aufgabe, die Variabilität des gemessenen Merkmals zu beschreiben.

1. Der Range Der Range ist definiert als die Differenz zwischen dem größten

und dem kleinsten Messwert einer Verteilung.

R = xmax – xmin

2. Der Quartilsabstand und der mittlere Quartilsabstand

Abbildung: Illustration der Quartile und des Quartilsabstandes

Quartilsabstand = Q3 - Q1

Q1 xQ ~2 =

50 %

Quartilsabstand

1 4

14

14

14

Q3

Streuungsmaße s2 und s

StreuungsmaßeI Lagemaße geben typische Werte einer Verteilung anI Streuungsmaße geben an wie stark vom typischen Wert

arithmetisches Mittel abgewichen wird

Varianz s2

I Varianz = s2 =∑

(xi−x)2

N =∑

fi ·(xi−x)2

NI Die Varianz steht für den Gesamtumfang der Abweichungen

vom Mittelwert

17 / 21

Streuungsmaße s2 und s

Standardabweichung s

I Standardabweichung = s =

√∑(xi−x)2

NI Die Standardabweichung bezeichnet die durchschnittliche

Abweichung in der originären MaßeinheitI Standardabweichung und Varianz erfordern metrisches

Messniveau

18 / 21

Berechnung von s und s2xi Häufigkeit xi − x (xi − x)2 fi · (xi − x)2

fi

10 2 -3.6 12.96 25.9211 550 -2.6 6.76 3718 s2 =

∑fi ·(xi−x)2

N12 454 -1.6 2.56 1162.2413 599 -0.6 0.36 215.64 x = 13, 614 604 0.4 0.16 96.6415 711 1.4 1.96 1393.56 s2 = 10201

341016 400 2.4 5.76 230417 84 3.4 11.56 971.04 s2 = 2, 9918 4 4.4 19.36 77.4419 1 5.4 29.16 29.1628 1 14.4 207.36 207.36 s =

√s2 = 1, 73

N = 3410∑

= 10201

19 / 21

Aufgabe: Berechnung von x , x̃ , s und s2xi Häufigkeit fi · xi

∑fi% xi − x (xi − x)2 fi · (xi − x)2

fi

10 111 32312 61413 38914 68115 49916 55117 3818 2

N = 3098∑

=∑

=

x =; x̃ =

s2 = Σfi ·(xi−x)2

N =; s =20 / 21

Lösung: Berechnung von x , x̃ , s und s2xi Häufigkeit fi × xi

∑fi% xi − x (xi − x)2 fi × (xi − x)2

fi

10 1 10 0.03 -3.72 13.84 13.8411 323 3553 10.46 -2.72 7.40 2389.6812 614 7368 30.28 -1.72 2.96 1816.4613 389 5057 42.83 -0.72 0.52 201.6614 681 9534 64.82 0.28 0.08 53.3915 499 7485 80.92 1.28 1.64 817.5616 551 8816 98.71 2.28 5.20 2864.3217 38 646 99.94 3.28 10.76 408.8218 2 36 100.00 4.28 18.32 36.64

N = 3098∑

= 42505∑

= 8602.37

x = 425053098 = 13, 72; x̃ = 14

s2 = Σfi×(xi−x)2

N = 8602.373098 = 2, 78; s = 1, 67

21 / 21