Univariate Häufigkeitsverteilungen
37
Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19
Transcript of Univariate Häufigkeitsverteilungen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
1/19
Skalenniveaus
Skalenniveau Relation zwischen
Ratio Verhältnis Alter, Einkommen,
Gruppierte Daten
Bundesland
Percent
k..Anzahl der Kategorien einer Variable (15) n..Anzahl der Beobachtungen (5444) nk.. Anzahl der Beobachtungen in Kategorie k
Absolute Häufigkeit: nk..Anzahl der Fälle, die die k-te Ausprägung der Variable x annehmen (n8 = 303)
Relative Häufigkeit pk=nk/n *100 er Ausprägung k (p8 = 5.6%) Prozentanteil der Beobachtungen in Kategorie k
Gültige Relative Häufigkeit pk(gültig)=nk/(n - missing) : (p8 (gültig) = 5.6) Prozentanteil der gültigen Beobachtungen in Kategorie
Häufigkeitstabellen ungruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/19
Kumulierter Anteil Summe der Anteile von der ersten Kategorie einer Variablen bis zur zu einer bestimmten Kategorie, einschliesslich des Wertes der Kategorie
cp(x8)=47.2%
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/19 Quelle: Kühnel, Krebs 2001 S. 49
Empirische Verteilungsfunktion
Quelle: Kühnel, Krebs 2001 S. 51
Quantilwerte ungruppierte Daten
Kumulierter Anteil
Q25: 25% Quantil
25% der Geburtsgewichte sind kleiner bzw. gleich 3060g, 75% der Geburtsgewichte liegen über 3060g
Q50=Median
Q75: 75% Quantil
75% der Geburtsgewichte sind kleiner bzw. gleich 3710g, 25% liegen darüber
Bestimmung von Quantilswerten
2. Rangreihen von Daten 1,4, 6,7,9,10,20,22,25,36,38,50,55,60,61,67,68
Bsp: n=17 Quantilanteil =0.25 i=4.25 ->nächsthöhere ganze Zahl=5 Q25=9
Bestimmung von Quantilswerten bei gruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/19
Graphische Darstellung von
1. Metrische Variablen Stabdiagramm Histogramm Box plots
2. Nominalskalierte Variablen Balkendiagramm Kreisdiagramm Säulendiagramm
Stabdiagramm
Geburtsgewicht in g
120
100
80
60
40
20
0
Länge der Linie: Häufigkeit der Ausprägung nicht so günstig für metrische Variablen mit vielen Ausprägungen
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/19
•Gruppierte metrische Variablen •einander berührende Balken •Flächentreue A) B) gleich grosse ungleich grosse Klassen Klassen Höhe der Balken: Höhe der Balken: Häufigkeit der Quotient Relative Häufigkeit Kategorie zu Klassenbreite
Charakteristika von Häufigkeitsvereilungen
Unimodal, symmetrisch U-förmig, bimodal, symmetrisch
Linksschief, rechtssteil Rechtsschief, linkssteil
5406N =
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/19
•metrische Variablen •rote Box: mittlere 50% der Verteilung •Grenzen der Box: 25% und 75% Quantil •mittlerer Wert in der Box: Median •Kreise: Outliers; Sterne: extreme Outliers •Linien außerhalb der Box: Wertebereich der Normalverteilung
Balkendiagramm
%Häufigkeit der Wahlabsicht
Kreis/Tortendiagramm
Kühnel, Krebs 2001 S. 62
Säulendiagramm
%Anteil Geburten nach Geschlecht
Kühnel, Krebs 2001. Statistik für die Sozialwissenschaften, S. 67- 106
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/18
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/18
Kennwerte univariater Verteilungen
Lagemasse
• Modus: am häufigsten auftretende Ausprägung einer Verteilung
• Median: teilt Verteilung in zwei gleich grosse Teile
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/18
Lagemasse
Lagemasse
Median=Q0.50 Gerade Fallzahl
Arithmetische Mittel Rohdaten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/18
Arithmetische Mittel
Gruppierte Häufigkeitstabelle
Geometrische Mittel Durchschnittswert bei
prozentuellen Änderungen
Jahr Zinsen Basispreis 1 E 1 15% 1,15 E 2 10% 1,265 E (=1.15 E*1.10) 3 20% 1,518 E (=1,265 E*1.20)
1,518=1 E * 1,15 * 1,10 * 1,20
Durchschnittliche Zinsen?
Welches Lagemass soll wann eingestezt werden?
• Skalenniveau • Robustheit gegenüber Extremwerten
Nachteile • Geringe Informationen über Verteilung • Fehlende Eindeutigkeit bei mehrgipfeligen
Verteilungen
Welches Lagemass soll wann eingesetzt werden?
Beobachtung i Beispiel 1 Beispiel 2 1 1 -999 2 3 3 3 6 6 4 8 8 5 10 10 6 12 12 7 15 15 8 17 17 9 19 19
10 20 20 11 21 21
Median ( i=(n+1)/2=6) 12 12 arithmetisches Mittel 12 -78,91
Extremwerte
metrische Skalen
Streuungsmasse
Varianz
Varianz wird kleiner: je näher die einzelnen Werte beim Mittelwert liegen
Varianz wird größer: je mehr die einzelnen Werte vom Mittelwert abweichen
Daten 1 2 3 4
Arithmetische Mittel=2,5
Varianz 1,66667
Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 (1-2,5)2 (7-2,5)2
Varianz 9
Standardabweichung
Arithmetische Mittel=2,5
Varianz 1,66667 Standardabweichung 1,290994
Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 (1-2,5)2 (7-2,5)2
Varianz 9 Standardabweichung 3
Variationskoeffizient
Arithmetische Mittel=2,5
Varianz 1,66667 Standardabweichung 1,290994 Variationskoeffizient 0,516398
Daten 1 1 1 7
Arithmetische Mittel=2,5
Varianz 9 Standardabweichung 3 Variationskoeffizient 1,2
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/18
Streuungsmasse SPSS Output
Statistiken
Schiefe & Steilheit von Verteilungen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/18
Schiefe & Steilheit von Verteilungen
Schiefekoeffizient (SK)
Steilheit (Kurtosis)
SK>0 rechtsschiefe Verteilung SK<0 linksschiefe Verteilung SK=0 symmetrische Verteilung
ST>0 steile Verteilung ST<0 flache Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/18
Geburtsgewichtsverteilung
Fehlend 3 Mittelwert 3366g Lagemasse Median 3420g Modus 3700g Standardabweichung 544,56g Streuungsmasse Varianz 296549,03 Variationskoeffizient 0,16 Spannweite 3480g Minimum 1190g
Maximum 4670g
Skalenniveaus
Skalenniveau Relation zwischen
Ratio Verhältnis Alter, Einkommen,
Gruppierte Daten
Bundesland
Percent
k..Anzahl der Kategorien einer Variable (15) n..Anzahl der Beobachtungen (5444) nk.. Anzahl der Beobachtungen in Kategorie k
Absolute Häufigkeit: nk..Anzahl der Fälle, die die k-te Ausprägung der Variable x annehmen (n8 = 303)
Relative Häufigkeit pk=nk/n *100 er Ausprägung k (p8 = 5.6%) Prozentanteil der Beobachtungen in Kategorie k
Gültige Relative Häufigkeit pk(gültig)=nk/(n - missing) : (p8 (gültig) = 5.6) Prozentanteil der gültigen Beobachtungen in Kategorie
Häufigkeitstabellen ungruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/19
Kumulierter Anteil Summe der Anteile von der ersten Kategorie einer Variablen bis zur zu einer bestimmten Kategorie, einschliesslich des Wertes der Kategorie
cp(x8)=47.2%
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/19 Quelle: Kühnel, Krebs 2001 S. 49
Empirische Verteilungsfunktion
Quelle: Kühnel, Krebs 2001 S. 51
Quantilwerte ungruppierte Daten
Kumulierter Anteil
Q25: 25% Quantil
25% der Geburtsgewichte sind kleiner bzw. gleich 3060g, 75% der Geburtsgewichte liegen über 3060g
Q50=Median
Q75: 75% Quantil
75% der Geburtsgewichte sind kleiner bzw. gleich 3710g, 25% liegen darüber
Bestimmung von Quantilswerten
2. Rangreihen von Daten 1,4, 6,7,9,10,20,22,25,36,38,50,55,60,61,67,68
Bsp: n=17 Quantilanteil =0.25 i=4.25 ->nächsthöhere ganze Zahl=5 Q25=9
Bestimmung von Quantilswerten bei gruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/19
Graphische Darstellung von
1. Metrische Variablen Stabdiagramm Histogramm Box plots
2. Nominalskalierte Variablen Balkendiagramm Kreisdiagramm Säulendiagramm
Stabdiagramm
Geburtsgewicht in g
120
100
80
60
40
20
0
Länge der Linie: Häufigkeit der Ausprägung nicht so günstig für metrische Variablen mit vielen Ausprägungen
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/19
•Gruppierte metrische Variablen •einander berührende Balken •Flächentreue A) B) gleich grosse ungleich grosse Klassen Klassen Höhe der Balken: Höhe der Balken: Häufigkeit der Quotient Relative Häufigkeit Kategorie zu Klassenbreite
Charakteristika von Häufigkeitsvereilungen
Unimodal, symmetrisch U-förmig, bimodal, symmetrisch
Linksschief, rechtssteil Rechtsschief, linkssteil
5406N =
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/19
•metrische Variablen •rote Box: mittlere 50% der Verteilung •Grenzen der Box: 25% und 75% Quantil •mittlerer Wert in der Box: Median •Kreise: Outliers; Sterne: extreme Outliers •Linien außerhalb der Box: Wertebereich der Normalverteilung
Balkendiagramm
%Häufigkeit der Wahlabsicht
Kreis/Tortendiagramm
Kühnel, Krebs 2001 S. 62
Säulendiagramm
%Anteil Geburten nach Geschlecht
Kühnel, Krebs 2001. Statistik für die Sozialwissenschaften, S. 67- 106
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/18
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/18
Kennwerte univariater Verteilungen
Lagemasse
• Modus: am häufigsten auftretende Ausprägung einer Verteilung
• Median: teilt Verteilung in zwei gleich grosse Teile
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/18
Lagemasse
Lagemasse
Median=Q0.50 Gerade Fallzahl
Arithmetische Mittel Rohdaten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/18
Arithmetische Mittel
Gruppierte Häufigkeitstabelle
Geometrische Mittel Durchschnittswert bei
prozentuellen Änderungen
Jahr Zinsen Basispreis 1 E 1 15% 1,15 E 2 10% 1,265 E (=1.15 E*1.10) 3 20% 1,518 E (=1,265 E*1.20)
1,518=1 E * 1,15 * 1,10 * 1,20
Durchschnittliche Zinsen?
Welches Lagemass soll wann eingestezt werden?
• Skalenniveau • Robustheit gegenüber Extremwerten
Nachteile • Geringe Informationen über Verteilung • Fehlende Eindeutigkeit bei mehrgipfeligen
Verteilungen
Welches Lagemass soll wann eingesetzt werden?
Beobachtung i Beispiel 1 Beispiel 2 1 1 -999 2 3 3 3 6 6 4 8 8 5 10 10 6 12 12 7 15 15 8 17 17 9 19 19
10 20 20 11 21 21
Median ( i=(n+1)/2=6) 12 12 arithmetisches Mittel 12 -78,91
Extremwerte
metrische Skalen
Streuungsmasse
Varianz
Varianz wird kleiner: je näher die einzelnen Werte beim Mittelwert liegen
Varianz wird größer: je mehr die einzelnen Werte vom Mittelwert abweichen
Daten 1 2 3 4
Arithmetische Mittel=2,5
Varianz 1,66667
Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 (1-2,5)2 (7-2,5)2
Varianz 9
Standardabweichung
Arithmetische Mittel=2,5
Varianz 1,66667 Standardabweichung 1,290994
Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 (1-2,5)2 (7-2,5)2
Varianz 9 Standardabweichung 3
Variationskoeffizient
Arithmetische Mittel=2,5
Varianz 1,66667 Standardabweichung 1,290994 Variationskoeffizient 0,516398
Daten 1 1 1 7
Arithmetische Mittel=2,5
Varianz 9 Standardabweichung 3 Variationskoeffizient 1,2
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/18
Streuungsmasse SPSS Output
Statistiken
Schiefe & Steilheit von Verteilungen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/18
Schiefe & Steilheit von Verteilungen
Schiefekoeffizient (SK)
Steilheit (Kurtosis)
SK>0 rechtsschiefe Verteilung SK<0 linksschiefe Verteilung SK=0 symmetrische Verteilung
ST>0 steile Verteilung ST<0 flache Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/18
Geburtsgewichtsverteilung
Fehlend 3 Mittelwert 3366g Lagemasse Median 3420g Modus 3700g Standardabweichung 544,56g Streuungsmasse Varianz 296549,03 Variationskoeffizient 0,16 Spannweite 3480g Minimum 1190g
Maximum 4670g