Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die...

29
Maße der zentralen Tendenz • Modalwert / Modus • häufigster Wert • bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X Mo • ab Nominalskala • Modus ist nicht die Häufigkeit, sondern die Variablenausprägung • bimodale Verteilungen: 2 häufige Werte

Transcript of Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die...

Page 1: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Maße der zentralen Tendenz

• Modalwert / Modus

• häufigster Wert

• bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse

• Notation: X Mo

• ab Nominalskala

• Modus ist nicht die Häufigkeit, sondern die Variablenausprägung

• bimodale Verteilungen: 2 häufige Werte

Page 2: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Modus klassifizierter Daten

Einkommensklassevon ... bis unter ...

l

Klassen-mitte

xl

absolute und relative Häufigkeiten

kumulierte absolute und relative Häufigkeiten

fl pl cfl cpl

0 - 2000 1000 1 0,083 1 0,083

2000 - 4000 3000 6 0,500 7 0,583

4000 - 6000 5000 3 0,250 10 0,833

6000 - 8000 7000 1 0,083 11 0,916

8000 und mehr (9000) 1 0,083 12 0,999

12 0,999

Verwende Klassenmitte der häufigsten Klasse: Modus = 3000

Page 3: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Median

~Notation: X (X Tilde)teilt Werte in 2 gleich große Hälftenab Ordinalskalabei ungeradem N: Wert der mittleren Personbei geradem N: Mittelwert der beiden mittleren

Personen (dies nur bei Intervallskala)bei mehrfach auftretenden Werten:3 6 7 8 8 8 9 9 10 12Uminterpretieren des Medians (mindestens die Hälfte

der Personen liegt unter/über 8)oder lineare Interpolation (Median=8.17 siehe

Benninghaus)

Page 4: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Median der 12 Einkommensangaben (1)

Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die

Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der

Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert,

der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten

Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller

Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen

gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man

verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert,

wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf

gültige Einkommensangaben, so dass wir in diesem Beispiel von einer

geraden Anzahl von Fällen ausgehen müssen.

Page 5: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Median der 12 Einkommensangaben (2)

Rang(i)

Ein-kommen

x(i)

1 1600

2 2300

3 2300

4 2400

5 2900

6 3200 Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der Durchschnitt beider Werte: Median = (3200+3500)/2 = 3350.

7 3500

8 4500

9 4600

10 5200

11 6500

12 12000

Page 6: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Median klassifizierter Daten (1)

Einkommensklassevon ... bis unter ...

l

Klassen-mitte

xl

absolute und relative Häufigkeiten

kumulierte absolute und relative Häufigkeiten

fl pl cfl cpl

0 - 2000 1000 1 0,083 1 0,083

2000 - 4000 3000 6 0,500 7 0,583

4000 - 6000 5000 3 0,250 10 0,833

6000 - 8000 7000 1 0,083 11 0,916

8000 und mehr (9000) 1 0,083 12 0,999

12 0,999

Daten: Diekmann (1995).

Page 7: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Verwende lineare Interpolation im Medianintervall

2000-4000 = Medianintervall

2000 = cmu (exakte untere Grenze des Medianintervalls)

12 = n (Stichprobenumfang)

1 = cfu (kumulierte Häufigkeit unterhalb des Medianintervalls)

6 = fm (Häufigkeit im Medianintervall)

2000 = cmo - cmu (Breite des Medianintervalls)

Median = cmu + [(n/2 - cfu) . (cmo - cmu) / fm]

3666,67 DM = 2000 + [(12/2 - 1) . 2000 / 6]

Median klassifizierter Daten (2)

Page 8: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Arithmetisches Mittel

Notation: x quer

ab Intervallskalenniveau

nicht robust gegenüber Ausreißern, alle Werte gehen ein

Page 9: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Arithmetisches Mittel der 12 Einkommensangaben

Als Beispiel dienen die Einkommensangaben aus Diekmann (1995) . Die folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben. Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt durch die Anzahl der Fälle

Fall-Nr.i

Einkommenxi

1 3500 2 2400 3 5200 4 3200 5 2300 6 4500 7 12000 8 6500

11 2300 13 4600 14 1600 15 2900

Summe 51000 Arithmetisches Mittel = xi/n = 51000/12 = 4250

Page 10: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Arbeitstabelle für MW bei gruppierten Daten

xi fi fi xi

1 5 5

2 7 14

3 2 6

Summe 14 Summe = 25

MW=25/14

Page 11: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Arithmetisches Mittel klassifizierter Daten (1)

Einkommensklassevon ... bis unter ...

l

Klassen-mitte

xl

absolute und relative Häufigkeiten

kumulierte absolute und relative Häufigkeiten

fl pl cfl cpl

0 - 2000 1000 1 0,083 1 0,083

2000 - 4000 3000 6 0,500 7 0,583

4000 - 6000 5000 3 0,250 10 0,833

6000 - 8000 7000 1 0,083 11 0,916

8000 und mehr (9000) 1 0,083 12 0,999

12 0,999

Daten: Diekmann (1995).

Page 12: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Verwende Klassenmitten

Arithm.Mittel = (1 . 1000 + 6 . 3000 + 3 . 5000 + 1 . 7000 + 1 . 9000) / 12

= 50000 / 12

= 4166,67 DM= 0,083 . 1000 + 0,500 . 3000 + 0,250 . 5000 +

0,083 . 7000 + 0,083 . 9000

Arithmetisches Mittel klassifizierter Daten (2)

Page 13: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Spannweite

Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste).

Die Spannweite der Verteilung entspricht der Differenz zwischen dem

kleinsten und dem größten Merkmalswert. Dazu ist metrisches

Skalenniveau erforderlich (Intervallskala). Bei ordinalen Skalen begnügt

man sich mit der Angabe des kleinsten und größten Werts (min, max).

Bei klassifizierten Daten: Differenz zwischen der Klassenmitte der

obersten Klasse und der untersten Klasse.

Der Wert ist sensibel für Ausreißer (erfasst nur ! Ausreißer), daher besser

Quartilsabstand (umfasst die mittleren 50%).

Page 14: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Quartilsabstand (1)

Ähnlich wie der Median die unteren 50% der Merkmalswerte von den

oberen 50% trennt, lassen sich beliebige Perzentile einer Verteilung

berechnen. Am bekanntesten sind das 25%- und 75%-Perzentil, die das

untere und das obere Viertel der Verteilung abschneiden. Man bezeichnet

sie daher auch als untere und obere Quartile bzw. als erstes und drittes

Quartil (der Median ist quasi das zweite Quartil). Notation: QA.

Der Quartilsabstand entspricht der Differenz zwischen dem oberen

(dritten) und unteren (ersten) Quartil. Er misst, in welchem Bereich sich

die mittleren 50% der Merkmalswerte bewegen. Intervallskala erforderlich.

Gebräuchlich ist auch der Semiquartilsabstand (die Hälfte des

Quartilsabstands) aufgrund der Vergleichsmöglichkeiten mit der

Standardabweichung.

(Daten: Diekmann, 1995)

Page 15: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Quartilsabstand (2)

Für die Berechnung der Quartile gibt es unterschiedliche Formeln, und

die berechneten Werte hängen sehr stark von der verwendeten Formel ab.

Rang (i) Einkommen x(i) Quartile

1 1600 2 2300 3 2300 Q1 = 2350 4 2400 5 2900 6 3200 Q2 (Median) = 3350 7 3500 8 4500 9 4600 Q3 = 4900

10 5200 11 6500 12 12000

Spannweite = 12000 - 1600 = 10400 Quartilsabstand = Q3 - Q1 = 4900 - 2350 = 2550

Page 16: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Varianz

quadrierte aufsummierte Abweichungen vom Mittelwert, geteilt durch n bzw. n-1 (unquadrierte Abweichungen würden immer 0 ergeben).

Intervallskalenniveau erforderlich

Page 17: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Varianz und Standardabweichung (1)

Die Varianz basiert auf der Summe der quadrierten Abweichungen jedes

Merkmalswertes vom arithmetischen Mittel: SAQx. Ihre Berechnung hängt

davon ab, ob man Daten einer Totalerhebung oder einer Stichprobe

betrachtet:

• Stichprobe: Varianz = SAQx / (n-1)

• Totalerhebung: Varianz = SAQx / n

Dabei entspricht n der Anzahl der Untersuchungseinheiten der Stichprobe

bzw. der Totalerhebung.

Die Standardabweichung ergibt sich aus der Quadratwurzel der Varianz.

Vorteil: Die ursprüngliche Maßeinheit bleibt erhalten, z.B. das Alter weicht

durchschnittlich 7 Jahre vom Mittelwert ab.

Page 18: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Fall-Nr.i

Einkommenxi

Arithmetisches Mittel Abweichung Quadrat

1 3500 4250 -750 562500 2 2400 4250 -1850 3422500 3 5200 4250 950 902500 4 3200 4250 -1050 1102500 5 2300 4250 -1950 3802500 6 4500 4250 250 62500 7 12000 4250 7750 60062500 8 6500 4250 2250 5062500

11 2300 4250 -1950 3802500 13 4600 4250 350 122500 14 1600 4250 -2650 7022500 15 2900 4250 -1350 1822500

Summe 51000 51000 0 87750000

Varianz und Standardabweichung (2): Arbeitstabelle

Page 19: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Stichprobe (Divisor n-1=11)

Varianz = 87750000 / 11 = 7977272,73

Standardabweichung = Varianz = 7977272,73 = 2824,41

Variationskoeffizient = Standardabweichung / arithm. Mittel = 2824,41 / 4250 = 0,66

Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe, sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen müssen.

Grundgesamtheit (Divisor n=12)

Varianz = 87750000 / 12 = 7312500,00

Standardabweichung = Varianz = 7312500,00 = 2589,04

Variationskoeffizient = Standardabweichung / arithm. Mittel = 2589,04 / 4250 = 0,61

Varianz und Standardabweichung (3)

Page 20: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Standardabweichung klassifizierter Daten (1)

Ein-kommens-

klassevon ... bis unter ...

Klassenmitte

Häufigkeit

Arithm. Mittel

Abweichung von Klassenmitte

quadrierte Abweichung

0-2000 1000 1 4166,67 -3166,67 10027798,89

2000-4000 3000 6 4166,67 -1166,67 1361118,89

4000-6000 5000 3 4166,67 833,33 694438,89

6000-8000 7000 1 4166,67 2833,33 8027758,89

8000 und mehr

9000 1 4166,67 4833,33 23361078,89

Daten: Diekmann (1995).

Page 21: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Verwende gewichtete Summe der Abweichungsquadrate

GSAQx = 1 . 10027798,89 + 6 . 1361118,89 + 3 . 694438,89 + 1 .

8027758,89 + 1 . 23361078,89 = 43472194,45

Varianz = GSAQx/(n-1) = 43472194,45 / (12-1) = 3952017,68

Standardabweichung = Varianz = 3952017,68 = 1987,97

Standardabweichung klassifizierter Daten (2)

Page 22: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Zusammenfassung der Ergebnisse: Einkommen der Befragten

Es wurden 60 männliche Bedienstete der Verwaltung einer

westdeutschen Großstadt befragt. Insgesamt 58 Personen machten

Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der

befragten Personen bewegen sich im Bereich von 1300 DM bis 4300

DM. Sieht man einmal von den extrem niedrigen und den extrem hohen

Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen

1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient

weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen

2118,79 DM (Standardabweichung 619,60).

Page 23: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Mittelwerte und Streuungsmaße nach Messniveau (1)

Zentrale Tendenz (Mittelwerte)

Nominal Ordinal Intervall Verhältnis

Modus ja ja ja ja

Median nein Ja ja ja

Arithm. Mittel nein nein ja ja

Geom. Mittel nein nein nein ja

Page 24: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Mittelwerte und Streuungsmaße nach Messniveau (2)

Streuung (Streuungsmaße)

Nominal Ordinal Intervall Verhältnis

Spannweite nein (ja) ja ja

Quartilsabstand nein (ja) ja ja

Mittl. absolute Abweichung

nein nein ja ja

VarianzStandardabweichung

nein nein ja ja

Variationskoeffizient nein nein nein ja

Page 25: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Typische Verteilungsformen (1)

e) schmalgipflig f) breitgipflig

g) u-förmig h) -förmig

Page 26: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Typische Verteilungsformen (2)

a) unimodal c) bimodal

c) rechtssteil/linksschief d) linkssteil/rechtsschief

Page 27: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Weitere univariate Statistiken

• Schiefe: Maß für die Asymmetrie

• Exzess: Maß für die Steilheit

Page 28: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

symmetrisch

linkssteil

x~x

h

x~xh

x~x h

rechtssteil

Die Lage der Mittelwerte in verschiedenen Verteilungen

Page 29: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Vergleich einer Verteilung mit der Standardnormalverteilung

• Wenn die relative Stellung einer Person bezogen auf eine Stichprobe in Einheiten der Standardabweichung ermittelt werden soll

• oder wenn die Werte zweier Tests einer Person, die mit verschiedenen Maßeinheiten gemessen wurden, verglichen werden sollen, werden die Werte z-transformiert:

• zi=xi-xquer / s• symmetrische Verteilungen (Normalverteilungen)

werden so in eine Standardnormalverteilung überführt, man kann aus Tabellen ablesen, wie viele Werte unter einem bestimmten Wert liegen.