Statistik I f Äur Studierende der...

56
Statistik I f¨ ur Studierende der Soziologie Dr. Carolin Strobl WS 2008/09

Transcript of Statistik I f Äur Studierende der...

Page 1: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Statistik I fur Studierende der Soziologie

Dr. Carolin Strobl

WS 2008/09

Page 2: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Danksagung

Dieses Skript basiert in wesentlichen Teilen auf dem Skript von Prof. Dr. Thomas Augustinund den Erganzungen von Dr. Thomas Kneib. Dafur vielen Dank.

Page 3: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 1

Einfuhrung

1.1 Literatur

• Fahrmeir, L., Kunstler, R., Pigeot, I. & Tutz, G. (2007): Statistik - Der Weg zurDatenanalyse. Springer Verlag, Berlin, Heidelberg, New York.

• Fahrmeir, L., Kunstler, R., Pigeot, I., Tutz, G., Caputo, A. & Lang, S. (2005):Arbeitsbuch Statistik. Springer Verlag, Berlin, Heidelberg, New York.

• Jann, B. (2002): Einfuhrung in die Statistik. R. Oldenbourg Verlag, Munchen, Wien.

• Wagschal, U. (1999): Statistik fur Politikwissenschaftler. R. Oldenbourg Verlag,Munchen, Wien.

1.2 Was ist Statistik?

1.2.1 Definitionen

• Brockhaus: Eine methodische Hilfswissenschaft zur zahlenmaßigen Untersuchungvon Massenerscheinungen (. . . ). Statistik im materiellen Sinn ist die Darstellungder sozialen Massentatsachen selbst (. . . ).

• Encyclopædia Britannica: Statistics is the art and science of gathering, analyzingand making inferences from data. Originally associated with numbers gathered forgovernments, the subject now includes large bodies of method and theory.

• Cox & Snell (Applied Statistics, 1981, Chapman & Hall): Statistical Analysis dealswith those aspects of the analysis of data that are not highly specific to particularfields of study. That is, the object is to provide concepts and methods that will,with suitable modification, be applicable in many different fields of application.

• Studienordnung Statistik: Statistik (als Methodenlehre) ist die Wissenschaft derverantwortungsvollen Datenanalyse.

1

Page 4: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

2 1.2. Was ist Statistik?

1.2.2 Beliebte Vorurteile

Statistik ist der Inbegriff...

• ... der Luge:

”Glaube keiner Statistik, die du nicht selbst gefalscht hast.“

”Es gibt drei Arten der Luge: die Notluge, die gemeine Luge, und die Statistik.“

• ... des Unsinningen:

F. J. Strauß:”Zwei Manner sitzen im Wirtshaus, der eine verdruckt eine Kalbshaxe,

der andere trinkt zwei Maß Bier. Statistisch gesehen ist das fur jeden eine Maß Bierund eine halbe Haxe, aber der eine hat sich uberfressen und der andere ist besoffen.“

• ... und der Langeweile?

1.2.3 Beispiele statistischer Erhebungen und Fragestellungen

Munchner Mietspiegel

• Mietspiegel bieten Mietern und Vermietern eine Ubersicht zu den sogenannten”orts-

ublichen Vergleichsmieten“.

• Ortsublichen Vergleichsmiete:”die ublichen Entgelte, die in der Gemeinde X fur

nicht preisgebundenen Wohnraum vergleichbarer Art, Große, Beschaffenheit undLage in den letzten vier Jahren vereinbart (. . . ) oder geandert worden sind.“

• Statistische Fragestellung: Wie beeinflussen Merkmale einer Wohnung (Wohnflache,Baujahr, Kuchenausstattung, etc.) die Nettomiete (pro Quadratmeter)?

• Den aktuellen Mietspiegel fur Munchen finden Sie unter

http://www.mietspiegel.muenchen.de

Sozio-okonomisches Panel (SOEP)

• Seit 1984 durchgefuhrte Befragung von deutschen Haushalten.

• 2003 waren etwa 12.000 (reprasentativ ausgewahlte) Haushalte mit mehr als 20.000Befragungspersonen beteiligt.

• Themenschwerpunkte: Haushaltszusammensetzung, Erwerbs- und Familienbiogra-phie, Erwerbsbeteiligung und berufliche Mobilitat, Einkommensverlaufe, Gesund-heit und Lebenszufriedenheit.

• Besonderheiten:

– Die gleichen Personen werden wiederholt befragt (Panelstudie).

– Befragung auf Haushaltsebene.

– Freiwillige Teilnahme.

Page 5: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 1. Einfuhrung 3

– Werden gegen Aufwandsentschadigung Forschern zur Verfugung gestellt.

Human Brain Mapping (Gehirnkartierung)

• Ziel: Identifikation von Regionen im Gehirn, die an der Erfullung bestimmter Auf-gaben beteiligt sind (z.B. das Sehzentrum).

• Experiment mit visuellem Stimulus:

– Abwechselnd Phasen mit und ohne Stimulus.

– Dauer einer Phase jeweils 30 Sekunden.

– Die Gehirnaktivitat wird alle drei Sekunden an 128×128×7 Voxeln gemessen.

• Aktivierung wird durch funktionelle Magnetresonanztomografie (fMRT) gemessen.

• Die Messungen werden durch zufallige Fehler uberlagert (Patient bewegt sich, istunkonzentriert, Messungenauigkeit, . . . ).

• Rolle der Statistik: Trennung von Signal und Rauschen.

• Aktivierung an einigen Voxeln:

Page 6: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

4 1.2. Was ist Statistik?

Ausmaß des Mangels an quantitativ qualifizierten Absolventen sozialwissenschaftli-cher Studiengange

• Untersuchung von Rainer Schnell (Universitat Duisburg-Essen)

• Information aus dem Arbeitgeberinformationssystem (AIS): Daten uber großten Teilder bundesweit arbeitslos gemeldeten Personen.

• Analyse von 1745 arbeitslosen Soziologen auf

– Beherrschung Statistik-Software (z.B. SPSS),

– Spezielle Statistik-Kenntnisse,

– Erfahrung bei der Durchfuhrung quantitativer empirischer Projekte,

– Erfahrung bei der Durchfuhrung qualitativer empirischer Projekte.

• Qualifikationsprofile der am 1.6.01 arbeitslos gemeldeten Soziologen:

Page 7: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 1. Einfuhrung 5

N Prozent SPSS Statistik Quantitativ Qualitativ1 0.06 1 1 1 11 0.06 1 1 0 12 0.11 0 1 0 13 0.17 0 0 1 17 0.40 1 0 0 1

13 0.74 1 0 1 018 1.03 1 1 1 026 1.49 0 1 1 028 1.60 1 1 0 034 1.95 0 0 0 180 4.58 1 0 0 093 5.33 0 1 0 097 5.56 0 0 1 0

1342 76.91 0 0 0 0

Wer hat Angst vor Statistik?

• Umfrage in Statistik Einfuhrungs-Vorlesungen fur Soziologen, Psychologen, BWLleretc. im WS 06/07.

• Ergebnisse:

– u.a. weibliche Studierende

– und Studierende, die in der Schule schon Angst vor Mathematik hatten,

– aber auch Studierende, die sich falsch auf Klausuren vorbereiten,

haben an der Uni eher Angst vor Statistik:

– Studierende, die versuchen den Stoff auswendig zu lernen, haben mehr Angstals Studierende, die viele Rechenaufgaben uben.

• Problem: Ursache und Wirkung

schlechte Note ⇒ Angst?Angst ⇒ schlechte Note?Angst ⇒ schlechte Note ⇒ mehr Angst?schlecht vorbereitet ⇒ schlechte Note ⇒ mehr lernen!gut vorbereitet aber Blackout ⇒ schlechte Note ⇒ Prufungsangst (⇒ PsychosozialeBeratungsstelle des Studentenwerks)

• Zumindest fur die Damen besteht aber kein Grund zur Angst: sie haben in Statistik-Klausuren sogar tendenziell bessere Noten als ihre mannlichen Kommilitonen:

Page 8: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

6 1.2. Was ist Statistik?

Frauen Maenner

54

32

1

Not

en S

tatis

tik E

infu

ehru

ng

Hauptgebiete der Statistik als Methodenlehre

• Deskriptiv / explorativ

– Analyse der Daten der konkret vorliegenden Gesamtheit (keine Verallgemeine-rung moglich).

– Deskription = Beschreibung (durch Tabellen, Kennzahlen, . . . )

– Aufspuren von Zusammenhangen, Hypothesengenerierung (keine Prufung!)

– Data Mining

• Induktive Statistik = Statistische Inferenz

– Schluss von einer Stichprobe auf die dahinterstehende Grundgesamtheit (z.B.Wahlumfrage: 1000 Personen befragt, interessant ist aber Verteilung der Par-teienpraferenz in der Bevolkerung)

– Solche Schlusse vom Teil auf das Ganze sind zwangslaufig potentiell fehlerhaft.Zur Abschatzung dieses sogenannten

”Inferenzfehlers“ dient die

• Wahrscheinlichkeitstheorie

Mathematische Theorie zur Beschreibung unsicherer / zufalliger Phanomene.

• Methodologie der Datengewinnung

• Allgemeiner: Quellen der Unsicherheit beim statistischen Schließen

– Kausalitat vs. Zusammenhang.gestiegenes Krebsrisiko im Vergleich zum 20. Jhd. ⇒ Kontrollieren auf Alter.

– Messfehler und Messungenauigkeit.Gehirnkartierung: Aktivierung nicht exakt gemessen; Soziologie: Merkmale nicht genau

operationalisiert – Stichproben.Mietspiegel: nicht alle Wohnungen erhebbar; Qualitatskontrolle

Page 9: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 1. Einfuhrung 7

1.2.4 Vorlesungsuberblick

Im Rahmen der Vorlesung Statistik 1 beschaftigen wir uns ausschließlich mit deskriptiver(beschreibender) und explorativer Statistik. Wahrscheinlichkeitsrechnung und statistischeInferenz (Schließen von Stichproben auf die Grundgesamtheit) werden Thema der Vorle-sung Statistik 2 im Sommersemester sein.

1. Einfuhrung.

2. Haufigkeitsverteilungen.

3. Lage- und Streuungsmaße.

4. Konzentrationsmaße.

5. Analyse von Zusammenhangen.

6. Regression.

1.3 Grundbegriffe

1.3.1 Statistische Einheiten und Gesamtheiten

Statistische Einheiten: Objekte an denen interessierende Großen erhoben werden.

Beispiele: Menschen, Wohnungen.

Grundgesamtheit: Die Menge aller fur eine bestimmte Fragestellung relevanten stati-stischen Einheiten heißt Grundgesamtheit (Universum, Population).

Beispiele: Wahlberechtigte Einwohner der Bundesrepublik Deutschland, Mietwohnungenin der Stadt Munchen.

Stichprobe: Haufig ist es nicht sinnvoll, nicht moglich, oder zu teuer alle Elemente derGrundgesamtheit zu untersuchen. Stattdessen wird nur eine bestimmte Auswahl unter-sucht, also eine Stichprobe der Grundgesamtheit.

Abgrenzungsproblematik: Die Grundgesamtheit muss durch sachliche, raumliche undzeitliche Kriterien exakt festgelegt sein. Die Kriterien richten sich nach dem Untersu-chungsziel.

Beispiel: Alle rechtsradikalen Jugendlichen aus der Oberschicht.

Notwendige Festlegungen: Definitionen von rechtsradikal, Jugendlich, Oberschicht; zeitli-cher Rahmen; geographischer Rahmen.

Page 10: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

8 1.3. Grundbegriffe

Gesamtheit: Im Rahmen der deskriptiven Statistik wird keine Verallgemeinerung vonder Stichprobe auf die Grundgesamtheit angestrebt. Es ist also in den folgenden Kapitelnnicht notig zu unterscheiden, ob die zu analysierenden Daten aus einer Stichprobe stam-men oder bereits die Grundgesamtheit darstellen. Wir sprechen dann einfach von einerGesamtheit von statistischen Einheiten, die analysiert werden sollen.

Notation:

• In einer Gesamtheit mit n Elementen (Stichprobenumfang), werden die statistischenEinheiten mit ω1, ω2, . . . , ωn bezeichnet.

• Gesamtheit Ω = ω1, . . . , ωn.• Bezieht man sich auf ein festes, aber beliebiges Element der Grundgesamtheit, so

schreibt man meist ω (ohne Index).

1.3.2 Merkmale und Merkmalsauspragungen

Merkmale: Inhaltlich interessant sind nicht die Einheiten an sich, sondern bestimmteEigenschaften oder Merkmale der Einheiten (Variablen).

Merkmalsauspragungen: Auspragung eines Merkmals fur eine konkret vorliegende sta-tistische Einheit.

Wertebereich: Alle prinzipiell moglichen Auspragungen eines Merkmals.

Notation: Merkmale werden typischerweise mit Großbuchstaben bezeichnet (X, Y , Z,etc.), Auspragungen mit dem zugehorigen Kleinbuchstaben (x, y, z). Der Wertebereichwird mit W bezeichnet.

Formal ist jedes Merkmal eine Funktion

X : Ω → Wω 7→ X(ω)

Schreibweisen:

• X(ω) Merkmalsauspragung der Einheit ω ∈ Ω

• X(ω) = x

• X(ωi) = xi

Die Elemente von W werden wir spater mit a1, . . . , ak bezeichnen.

Page 11: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 1. Einfuhrung 9

Teilmengen der Gesamtheit: Oft braucht man auch die Menge aller Einheiten, beidenen X einen bestimmten Wert, ublicherweise mit x bezeichnet, annimmt.

ω ∈ Ω | X(ω) = x ↓ ↓ ↓

Menge von was? groß klein Menge

Menge aller ω ∈ Ω mit der Eigenschaft, dass X(ω) = x ist.

Beispiel: Mietspiegel

• Statistische Einheiten: Mietwohnungen in Munchen.

• Merkmale und Wertebereich:

– Nettomiete pro Quadratmeter (W = [0,∞)),

– Wohnflache (W = [0,∞)),

– Lage (W = schlecht, normal, gut, sehr gut),– Baujahr (W = 1900, 1901, . . .).

• Merkmalsauspragungen fur die erste Wohnung im Datensatz:

– Nettomiete pro Quadratmeter: 10.9 e.

– Wohnflache: 68 m2.

– Lage: gut.

– Baujahr: 1918.

• Grundgesamtheit: Nicht preisgebundene Mietwohnungen fur die in den letzten vierJahren die Miete neu vereinbart oder geandert wurde.

• Stichprobe: Die im Datensatz enthaltenen ca. 3000 Wohnungen.

• Teilmengen (mit Merkmalen X =Nettomiete pro QM, Y =Wohnflache):

ω ∈ Ω | X(ω) ≤ 10 Wohnungen mit weniger als 10e Nettomietepro QM

ω ∈ Ω | X(ω) ≤ 10 ∧ Y (ω) > 60 Wohnungen mit weniger als 10e Nettomietepro QM und mehr als 60 QM Wohnflache

1.3.3 Merkmalstypen

Eine adaquate statistische Analyse hangt entscheidend davon ab, welche Gestalt W (alsodie Menge der moglichen Merkmalsauspragungen) hat.

Page 12: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

10 1.3. Grundbegriffe

Beispiel: Man kann zwar ein Durchschnittsalter angeben, aber kein Durchschnittsge-schlecht bestimmen.

Schwierigkeit: In statistischer Software werden Merkmalsauspragungen in der Regel mitZahlen codiert, die Software erkennt aber nicht, welche Bedeutung diese Zahlen haben.Ob die Variable

”Geschlecht“ mit den Auspragungen 1=mannlich, 2=weiblich oder die

Variable”Semesterzahl“ der erstmals an der Vorlesung teilnehmenden Horer, wiederum

mit den Auspragungen 1 und 2, betrachtet wird, macht fur das Software-Paket keinenUnterschied. Es gibt stets einen Durchschnittswert aus, der aber im ersten Fall absolutsinnlos ist.

Drei mogliche Unterscheidungen von Merkmalen:

a) Stetige, quasi-stetige und diskrete Merkmale

• Diskret: Das Merkmal kann nur endlich viele (oder abzahlbar viele) Auspragungenannehmen.

Beispiele: Geschlecht, Schulnoten, Wohnlage, Wurfelwurfe bis zum ersten Mal eineSechs gewurfelt wird, . . .

• Stetig: Das Merkmal kann alle Werte in einem Intervall annehmen (uberabzahlbarviele verschiedene Auspragungen).

Beispiele: Korpergroße, Einkommen, . . .

• Quasi-stetig: Zwischenform. Jede Messung hat nur endliche Genauigkeit, ist alsoeigentlich diskret, kann aber als stetig behandelt werden.

Beispiele: Alter in Stunden, Korpergroße in Millimetern, Baujahr, . . .

• Kategorisierung: Oft werden stetige Daten auch absichtlich diskretisiert, namlichbei Gruppenbildung (gruppieren, klassieren, kategorisieren).

Beispiel: Alter kategorisieren in Altersgruppen.Achtung: Kategorisierung fuhrt zu Informationsverlust.

b) Skalenniveau Das Skalenniveau eines Merkmals bestimmt, welche statistischen Ver-fahren sinnvoll angewendet werden konnen.

• Nominalskala: Ein Merkmal heißt nominalskaliert, wenn die Auspragungen Namenoder Kategorien sind, die keine naturliche Ordnung haben.

Beispiele: Geschlecht, Augenfarbe, Parteienpraferenz

Haufig werden auch hier (etwa zur Datenanalyse am PC) den Auspragungen Zahlenzugeordnet. Diese Zahlen sind aber nur Stellvertreter ohne inhaltliche Bedeutung;ihre Zuordnung kann vollig willkurlich erfolgen (solange eindeutig).

großer / kleiner Vergleiche oder Addition, Multiplikation sind sinnlos

• Ordinalskala: Ein Merkmal heißt ordinalskaliert, wenn sich die Auspragungen ordnenlassen.

Page 13: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 1. Einfuhrung 11

Beispiele: Schulnoten, Schichtzugehorigkeiten

sehr gut > gut > befriedigend > . . .

Oberschicht > Mittelschicht > Unterschichtbefriedigend ist von sehr gut weiter entfernt als von gut

Man kann beliebige Zahlen zuordnen, solange diese die Ordnung erhalten.

z.B. Oberschicht 1 3 50Mittelschicht 0 2 35Unterschicht -1 1 45

ok ok nicht ok

Die Abstande der Merkmalsauspragungen lassen sich nicht sinnvoll interpretieren,insbesondere kann kein Mittelwert gebildet werden.

• Intervallskala: Ein Merkmal heißt intervallskaliert, wenn die Abstande der Merk-malsauspragungen sinnvoll interpretiert werden konnen.

Beispiel: Temperatur in Celsius. Die Aussage”5 Grad warmer als gestern“ macht

Sinn, aber”Doppelt so warm wie gestern“ macht keinen Sinn, da es keinen naturli-

chen Nullpunkt gibt.

• Verhaltnisskala / Ratioskala: Ein Merkmal heißt verhaltnisskaliert, wenn es inter-vallskaliert ist und zusatzlich ein sinnvoll interpretierbarer Nullpunkt existiert.

Beispiele: Alter, Kontostand, Mietpreis

Sinnvolle Aussagen:

–”Knut ist doppelt so alt wie Peter“

–”Heute habe ich nur halb so viel Geld auf dem Konto wie gestern“

• Verhaltnisskala und Intervallskala werden oft zur Kardinalskala zusammengefasst.Ein kardinalskaliertes Merkmal wird auch als metrisch bezeichnet.

• Beachte: Metrische Merkmale sind of stetig oder quasi-stetig (z.B. Große, Einkom-men), konnnen aber auch diskret sein (z.B. Anzahlen).

Zusammenfassende Darstellung: Hat man den Auspragungen Zahlen zugeordnet, sosind je nach Skalenniveau folgende Berechnungen sinnvoll:

Skala Haufigkeiten Großenvergleich Differenz Quotienten bilden

Nominalskala ja nein nein nein

Ordinalskala ja ja nein nein

Intervallskala ja ja ja nein

Verhaltnisskala ja ja ja ja

Man sieht eine deutliche Hierarchie: Alles was auf einer Nominalskala erlaubt ist, istauch auf der Ordinalskala erlaubt usw., aber nicht umgekehrt! Das bedeutet: Man darf

Page 14: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

12 1.3. Grundbegriffe

Verfahren der niedrigeren Stufe auch auf der hoheren Stufe anwenden (etwa ein Verfahrender Ordinalskala auch auf Daten einer Intervallskala), aber nicht umgekehrt.

Zulassige Transformationen: Mathematisch exakt charakterisiert man Skalen uber dieTransformationen, die man durchfuhren darf, ohne die inhaltliche Struktur zu zerstoren,d.h. vor und nach der Transformation sollen die fur die jeweilige Skala grundlegendenOperationen jeweils dieselben inhaltliche Ergebnisse liefern.

Transformation:

X → Y = g(X) z.B. g(X) = X3

Transformation

Nominalskala eineindeutige

Ordinalskala streng monotone

Intervallskala lineare (a + bX; b > 0)

Verhaltnisskala linear affine (bX; b > 0)

Abschließende Bemerkungen:

• Grauzone: Manchmal werden bei Ordinalskala durchaus Differenzen gebildet (z.B.Durchschnittsnoten, Skalenindizes). Aus statistischer Sicht oft problematisch ⇒Vorsicht bei der Interpretation.

• Je nach Fragestellung konnen auch nominale Merkmale als ordinal betrachtet werden(z.B. Rechts-Links-Skala bei Parteienpraferenz)

Die Einteilung, welches Skalenniveau eine Variable besitzt, ist letztlich oft auch von derinhaltlichen Fragestellung abhangig. Sie bestimmt, welche statistischen Verfahren sinnvollsind.

c) Qualitative und quantitative Merkmale

• Qualitativ: Das Merkmal beschreibt eine Eigenschaft / eine Qualitat und kein Aus-maß. Das Merkmal besitzt nur endlich viele Auspragungen und ist nominal- oderordinalskaliert.

Beispiele: Geschlecht, Wohnlage

• Quantitativ: Das Merkmal gibt ein Ausmaß / eine Intensitat wieder. Das Merkmalist sinnvoll in Zahlen messbar und intervall- oder verhaltnisskaliert.

Beispiele: Nettomiete pro QM, Einkommen

Vorsicht: Die Unterscheidung in qualitative und quantitative Merkmale ist zu unterschei-den vom Begriff qualitative / quantitative Sozialforschung. Auch bei qualitativen Merk-malen wird im soziologischen Sinn quantitativ gearbeitet (Haufigkeitsverteilung etc. stattEinzelfallbeschreibung).

Page 15: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 1. Einfuhrung 13

1.3.4 Erhebungsformen

Experiment vs. Beobachtungsdaten:

• Experiment: Die Daten werden gezielt erzeugt. Insbesondere konnen die interessie-renden Großen direkt beeinflusst werden.

Typisches Beispiel: Klinische Studien mit zufalliger Aufteilung der Probanden undBehandlung mit Medikament vs. Placebo.

Beispiel aus den Sozialwissenschaften: Verhaltensexperimente.

• Beobachtungsdaten: Die Daten sind prinzipiell bereits vorhanden und mussen nurnoch

”beobachtet“ werden.

Beispiel: Mietspiegel

Problem: Kontrolle von Storgroßen ist notwendig, da keine zufallige Aufteilung er-folgt.

Vollerhebung vs. Stichprobe:

• Vollerhebung: Alle statistischen Einheiten der Grundgesamtheit werden untersucht.

Beispiele: Volkszahlung, Mietspiegel in einer kleinen Stadt (beim Munchner Miet-spiegel hingegen keine Vollerhebung moglich).

• Stichprobe: Nur ein Teil der Stichprobe wird untersucht. Dieser soll moglichst re-prasentativ fur die Grundgesamtheit sein.

• Grunde fur Stichproben:

– Geringerer Aufwand.

– Vollerhebung nicht moglich (z.B. in der Qualitatskontrolle).

Auswahltechniken:

• Einfache Zufallsstichprobe,

• Klumpenstichprobe,

• Geschichtete Stichprobe.

Studientypen:

• Querschnittsstudie: An einer Menge von Einheiten werden zu einem Zeitpunkt meh-rere Merkmale erhoben.

Beispiel: Mietspiegel.

• Zeitreihe: Ein Merkmal wird wiederholt zu verschiedenen Zeitpunkten erhoben.

Beispiele: Arbeitslosenzahlen, DAX.

Page 16: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

14 1.3. Grundbegriffe

• Longitudinal- / Paneldaten: An einer Menge von statistischen Einheiten werdenwiederholt (die gleichen) Variablen erhoben.

Beispiel: Sozio-okonomisches Panel, Mikrozensus.

Analysearten:

• Primarerhebung / -analyse:

Daten werden im Rahmen des Forschungsprojekts erhoben und analysiert.

• Sekundaranalyse:

Analyse von im Rahmen anderer Forschungsprojekte erhobener Daten.

• Tertiaranalyse:

Analyse von aggregierten (zusammengefassten) Daten.

• Metaanalyse:

Sekundaranalyse oder Tertiaranalyse (= Metaanalyse im engeren Sinn) von mehre-ren Studien.

Page 17: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2

Haufigkeitsverteilungen

• Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen.

• Ausgangssituation: An n Einheiten ω1, . . . , ωn sei das Merkmal X beobachtet wor-den.

⇒ x1 = X(ω1), . . . , xn = X(ωn)

Also xi = X(ωi), d.h. xi ist der Wert der i-ten Person

• x1, . . . , xn werden auch als Urliste oder Rohdaten und n als Stichprobenumfang be-zeichnet.

• Die verschiedenen Merkmalsauspragungen werden mit a1, . . . , ak bezeichnet.

• Bemerkungen:

– Werden mehr Beobachtungen erhoben, so andert sich n, aber i.A. k nicht.

– Meist bezeichnet a1, . . . , ak die beobachteten verschiedenen Merkmalsauspragun-gen, manchmal aber auch die prinzipiell moglichen Merkmalsauspragungen.

– Fur mindestens ordinalskalierte Merkmale seien die Auspragungen geordnet,d.h.

a1 < a2 < . . . < ak.

Beispiel: Haufigkeitsverteilung der Schichtzugehorigkeit einer Gesamtheit Ω von achtPersonen Ω = ω1, . . . , ω8.Kategorien: Unterschicht, Mittelschicht, Oberschicht.

Ordinales Merkmal X : Ω → W

ω 7→ X(ω)

W = U,M, O fur Unterschicht

Mittelschicht

Oberschicht

oder durch Zahlen ausgedruckt:

W = −1, 0, 1

15

Page 18: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

16 2.1. Haufigkeiten

X(ω) =

−1 ω ∈ Unterschicht

0 falls ω ∈ Mittelschicht

1 ω ∈ Oberschicht

Tabelle:

Person ω X(ω)

ω1 M 0 x1

ω2 M 0 x2

ω3 O 1 x3

ω4 M 0 x4

ω5 M 0 x5

ω6 M 0 x6

ω7 U -1 x7

ω8 O 1 x8

n = 8

k = 3

a1 = −1

a2 = 0

a3 = 1

Also:

n: Anzahl der Einheiten

k: Anzahl der verschiedenen Werte von X

2.1 Haufigkeiten

Absolute Haufigkeiten der Merkmalsauspragungen: Fur jedes aj, j = 1, . . . , k, be-zeichnen hj und h(aj) die absolute Haufigkeit der Auspragung aj, d.h. die Anzahl der xi

aus x1, . . . , xn mit xi = aj.

Formal:

hj := h(aj) := |ω ∈ Ω | X(ω) = aj|.

|M | bezeichnet die Machtigkeit der Menge M

:= bedeutet”wird definiert als“.

h1, h2, . . . , hk (als Ganzes) nennt man die absolute Haufigkeitsverteilung.

Es giltk∑

j=1

hj = n.

Erste Darstellung von Haufigkeiten anhand einer Strichliste:

Page 19: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2. Haufigkeitsverteilungen 17

Strichliste -1 |0 |||||1 ||∑

8

Relative Haufigkeiten der Merkmalsauspragungen: Fur jedes aj, j = 1, . . . , k, be-zeichnen fj und f(aj) die relative Haufigkeit der Auspragung aj, also

fj := f(aj) :=hj

n.

f1, f2, . . . , fk nennt man die relative Haufigkeitsverteilung.

Es giltk∑

j=1

fj = 1.

Haufigkeitstabelle: Allgemeine Form:

j aj hj fj

1 a1 h1 f1

2 a2 h2 f2

3 a3 h3 f3

......

......

k ak hk fk∑n 1

Im Beispiel:

j aj hj fj

1 −1 1 0.125

2 0 5 0.625

3 1 2 0.250∑8 1

• Insbesondere bei stetigen oder quasi-stetigen Merkmalen ist es haufig zweckmaßig,die Merkmalsauspragungen zu klassieren / zu gruppieren.

⇒ gruppierte Haufigkeitsverteilung.

• Die gruppierte Haufigkeitsverteilung enthalt nur die Haufigkeiten der Auspragungenin den einzelnen Gruppen, die einzelnen ai entsprechen in diesem Fall Intervallen.

• Achtung: Die Gruppierung bedeutet einen Informationsverlust und sollte deshalb inder Regel nur zur Visualisierung eingesetzt werden (und nicht in den statistischenAnalysen)!

Benutzt nur noch Nominal- / Ordinalskala statt Verhaltnisskala

Beispiel Mietspiegel: Merkmal = Nettomieten

Urliste fur n=26 Wohnungen, bereits der Große nach geordnet:

127 172 194 217 226 228 238 248 272 337 347 349 349

373 375 378 383 394 426 443 466 467 533 539 560 676

Page 20: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

18 2.2. Grafische Darstellung

Klasse j hj fj

100 < . . . ≤ 200 3 3/26 = 0.115

200 < . . . ≤ 300 6 0.230

300 < . . . ≤ 400 9 0.346

400 < . . . ≤ 500 4 0.153

500 < . . . ≤ 600 3 0.115

600 < . . . ≤ 700 1 0.038∑

26 1

2.2 Grafische Darstellung

Stabdiagramm: Trage uber a1, . . . , ak jeweils einen zur x-Achse senkrecht stehendenStab mit Hohe h1, . . . , hk (oder f1, . . . , fk) ab.

Horizontal: Auspragungen der Variablen (a1, a2, . . . , ak)

Vertikal: absolute / relative Haufigkeiten (h1, . . . , hk bzw. f1, . . . , fk)

-

6

1

5

8

1

5

2

-1 0 1

hj

aj

Vorausgesetztes Skalenniveau: mindestens Nominalskala

Saulendiagramm: Ersetze die Stabe durch Rechtecke (Saulen) gleicher Breite.

6

1

5

8

-1 0 1

hj

Balkendiagramm: Saulendiagramm mit vertauschten Achsen

Page 21: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2. Haufigkeitsverteilungen 19

6

1

0

-1

1

5

2

51

Vorausgesetztes Skalenniveau: mindestens Nominalskala

Kreisdiagramm: Der Kreis wird in Segmente unterteilt, denen jeweils eine Auspragung(oder Klasse) zugeordnet wird. Der jeweilige Winkel ist proportional zur Haufigkeit.

⇒ dadurch ist auch die Flache proportional zur Haufigkeit: Prinzip der Flachentreue.

Fur Stab-, Saulen- und Balkendiagramm gilt dagegen das Prinzip der Langentreue, d.h.die Lange der Stabe / Saulen / Balken ist proportional zur Haufigkeit.

Berechnung: Winkel des Kreissektors j = relative Haufigkeit ×360

Haufigkeit Winkel

f1 =1

8

360

8= 45

f2 =5

8

360 · 58

= 225

f3 =2

8

360 · 28

= 90

Vorausgesetztes Skalenniveau: mindestens Nominalskala,

Bemerkungen:

• Alle bisherigen Grafiken sind nur sinnvoll fur kleine Kategorienzahlen k.

• Fur ordinalskalierte Merkmale lasst sich mit Stab- / Balken- / Saulendiagrammauch die Ordnung der Kategorien darstellen.

• Durch Schichtung konnen die Grafiken auch zum Vergleich von Haufigkeitsvertei-lungen eingesetzt werden.

Page 22: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

20 2.2. Grafische Darstellung

Stamm-Blatt-Diagramm: Semigrafisches Verfahren in Analogie zu Strichlisten

Erklarung anhand des Mietspiegelbeispiels:

127 172 194 217 226 228 238 248 272 337 347 349 349

373 375 378 383 394 426 443 466 467 533 539 560 676

6

5

4

3

2

1

8

3 4 6

3 4 7 7

4 5 5 5 7 8 8 8 9

2 3 3 4 5 7

3 7 9

Stamm: fuhrende Ziffern

Blatt : nachste Ziffer (evtl. gerundet)

Prinzipielles Vorgehen:

1. Suche den kleinsten und großten Wert der Urliste und zerlege den Wertebereich inIntervalle der Breite 10q (Vielfache von 10, q ist geeignet zu wahlen).

Kleinster Wert: 127

Großter Wert: 676

⇒ Intervallbreite 100, d.h. q = 2.

Fur q = 1 wurde man zu viele Intervalle erhalten (55).

2. Runde die Daten auf die fuhrenden q Stellen.

130 170 190 220 230 230 240 250 270 340 350 350 350

370 380 380 380 390 430 440 470 470 530 540 560 680

3. Bestimme den Stamm aus den fuhrenden Ziffern:

⇒ Ziffern 1 bis 6.

4. Bestimme die Blatter aus der folgenden Ziffer:

3 7 9 2 3 3 4 5 7 4 5 5 57 8 8 8 9 3 4 7 7 3 4 6 8

5. Trage fur jeden Wert des Stamms die zugehorigen Blatter rechts von einer vertikalenLinie der Große nach geordnet ab:

Vorteile:

Page 23: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2. Haufigkeitsverteilungen 21

• Implizierte Gruppierung ohne viel Information zu verlieren, da die Darstellung bisauf Rundungen alle Werte der Urliste enthalt.

• Ermoglicht guten Einblick in Datenstruktur fur explorative Analysen, z.B. auchErkennen von Ausreißern.

Nachteile:• Wird bei großen Datensatzen schnell unubersichtlich.

• Lasst sich oft nicht mehr gut auf Papier prasentieren.

2.3 Histogramm

Ziel: Automatische Erstellung einer sinnvollen Haufigkeitsdarstellung fur metrische Merk-male (ohne manuelle Kategorisierung).

• Gegeben: Urliste x1, . . . , xn eines (mindestens) intervallskalierten Merkmals.

• Wahle c0 ≤ mini=1,...,n(xi) und ck ≥ maxi=1,...,n(xi)

• Bilde Klasseneinteilung [c0, c1), [c1, c2), . . . , [ck−1, ck].

• Fur jede Klasse [cj−1, cj), j = 1, . . . , k sei

dj = cj − cj−1

die Breite des j-ten Intervalls und hj bzw. fj die absolute bzw. relative Haufigkeitin der j-ten Klasse.

• Zeichne uber jedem Intervall ein Rechteck der Breite dj so, dass die Flache propor-tional zu fj und hj ist.

Achtung: Das Histogramm ist flachentreu nicht langentreu! Es gilt Flache = Breite ·Hohe und damit Hohe = Flache / Breite. Also ist die Hohe der Rechtecke proportionalzu

fj

dj

bzw.hj

dj

,

und nicht zu fj bzw. hj.

Ein Histogramm unterscheidet sich damit substantiell von einem Saulendiagramm! Manmuss also bei einer Grafik immer angeben, ob es sich um ein Saulendiagramm oder einHistogramm handelt.

Page 24: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

22 2.3. Histogramm

Beispiel: Punkteverteilung in der Klausur

hj dj

Klassen Hfgkt. Breite Hohe

[0, 35.5) 53 35.5 1.49

[35.5, 48.5) 78 13 6.00

[48.5, 64.5) 91 16 5.69

[64.5, 79.5) 96 15 6.40

[79.5, 90) 65 10.5 6.19

383 90

6

-

6

1.49 53

78 9196 65

35.5 48.5 64.5 79.5 90

¢¢®

Tauschung?

Tucken des Histogramms:

• Die Gestalt des Histogramms hangt wesentlich von der Klasseneinteilung ab.

• Einfluss der Klassenzahl:

viele Klassen: geringer Informationsverlust, aber rauher Verlauf

wenige Klassen: Glattung von Sprungen, aber hoher Informationsverlust

⇒ Faustregeln:

k = (√

n) oder k = (√

2n)

⇒ Naturliche Klasseneinteilung nutzen (z.B: Notenstufen) und / oder moglichstgleich große Klassenbreiten wahlen.

• Treten bestimmte Werte sehr haufig auf, so ergeben sich zusatzliche Probleme. Bei-spiel: Arbeitsbelastung neben dem Studium

Page 25: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2. Haufigkeitsverteilungen 23

• Was tun, wenn ein Wert eine inhaltliche Kategorie fur sich bildet? (z.B. 0 bei Ar-beitsbelastung neben Studium). Dann ist die

”naturliche Breite“ des zugehorigen

Intervalls gleich 0 und damit die Hohe gleich unendlich

⇒ beliebige Peaks produzierbar, die alle anderen Auspragungen optisch verschwin-den lassen.

Mogliche Losung: Wert aus dem Histogramm nehmen und auf zwei Grafiken auftei-len: Arbeit ja/nein, Verteilung der Arbeitsstunden bei den Arbeitenden (Vorsichtbei der Interpretation).

• Implizite Rundung auf”Jubilaumszahlen“ (attractive numbers, Heaping)

5, 10, 20 . . .

12

Jahr, 1 Jahr . . .

16, 18, 25, 30 Monate

Zur Vermeidung von Artefakten, Jubilaumszahlen nicht als Intervallgrenzen verwen-den!

Typen von Haufigkeitsverteilungen Histogramme eignen sich gut zur Beurteilung derForm von Haufigkeitsverteilungen

• Unimodale und multimodale Verteilungen:

Page 26: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

24 2.3. Histogramm

Unimodal

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Multimodal

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Multimodal

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

• Symmetrie und Schiefe

symmetrisch: Rechte und linke Halfte der Verteilung sindannahernd zueinander spiegelbildlich.

linkssteil (rechtsschief): Verteilung fallt nach links deutlich steiler und nachrechts langsamer ab.

rechtssteil (linksschief): Verteilung fallt nach rechts deutlich steiler undnach links langsamer ab.

1 2 3 4 5 6 7 8 9

(linkssteil)

1 2 3 4 5 6 7 8 9

(symmetrisch)

1 2 3 4 5 6 7 8 9

(rechtssteil)

• Andere typische Verteilungsformen:

– U-formig,

– J-formig.

Page 27: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2. Haufigkeitsverteilungen 25

2.4 Kumulierte Haufigkeiten und empirische Verteilungs-funktion

Oft sind kumulierte Haufigkeiten von Interesse, also eine Antwort auf die Frage”Wieviel

Prozent der Daten uber-/unterschreiten einen bestimmten Wert?“

• Wieviel Prozent der Studenten arbeiten bis zu 8 Stunden pro Woche neben demStudium?

• Wieviel Prozent der Studenten arbeiten mehr als 8 Stunden pro Woche neben demStudium?

• Wieviel Prozent der Studenten haben mindestens 35.5 Punkte, also die Klausurbestanden?

Voraussetzung: Mindestens ordinalskaliertes Merkmal.

Gegeben sei die Urliste x1, . . . , xn eines (mindestens) ordinalskalierten Merkmals mit derHaufigkeitsverteilung h1, . . . , hk bzw. f1, . . . , fk.

Dann heißt

H(x) := Anzahl der Werte xi mit xi ≤ x

=∑

j:aj≤x

h(aj) =∑

j:aj≤x

hj

absolute kumulierte Haufigkeitsverteilung und

F (x) := Anteil der Werte xi mit xi ≤ x

= H(x)/n

=∑

j:aj≤x

f(aj) =1

n

∑j:aj≤x

h(aj)

relative kumulierte Haufigkeitsverteilung bzw. empirische Verteilungsfunktion.

Die Schreibweise H(x) :=∑

j:aj≤x

h(aj) ist eine Abkurzung fur

H(x) :=∑j∈Jx

h(aj) mit Jx := j|aj ≤ x,

d.h. fur jedes x wird die Summe uber alle j mit der Eigenschaft betrachtet, dass diezugehorigen Werte aj kleiner gleich x sind (analog fur F (x)).

Beispiel: Klausurnoten (zur Vereinfachung aj = j)

Note: aj h(aj) H(aj) f(aj) F (aj)a1 = 1 65 65 0.17 0.17a2 = 2 96 161 0.25 0.42a3 = 3 91 252 0.24 0.66a4 = 4 78 330 0.20 0.86a5 = 5 53 383 0.14 1.00

383 1.00

Page 28: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

26 2.4. Kumulierte Haufigkeiten und empirische Verteilungsfunktion

H(1) =∑

j:aj≤1

h(aj) = h(a1) = 65

H(1.2) =∑

j:aj≤1.2

h(aj) = h(a1) = 65

H(1.4) = ” = ” = ”

Zwischen den Auspragungen ist H(x) konstant, also

H(x) = H(aj)

fur alle x ∈ [aj, aj+1) und j = 1, . . . , k. Es reicht also, H(x) an den tatsachlichen Aus-pragungen aj zu berechnen.

6

-

50

100

150

200

250

300

350

1 2 3 4 5

b

r b

r b

r b

r b

r

h1

h2

h3

h4

h5

Bemerkungen:

• F (x) sieht genauso aus; einfach den Maßstab auf der Ordinate (y-Achse) durch 383teilen.

• Man kann aus H(x) und F (x) die Haufigkeitsverteilungen h1, . . . , hk und f1, . . . , fk

reproduzieren, z.B. isth(aj) = H(aj)−H(aj−1)

die Haufigkeit von aj.

• Bei rein ordinalen Merkmalen ist die Skaleneinteilung auf der Abszisse (x-Achse)vollig willkurlich; man konnte obige Funktion z.B. genauso gut wie folgt zeichnen:

-

1 2 3 4 5

Page 29: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2. Haufigkeitsverteilungen 27

• Bei intervallskalierten Merkmalen ist diese Willkurlichkeit nicht mehr vorhanden ⇒kumulierte Haufigkeitsverteilungen werden fast nur bei intervallskalierten Merkma-len betrachtet.

• Empirische Verteilungsfunktion wenn alle Beobachtungen verschieden sind:

-

6

........

..................

.............

.............

.............

x(1) x(2)

1n

2n

1

F (x)

.....................................

.....................................

.................................................................................................................................................................................................................................................................

.................................................................................................................................

.................................................................................................................................

6

?

6

?

1n

1n

........

.....

........

.....

........

.....

........

.....

........

.....

.... .....................................................................

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. .......

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. .............

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. .............

......

• Empirische Verteilungsfunktion bei gegebenen Haufigkeiten:

-

6

........

..................

.............

.............

.............

a1 a2

f1

f1 + f2

1

F (x)

.....................................

.....................................

.................................................................................................................................................................................................................................................................

.................................................................................................................................

.................................................................................................................................

6

?

6

f1

........

.....

........

.....

........

.....

........

.....

........

.....

........

.....

........

.....

........

.........................................................

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. .......

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. .............

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. .............

......

Kumulierte Haufigkeiten bei gruppierten Merkmalen Beispiel: Punkteverteilung inden Klassen

Page 30: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

28 2.4. Kumulierte Haufigkeiten und empirische Verteilungsfunktion

Klassen Haufigkeiten kumuliert

[0, 35.5) 53 53

[35.5, 48.5) 78 131

[48.5, 64.5) 91 222

[64.5, 79.5) 96 318

[79.5, 90) 65 383

Bei gruppierten, intervallskalierten Merkmalen tritt folgendes zusatzliches Problem auf:Klar sind die Werte der kumulierten Haufigkeitsverteilungen an den zu den Intervall-grenzen gehorenden Punkten. Aber wie definiert man H(x) und F (x) zwischen diesenPunkten, was also ist etwa H(40)?

Jetzt ist H nicht mehr notwendigerweise konstant zwischen den Klassengrenzen. Beispiels-weise ist 40 ja eine Auspragung, die durchaus in den unklassierten Daten vorkam, undbei neuen Beobachtungen wieder vorkommen kann. H(40) ist aber aus den klassiertenDaten nicht mehr rekonstruierbar. Eigentlich weiß man nur, dass H(40) einen Wert indem entsprechenden Rechteck annehmen kann.

⇒ Lineare Interpolation.

-

6

35,5 48,5 64,5 79,5 90

100

200

300

400

³³³³³¡¡

¡¡

¡¡

¡¡¡

Allgemeine Formulierung:• k Klassen [c0, c1), . . . , [cj−1, cj), . . . , [ck−1, ck],hj Haufigkeit in j-ter Klasse.

• Verwende bei einem x aus der Klasse [cj−1, cj) als Approximation fur H(x) folgenden,aus der linearen Interpolation gewonnenen Punkt:

³³³³³³³³³³

•︸ ︷︷ ︸

hj

x︸ ︷︷ ︸x− cj−1

H(cj)

H(cj−1)

cj−1 cj

@@R

H(x)

Page 31: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 2. Haufigkeitsverteilungen 29

• Geradengleichung:

H(x) ≈ H(cj−1) +hj

(cj − cj−1)· (x− cj−1)

Ausgpkt. Steigung Wegstrecke

H(40) ≈ H(35.5) +78

48.5− 35.5· (40− 35.5) =

= 80

Page 32: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3

Lage- und Streuungsmaße

• Grafische Darstellungen geben einen allgemeinen Eindruck der Verteilung einesMerkmals:

– Lage und Zentrum der Daten,

– Streuung der Daten um dieses Zentrum,

– Schiefe / Symmetrie und Unimodalitat / Multimodalitat der Daten.

• Im Folgenden: Maßzahlen zur Beschreibung von Lage und Streuung durch eine Zahl.

• Lagemaße sollen die zentrale Tendenz (das Zentrum) eines Merkmals beschreiben.

• Streuungsmaße beschreiben die Variabilitat eines Merkmals.

3.1 Lagemaße

Lagemaße beantworten Fragen uber die Haufigkeitsverteilung wie:

• Wo liegen die meisten Beobachtungen?

• Wo liegt der”Schwerpunkt“ einer Verteilung?

• Wo liegt die”Mitte“ der Beobachtungen?

• Was ist eine”typische“ Beobachtung?

Bemerkungen:

• Es gibt nicht das Lagemaß schlechthin. Die unterschiedlichen Lagemaße sind je nachSituation unterschiedlich geeignet.

• Die Eignung ist insbesondere abhangig von der Datensituation und dem Skalenni-veau.

30

Page 33: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 31

3.1.1 Arithmetisches Mittel

Definition: Sei x1, . . . , xn die Urliste eines (mindestens) intervallskalierten Merkmals X.Dann heißt

x :=1

n

n∑i=1

xi

das arithmetische Mittel der Beobachtungen x1, . . . , xn.

Bemerkungen:

• Das arithmetische Mittel ist also das Lagemaß, das typischerweise als Mittelwertoder Durchschnitt bezeichnet wird.

• Das arithmetische Mittel muss nicht mit einer der beobachteten Auspragungen zu-sammenfallen.

Beispiel: Anzahl von Statistikbuchern, die ein Student besitzt (fiktiv).

Person Anzahl

1 0

2 2

3 1

4 2

5 2

6 3

7 0

8 12

9 1

10 2

x =1

10· (0 + 2 + 1 + 2 + 2 + 3 + 0 + 12 + 1 + 2)

=1

10· 25

= 2.5

Alternative Berechnung basierend auf Haufigkeiten: Hat das Merkmal X die Aus-pragungen a1, . . . , ak und die (relative) Haufigkeitsverteilung h1, . . . , hk bzw. f1, . . . , fk,so gilt

x =1

n

k∑j=1

ajhj =k∑

j=1

ajfj.

Im Beispiel: Haufigkeitstabelle:

0 1 2 3 4 5 6 7 8 9 10 11 12

|| || ||||| | |bzw.

Page 34: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

32 3.1. Lagemaße

a1 = 0 a2 = 1 a3 = 2 a4 = 3 a5 = 12

h1 = 2 h2 = 2 h3 = 4 h4 = 1 h5 = 1

Alte Berechnung:

x =1

10· (0 + 2 + 1 + 2 + 2 + 3 + 0 + 12 + 1 + 2)

Neue Berechnung:

x =1

n

k∑j=1

aj · hj

=1

10· (0 · 2 + 1 · 2 + 2 · 4 + 3 · 1 + 12 · 1)

=1

10(0 + 2 + 8 + 3 + 12)

= 2.5

Beispiel: Einfacher Tabellenmietspiegel

Nettomiete in Euro/qm

Wohnflache

Baujahr bis 50 qm 51 bis 80 qm 81 qm und mehr

bis 1918 9.00 (45) 7.88 (164) 7.52 (200) 7.83 (409)

1919 bis 48 6.90 (42) 6.87 (94) 6.50 (52) 6.78 (188)

1949 bis 65 9.04 (129) 7.84 (237) 7.95 (70) 8.21 (436)

1966 bis 80 10.05 (173) 7.97 (313) 7.80 (156) 8.49 (642)

1981 bis 95 10.59 (45) 9.53 (162) 9.72 (63) 9.75 (270)

1996 bis 2001 10.60 (15) 10.28 (58) 9.69 (35) 10.14 (108)

9.43 (449) 8.20 (1028) 7.93 (576) 8.39 (2053)

Beispiel: Augenfarbe

hj

0: grun 21: grau 22: rot 03: blau 6

x =(2 · 0 + 2 · 1 + 3 · 6)

10=

20

10= 2

Die durchschnittliche Augenfarbe ist also rot?!?

Da es sich bei der Augenfarbe um ein nominalskaliertes Merkmal handelt, ist die Zuord-nung von Zahlen zu Auspragungen hier vollig willkurlich.

Page 35: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 33

hj

1: grun 22: blau 63: grau 2 x =

(2 · 1 + 6 · 2 + 2 · 3)

10=

20

10= 2

Die durchschnittliche Augenfarbe ist also doch blau?!?

D.h. man konnte durch geeignete Festlegung der Zahlen jede Augenfarbe zur “Durch-schnittsfarbe” machen.

Bemerkungen:

• Das arithmetische Mittel setzt zwingend ein intervallskaliertes Merkmal voraus. Aufeinem niedrigerem Skalenniveau ist die Addition nicht erlaubt, und daher sind dieentsprechenden Mittelwertsbildungen sinnlos und nicht interpretierbar (auch wennsie ein Software-Paket selbstverstandlich ausspuckt).

• Einzige Ausnahme: Binare Merkmale (mit nur zwei Auspragungen), deren Aus-pragungen als 0/1 kodiert werden. In diesem Fall kann das arithmetische Mittel alsAnteil von Beobachtungen mit Auspragung 1 interpretiert werden.

a1 = 0, a2 = 1, h1 = Anzahl Nullen, h2 = Anzahl Einsen

⇒ x = 1n(a1 · h1 + a2 · h2) = h2

n= f2

Transformationen: Die Intervallskala erlaubt lineare Transformationen der Form a+bX,die Ratioskala Transformationen der Form b · X. Wie verandert sich das arithmetischeMittel bei diesen oder allgemeineren Transformationen?

X −−−−−→ Y = g(X)

x −−−−−→ y??? ?

Beispiele:

• Lineare Transformation Y = a ·X + b:

X jahrliche Ausgaben von Studenten 2007 in EuroY jahrliche Ausgaben von Studierenden 2007 in DM ohne Studiengebuhren

(zum Vergleich in DM umrechen und Studiengebuhren subtrahieren.)a = 2 der Einfachheit halber (statt 1.95583)b = -1000

• Nichtlineare Transformation: Betrachtet werden 3 quadratische Zimmer mit denSeitenlangen 7, 4 und 10m. Sei X die Seitenlange, dann ist

Y = g(X) = X2 die Zimmerflache,

Page 36: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

34 3.1. Lagemaße

und es gilt

x =4 + 7 + 10

3= 7,

aber

y =16 + 49 + 100

3=

165

3= 55 6= 49 = (x)2

Es macht also einen wesentlichen Unterschied, ob man zuerst die Flache und dannden Durchschnitt ausrechnet oder zuerst den Durchschnitt (der Seitenlangen) bildetund dann die Flache berechnet.

Im Allgemeinen kann man also nicht einfach sagen:

Y = g(X) ⇒ y = g(x).

Satz: Arithmetisches Mittel und lineare Transformationen. Gegeben sei die Urlistex1, . . . , xn eines intervallskalierten Merkmals X. Betrachtet wird das (linear transformier-te) Merkmal Y = a ·X + b und die zugehorigen Auspragungen y1, . . . , yn.Dann gilt:

y = a · x + b.

Satz: beweispflichtige Folgerung aus gegebenen Annahmen. Im Gegensatz dazu: Definition= Festlegung.

Eine Definition kann nicht wahr oder falsch sein; sie ist hochstens

nutzlich oder ungeschickt.

Unterschied zu soziologischen Satzen: Beispiel: Gesellschaftliche

Anomie (Ruckgang von religiosen Normen und Werten) kann

Selbstmorde begunstigen. Prinzipiell falsifizierbar.

Beweis: Von der Urliste x1 . . . xn von X ubergehen zur Urliste y1 . . . yn von Y , wobeifur jedes i gilt yi = a · xi + b.

y =1

n

n∑i=1

yi

=1

n

n∑i=1

(a · xi + b)

=1

n

n∑i=1

a · xi +1

n

n∑i=1

b

=1

n· a ·

n∑i=1

xi +1

n· n · b

= a · 1

n

n∑i=1

xi + b

= a · x + b

Beweis: Nachrechnen, aber nicht am Beispiel, sondern allgemein.

Page 37: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 35

Bemerkungen:

• Vorsicht: Ist X verhaltnisskaliert, so geht fur b 6= 0 der naturliche Nullpunkt fur Yverloren.

• Der Satz gilt im Allgemeinen nur, falls die Transformation von X auf Y linear ist.Z.B. ist bei Y = X2 im Allgemeinen y 6= (x)2 (wie im Beispiel gezeigt).

Weitere Eigenschaften des arithmetischen Mittels:

• x ist derjenige Wert, den jede Beobachtungseinheit erhielte, wurde man die Ge-samtsumme der Merkmalsauspragungen gleichmaßig auf alle Einheiten verteilen.(Beispiel: gleichmaßige Verteilung des Einkommens)

• x ist der Schwerpunkt der x1, . . . , xn, d.h. es gilt:

n∑i=1

(xi − x) = 0

Vorstellung: Fur jede Beobachtung i im Punkt xi Gewicht mit 1kg hinlegen.

0 1 2 3 4 5 6 7 8 9 10 11 12•6

Schwerpunkt

• Die Schwerpunktseigenschaft macht auch deutlich: außerordentliche Hebelwirkungextrem großer und kleiner Werte: (lasst man die Beobachtung 12 im Beispiel weg,dann gilt: x = 13

9= 1.44. Insbesondere ist damit das arithmetische Mittel sehr

ausreißeranfallig, d.h. ein falsch gemessener Wert”zerstort den ganzen Mittelwert“.

Beispiel: Einkommensverteilung

• Befurchtet man Ausreißer, so weicht man gelegentlich auf das sogenannte α-getrimmteMittel aus, bei dem man die α% großten und kleinsten Werte (z.B. α=5) weglasst.

Gruppierte Daten: Haufig hat man die Daten nur in gruppierter Form vorliegen. Wielasst sich in diesem Fall ein sinnvoller Mittelwert definieren?

Typisches Beispiel: Einkommensverteilung

Page 38: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

36 3.1. Lagemaße

Anzahl hl Klassenmitten ml

0 ≤ x < 750 3 375

750 ≤ x < 1250 8 1000

1250 ≤ x < 1750 6 1500

1750 ≤ x < 2250 2 2000

2250 ≤ x < 3250 1 2750∑

20

Idee: Weniger Antwortverweigerung und weniger verfalschte Antworten. Auch: Anonymi-sierung

Definition: Sei X ein intervallskaliertes Merkmal, das in gruppierter Form mit k Klassen[c0, c1), [c1, c2), . . . , [ck−1, ck] erhoben wurde. Mit hl, l = 1, . . . k, als absoluter Haufigkeitder l−ten Klasse, fl als zugehoriger relativer Haufigkeit und ml := cl+cl−1

2als der jeweiligen

Klassenmitte definiert man als arithmetisches Mittel fur gruppierte Daten

xgrupp :=1

n

k∑

l=1

hlml =k∑

l=1

flml.

Im Beispiel:

xgrupp =1

n

k∑

l=1

hlml

=1

20· (3 · 375 + 8 · 1000 + 6 · 1500 + 2 · 2000 + 1 · 2750)

= 1243.75

Bemerkungen:

• Bei nach oben offener letzter Kategorie (Einkommen großer als 2250), ware dieKlassenmitte nicht definiert.

• Im Allgemeinen gilt x 6= xgrupp , nur in Extremfallen, z.B. wenn das Merkmal in jederGruppe gleichmaßig verteilt ist, erhalt man die Gleichheit.

Informationsverlust bei Gruppierung!

• xgrupp hangt von der Gruppenmitte und damit von der gewahlten Gruppierung ab:Fasst man z.B. die ersten drei Gruppen und die letzten beiden jeweils zusammen,so erhalt man

hj mj

0 ≤ x < 1750 17 8751750 ≤ x < 3250 3 2500

Page 39: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 37

und

xgrupp =1

20(17 · 875 + 3 · 2500) = 1118.75.

• Im Allgemeinen ist xgrupp naturlich nur eine grobe Approximation an den”echten“,

d.h. auf ungruppierten Daten beruhenden, Mittelwert. Eigentlich kann man nur mitSicherheit folgende Abschatzung geben: Jeder in der l-ten Gruppe verdient minde-stens cl−1 und hochstens cl. Damit ergibt sich als Abschatzung fur das arithmetischeMittel

1

n

k∑

l=1

hlcl−1 ≤ x ≤ 1

n

k∑

l=1

hlcl

Diese Abschatzung ist oft relativ grob. Andererseits ist sie aber das beste, was manohne unuberprufbare Zusatzannahmen aus den Daten herausholen kann.

• Sind die ungruppierten Daten erhaltlich, so ist x vorzuziehen, da jede GruppierungInformationsverlust mit sich bringt.

• Andererseits sind gruppierte Daten leichter (und oft wahrheitsgetreuer) erhebbar.

Geschichtete Daten Insbesondere bei Tertiaranalysen hat man haufig nicht die Urlistezur Verfugung, sondern nur Mittelwerte xl in einzelnen Schichten l = 1, . . . , z, in die dieGrundgesamtheit zerlegt ist.

Beispiel:xl Durchschnittseinkommen in den einzelnen Bundeslandern (l = 1, . . . , 16)

x Durchschnittseinkommen in der BRD

Zur Bildung des Gesamtmittels verwendet man das gewogene arithmetische Mittel

x =1

n

z∑

l=1

nlxl

wobei nl die Anzahl der Elemente in der l-ten Schicht bezeichnet.

Durch die Gewichtung mit nl wird beispielsweise die unterschiedliche Bevolkerungszahlin der Bundeslandern berucksichtigt (z.B. Bayern 12.38 Mio.; Bremen/Bremerhaven 0.66Mio.).

Im Gegensatz zur Gruppenbildung entsteht hier kein Informationsverlust, da ja letztlichnur die Urliste anders geordnet wird.

Im Beispiel:

x =1

n

n∑i=1

xi

=1

n(Eink. aller Bayern + Eink. aller Baden-Wurtemberger + . . .)

=1

n(Anzahl der Bayern ·Durchschnitt Bayern + Anzahl BW ·Durchschnitt BW + . . .)

Page 40: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

38 3.1. Lagemaße

Unterschied zwischen gruppierten Daten und geschichteten Daten: Im ersten Fall wird dasMerkmal verandert, also fur jede Person der Wert verandert, wahrend im zweiten Fall dieWerte nicht verandert werden, sondern die Personen nur in den Schichten zusammenge-fasst werden.

3.1.2 Median & Quantile

• Wie lasst sich ein Mittelwert bei ordinalskalierten Merkmalen definieren?

• Das arithmetische Mittel besitzt die Schwerpunkteigenschaft

n∑i=1

(xi − x) = 0.

• Eine andere mogliche Schwerpunkteigenschaft: Rechts und links des Mittelwertsliegen jeweils (mindestens) 50% der Daten. Dies ergibt den Median.

Definition: Gegeben sei die Urliste x1, . . . , xn eines (mindestens) ordinalskalierten Merk-mals X. Jede Zahl xmed mit

|i|xi ≤ xmed|n

≥ 0.5 und|i|xi ≥ xmed|

n≥ 0.5

heißt Median.

Anschauliche Interpretation: Der Median teilt den geordneten Datensatz in zwei gleichgroße Halften; die Halfte der Einheiten hat eine Auspragung ≤ xmed, die andere ≥ xmed.

Beispiel: Klausurnoten

1,1,1, . . . , 1 2,2,2, . . . , 2 3,3,3, . . . , 3 4,4,4, . . . , 4 5,5,5, . . . , 5︸ ︷︷ ︸ ︸ ︷︷ ︸ ︸ ︷︷ ︸ ︸ ︷︷ ︸ ︸ ︷︷ ︸

65 mal 96 mal 91 mal 78 mal 53 mal17% 25,1% 23,8% 20,4% 13,8%

︸ ︷︷ ︸222 mal

58%︸ ︷︷ ︸252 mal65,8%

Aus|i|xi ≤ 3|

n.= 65, 8% ≥ 0, 5 und

|i|xi ≥ 3|n.

= 58% ≥ 0, 5

folgt xmed = 3.

Page 41: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 39

Verallgemeinerung: Quantile Gegeben sei die Urliste x1, . . . , xn eines (mindestens) or-dinalskalierten Merkmals X und eine Zahl 0 < α < 1. Jede Zahl xα mit

|i|xi ≤ xα|n

≥ α und|i|xi ≥ xα|

n≥ 1− α

heißt α · 100%-Quantil.

Spezielle Quantile:

• Median: x0.5 = xmed .

• Quartile: x0.25, x0.75.

• Dezile: x0.1, x0.2, . . . , x0.8, x0.9.

Beispiel Klausurnoten:

x0.25 = 2 x0.1 = 1

Bemerkungen:

• Alternative Definition des Medians uber die geordnete Urliste x(1) ≤ x(2) ≤ . . . ≤x(n):

xmed :=

12

(x(n

2 )+ x(n

2+1)

)fur n gerade

x(n+12 ) fur n ungerade

Ahnlich fur andere Quantile moglich.

• Diese Definition ist insofern inkonsequent, als sie auf die bei ordinalen Daten strenggenommen nicht zulassige Addiditionen rekurriert. Bei intervallskalierten Daten hin-gegen spricht vieles fur diese Definition.

• Andererseits konnen in gewissen Grenzfallen Quantile im Sinne der ursprunglichenDefinition nicht eindeutig sein:

8 Beobachtungen zu Schulnoten, wobei

4 Beobachtungen mit Note 24 Beobachtungen mit Note 3

⇒ Jede Zahl zwischen 2 und 3 ist Median.

• Beide Definitionen sind letztlich in den praktisch relevanten Fallen miteinandervertraglich. Fur n ungerade fallen sie stets zusammen, fur n gerade stimmen sieuberein, falls x(n

2 )= x(n

2+1)

• Man kann Quantile einfach an der empirischen Verteilungsfunktion ablesen:

Page 42: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

40 3.1. Lagemaße

6

1− α

α

α

1 2 3 4 5@@I xα

Auch Nicht-Eindeutigkeit demonstrieren.

• Bei linearer Interpolation fur gruppierten intervallskalierten Merkmalen definiertman die Quartile analog uber den Schnittpunkt mit der Verteilungsfunktion:

-

6

³³³³³¡¡

¡¡

¡¡

¡¡¡

α

Transformationen: Wie andert sich der Median bei Transformation der Daten?

Beim arithmetischen Mittel gilt bei Y = g(X) im Allgemeinen y = g(x) nur, falls g linearist, also fur Y = a ·X + b. Die fur ordinale Daten charakteristische Rangordnung bleibthingegen unter beliebigen streng monoton steigenden Transformationen (z.B. Y = X3)erhalten.

Streng monoton steigend erklaren

Satz: Sei x1, x2, . . . , xn die Urliste eines (mindestens) ordinalskalierten Merkmals X, geine streng monoton steigende Funktion und y1 = g(x1), . . . , yn = g(xn) die Urliste desMerkmals Y = g(X). Dann gilt:

ymed = g(xmed).

Merkmal X Merkmal Y-g streng monoton

? ?

xmed ymed-g

Page 43: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 41

Beispiel: Drei quadratische Zimmer

Fur die Merkmale X (Seitenlange) und Y = f(X) = X2 (Flache) galt ja mit den Daten

x1 = 7, x2 = 4, x3 = 10

und y1 = x21 = 49 y2 = x2

2 = 16 y3 = x23 = 100

fur die arithmetischen Mittel

f(x) = (x)2 6= y.

Fur die Mediane gilt aber mit den geordneten Werten

x(1) = 4, x(2) = 7, x(3) = 10

und y(1) = 16 y(2) = 49 y(3) = 100

xmed = 7 und ymed = 49

also in der Tat f(xmed) = (xmed)2 = ymed.

Gegenbeispiel mit nicht monotoner Funktion:

g(X) = (X − 6)2 ist nicht monoton, sondern u-formig. Fur das Merkmal Z = g(X) =(X − 6)2 ergeben sich die Merkmalsauspragungen z1 = 1, z2 = 4 und z3 = 16 und damitder Median zmed = 4 Fur den transformierten Median gilt aber g(xmed) = g(7) = 1.

Wegen seiner Invarianz gegenuber beliebigen streng monotonen Transformationen bietetsich der Median als Lagemaß auch in allen Situationen an, in denen es trotz Intervallskalakeine naturliche Maßeinheit gibt. Beispielsweise ist bei vielen Einstellungsmessungen nichtklar, ob man auf einer linearen oder auf einer logarithmischen Skala messen soll.⇒ Betrachtung der Rangstatistiken.

3.1.3 Modus

• Gesucht: geeignetes Lagemaß bei auf Nominalskala gemessenen Daten?

• Der exakte Wert der als Merkmalsauspragungen vergebenen Zahlen ist inhaltlichvollig bedeutungslos, d.h, etwas formaler: beliebige eineindeutige Transformationenverandern die inhaltliche Aussage nicht (z.B. Parteienpraferenz).

• Als Lagemaß dient der haufigste Wert : genauer die Auspragung aj mit der großtenHaufigkeit hj.

Definition: Sei x1, . . . , xn die Urliste eines nominalskalierten Merkmals mit den Aus-pragungen a1, . . . , ak und der Haufigkeitsverteilung h1, . . . , hk, so heißt aj∗ Modus xmod

genau dann, wenn hj∗ ≥ hj, fur alle j = 1, . . . , k.

Page 44: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

42 3.1. Lagemaße

Bemerkungen:

• Der Modus wird auch als Modalwert bezeichnet.

• Existieren mehrere Auspragungen mit der gleichen (großten) Haufigkeit, so ist derModus nicht eindeutig.

• Der Modus unter beliebigen eineindeutigen Transformationen erhalten: Betrachtetman das Merkmal X, eine eineindeutige Transformation g und das Merkmal Y =g(X), so gilt

ymod = g(xmod).

Merkmal X Merkmal Y-g eindeutig

? ?

Modus xmod Modus ymod-g

3.1.4 Vergleich der Lagemaße

• Bei intervallskalierten Daten darf man auch den Modus oder den Median anwenden,man verschenkt (bei alleiniger Verwendung) aber eventuell Information.

• Der Median geht nur auf die Ordnung der Beobachtungen und nicht auf die Abstandeein, der Modus gibt nur die am starksten vertretende Auspragung an.

• Median und Modus sind unempfindlich gegenuber Ausreißern.

Beispiel: Einkommensverteilung

Wird die großte Beobachtung verhundertfacht, so andern sich Median und Modus nicht,das arithmetische Mittel reagiert dagegen stark. Generell ist bei der Betrachtung vonEinkommen das arithmetische Mittel meist deutlich großer als der Median.

Unterschiedliche Verwendung bei Arbeitgebern und Gewerkschaften

Beispiel: Statistikbucher. Haufigkeitsverteilung und zur graphischen Veranschaulichungein maßstabtreues

”Pseudostabdiagramm“:

Haufigkeitena1 = 0 h1 = 2a2 = 1 h2 = 2a3 = 2 h3 = 4a4 = 3 h4 = 1a5 = 12 h5 = 1

Page 45: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 43

0 1 2 3 12

tt

tt

tttt

t t

Mittelwert x=2.5x0.25=1 Median xmed =2 x0.75=2

Allgemeiner gilt: Die relative Lage von x, xmed, xmod zueinander kann zur Charakterisie-rung von Verteilungen herangezogen werden:

symmetrisch: x ≈ xmed ≈ xmod

linkssteil: x > xmed > xmod

rechtssteil: x < xmed < xmod

x = 3.57

xmed = 3

xmod = 2

x = 5

xmed = 5

xmod = 5

Page 46: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

44 3.1. Lagemaße

x = 6.43

xmed = 7

xmod = 8

Exkurs: Lagemaße als Losung eines Optimierungsproblems Alternative Moglichkeit,Lagemaße zu begrunden, die spater in der Regressionsanalyse verallgemeinert wird.

Gegeben sei die Urliste x1, . . . , xn eines intervallskalierten Merkmals X. Gesucht ist eineZahl a, so dass Gesamtabstand zwischen a und den Daten minimal wird. Misst man denAbstand

quadratisch (x− a)2 so ergibt sich fur a xlinear durch den Absolutbetrag |x− a| so ergibt sich fur a xmed

durch die Indikatorfunktion 1(x = a) so ergibt sich fur a xmod .

Fur alle anderen a ∈ R gilt:

n∑i=1

(xi − x)2 ≤n∑

i=1

(xi − a)2,

n∑i=1

| xi − xmed |≤n∑

i=1

|xi − a|.

x minimiert also den quadratischen Abstand und xmed den betragsmaßigen Abstand

zu den Daten. Bei quadratischem Abstand werden große Abstande sehr groß.

3.1.5 Geometrisches Mittel

Es gibt Falle, bei denen das arithmetische Mittel selbst bei intervallskalierten Merkmalennicht angemessen ist, zum Beispiel fur Wachstumsraten oder Geschwindigkeiten.

Sei Ω = 0, . . . , n eine Menge von Zeitpunkten und B(i) =: bi ein zum Zeitpunkt ierhobenes Merkmal, z.B. das Bruttosozialprodukt.

Fur i = 1, . . . , n heißt

xi =bi

bi−1

der i-te Wachstumsfaktor und

ri =bi − bi−1

bi−1

= xi − 1

Page 47: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 45

die i-te Wachstumsrate. Dann bezeichnet man

xgeom :=

(n∏

i=1

xi

) 1n

= (x1· x2· . . . ·xn)1n

als das geometrische Mittel der Wachstumsfaktoren x1, . . . , xn.

Beispiel: Wirtschaftwachstum gemessen zu drei Zeitpunkten.

i 0 1 2bi 1000 1500 750

︸ ︷︷ ︸ ︸ ︷︷ ︸xi 1.5 0.5ri 0.5 -0.5

⇒ Wirtschaft wachst im ersten Jahr um 50% und schrumpft im nachsten Jahr um 50%.Ergib sich im Durchschnitt ein Nullwachstum (x = 1, r = 0)?

Geometrisches Mittel der Wachstumsfaktoren:

xgeom =

(n∏

i=1

) 1n

= (x1 · x2)12 =

√1.5 · 0.5 =

√0.75 ≈ 0.8660

Bemerkungen:

• Es giltbn = b0 · (xgeom)n

d.h. xgeom ist tatsachlich ein durchschnittlicher Wachstumsfaktor, also derjenigeWert, der sich aus bn und b0 ergabe, wenn zu allen Zeitpunkten konstantes Wachstumgeherrscht hatte. Im Beispiel gilt in der Tat:

b2 = b0(xgeom)2 = 1000 · (0.866)2 = 750.

• Das geometrische Mittel kann auch zur Prognose (unter Stabilitatsannahme = durch-schnittliches Wachstum bleibt gleich) verwendet werden:

bn+q = bn · (xgeom)q, q ∈ N.

• Logarithmieren liefert:

ln xgeom =1

n

n∑i=1

ln xi.

Das geometrische Mittel ist also ein arithmetisches Mittel auf der logarithmiertenSkala.

• Man kann zeigen:xgeom ≤ x

i.A. wurde also die Angabe von x erhohte Wachstumsraten vortauschen.

Page 48: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

46 3.2. Streuungsmaße

3.1.6 Harmonisches Mittel

Beispiel: Die Entfernung von A nach B sei 99 km. Herr K. humpelt von A nach B mitkonstant 1 km/h und fahrt zuruck mit konstant 99 km/h. Wie groß ist seine Durch-schnittsgeschwindigkeit?

Naive Losung: 50 km/h.

Mit konstant 50 km/h wurde Herr K. nur knappe 4 Stunden fur den Gesamtweg brauchen(198 km / 50 km/h) brauchen. Tatsachlich braucht er aber 100 Stunden!

Durchschnittsgeschwindigkeit =zuruckgelegter Weg

Zeit=

198 km

100 h= 1.98 km/h

Berechnung uber die Geschwindigkeiten: Die Entfernung von A nach B sei w.

Hinweg: Geschwindigkeit v1 Zeit t1 = wv1

Ruckweg: Geschwindigkeit v2 Zeit t2 = wv2

Durchschnittsgeschwindigkeit

w + w

t1 + t2=

2 · wwv1

+ wv2

=2

1v1

+ 1v2

=1

12

(1v1

+ 1v2

)

(”Kehrwert der durchschnittlichen Kehrwerte“).

Allgemein: Sei x1, . . . , xn mit xi 6= 0 fur alle i die Urliste eines verhaltnisskalierten Merk-mals X. Dann heißt

xhar :=1

1n

∑ni=1

1xi

das harmonische Mittel der x1, . . . , xn.

3.2 Streuungsmaße

Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzu-reichend beschrieben.

Beispiel: Haufigkeitsverteilungen mit gleicher zentraler Tendenz:

Page 49: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 47

geringe Variabilität

−15 −10 −5 0 5 10 15

0.0

0.1

0.2

0.3

0.4

0.5

mittlere Variabilität

−15 −10 −5 0 5 10 15

0.0

0.1

0.2

0.3

0.4

0.5

große Variabilität

−15 −10 −5 0 5 10 15

0.0

0.1

0.2

0.3

0.4

0.5

Streuungsmaße beantworten Fragen wie• Wie groß ist die durchschnittliche Abweichung vom Mittelwert?

• Uber welchen Bereich erstrecken sich die Beobachtungen?

• Wie stark schwanken die Beobachtungen?

Bemerkung : Von Streuung kann man nur bei mindestens intervallskalierten Daten spre-chen, da nur dort Abstande interpretierbar sind.

3.2.1 Varianz und Standardabweichung

Varianz : Sei x1, . . . , xn die Urliste eines intervallskalierten Merkmals X. Dann heißen

s2X :=

1

n

n∑i=1

(xi − x)2

die (empirische) Varianz oder Stichprobenvarianz und

sX :=√

s2X

die empirische Streuung, Stichprobenstreuung oder Standardabweichung von X.

Bemerkungen:

• Die Varianz misst die durchschnittliche quadratische Abweichung vom Mittelwert.

• Durch das Quadrieren tragen negative und positive Abweichungen vom Mittelwertgleichermaßen zur Varianz bei.

Zur Erinnerung: Es giltn∑

i=1

(xi − x) = 0.

• Die Varianz besitzt im Vergleich zum Merkmal X die quadrierte Einheit. Die Stan-dardabweichung dagegen wird in der gleichen Einheit gemessen wie X.

Am Beispiel quadratischer Zimmer erklaren

Page 50: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

48 3.2. Streuungsmaße

• Sind die Auspragungen a1, . . . , ak mit (relativer) Haufigkeitsverteilung h1, . . . , hk

bzw. f1, . . . , fk gegeben, so gilt

s2X =

1

n

k∑j=1

hj(aj − x)2 =

=k∑

j=1

fj(aj − x)2.

• Ist aus dem Kontext klar ersichtlich welches Merkmal betrachtet wird, so lasst mandas X in der Notation auch haufig weg, schreibt also einfach s2 und s.

Beispiel: Statistikbucher

Auspragungen hj

0 21 22 43 112 1∑

10

Berechnung der Varianz uber die ursprungliche Formel:

s2 =1

n

n∑i=1

(xi − x)2

=1

10((0− 2.5)2 + (0− 2.5)2 + (1− 2.5)2 + (1− 2.5)2

+(2− 2.5)2 + (2− 2.5)2 + (2− 2.5)2 + (2− 2.5)2 + (3− 2.5)2 + (12− 2.5)2)

=108.5

10= 10.85

Berechnung uber die Haufigkeitsverteilung:

s2 =1

n

n∑i=1

hj(aj − x)2

=1

10(2 · (0− 2.5)2 + 2 · (1− 2.5)2 + 4 · (2− 2.5)2 + (3− 2.5)2 + (12− 2.5)2)

= 10.85

Standardabweichung:

s =√

10.85 ≈ 3.29 (Einheit: Bucher)

Transformationen : Wie andert sich die Varianz bei (linearer) Transformation einesMerkmals?

DMX

−→f EuroY

↓ ↓s2

X −→?? s2Y

Page 51: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 49

Satz: Sei x1, . . . , xn die Urliste eines mindestens intervallskalierten Merkmals X mitsX > 0 und y1, . . . , yn die zugehorige Urliste des Merkmals Y = a ·X + b. Dann gilt

s2Y = a2 · s2

X

undsY = |a| · sX .

Bemerkungen:

• Die additive Konstante b spielt keine Rolle. Diese bewirkt lediglich eine Verschiebungder Haufigkeitsverteilung, andert aber nicht die Form.

• Vorfaktoren sind bei der Varianz quadratisch”herauszuziehen“. Insbesondere gilt

fur Y = −Xs2

Y = (−1)2 · s2X .

Beispiel: Spiel von A gegen B, X=Gewinn von A, Y =Verlust von B.

• Eine spezielle Transformation, die sogenannte Standardisierung, ist der Ubergangzum Merkmal Z mit

zi :=xi − x

sX

.

Z besitzt arithmetisches Mittel 0 und (empirische) Varianz 1. Man erzeugt damitin gewisser Weise eine naturlich Skala.

Begrundung: zi lasst sich darstellen als

zi =xi − x

sX

=1

sX

xi +

(− x

sX

)

so dass die Anwendung der Transformationsregeln mit a = 1sX

und b = −xsX

ergibt:

z = a · x + b =1

sX

· x + (−x

sX

) = 0

s2Z = a2 · s2

X =1

s2X

· s2X = 1

Verschiebungssatz: Es giltEinfachere Berechnung der Varianz.

s2X =

1

n

n∑i=1

x2i −

(1

n

n∑i=1

xi

)2

= x2 − (x)2.

Achtung (sehr haufige Fehlerquelle):

x2 erst quadrieren, dann Mittelwert

(x)2 erst mitteln, dann quadrieren

Der Verschiebungssatz ist sehr bequem zum Berechnen der Varianz, es konnen aber beimVerwenden von Taschenrechnern bei sehr großen Auspragungen starke Rundungsfehlerauftreten, die das Ergebnis eventuell verfalschen. Fur Aufgaben von Klausurlange aberden Verschiebungssatz verwenden!

Page 52: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

50 3.2. Streuungsmaße

Beispiel: Statistikbucher.

Berechne die empirische Varianz mit Hilfe des Verschiebungssatzes.

Anzahl Bucher: XPerson i xi x2

i

1 0 02 2 43 1 14 2 45 2 46 3 97 0 08 12 1449 1 110 2 4

25 171

x = 2.5 x2 = 17.1

s2X = x2 − (x)2 = 17.1− (2.5)2 = 10.85, sX = 3.29

Varianzzerlegung / Streuungszerlegung: Varianz bei geschichteten Daten.Zur Erinnerung: Daten liegen oft in Schichten vor (v.a. bei Sekundar- und Tertiarerhe-bungen). Beispiel: Daten uber Einkommensverteilung geschichtet nach Bundesland. Beider Berechnung von x waren die einzelnen Besetzungszahlen sehr wichtig.

Schicht 1, . . . , l, . . . , z

Besetzungszahlen n1, . . . , nl, . . . , nz;z∑

l=1

nl = n

Mittelwerte x1, . . . , xl, . . . , xz

Varianzen s21, . . . , s

2l , . . . , s

2z

Fur das arithmetische Mittel gilt

x =1

n

z∑

l=1

nlxl.

Seien nun

s2innerhalb :=

1

n

z∑

l=1

nls2l

sowie

s2zwischen :=

1

n

z∑

l=1

nl(xl − x)2

• s2innerhalb gibt die durchschnittliche Varianz innerhalb der Schichten an.

• s2zwischen gibt die Varianz der Durchschnittswerte zwischen den Schichten an.

Page 53: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 51

• s2zwischen = 0 gilt genau dann, wenn die Durchschnittswerte in allen Landern gleich

waren. Dann gibt s2innerhalb die gesamte Streuung an.

• s2innerhalb = 0 gilt genau dann, wenn in jeder Schicht (also z.B. in jedem Bundesland)

alle jeweils diesselbe Merkmalsauspragung (z.B das gleiche Einkommen) hatten.

Wie setzt sich die Gesamtvarianz aus den beiden Bestandteilen zusammen?

Varianzzerlegung Es gilt

Gesamtvarianz = Varianz in. d. Schichten + Varianz zw. d. Schichtens2 = s2

innerhalb + s2zwischen .

Bemerkungen:

• Im Detail gilt also mit den Urlisten x1l, x2l, . . . , xnll in Schicht l, l = 1, . . . , z,

1

n

z∑

l=1

(

nl∑i=1

(xil − x)2) =1

n

z∑

l=1

nl∑i=1

(xil − xl)2 +

1

n

z∑

l=1

nl(xl − x)2.

• Diese Zerlegungsmoglichkeit gilt nur fur Varianzen, nicht aber fur andere Streu-ungsmaße. Letztendlich ist sie der Grund fur die Beliebtheit der Varianz – trotzanderer Unannehmlichkeiten. Deshalb sollte man eher von der Varianzzerlegung alsvon der Streuungszerlegung sprechen.

• Bei vielen Verfahren werden Streuungszerlegungen betrachtet; dies ist ein ganzgrundlegendes Prinzip in der Statistik.

• Interpretation anhand des Beispiels mit den Einkommen der einzelnen Bundeslander:Ist s2

zwischen im Vergleich zu s2innerhalb groß, so bedeutet dies, dass sich die einzelnen

Landermittelwerte relativ stark unterscheiden, also dass die geographische Herkunft(das Bundesland) eine große Rolle spielt.

Korrigierte empirische Varianz: Neben der empirischen Varianz existiert noch einealternative Definition der Varianz, die korrigierte empirische Varianz.

Sei x1, . . . , xn die Urliste eines intervallskalierten Merkmals X. Dann heißt

s2X :=

1

n− 1

n∑i=1

(xi − x)2

die korrigierte empirische Varianz oder korrigierte Stichprobenvarianz von X.

Bemerkungen:

• Der Sinn des Vorfaktors 1n−1

wird erst in Statistik II deutlich: s2X hat theoretisch

schonere Eigenschaften als s2X .

• Fur großen Stichprobenumfang n nahern sich s2X und s2

X an, weil dann n− 1 ≈ n.

Page 54: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

52 3.2. Streuungsmaße

• Auch fur die korrigierte Varianz gilt die Aussage zu linearen Transformationen, d.h.ist x1, . . . , xn die Urliste eines mindestens intervallskalierten Merkmals X mit sX > 0und y1, . . . , yn die zugehorige Urliste des Merkmals Y = a ·X + b. Dann gilt

s2Y = a2 · s2

X .

3.2.2 Weitere Streuungsmaße

Variationskoeffizient: Der konkrete Wert der Varianz oder Standardabweichung (z.B.sX = 3.29 im Statistikbucher-Beispiel) ist schwierig zu interpretieren. Ist sX = 3.29 großoder klein? Die Interpretation hangt insbesondere von der Einheit ab, in der X gemessenwird (z.B. DM, Euro, Bucher oder Regale). Gesucht ist eine dimensionslose Zahl zurStreuungsmessungen!

Definition: Ist x > 0, so heißt die Große

vX :=sX

x

Variationskoeffizient des Merkmals X.

Bemerkungen:

• Gemessen wird hier die Streuung relativ zum Mittelwert. Insbesondere ist vX di-mensionslos.

• Der Variationskoeffizient erlaubt beispielsweise auch den Vergleich der Streuung vonPreisen, die in verschiedenen Wahrungen gemessen wurden.

Inter-Quartils-Abstand: Sind x0.25 und x0.75 das obere und das untere Quartil einesMerkmals, so heißt

dQX := x0.75 − x0.25

der Interquartilsabstand.

Der Inter-Quartils-Abstand misst die Spannweite der zentralen 50% der Daten, die extre-meren Beobachtungen (z.B. 25% Armste, 25% Reichste) werden dagegen nicht berucksich-tigt. Da die Quartile eventuell nicht eindeutig sind, ist dQ auch manchmal nicht eindeutig.

Median-Absolute-Deviation: Der Median der Werte |xi − xmed|, i = 1, . . . , n heißtMedian-Absolute-Deviation von X (MADX).

Spannweite: Die GroßeRX := x(n) − x(1)

heißt Spannweite von X.

Page 55: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

Kapitel 3. Lage- und Streuungsmaße 53

Bemerkungen

• Alle betrachteten Streuungsmaße sind nur fur (mindestens) intervallskalierte Merk-malse sinnvoll definiert, da sie auf Abstanden (typischerweise dem Abstand derBeobachtungen zu einem Lagemaß) beruhen.

• s2, s, s2, s sind die gebrauchlichsten Streuungsmaße.

• s2, s, s2, s sind sehr empfindlich gegenuber Ausreißern! Das Gleiche gilt fur dieSpannweite R. MAD und dQ hingegen entstammen der sogenannten robusten Sta-tistik, die sich um ausreißerresistente Methoden bemuht.

• Gilt x1 = x2 = . . . = xn, so weisen alle Streungsmaße den Wert 0 auf. Mit Ausnahmevon dQ gilt auch die Umkehrung: Sind die Steuungsmaße (außer eben dQ) = 0, sosind alle Werte der Urliste gleich.

• Haufig Ursache fur Verwirrung und Missverstandnisse: Der Begriff”Streuung“ wird

in der Statistik in einem doppelten Sinn gebraucht:

– in einem allgemeinen Sinn: Streuung als Phanomen (”Die Daten streuen stark“).

– in einem speziellen Sinn: als eine Maßzahl fur dieses Phanomen.

Beispiel: Statistikbucher

Auspragungen hj

0 21 22 43 112 1∑

10vX = sX/x = 3.29/2.5 = 1.316.

x0.25 = 1 x0.75 = 2 ⇒ dQX = 1.

RX = 12.

3.3 Box-Plot

Ziel: Grafische Zusammenfassung wichtiger Kennzahlen, die nicht ausreißeranfallig sind.

• x0.25, x0.50, x0.75.

• Interquartilsabstand: dQX = x0.75 − x0.25

•”Zaune“: zu := x0.25 − 1.5 · dQX

zo := x0.75 + 1.5 · dQX

• Ausserhalb der Zaune werden alle Punkte eingezeichnet; sie sind ausreißerverdachtig.

Page 56: Statistik I f Äur Studierende der Soziologiewalter.userweb.mwn.de/lehre/Stat1Soz_0809/material/Stat1Soz_0809... · 4 1.2. Was ist Statistik? Ausma¼ des Mangels an quantitativ quali¯zierten

54 3.3. Box-Plot

· · · · · · · · · ·w

zu zox0.25 x0.75

©©©¼Box

?

Median

︸ ︷︷ ︸dQX

HHHY je starker die Daten in der Mittestreuen, desto großer ist die Box

Vorsicht bei der Anwendung von Software! Vor allem außerhalb der Box sind auch andereDarstellungen ublich (z.B. Zaune immer bis x(1) und x(n)). Toutenburg (2002) beispielswei-se unterscheidet zwischen Ausreißern (1.5 ·dQX bis 3 ·dQX von Randern der Box entfernt)und Extremwerten (mehr als 3 ·dQX vom Rand entfernt). SPSS druckt den Median durcheinen dicken Strich aus.

Der Box-Plot gibt einen kompakten Uberblick uber die Form der Verteilung (ZentraleTendenz, Variabilitat, Schiefe, extreme Werte).

Box-Plots konnen auch zum Vergleich von Verteilungen verwendet werden: