Statistik I im Sommersemester 2006 - uni-goettingen.de · Vorlesung Statistik I 4 Wiederholung:...
Transcript of Statistik I im Sommersemester 2006 - uni-goettingen.de · Vorlesung Statistik I 4 Wiederholung:...
Themen am 23.4.2007:
Univariate Häufigkeitsverteilungen I• Darstellung univariater Verteilungen in Häufigkeitstabellen• Verteilungsfunktionen und Quantile• Grafische Darstellungen metrischer Verteilungen
Lernziele:1. Aufbau und Interpretation von Häufigkeitstabellen2. Bedeutung und Berechnung von Quantilen aus Rohdaten und
gruppierten und ungruppierten Häufigkeitstabellen3. Stabbiagramme, Histogramme und Dichtedarstellungen4. Formen von Verteilungen
Statistik I im Sommersemester 2006
Vorlesung Statistik I 2
Wiederholung der wichtigsten Inhalte der letzten Sitzung
Gegenstand der Statistk:Mathematische Modellierung von Verteilungen
Univariate Verteilungen
Multivariate Verteilungen
Verteilungsparameter(Quantile, Lagemaße,Streuungsmaße)
Wahrscheinlichkeitstheorie,Schätzen und Testen
DrittvariablenkontrolleKonditionale u. Partielle EffektePrüfung der Angemessenheitstatistischer Modelle
Deskriptive Statistik Induktive Statistik / Inferenzstatistik
Bivariate Verteilungen Beschreibung und Prüfung von bivariaten Zuammenhängen
Vorlesung Statistik I 3
• Zur Klärung von empirischen Fragen, Formulierung und Prüfung von Vermutungenbenötigen die Sozialwissenschaften empirische Daten.
• Bei der Analyse der Daten besteht Gefahr von Fehlinterpretationen.
• Fehlerquellen:- ungenügendes inhaltliches Vorwissen über Forschungsgebiet,- ungenügende Kenntnisse über statistische Datenanalyse.
Ziel der Statistikausbildung:Gewinnung von Kenntnissen über statistische Datenanalyse,+ um Aussagekraft von empirischen Studien zu beurteilen, + um bei eigenen Analysen aussagekräftige Ergebnisse zu erhalten
Wiederholung: Warum Statistik?
Vorlesung Statistik I 4
Wiederholung: Methoden-Modul 2. Grundlagen sozialwissenschaftlicher Datenanalyse
1.Vorlesung Statistik I( 90 Minuten Stoffvermittlung, Fragen, Beispielaufgaben)
dazuTutorien zur Vorlesung (90 Minuten Diskussion offener Fragen,
Lösung der Übungsaufgaben, bei Bedarf Auffrischung von Mathe-Kenntnissen)
2. Übung zu Statistik IA. Statistik mit ExceloderB. Statistik mit SPSSoderC. Statistik mit STATA
MM2 beinhaltet 2 Veranstaltungen:
A. und B. Vermittlung/Vorführung (45 Minuten Vorlesung)+ praktische Übung (45 Minuten Tutorium)
C. Vermittlung u. Übung (90 Minuten) ohne Tutorium
→ Abschlussklausur Teil A (90 Minuten)
→ Abschlussklausur Teil B (90 Minuten)
Workload = 8 Credits a 30 Stunden
Vorlesung Statistik I 5
Benennung von Korrespondenzregeln, mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichnetenSachverhalts festgestellt wird
Über Operationalisierung erfolgt also Verbindung zwischen Begriffen und empirisch beobachtbaren Sachverhalten.
Formulierung von Korrespondenzregeln
Forschungsfrage mit Begriffen, die empirische Sachverhalte beinhalten
Explikation der Begriffe
Formulierung einer Messtheorie mit Korrepondenzhypothesen
↓
↓
↓
Variablen, Ausprägungen und Realisierungen
Variable(z.B. „Geschlecht“)
Menge möglicher Ausprägungen(z.B.: {männlich, weiblich]
Fälle(z.B. Personen)
Realisierung bei einem Fall(z.B. Herr X ist männlich)
bezieht sich auf
hat Element aus derMenge aller Fälle
Konkretisierung
Wiederholung: Operationalisierung
Vorlesung Statistik I 6
Wiederholung: Beobachten und Messen
(1) Messen im weiteren Sinne bezieht sich auf den Akt der Datenerhebung. In der Sozialforschung spricht man auch von Beobachtung.
(2) Messen im engeren Sinne bezieht sich auf die Zuordnung von Zahlen zu den bereitsbeobachteten empirischen Eigenschaften eines ObjektsMessen im engeren Sinne wird technisch auch als Kodierung bezeichnet.
Messen in der axiomatischen Messtheorie: Messen ist eine homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ
Nominalskala ja nein nein neinOrdinalskala ja ja nein neinIntervallskala ja ja ja neinRatioskala ja ja ja ja
Interpretierbare RelationenIdentität Ränge Abstände Quotienten
Intervall- und Ratioskalen werden auch als metrische Skalen bezeichnet.
Vorlesung Statistik I 7
Wiederholung: Messniveau: Zulässige Transformationen
Skalen- Zulässige Transformationen Beispiele für erlaubte mathematischeniveau Operationen
Nominal Alle ein-eindeutigen Transfor- Logarithmieren, Multiplikation,mationen Addition (Subtraktion) einer Konstanten
Ordninal Alle positiv-monotonen, die Wenn Ausgangswerte > 0:Rangordnung wahrenden Trans- Quadrieren, Logarithmieren, Wurzel-formationen ziehen
Intervall Alle positiven linearen Trans- Y = a + b ⋅ X mit b> 0formationen
Ratio Streckungen und Stauchungen Y = b ⋅ X mit b> 0
Die axiomatischen Messtheorie nennt als Voraussetzungen Repräsentation, Eindeutigkeitund Bedeutsamkeit, die zur Erreichung eines bestimmten Messniveaus nachgewiesen werden müssen.
Vorlesung Statistik I 8
In einer Datenmatrix sind die Informationen i.a. so angeord-net, dass jede Zeile die gesamten verfügbaren Informationen (Realisierungen aller Varia-blen) bei einem Fall enthält,und dass jede Spalte alle Realisierungen einer Variablen über alle Fälle enthält.
Merkmale der Untersuchungseinheiten (Variablen)Fall -
nummerAntwort Frage 1
Antwort Frage 2a
Antwort Frage 2b
Ge-schlecht
Geburts-jahr
ID F1 F2A F2B F3 F41 3 2 2 1 1943 2 2 8 1 2 19603 4 1 2 2 19574 9 8 1 1 19395 2 2 1 2 99996 8 8 1 1 19567 4 2 2 2 19708 1 1 2 1 19209 3 2 1 2 1956U
nter
such
ungs
einhe
iten
(Fäll
e)
10 4 2 2 2 1966
Wiederholung: Datenmatrix
Vorlesung Statistik I 9
Bei empirischen Datenanalysen muss für jeden Fall und jede Variable eine Realisierung vorliegen.
Wenn z.B. aufgrund von Antwortverweigerungen keine Antworten in einer vorgegebenen Antwortskala vorliegen, werden spezielle Ausprägungen, die sogenannten ungültigen oder fehlende Werte (missing values) verwendet.
Dabei haben sich Konventionen eingespielt, die möglichst eingehalten werden sollten:
Datenmatrix: Kodierkonventionen für ungültige Fälle
einstellige zweistellige dreistelligeEndziffer Variablen Variablen Variablen
Verweigerung 7 7 97 997 weiß nicht 8 8 98 998keine Angabe 9 9 99 999trifft nicht zu 0 0 0 0
Da die meisten Analysemodelle davon ausgehen, dass es bei den betrachteten Variablen keine fehlenden Werte gibt, werden oft Fälle mit fehlenden Werten bei mindestens einer Variablen aus der Analyse ausgeschlossen (engl: listwise deletion of missing values).
Vorlesung Statistik I 10
Häufigkeitstabellen
Die empirische Verteilung einer Variablen gibt an, wie oft welche Ausprägungen einerVariable in der Datenmatrix (dem Datensatz), d.h. der Menge aller Untersuchungseinheiten, vorkommen.
Bei einer nicht zu hohen Anzahl von realisierten Ausprägungen lässt sich eine univariateHäufigkeitsverteilung ohne Informationsverlust in einer Häufigkeitstabelle darstellen.
Anteile kumulierteAusprägung Kode Häufigkeit insgesamt nur gültige Anteile
völlig unzufrieden 1 1 0.100 0.125 0.125eher unzufrieden 2 2 0.200 0.250 0.375eher zufrieden 3 2 0.200 0.250 0.625sehr zufrieden 4 3 0.300 0.375 1.000weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
Vorlesung Statistik I 11
Häufigkeitstabellen
Anteile kumulierteAusprägung Kode Häufigkeit insgesamt nur gültige Anteile
völlig unzufrieden 1 1 0.100 0.125 0.125eher unzufrieden 2 2 0.200 0.250 0.375eher zufrieden 3 2 0.200 0.250 0.625sehr zufrieden 4 3 0.300 0.375 1.000weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
Die Tabelle enthält die absoluten Häufigkeiten mit der eine Ausprägung im Datensatz vor-kommt.
Im Beispiel kommt die 1. Ausprägung (“völlig unzufrieden“, Kode „1“) mit der absoluten Häufigkeit 1 vor, die zweite Ausprägung („eher unzufrieden“) mit der Häufigkeit 2, die dritte Ausprägung („eher zufrieden“) mit der Häufigkeit 2, die 4. Ausprägung (“sehr zufrieden“) mit der absoluten Häufigkeit 3, die ungültige Ausprägung “weiß nicht“ mit der absoluten Häufigkeit 1 und die ungültige Aus-prägung „keine Angabe“ mit der Häufigkeit 1.
Vorlesung Statistik I 12
Häufigkeitstabellen
Anteile kumulierteAusprägung Kode Häufigkeit insgesamt nur gültige Anteile
völlig unzufrieden 1 1 0.100 0.125 0.125eher unzufrieden 2 2 0.200 0.250 0.375eher zufrieden 3 2 0.200 0.250 0.625sehr zufrieden 4 3 0.300 0.375 1.000weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
Aus der Tabelle ist auch ersichtlich, dass es neben den vier gültigen Ausprägungen zwei Aus-prägungen gibt, die als ungültig deklariert sind. Ob eine Ausprägung als „ungültig“ bewertet wird, hängt von der jeweiligen Fragestellung ab.
Dies Festlegun ungültiger Werte hat Auswirkungen auf die Berechnung der Anteile (relativen Häufigkeiten), die sich aus der Divison der absoluten Häufigkeiten durch die Gesamtzahl berechnen.
Anteile können sich auf die gesamte Fallzahl (4. Spalte) oder nur aufdie Zahl der Fälle mit gültigen Antworten (5. Spalte) beziehen
Vorlesung Statistik I 13
Häufigkeitstabellen
Anteile kumulierteAusprägung Kode Häufigkeit insgesamt nur gültige Anteile
völlig unzufrieden 1 1 0.100 0.125 0.125eher unzufrieden 2 2 0.200 0.250 0.375eher zufrieden 3 2 0.200 0.250 0.625sehr zufrieden 4 3 0.300 0.375 1.000weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
In der letzten Spalte werden die relativen Häufigkeiten der gültigen Fälle aufsummiert.Die Zahl 0.375 in der Zeile mit dem Kode 2 „eher unzufrieden“ ist also die Summe der Anteile, die diesen oder einen kleineren Wert aufweisen, hier also die Summe der völlig unzufriedenen (Anteil = 0.125) plus der eher unzufriedenen (Anteil = 0.250) Personen: 0.375 = 0.125 + 0.250.
Kumulierte Anteile machen nur bei ordinalem oder höherem Messniveau Sinn.
Vorlesung Statistik I 14
Konventionen
Zur Darstellung in Formeln gibt es eine Reihe von Konventionen, mit denen Variablen, Ausprägungen und Realisierungen, gemessene Werte und Transformationen gekennzeichnet werden.
Variable X, Y, Z, V2Ausprägung x, y, z, v2Anzahl der Fälle nRealisation des i-ten Falles (i=1,2,...,n) der Variablen X xiRealisation des i-ten sortierten Falles (Rangplatz) x(i)Mittelwert der k-ten Gruppe bei gruppierten Daten m(k)Ausprägung k (k=1,2,...,K) der Variablen X xk, x(k)Anzahl der Fälle mit der Ausprägung xk nk, n(k)Anteil der Fälle mit der Ausprägung xk pk, p(k)Prozent der Fälle mit der Ausprägung xk pk% = pk ⋅ 100
Vorlesung Statistik I 15
Häufigkeitstabellen: Berechnung von Anteilen
Anteile kumulierteAusprägung Kode Häufigkeit insgesamt nur gültige Anteile
völlig unzufrieden 1 1 0.100 0.125 0.125eher unzufrieden 2 2 0.200 0.250 0.375eher zufrieden 3 2 0.200 0.250 0.625sehr zufrieden 4 3 0.300 0.375 1.000weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
kk
npn
=
nk pk pk cpk = ∑pk
1 1
2 2
3 3
4 4
5 5
6 6
p n / n 1/10 0.1p n / n 2 /10 0.2p n / n 2 /10 0.2p n / n 3/10 0.3p n / n 1/10 0.1p n / n 1/10 0.1
= = == = == = =
= = == = =
= = =
Bei der Indizierung wird manchmal auch die zugeordnete Ausprägungals Indexwert verwendet.
alternativ:= p8 = n8 / n= p9 = n9 / nBei geordneten (sortierten) Werten
wird immer die Rangnummer verwendet, d.h. im Beispiel p(5), aber nicht p(8) für die fünfte der Größe nach geordnete Kategorie.
Vorlesung Statistik I 16
Häufigkeitstabellen: Berechnung von Anteilen
Anteile kumulierteAusprägung Kode Häufigkeit insgesamt nur gültige Anteile
völlig unzufrieden 1 1 0.100 0.125 0.125eher unzufrieden 2 2 0.200 0.250 0.375eher zufrieden 3 2 0.200 0.250 0.625sehr zufrieden 4 3 0.300 0.375 1.000weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
(k)(k)
np
n=
n(k) p(k) p(k) cp(k) = ∑p(k)
(1) (1)
(2) (2)
(3) (3)
(4) (4)
p n / n 1/8 0.125
p n / n 2 /8 0.250
p n / n 2 /8 0.250
p n / n 3/8 0.375
= = =
= = =
= = =
= = =
Prozentuierung auf der Basisder gültigen Fälle:
In Häufigkeitstabellen sind die Ausprägungen stets geordnet.Die Summe der Anteile über alle (berücksichtigten) Kategorien ist stets 1.0.Abweichungen kann es nur als Folge von Rundungs-fehlern geben,
Vorlesung Statistik I 17
Häufigkeitstabellen: Berechnung der kumulierten Anteile
Anteile kumulierteAusprägung Kode Häufigkeit insgesamt nur gültige Anteile
völlig unzufrieden 1 1 0.100 0.125 0.125eher unzufrieden 2 2 0.200 0.250 0.375eher zufrieden 3 2 0.200 0.250 0.625sehr zufrieden 4 3 0.300 0.375 1.000weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
( )
k
( j)kj 1
(k) (k) jj 1
ncp p X x p
n=
=
= ≤ = =∑
∑
( )( )
( )
(1) (1)
(2) (1) (2)
(3) (1) (2) (3)
(4) (1) (2) (3) (4)
cp p 0.125 1/8
cp p p 0.125 0.250 0.375 1 2 /8
cp p p p 0.125 .250 0.250 0.625 1 2 2 /8
cp p p p p 0.125 0.250 0.250 0.375 1 1 2 2 3 /8
= = =
= + = + = = +
= + + = + + = = + +
= + + + = + + + = = + + +
n(k) p(k) p(k) cp(k) = ∑p(k)
Vorlesung Statistik I 18
Anteile AnteileAusprägung Kode Häufigkeit insgesamt nur gültige in Prozemt
völlig unzufrieden 1 1 0.100 0.125 12.5 %eher unzufrieden 2 2 0.200 0.250 25.0 %eher zufrieden 3 2 0.200 0.250 25.0 %sehr zufrieden 4 3 0.300 0.375 37.5 %weiß nicht 8 1 0.100 --keine Angabe 9 1 0.100 --
Summe 10 1.000 1.000(gültige Fälle: 8; fehlende Fälle 2)
Häufigkeitstabellen: Berechnung von Prozenten
kk k k
p %p % p 100 p
100= ⋅ ⇔ =
n(k) p(k) p(k) p(k)%
(1) (1)
(2) (2)
(3) (3)
(4) (4)
p % p 100 0.125 100 12.5
p % p 100 0.250 100 25.0
p % p 100 0.250 100 25.0
p % p 100 0.375 100 37.5
= ⋅ = ⋅ =
= ⋅ = ⋅ =
= ⋅ = ⋅ =
= ⋅ = ⋅ =
Anstelle von Anteilen werden oft Prozent-werte verwendet. Prozentwerte sind Anteilswerte mal 100:
Vorlesung Statistik I 19
Häufigkeitstabellen bei gruppierten Daten
Wenn eine Variable sehr viele Ausprägungen hat, werden aus Gründen der Übersichtlichkeit Ausprägungen zu Klassen (oder Gruppen) zusammengefasst.
Messtheoretisch gesehen ist jede Klassenbildung eine unzulässige Trandformation. Die Zusammenfassung von Ausprägungen einer Variablen zu Klassen bedeutet grundsätzlich einen Informationsverlust.
Regeln für die Definition der Klassen:1. Die Klassengrenzen dürfen sich nicht überschneiden, d.h. jede Ausprägung darf nur einer
einzigen Klasse zugeordnet werden.2. Die Klassen sollen lückenlos aufeinander folgen, d.h. jede Ausprägung muss einer Klasse
zugeordnet werden können (→ exakte Klassengrenzen),3. Die Klassenbreiten sollen möglichst jeweils gleich sein.
(Ausnahmen: ungleiche Klassenbreite bei erster oder letzer Klasse, wenn diese sonst sehrgering besetzt wären; Klassen werden manchmal aber so gebildet, dass sie in etwa gleich stark besetzt sind. Als Folge sind die Klassenbreiten dann i.a. unterschiedlich.)
Vorlesung Statistik I 20
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
Ausprägung in Jahren Kode = Gültige Kumulierte(exakte Klassengenzen) Klassenmitte Häufigkeit Prozente Prozente Prozente17.5 bis <29.5 23.5 673 19.1 19.2 19.229.5 bis < 44.5 37.0 1072 30.5 30.5 49.744.5 bis <59.5 52.0 944 26.8 26.9 76.659.5 bis <74.5 67.0 639 18.2 18.2 94.874.5 bis <93.5 84.5 184 5.2 5.2 100.0keine Angabe 999.0 6 .2 MissingTotal 3518 100.0 100.0Gültige Fälle: 3512 Fehlende Fälle: 6(Quelle: Allbus 1996)(nach Kühnel/Krebs 2006: 49)
Häufigkeitstabellen bei gruppierten Daten
Als Wert (Kode) der Ausprägungen grup-pierter Variablen wird oft die Klassen-mitte m(k) einer Klasse berechnet, das ist der Durchschnittswert aus Ober-und Untergrenze einer Klasse:
(k) (k)(k)
u om
2+
=
( )
( )
(1)
(5)
m 17.5 29.5 / 2 23.5
m 74.5 93.5 / 2 84.5
= + =
= + =
u(k) o(k) m(k) n(k) p(k) cp(k)
Vorlesung Statistik I 21
Verteilungsfunktion und Quantile
x(k) n(k) p(k) p(k) cp(k)
Häufigkeitstabelle für die Bewertung der allgemeinen WirtschaftslageGültige Kumulierte
Ausprägung Kode Häufigkeit Prozente Prozente Prozentesehr gut 1 30 .9 .9 .9gut 2 435 12.4 12.4 13.3teils/teils 3 1710 48.6 48.9 62.2schlecht 4 1087 30.9 31.1 93.4sehr schlecht 5 232 6.6 6.6 100.0weiß nicht 8 24 .7 MissingTotal 3518 100.0 100.0Gültige Fälle: 3494 Fehlende Fälle: 24(Daten: ALLBUS 1996)
Quelle: Kühnel/Krebs, 2006: 44
In der Häufigkeitstabelle ist diese Information in der letzten Spalte mit den kumulierten Anteilen (cp(k)) aufgelistet.
( )( )
( )
n
ii 1
k k( j)
(k) ( j) ( j)j 1 j 1
iF̂ X xnn
F̂ X x p cpn
=
= =
≤ =
≤ = = =
∑
∑ ∑
Die empirische Verteilungsfunktion gibt an, welcher Anteil der Realisationen kleiner oder gleich diesem Wert sind:
F̂(X)
Verteilungs-funktion
Vorlesung Statistik I 22
Anstieg um p(4)=0.311Anstieg um p(5)=0.066
Anstieg ump(3)=0.489
Anstieg ump(2)=0.124
Anstieg ump(1)=0.009
00.00.10.20.30.40.50.60.70.80.91.0
Kum
ulie
rte H
äufig
keite
n
1 2 3 4 5 6Bewertung der allgemeinen Wirtschaftslage (X)
Grafische Darstellung der Verteilungsfunktion
Gültige KumulierteX Anteile Anteile1 0.009 0.0092 0.124 0.1333 0.489 0.6224 0.311 0.9345 0.066 1.000
In der grafischen Darstellung ist die empirische Verteilungsfunktion eine Treppenfunktion, diebei jeder Ausprägung der Variablen um die relative Häufigkeit dieser Ausprägung ansteigt.
Vorlesung Statistik I 23
Quantile Gültige KumulierteX Prozente Prozente1 .9 .92 12.4 13.33 48.9 62.24 31.1 93.45 6.6 100.0
00.00.10.20.30.40.50.60.70.80.91.0
Kum
ulie
rte H
äufig
keite
n
1 2 3 4 5 6Bewertung der allgemeinen Wirtschaftslage (X)
Quantile teilen eine Verteilung in zwei Teilmengen auf:
13.3% ≤ 2
100% – 13.3% = 86.7 % > 2
100% – 13.3% = 86.7 % > 2
13.3% ≤ 2
Vorlesung Statistik I 24
Quantile: Quantilwert und Quantilanteil Gültige KumulierteX Prozente Prozente1 .9 .92 12.4 13.33 48.9 62.24 31.1 93.45 6.6 100.0
Der Quantilwert Q gibt die Trennstelle an, an der die Teilung erfolgt.
α = 13.3%
Q =2
Q =2
Der Quantilanteil α gibt den Anteil an, der im unteren Teilbereich liegt.
α = 13.3%
00.00.10.20.30.40.50.60.70.80.91.0
Kum
ulie
rte H
äufig
keite
n
1 2 3 4 5 6Bewertung der allgemeinen Wirtschaftslage (X)
13.3%-Quantil:Q13.3% = Q0.133 = 2
Vorlesung Statistik I 25
Quantile Gültige KumulierteX Prozente Prozente1 .9 .92 12.4 13.33 48.9 62.24 31.1 93.45 6.6 100.0
Der Quantilwert Qα ist der kleinste Wert für den gilt, dass mindestens ein Anteil α von allen Realisierungen kleiner oder gleich diesem Wert ist.
Q0.10 = ?
Q0.25 = ?
Q0.50 = ?
Q0.90 = ?
Q0.10 = ?Q0.10 = 2
Q0.25 = ?Q0.25 = 3
Q0.90 = ?Q0.90 = 4
00.00.10.20.30.40.50.60.70.80.91.0
Kum
ulie
rte H
äufig
keite
n
1 2 3 4 5 6Bewertung der allgemeinen Wirtschaftslage (X)
Q0.50 = ?Q0.50 = 3
Vorlesung Statistik I 26
Quantile: Berechnung aus Häufigkeitstabellen ungruppierter Daten
Gültige KumulierteX Prozente Prozente1 .9 .92 12.4 13.33 48.9 62.24 31.1 93.45 6.6 100.0
Wenn eine Häufigkeitstabelle ungruppierter Daten vorliegt, können die Quantilwerte direkt aus der Häufigkeitstabelle abgelesen werden:Der Quantilwert ist die Ausprägung, bei der in der Spalte mit den kumulierten Anteilen bzw. kumulierten Prozentwerten erstmals der Quantilanteil erreicht oder überschritten wird:
Q0.10 = Q 10% = ?
0.9% < 10 % ⇒ Q10% > 1
13.3% > 10 % ⇒ Q10% ≤ 2„2“ ist die kleinste Ausprägung, für die gilt, mindestens 10% aller Fälle sind ≤ 2 ⇒ Q0.1 = 2.
Gültige KumulierteX Prozente Prozente1 .9 .92 12.4 13.33 48.9 62.24 31.1 93.45 6.6 100.0
Qα=0.0% bis Qα=0.9% = 1Qα>0.9% bis Qα=13.3% = 2Qα>13.3% bis Qα=62.2% = 3Qα>62.2% bis Qα=93.4% = 4Qα>93.4% bis Qα=100% = 5
Vorlesung Statistik I 27
Quantile: Berechnung aus geordneten Messwerten
Quantilwerte können auch direkt aus den Messwerten berechnet werden, wenn dieMesswertreihe vorher der Größe nach sortiert wurde.
Nach Größe sortiertes Geburts-jahr (ohne missing values)
Fall Rang F4(i) Wert8 1 f4(1) 19204 2 f4(2) 19391 3 f4(3) 19436 4 f4(4) 19569 5 f4(5) 19563 6 f4(6) 19572 7 f4(7) 1960
10 8 f4(8) 19667 9 f4(9) 19705 -- 9999
Merkmale der Untersuchungseinheiten (Variablen)Fall -
nummerAntwort Frage 1
Antwort Frage 2a
Antwort Frage 2b
Ge-schlecht
Geburts-jahr
ID F1 F2A F2B F3 F41 3 2 2 1 1943 2 2 8 1 2 19603 4 1 2 2 19574 9 8 1 1 19395 2 2 1 2 99996 8 8 1 1 19567 4 2 2 2 19708 1 1 2 1 19209 3 2 1 2 1956U
nter
such
ungs
einhe
iten
(Fäll
e)
10 4 2 2 2 1966
Vorlesung Statistik I 28
Quantile: Berechnung aus geordneten Messwerten
Die Berechnung erfolgt in drei Schritten:Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ αSchritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat,
Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i.Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j).
Beispiel: Q50% = ? bei ungerader Fallzahl
Schritt 1: i = n · α = 9 ·0.5 = 4.5
Schritt 2: Aufrunden zur nächsten ganzen Zahl: j = 5X Fall Rang1920 8 11939 4 21943 1 31956 6 41956 9 51957 3 61960 2 71966 10 81970 7 9
1956 9 5 Wert auf Rangplatz 5: x(5) = 1956
Fallzahl n = 9. der Datensatz enthält n=9 Fälle mit gültigen Altersangaben
Schritt 3: Q50% = x(5) = 1956
Vorlesung Statistik I 29
Quantile: Berechnung aus geordneten Messwerten
Die Berechnung erfolgt in drei Schritten:Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ αSchritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat,
Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i.Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j).
Beispiel: Q50% = ? bei geraden Zahlen
Schritt 1: i = n · α = 8 ·0.5 = 4
Schritt 2: keine Aufrunden notwendig: j = i = 4X Rang1 12 22 33 45 56 66 77 8
3 4 Wert auf Rangplatz 4: x(4) = 3
Fallzahl n = 8. Der Datensatz enthält n=8 Fälle
Schritt 3: Q50% = x(4) = 3
Vorlesung Statistik I 30
Bedeutung von Quantilen
Wozu werden Quantile benötigt?
Quantile geben Informationen über eine Verteilung:• So besagt das 50%-Quantil, bei welchem Wert die „Mitte“ einer Verteilung in etwa liegt,• Die Differenzen des 5%- und des 95%-Quantils geben an, in welchen Grenzen die mittleren
90% aller Fälle liegen.• Die Gesamtheit aller Quantile enthält alle Informationen über eine Verteilung.
Besondere Namen:• Das 25%-, das 50-% und das 75%-Quantil werden auch als Quartile bezeichnet, weil sie die
Verteilung in vier gleich stark besetzte Klassen aufteilen;• entsprechend werden das 10%-, 20%-, 30%-, ..., 90%-Quantil als Zentile bezeichnet, weil sie
die Verteilung in 10 gleich stark besetzte Klassen aufteilen; • das 1%-, 2%-, ...., 98%-, 99%-Quantil werden analog als Perzentile bezeichnet.
Messniveau:Voraussetzung für die Berechnung von Quantilen ist mindestens ordinales, besser metrisches Skalenniveau. Bei ordinalen Skalenniveau sind Quantilwerte Ausprägungen von Rangplätzen (Kategorien).
Vorlesung Statistik I 31
Hinweise zu Quantilen
Die vorgestellte Berechnungsweise ergibt die sogenannten „empirischen Quantile“ der empirischen Verteilungsfunktion. Darüber hinaus gibt es weitere Berechnungsformeln, die zu leicht unterschiedlichen Ergebnissen führen. Ursache ist die Unstetigkeit der empirischen Verteilungsfunktion bei ungruppierten Daten.
X Rang1 12 22 33 43 54 64 75 85 96 10
Bewertung der allgemeinen Wirtschaftslage (X)0
0.00.10.20.30.40.50.60.70.80.91.0
Kum
ulie
rte H
äufig
keite
n
1 2 3 4 5 6
So ist bei den links wiedergegebenen n=10 Fällendas 50%-Quantil Q0.50 = 3. In zwei Hälften mit jeweils 50% (=5) Fällenkann die Verteilung aber durch jede beliebigeZahl zwischen 3 und kleiner 4 eingeteilt werden.
Vorlesung Statistik I 32
Quantilberechnung bei gruppierten Daten
Wenn wie bei metrischen Variablen mit sehr vielen Ausprägungen Klassen gebildet worden sind, werden die Quantilwerte über lineare Interpolation innerhalb der Klasse ermittelt, die das Quantil enthält.
So ist das 25%-Quantil der Altersverteilung der Befragten aus dem Allbus 1996 in der Klasse von 29.5 bis unter 44.5 Jahren, da die kumulierten Prozentwerte in dieser Klasse das erste Mal größer oder gleich 25% sind.
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
Ausprägung in Jahren Kode = Gültige Kumulierte(exakte Klassengenzen) Klassenmitte Häufigkeit Prozente Prozente Prozente17.5 bis <29.5 23.5 673 19.1 19.2 19.229.5 bis < 44.5 37.0 1072 30.5 30.5 49.744.5 bis <59.5 52.0 944 26.8 26.9 76.659.5 bis <74.5 67.0 639 18.2 18.2 94.874.5 bis <93.5 84.5 184 5.2 5.2 100.0keine Angabe 999.0 6 .2 MissingTotal 3518 100.0 100.0Gültige Fälle: 3512 Fehlende Fälle: 6(Quelle: Allbus 1996)(nach Kühnel/Krebs 2006: 49)
u(k) o(k) m(k) n(k) p(k) cp(k)
Vorlesung Statistik I 33
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Kum
ulie
rte H
äufig
keite
n
1.0
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Verteilungsfunktion bei gruppierten Daten: Die Summenkurve
Ausgangspunkt ist die Summenkurve, bei der in jeder Klasse eine Gerade zwischen Unter -und Obergrenze der Klasse gezogen wird.
k u(k) o(k) m(k) p(k) cp(k)1 17.5 <29.5 23.5 19.2 19.22 29.5 <44.5 37.0 30.5 49.73 44.5 <59.5 52.0 26.9 76.64 59.5 <74.5 67.0 18.2 94.85 74.5 <93.5 84.5 5.2 100.0
12 Jahre
15 Jahre
15 Jahre
15 Jahre
19 Jahre
19.2 %
30.5 %
26.9 %
18.2 %
5.2 %
Bei exakten Klassengrenzen berühren sich die Geraden und bilden zusam-menhängend die Summenkurve, die eine Annäherung an die empirische Verteilungsfunktion der ungruppierten Daten ist.
Vorlesung Statistik I 34
Quantilberechnung bei gruppierten Daten über die Summenkurve
Der Quantilwert Qα bei gruppierten Daten ist dann der Wert von X, an der eine horizontale Gerade auf der Höhe α die Summenkurve schneidet.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Kum
ulie
rte H
äufig
keite
n
1.0
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
α = 25 % Q25% = 32.35
o(1) = 29.5 (Obergrenze der ersten Klasse)
o(2) = 44.5 (Obergrenze der zweiten Klasse)
19.2% = cp(1)
49.7% = cp(2)
k u(k) o(k) m(k) p(k) cp(k)1 17.5 <29.5 23.5 19.2 19.22 29.5 <44.5 37.0 30.5 49.73 44.5 <59.5 52.0 26.9 76.64 59.5 <74.5 67.0 18.2 94.85 74.5 <93.5 84.5 5.2 100.0
Vorlesung Statistik I 35
k u(k) o(k) m(k) p(k) cp(k)1 17.5 <29.5 23.5 19.2 19.22 29.5 <44.5 37.0 30.5 49.73 44.5 <59.5 52.0 26.9 76.64 59.5 <74.5 67.0 18.2 94.85 74.5 <93.5 84.5 5.2 100.0
Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse
Q25% = 32.3515 20 25 30 35 40 45 50 55
0.0
0.1
0.2
0.3
0.4
0.5
α = 25 %
cp(1) = 19.2 %
p(2) = 30.5 %
o(2) = 44.5
25%Q 29.5= + 32.35=
25.0% – 19.5%
( )(1)0.25 (1) (2) (1)
(2)
0.25 cpQ o o o
p−
= + ⋅ −
o(1) = 29.5
x = 2.85
( )0.25 0.192 44.5 29.50.305−
⋅ −
25% 19.2% x30.5% 44.5 29.5−
=− ( )(k 1)
(k 1) (k) (k 1)(k)
cpQ o o o
p−
α − −
α −= + ⋅ −
wobei k die Klasse ist,in der das gesuchte Quantil liegt.
x
Vorlesung Statistik I 36
Anwendung von Quantilen bei gruppierten Daten
Daten: Häufigkeitstabelle für gruppierte Altersangaben
Ausprägung in Jahren Kode = Gültige Kumulierte(exakte Klassengenzen) Klassenmitte Häufigkeit Prozente Prozente Prozente17.5 bis <29.5 23.5 673 19.1 19.2 19.229.5 bis < 44.5 37.0 1072 30.5 30.5 49.744.5 bis <59.5 52.0 944 26.8 26.9 76.659.5 bis <74.5 67.0 639 18.2 18.2 94.874.5 bis <93.5 84.5 184 5.2 5.2 100.0keine Angabe 999.0 6 .2 MissingTotal 3518 100.0 100.0Gültige Fälle: 3512 Fehlende Fälle: 6(Quelle: Allbus 1996)(nach Kühnel/Krebs 2006: 49)
Fragestellung: In welchen Bereich um das 50%-Quantil liegen 90% aller Fälle einer Alters-verteilung?
Das 50%-Quantil teilt die Verteilung in eine obere und eine untere Hälfte.Wenn 90% um das 50%-Quantil verteilt sind, liegen jeweils 45% unterhalb und oberhalb dieses Werts.Der gesuchte Bereich wird daher durch das 5%-Quantil (5% = 50% – 45%) und durch das 95%-Quantil (95% = 50% + 45%) begrenzt.
Vorlesung Statistik I 37
Anwendung von Quantilen bei gruppierten Daten
Fragestellung: In welchen Bereich um das 50%-Quantil liegen 90% aller Fälle?
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Kum
ulie
rte H
äufig
keite
n1.0
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
90%
90% aller Befragten sind zwischen 20.6 und 75.2 Jahre alt.
Q5% = 20.6
5%
Q95% = 75.2
95%
Vorlesung Statistik I 38
Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
Ausprägung in Jahren Kode = Gültige Kumulierte(exakte Klassengenzen) Klassenmitte Häufigkeit Prozente Prozente Prozente17.5 bis <29.5 23.5 673 19.1 19.2 19.229.5 bis < 44.5 37.0 1072 30.5 30.5 49.744.5 bis <59.5 52.0 944 26.8 26.9 76.659.5 bis <74.5 67.0 639 18.2 18.2 94.874.5 bis <93.5 84.5 184 5.2 5.2 100.0keine Angabe 999.0 6 .2 MissingTotal 3518 100.0 100.0Gültige Fälle: 3512 Fehlende Fälle: 6(Quelle: Allbus 1996)(nach Kühnel/Krebs 2006: 49)
u(k) o(k) m(k) n(k) p(k) cp(k)
k=1k=2k=3k=4k=5
( )(k 1)(k 1) (k) (k 1)
(k)
cpQ o o o
p−
α − −
α −= + ⋅ −
Da cp(1) = 19.2% > 5% liegt das 5%-Quantil in der ersten Klasse.
( ) ( )(1 1)0.05 (1 1) (1) (1 1)
(1)
0.05 cp 0.05 0Q o o o 17.5 29.5 17.5 20.625p .192
−− −
− −= + ⋅ − = + ⋅ − =
Vorlesung Statistik I 39
Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse
( )(k 1)(k 1) (k) (k 1)
(k)
cpQ o o o
p−
α − −
α −= + ⋅ −
Da cp(4) = 94.8% < 95% liegt das 95%-Quantil in der fünften Klasse.
( ) ( )(5 1)0.95 (5 1) (5) (5 1)
(5)
0.95 cp 0.95 0.948Q o o o 74.5 93.5 74.5 75.231p .052
−− −
− −= + ⋅ − = + ⋅ − =
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
Ausprägung in Jahren Kode = Gültige Kumulierte(exakte Klassengenzen) Klassenmitte Häufigkeit Prozente Prozente Prozente17.5 bis <29.5 23.5 673 19.1 19.2 19.229.5 bis < 44.5 37.0 1072 30.5 30.5 49.744.5 bis <59.5 52.0 944 26.8 26.9 76.659.5 bis <74.5 67.0 639 18.2 18.2 94.874.5 bis <93.5 84.5 184 5.2 5.2 100.0keine Angabe 999.0 6 .2 MissingTotal 3518 100.0 100.0Gültige Fälle: 3512 Fehlende Fälle: 6(Quelle: Allbus 1996)(nach Kühnel/Krebs 2006: 49)
u(k) o(k) m(k) n(k) p(k) cp(k)
k=1k=2k=3k=4k=5
Vorlesung Statistik I 40
Grafische Darstellung univariater Verteilungen
Stabdiagramm
0
1
2
3
4
5
6
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Alter in Jahren
Häu
figke
iten
In Stabdiagrammen werden die absoluten oder relativen Häufigkeiten der Ausprägungen alssenkrechte Linien symbolisiert. Dies ergibt einen schnellen Überblick über die Form einer Verteilung.
Grafische Darstellungen vermitteln einen Eindruck von der Form einer Verteilung.
Darstellungen metrischer Daten:
Vorlesung Statistik I 41
Grafische Darstellung univariater Verteilungen: metrische Variablen
In Histogrammen wird die Häufigkeitsverteilung durch einander berührende Balken dargestellt.Histogramme sind besonders für die Darstellung der Verteilung bei gruppierten Daten sinvoll, da sie das Prinzip der Flächentreue berücksichtigen: Die Fläche eines Balkens entspricht der relativen Häufigkeit in dem durch die Balkenbreite definierten Intervall.
Histogramm
0.00
0.01
0.02
0.03
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Alter in Jahren
Em
piris
cheD
ichte ( )
(k)(k)
(k) (k)
pˆempirische Dichte: fo u
=−
Die Balkenhöhe ist gleich der empirischen Dichte im Intervall.Diese ist der Quotient aus der relativen Häufigkeit p(k) in einem Intervall geteilt durch die Intervallbreite (o(k) – u(k))
Vorlesung Statistik I 42
Grafische Darstellung univariater Verteilungen: metrische Variablen
Die Form eines Histogramms hängt allerdings nicht nur von der Verteilung, sondern auch vonden Intervallbreiten und der gewählten Untergrenze für das erste (ganz links angeordnete) Intervall ab.
Um dieses Problem zu umgehen, sind Kern-Dichte-Schätzer entwickelt worden.Diese berechnen die empirische Dichte einer Verteilung an jedem beliebigen Punkt, wobei jeweils alle Realisierungen in einem vorgegebenen Abstand berücksichtigt werden und der Einfluss eines Wertes auf die berechnete Dichte mit steigendem Abstand sinkt.Werden die Dichten der Punkte verbunden, ergibt sich eine Kurve, die die Form einer Verteilung besser wiedergibt, als die Balken eines Histogramms.
Kern-Dichte-Schätzer
Alter in Jahren15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
.000
.005
.010
.015
.020
.025E
mpi
risch
e D
ichte In Abhängigkeit von der verwendeten
Formel und der Länge des berück-sichigten Abstands um den jeweiligen Wert, für den die emprische Dichte geschätzt wird, sind die resultieren-den Kurvenverläufe glätter oder zer-klüfteter.
Vorlesung Statistik I 43
unimodal,rechtsschief bzw. linkssteil
unimodal,linksschief bzw. rechtssteil
unimodal,symmetrisch
Grafische Darstellung univariater Verteilungen: metrische Variablen
Mit Hilfe von Kern-Dichte-Schätzern bzw. Histogrammen lassen sich Verteilungen nach kennzeichnenden Charakteristika, wie Schiefe, U-Förmigkeit etc. beschreiben.
unimodal, steil ansteigend,symmetrisch
uförmig bimodal,symmetrisch
unimodal, flach ansteigendsymmetrisch