Analyse von Querschnittsdaten -...
Transcript of Analyse von Querschnittsdaten -...
Analyse von Querschnittsdaten
Arten von Variablenund
Strategien der Datenanalyse
Gliederung
1. Arten von Variablen2. Analyse einzelner Variablen (univariate
Verteilungen)3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Gliederung
1. Arten von Variablen2. Analyse einzelner Variablen (univariate
Verteilungen)3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Definition Messniveau
jajajajaRatio
neinjajajaIntervall
neinneinjajaOrdinal
neinneinneinjaNominal
NullpunktAbständeRängeIdentitätNiveau
Beispiele aus dem GSS
EinkommenAusbildungsdauer
Kinderzahl
Liberalismus Berufsprestige
KirchgangSchulabschluss
Liberalismus
GeschlechtFamilienstand
Nationalität
Beispiele
jajajajaRatio
neinjajajaIntervall
neinneinjajaOrdinal
neinneinneinjaNominal
NullpunktAbständeRängeIdentitätNiveau
Wenige oder viele Ausprägungen?
• Kategoriale Variablen sind Merkmale, die eine begrenzte Anzahl von Ausprägungen (Kategorien) haben.
• Variablen mit sehr vielen Ausprägungen zählen nicht zu den kategorialen Variablen. Liegt diesen Messungen eine kontinuierliche Eigenschaft zugrunde, wollen wir sie als kontinuierliche Variablenbezeichnen.
Beispiele aus dem GSS
Einkommen (>1000)Ausbildungsdauer (19)
Berufsprestige (>50)
Nationalität (38)
kontinuierlich
Einkommensklasse (21)Kinderzahl (9)
Liberalismus (7)
Kirchgang (9)Schulabschluss (5)
Liberalismus (7)
Geschlecht (2)Familienstand (5)
kategorial
Ratio
Intervall
Ordinal
Nominal
Niveau
Strategien der Datenanalyse
• kategoriale Variablen– analysiere das Auftreten einzelner Ausprägungen– Beispiel: Wie groß ist die Wahrscheinlichkeit,
verheiratet zu sein?• kontinuierliche Variablen
– analysiere bestimmte Eigenschaften (Zentrum, Streuung) der Verteilung aller Ausprägungen
– Beispiel: Wie hoch ist das Durchschnittseinkommen?
Gliederung
1. Arten von Variablen2. Analyse einzelner Variablen (univariate
Verteilungen)3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Relative Häufigkeiten• Eine relative Häufigkeit betrachtet die absolute
Häufigkeit einer Ausprägung einer Variablen entweder (a) in Relation zur Gesamtzahl aller Untersuchungseinheiten oder (b) in Relation zur Häufigkeit einer anderen Ausprägung der Variablen.a. Beispiel: 53% aller Befragten sind verheiratet. Diesen
Quotienten bezeichnet man als (prozentualen) Anteilswert.
b. Beispiel: Das Größenverhältnis von Verheirateten und Unverheirateten beträgt ca. 5 zu 2. Diesen Quotienten bezeichnet man als Größenverhältnisoder Odds (engl.: Wetten).
Mittelwerte und Perzentile
• Arithmetisches Mittel– Das durchschnittliche Jahreseinkommen beträgt
30.745,42 Dollar.• Median (50. Perzentil)
– Die Hälfte der Personen hat ein Jahreseinkommen von maximal 25.510 Dollar.
• Perzentil– Das obere Zehntel der Befragten hat ein
Jahreseinkommen von mindestens 65.533 Dollar.
Definition Dummy-Variable• Für einige statistische Auswertungen ist es hilfreich zu
wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht.
• Zu diesem Zweck bildet man eine sogenannteStellvertreter-Variable (engl.: dummy variable) mit den Ausprägungen 1 und 0:
• 1 = Ausprägung liegt vor• 0 = Ausprägung liegt nicht vor
• Bei insgesamt k Ausprägungen einer kategorialen Variablen sind im Prinzip k Dummies denkbar. Praktisch sind aber lediglich (k-1) Dummies nötig, um die k Ausprägungen vollständig abzubilden:
• die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle Dummies den Wert 0 aufweisen.
Box-Plot0
20,0
0040
,000
60,0
0080
,000
1000
00to
tal f
amily
inco
me
in d
olla
rs
75. Perzentil: drittes Quartil
50. Perzentil: Median
25. Perzentil: erstes Quartil
Univariate Verteilungen
EinkommenFamilienstandBeispiel
(absolut: Häufigkeiten)(relativ: Anteile, Odds)
MittelwerteStreuungsmaße
absolut: Häufigkeitenrelativ: Anteile, Odds
(Mittelwerte)(Streuungsmaße)
Statistik
HistogramBox-PlotSäulendiagrammGraphik
Variable vorher klassifizierenproblemlosTabelle
kontinuierlichkategorial
Gliederung
1. Arten von Variablen2. Analyse einzelner Variablen (univariate
Verteilungen)3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Analyse mehrerer Variablen (1)
• definiere eine Variable als abhängige Variable y.• unbedingte / bedingte Verteilung:
– unbedingt: Verteilung von y für alleUntersuchungseinheiten
– bedingt: Verteilung von y für den Teil der Untersuchungseinheiten mit x=k
• zur Beschreibung des Zusammenhangs zwischen x und y vergleiche die bedingten Verteilungen von y für verschiedene x-Werte
Analyse mehrerer Variablen (2)
Grundprinzip der statistischen Modelle• kategoriale Variablen
– Was ist die Wahrscheinlichkeit, dass die abhängige Variable y eine bestimmte Ausprägung k aufweist, für verschiedene Werte der unabhängigen Variablen x.
– Pr(y=k | x)• kontinuierliche Variablen
– Welchen Wert der abhängigen Variablen y kann man im Durchschnitt für verschiedene Werte der unabhängigen Variablen x erwarten.
– E(y | x)
Vergleiche konditionale Anteilswerte
• 58,3% aller Männer sind verheiratet, dagegen nur 49,2% aller Frauen.
• Der Anteil der Verheirateten ist bei den Männern 9,1 Prozentpunkte größer (∆p%: Prozentsatz-differenz).
Status m fmarried 371 433widowed 22 146divorced 60 115separated 12 33never married 171 154Total 636 881
1,9881433
636371100% ≈⎟
⎠⎞
⎜⎝⎛ −⋅=∆p
Vergleiche konditionale Odds• Bei den Männern
kommen 2,17 verheiratete auf einen unverheirateten Mann. Bei den Frauen beträgt das Verhältnis 2,81 zu 1.
• Das Verhältnis von Verheirateten zu Unverheirateten ist bei den Frauen 1,3 mal größer als bei den Männern (OR: OddsRatio).
Status m fmarried 371 433widowed 22 146divorced 60 115separated 12 33never married 171 154Total 636 881
3,117,281,2
171371154433
≈≈=OR
Bivariate Verteilungen (1)
y: Einkommenx: Schulabschluss
y: Familienstandx: GeschlechtBeispiel
konditionale Mittelwertekonditionale Mediane
konditionale Anteilekonditionale OddsStatistik
konditionales Histogramkonditionaler Box-Plot
gestapeltes SäulendiagrammGraphik
y vorher klassifizierenproblemlos(Kreuztabelle)Tabelle
y: kontinuierlichx: kategorial
y: kategorialx: kategorial
Bivariate Verteilungen (2)
y: Einkommenx: Berufsprestige
y: verheiratetx: EinkommenBeispiel
KorrelationskoeffizientRegressionskoeffeizient
(konditionale Anteile / Odds wenn x klassifiziert)Statistik
Streudiagramm(Streudiagramm)(Säulen wenn x
klassifiziert)Graphik
x und y vorher klassifizierenx vorher klassifizierenTabelle
y: kontinuierlichx: kontinuierlich
y: kategorialx: kontinuierlich
Gliederung
1. Arten von Variablen2. Analyse einzelner Variablen (univariate
Verteilungen)3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Multivariate Analyseverfahren
lineare Regressionlogistische Regressionkontinuierlich
VarianzanalyseTabellenanalysekategorial
kontinuierlichkategorial
abhängige Variable yunabhängige Variable x
Statistische Modelle0
2000
040
000
6000
080
000
1000
00
0 1 2 3 4rs highest degree
total family income in dollars Fitted values
020
,000
40,0
0060
,000
mea
n of
incg
en
lt high school high school junior college bachelor graduate
uxyx
++= 10
lichkontinuierββ uddddy
xgrbajchs +++++= 43210
kategorial βββββ
Zum Schluss
Weiterführende Literatur• H.J. Andreß (2001): Glossar zur Datenerhebung und
statistischen Analyse– über ESWF-Homepage >> Links >> Methoden
• www.wiso.uni-koeln.de/ASPSamp/eswf/html/glossar/stichwor.htm– Schlagworte zu Messniveau, kategoriale / kontinuierliche
Variable, Dummy-Variable, Anteilswert, Odds, graphischen Darstellungen, Tabellenanalyse usw.
• Einführungen in Stata– Kohler, Ulrich/Kreuter, Frauke (2001): Datenanalyse mit Stata.
München: Oldenbourg– Hamilton, Lawrence C. (2004): Statistics with Stata updated for
version 8. Belmont: Duxbury/Thomson Learning– siehe auch ESWF-Homepage >> Lehre >> Stata
Zusammenfassung
• wenige oder viele Ausprägungen• Verfahren für kategoriale oder kontinuierliche Daten
Datenanalyse• beschreibt zulässige mathematische OperationenMessniveau
• relative Häufigkeiten (Anteile, Odds)• Mittelwerte• Histogramm, Box Plot
univariateAnalyse
• vergleiche bedingte Verteilungen• konditionale Anteile, Odds, Mittelwerte• konditionale Box Plots und Histogramme• Streudiagramm
bivariateAnalyse
Stata-Befehle zum Einstieg (1)
ditto mit Generierung von Dummiestab y, gen(dummy)
Histogramm y kategorialhistogram y, discrete
Box-Plot (vertikal)Box-Plot (horizontal)
graph box ygraph hbox y
Histogramm y kontinuierlichhistogram y
Datenspeicher löschenclear
Daten ladenuse gss1991.dtaSpeicherplatz für Daten schaffenset mem 100000
Häufigkeitsverteilungtabulate yMittelwert, Standardabweichung, Min, Maxsummarize y
Beschreibung des Datensatzes im Speicher describe
Stata-Befehle zum Einstieg (2)
ditto mit Spaltenprozententabulate x y, colditto mit Zeilenprozententabulate x y, rowKreuztabelle mit x in Zeile und y in Spaltetabulate x y
konditionales Histogrammhistogram y, by(x)konditionales Dot Diagrammgraph dot y, over(x)
konditionaler Box-Plotgraph box y, over(x)
Streudiagrammgraph twoway scatter y x
Wichtige Fachausdrücke
scattergramStreudiagrammmedianMedian
histogramHistogrammmeanarithmetischer Mittelwert
box plotBox Plotcategoricalcontinuous
kategorialkontinuierlich
conditionaldistribution
bedingte Verteilung
measurementscaleMessniveau
EnglischDeutschEnglischDeutsch
Wichtige Fachausdrücke
dummyvariable
Dummy Variable
odds ratioodds ratio
oddsGrößen-
verhältnis(Odds)
EnglischDeutschEnglischDeutsch