Analyse von Querschnittsdaten -...

Analyse von Querschnittsdaten

Arten von Variablenund

Strategien der Datenanalyse

Gliederung

1. Arten von Variablen2. Analyse einzelner Variablen (univariate

Verteilungen)3. Analyse der Zusammenhänge zweier

Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren

und statistische Modelle

Definition Messniveau

jajajajaRatio

neinjajajaIntervall

neinneinjajaOrdinal

neinneinneinjaNominal

NullpunktAbständeRängeIdentitätNiveau

Beispiele aus dem GSS

EinkommenAusbildungsdauer

Kinderzahl

Liberalismus Berufsprestige

KirchgangSchulabschluss

Liberalismus

GeschlechtFamilienstand

Nationalität

Beispiele

jajajajaRatio

neinjajajaIntervall

neinneinjajaOrdinal

neinneinneinjaNominal

NullpunktAbständeRängeIdentitätNiveau

Wenige oder viele Ausprägungen?

• Kategoriale Variablen sind Merkmale, die eine begrenzte Anzahl von Ausprägungen (Kategorien) haben.

• Variablen mit sehr vielen Ausprägungen zählen nicht zu den kategorialen Variablen. Liegt diesen Messungen eine kontinuierliche Eigenschaft zugrunde, wollen wir sie als kontinuierliche Variablenbezeichnen.

Beispiele aus dem GSS

Einkommen (>1000)Ausbildungsdauer (19)

Berufsprestige (>50)

Nationalität (38)

kontinuierlich

Einkommensklasse (21)Kinderzahl (9)

Liberalismus (7)

Kirchgang (9)Schulabschluss (5)

Liberalismus (7)

Geschlecht (2)Familienstand (5)

kategorial

Ratio

Intervall

Ordinal

Nominal

Niveau

Strategien der Datenanalyse

• kategoriale Variablen– analysiere das Auftreten einzelner Ausprägungen– Beispiel: Wie groß ist die Wahrscheinlichkeit,

verheiratet zu sein?• kontinuierliche Variablen

– analysiere bestimmte Eigenschaften (Zentrum, Streuung) der Verteilung aller Ausprägungen

– Beispiel: Wie hoch ist das Durchschnittseinkommen?

Gliederung





Relative Häufigkeiten• Eine relative Häufigkeit betrachtet die absolute

Häufigkeit einer Ausprägung einer Variablen entweder (a) in Relation zur Gesamtzahl aller Untersuchungseinheiten oder (b) in Relation zur Häufigkeit einer anderen Ausprägung der Variablen.a. Beispiel: 53% aller Befragten sind verheiratet. Diesen

Quotienten bezeichnet man als (prozentualen) Anteilswert.

b. Beispiel: Das Größenverhältnis von Verheirateten und Unverheirateten beträgt ca. 5 zu 2. Diesen Quotienten bezeichnet man als Größenverhältnisoder Odds (engl.: Wetten).

Mittelwerte und Perzentile

• Arithmetisches Mittel– Das durchschnittliche Jahreseinkommen beträgt

30.745,42 Dollar.• Median (50. Perzentil)

– Die Hälfte der Personen hat ein Jahreseinkommen von maximal 25.510 Dollar.

• Perzentil– Das obere Zehntel der Befragten hat ein

Jahreseinkommen von mindestens 65.533 Dollar.

Definition Dummy-Variable• Für einige statistische Auswertungen ist es hilfreich zu

wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht.

• Zu diesem Zweck bildet man eine sogenannteStellvertreter-Variable (engl.: dummy variable) mit den Ausprägungen 1 und 0:

• 1 = Ausprägung liegt vor• 0 = Ausprägung liegt nicht vor

• Bei insgesamt k Ausprägungen einer kategorialen Variablen sind im Prinzip k Dummies denkbar. Praktisch sind aber lediglich (k-1) Dummies nötig, um die k Ausprägungen vollständig abzubilden:

• die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle Dummies den Wert 0 aufweisen.

Box-Plot0

20,0

0040

,000

60,0

0080

,000

1000

00to

tal f

amily

inco

me

in d

olla

rs

75. Perzentil: drittes Quartil

50. Perzentil: Median

25. Perzentil: erstes Quartil

Univariate Verteilungen

EinkommenFamilienstandBeispiel

(absolut: Häufigkeiten)(relativ: Anteile, Odds)

MittelwerteStreuungsmaße

absolut: Häufigkeitenrelativ: Anteile, Odds

(Mittelwerte)(Streuungsmaße)

Statistik

HistogramBox-PlotSäulendiagrammGraphik

Variable vorher klassifizierenproblemlosTabelle

kontinuierlichkategorial

Gliederung





Analyse mehrerer Variablen (1)

• definiere eine Variable als abhängige Variable y.• unbedingte / bedingte Verteilung:

– unbedingt: Verteilung von y für alleUntersuchungseinheiten

– bedingt: Verteilung von y für den Teil der Untersuchungseinheiten mit x=k

• zur Beschreibung des Zusammenhangs zwischen x und y vergleiche die bedingten Verteilungen von y für verschiedene x-Werte

Analyse mehrerer Variablen (2)

Grundprinzip der statistischen Modelle• kategoriale Variablen

– Was ist die Wahrscheinlichkeit, dass die abhängige Variable y eine bestimmte Ausprägung k aufweist, für verschiedene Werte der unabhängigen Variablen x.

– Pr(y=k | x)• kontinuierliche Variablen

– Welchen Wert der abhängigen Variablen y kann man im Durchschnitt für verschiedene Werte der unabhängigen Variablen x erwarten.

– E(y | x)

Vergleiche konditionale Anteilswerte

• 58,3% aller Männer sind verheiratet, dagegen nur 49,2% aller Frauen.

• Der Anteil der Verheirateten ist bei den Männern 9,1 Prozentpunkte größer (∆p%: Prozentsatz-differenz).

Status m fmarried 371 433widowed 22 146divorced 60 115separated 12 33never married 171 154Total 636 881

1,9881433

636371100% ≈⎟

⎠⎞

⎜⎝⎛ −⋅=∆p

Vergleiche konditionale Odds• Bei den Männern

kommen 2,17 verheiratete auf einen unverheirateten Mann. Bei den Frauen beträgt das Verhältnis 2,81 zu 1.

• Das Verhältnis von Verheirateten zu Unverheirateten ist bei den Frauen 1,3 mal größer als bei den Männern (OR: OddsRatio).

Status m fmarried 371 433widowed 22 146divorced 60 115separated 12 33never married 171 154Total 636 881

3,117,281,2

171371154433

≈≈=OR

Bivariate Verteilungen (1)

y: Einkommenx: Schulabschluss

y: Familienstandx: GeschlechtBeispiel

konditionale Mittelwertekonditionale Mediane

konditionale Anteilekonditionale OddsStatistik

konditionales Histogramkonditionaler Box-Plot

gestapeltes SäulendiagrammGraphik

y vorher klassifizierenproblemlos(Kreuztabelle)Tabelle

y: kontinuierlichx: kategorial

y: kategorialx: kategorial

Bivariate Verteilungen (2)

y: Einkommenx: Berufsprestige

y: verheiratetx: EinkommenBeispiel

KorrelationskoeffizientRegressionskoeffeizient

(konditionale Anteile / Odds wenn x klassifiziert)Statistik

Streudiagramm(Streudiagramm)(Säulen wenn x

klassifiziert)Graphik

x und y vorher klassifizierenx vorher klassifizierenTabelle

y: kontinuierlichx: kontinuierlich

y: kategorialx: kontinuierlich

Gliederung





Multivariate Analyseverfahren

lineare Regressionlogistische Regressionkontinuierlich

VarianzanalyseTabellenanalysekategorial

kontinuierlichkategorial

abhängige Variable yunabhängige Variable x

Statistische Modelle0

2000

040

000

6000

080

000

1000

00

0 1 2 3 4rs highest degree

total family income in dollars Fitted values

020

,000

40,0

0060

,000

mea

n of

incg

en

lt high school high school junior college bachelor graduate

uxyx

++= 10

lichkontinuierββ uddddy

xgrbajchs +++++= 43210

kategorial βββββ

Zum Schluss

Weiterführende Literatur• H.J. Andreß (2001): Glossar zur Datenerhebung und

statistischen Analyse– über ESWF-Homepage >> Links >> Methoden

• www.wiso.uni-koeln.de/ASPSamp/eswf/html/glossar/stichwor.htm– Schlagworte zu Messniveau, kategoriale / kontinuierliche

Variable, Dummy-Variable, Anteilswert, Odds, graphischen Darstellungen, Tabellenanalyse usw.

• Einführungen in Stata– Kohler, Ulrich/Kreuter, Frauke (2001): Datenanalyse mit Stata.

München: Oldenbourg– Hamilton, Lawrence C. (2004): Statistics with Stata updated for

version 8. Belmont: Duxbury/Thomson Learning– siehe auch ESWF-Homepage >> Lehre >> Stata

Zusammenfassung

• wenige oder viele Ausprägungen• Verfahren für kategoriale oder kontinuierliche Daten

Datenanalyse• beschreibt zulässige mathematische OperationenMessniveau

• relative Häufigkeiten (Anteile, Odds)• Mittelwerte• Histogramm, Box Plot

univariateAnalyse

• vergleiche bedingte Verteilungen• konditionale Anteile, Odds, Mittelwerte• konditionale Box Plots und Histogramme• Streudiagramm

bivariateAnalyse

Stata-Befehle zum Einstieg (1)

ditto mit Generierung von Dummiestab y, gen(dummy)

Histogramm y kategorialhistogram y, discrete

Box-Plot (vertikal)Box-Plot (horizontal)

graph box ygraph hbox y

Histogramm y kontinuierlichhistogram y

Datenspeicher löschenclear

Daten ladenuse gss1991.dtaSpeicherplatz für Daten schaffenset mem 100000

Häufigkeitsverteilungtabulate yMittelwert, Standardabweichung, Min, Maxsummarize y

Beschreibung des Datensatzes im Speicher describe

Stata-Befehle zum Einstieg (2)

ditto mit Spaltenprozententabulate x y, colditto mit Zeilenprozententabulate x y, rowKreuztabelle mit x in Zeile und y in Spaltetabulate x y

konditionales Histogrammhistogram y, by(x)konditionales Dot Diagrammgraph dot y, over(x)

konditionaler Box-Plotgraph box y, over(x)

Streudiagrammgraph twoway scatter y x

Wichtige Fachausdrücke

scattergramStreudiagrammmedianMedian

histogramHistogrammmeanarithmetischer Mittelwert

box plotBox Plotcategoricalcontinuous

kategorialkontinuierlich

conditionaldistribution

bedingte Verteilung

measurementscaleMessniveau

EnglischDeutschEnglischDeutsch

Wichtige Fachausdrücke

dummyvariable

Dummy Variable

odds ratioodds ratio

oddsGrößen-

verhältnis(Odds)

EnglischDeutschEnglischDeutsch

Analyse von Querschnittsdaten -...

Documents

Transcript of Analyse von Querschnittsdaten -...