Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der...

26
Statistik mit Stata -1- Übung Statistik I – Statistik mit Stata SS07 - 21.05.2007 6. Grafiken und Wiederholung Andrea Kummerer (M.A.) Oec R. I-53 Sprechstunde: Di. 15-16 Uhr [email protected]

Transcript of Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der...

Page 1: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 1 -

Übung Statistik I – Statistik mit StataSS07 - 21.05.2007

6. Grafiken und Wiederholung

Andrea Kummerer (M.A.)

Oec R. I-53

Sprechstunde: Di. 15-16 Uhr

[email protected]

Page 2: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 2 -

Überblick

1. Vorbemerkungen

2. Besprechung der Übungsaufgaben vom 14.05.07

3. Grafiken

4. Übungsaufgaben

5. Wiederholung: Bilden von Variablen, Definieren von Missing Values, Label vergeben, deskriptive Statistiken berechnen in do-files

Page 3: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 3 -

1. Vorbemerkungen

• Befehle, die bekannt sein sollten:

�Update, set memory, input, use, clear, save, exit, pwd, cd, dir, describe, codebook, sort, list, help, search, tabulate oneway, numlabel, mvdecode, mvencode, label, set dp, log using, log close, log off/on, cmdlogusing, cmdlog close, cmdlog off/on, do, generate, replace, recode, keep, drop, summarize, tabstat

• Nächste Woche (28.05.2007) ist Pfingstmontag, es findet daher keine Veranstaltung statt.

• Am Montag, den 04.06.2007 findet im WiSoRZ 7. OG, plangemäß die Probeklausur (20 Minuten) statt.

• Vorbereitung: profile.do ausführen! Ist Stata up-to-date?

Page 4: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 4 -

2. Besprechung der Übungsaufgaben vom 14.05.07• Bilde die Variablen kindwun, age und agegroup wie

beschrieben. Erstelle dazu das do-file ueb05_14a.do. Achte dabei auf den korrekten Aufbau.

• Berechne die Lage- und Streuungsmaße, die dir sinnvoll erscheinen, um die Verteilungen in den Variablen v27, v500, v170, v217 und v141 zu beschreiben.

• Für die schnellen:

• Ergänze obiges do-file um die Bildung der Variablen proabtr1 und proabtr2 wie auf den Folien 19-22 beschrieben.

• Erstelle ein do-file (ueb05-14b.do) für den Datensatz allbus_ueb3.dta, das folgendes bewirkt: 1. Definition der Missing Values für die Variablen v5, v7, v19, v27, v29 und Vergabe von Labels für dieselben. 2. Erstellung von Häufigkeitstabellen sowie Berechnung sinnvoller Lagemaße für die Variablen v5, v7, v19, v27, v29.

Page 5: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 5 -

• Die Lösungen stehen auf der MZS Homepage, aber auch hier unter:

WiSoRZ > Lehre on 'Jeder-Lehre (Ug-uxwscip-s2)'(V:) > Stata > Do-Dateien > lsg_ueb05-14a.do bzw.

> lsg_ueb05-14b.do

• Um die Lösungs-do-files jetzt auszuführen, sollten die do-files in das eigene Verzeichnis (z.B. in einen Unterordner) kopiert werden: WiSoRZ > [Name] on 'ug-uxwscip-s3\Benutzer'(W:) > Stata > Do-Dateien

• Um die do-files der Übungsaufgaben auszuführen, müssen außerdem die Dateien allbus_ueb2.dta und allbus_ueb3.dta in das eigene Verzeichnis kopiert werden und über folgende Pfade abrufbar sein: W:\Stata\allbus_ueb2.dta bzw. W:\Stata\allbus_ueb3.dta

Page 6: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 6 -

Teil a): ueb05_14a.do• Bilde die Variablen kindwun, age und agegroup wie

beschrieben. Erstelle dazu das do-file ueb05_14a.do. Achte dabei auf den korrekten Aufbau.

• Ergänze obiges do-file um die Bildung der Variablen proabtr1 und proabtr2 wie auf den Folien 19-22 beschrieben.

• Berechne die Lage- und Streuungsmaße, die dir sinnvoll erscheinen, um die Verteilungen in den Variablen v27, v500, v170, v217 und v141 zu beschreiben.

Teil b): ueb05_14b.do• Erstelle ein do-file (ueb05-14b.do) für den Datensatz

allbus_ueb3.dta, das folgendes bewirkt: 1. Definition der Missing Values für die Variablen v5, v7, v19, v27, v29 und Vergabe von Labels für dieselben. 2. Erstellung von Häufigkeitstabellen sowie Berechnung sinnvoller Lagemaße für die Variablen v5, v7, v19, v27, v29.

Page 7: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 7 -

3. Grafiken• Welche Grafiken sind bei welchem Skalenniveau sinnvoll?

histogram [variable]

kdensity [variable]

graph box [variable]

Histogramm(Histogram)

Kern-Dichte-Schätzer (kernel densityestimation),

Box-Plot (box and whisker plot)

Metrisch

histogram [variable], freq

graph pie, over(variable)

Balkendiagramm

(Bar chart)

Kreisdiagramm

(Pie chart)

Kategorial

BefehlAusgewählte GrafikenSkalen-niveau

Page 8: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 8 -

• Es können verschiedene allgemeine Design-Typen für Grafiken festgelegt werden. Z.B. einfaches Design in Graustufen: set scheme s2manual

Für eine Aufstellung verschiedener Design-Typen vgl. help schemes

• In Stata ist es über Unterbefehle und Optionen möglich fast alles an einer Grafik den eigenen Ansprüchen anzupassen, d.h. die Hilfedateien zu den Grafik-Befehlen sind recht umfangreich. Daher: Wissen um die folgenden Kombinationen aus Befehlen, Unterbefehlen und Optionen im Fall der Grafiken ausreichend.

• Die Angabe der Anzahl fehlender Werte darf bei der Publikation nicht fehlen, auch wenn sie in den Grafiken nicht berücksichtigt wird!

Page 9: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 9 -

• Grafiken für kategoriale Daten: a) Balkendiagramm

• histogram v502, freq oder

histogram v502, percent

da hier: kategoriale Daten

absolute Häufigkeiten

prozentuale Häufigkeiten

recht unbefriedigendes Ergebnis! Durch Unterbefehle und Optionen anpassen:

Hier:

histogram v502, discrete freq

Page 10: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 10 -

• Grafiken für kategoriale Daten: a) Balkendiagramm

• histogram v502, discrete freq oder

histogram v502, discrete percent

• histogram v502, discrete freq barwidth(0.9) xlabel

(1/6, valuelabel angle(45) labsize(small))

• Durch Voranstellen von numlabel v502, remove werden die Kategorien ohne ihre Codes angezeigt

da hier: kategoriale Daten

absolute Häufigkeiten

prozentuale Häufigkeiten

Breite der Balken Spezifikation der Label der x-Achse folgt …

Die Wertelabels sollen verwendet werden

Values 1 bis 6 werden gelabelt

Die Label sollen im 45°-Winkel zur x-Achse angeordnet sein Die Schriftgröße der

Label soll relativ klein sein

Page 11: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 11 -

• Grafiken für kategoriale Daten: a) Balkendiagramm

• Also: numlabel v502, remove

histogram v502, discrete freq barwidth(0.9) xlabel

(1/6, valuelabel angle(45) labsize(small))

Page 12: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 12 -

• Grafiken für kategoriale Daten: a) Balkendiagramm

• Oder: numlabel v19, remove

histogram v19, discrete percent barwidth(0.9) xlabel(1/5, valuelabel angle(45) labsize(small))

Page 13: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 13 -

• Grafiken für kategoriale Daten: b) Kreisdiagramm

• numlabel v500, remove

• graph pie, over(v500) title(Konfession) plabel

(_all percent) intensity(*0.9)

Titel hinzufügen

die Kreisstücke sind die Ausprägungen der Variable v500 Spezifikation der

Label der Kreisstücke folgt …

alle Kreisstücke sollen gelabeltwerden

Die Füllfarbe soll etwas weniger intensiv sein als Standard

Als Label sollen die prozentualen Häufigkeiten vergeben werden

Page 14: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 14 -

• Grafiken für kategoriale Daten: b) Kreisdiagramm

• Also: numlabel v500, remove

graph pie, over(v500) title(Konfession) plabel(_allpercent) intensity(*0.9)

Page 15: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 15 -

• Grafiken für metrische Daten: a) Histogramm

• histogram v207

• Stata Output:

Stata hat automatisch 30 Intervalle (Balken) erzeugt

Untergrenze des ersten Intervalls

Von Stata festgelegte Intervallbreite

• histogram v207, width(15)

Auf 15 Einheiten festgelegte Intervallbreite

Page 16: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 16 -

• Grafiken für metrische Daten: a) Histogramm

• histogram v207

Automatisch gibt Stata auf der y-Achse die Dichte* aus

*Dichte = relative Häufigkeit in einem Intervall geteilt durch Intervallbreite

Page 17: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 17 -

• Grafiken für metrische Daten: a) Histogramm

• histogram v207, width(15)

Page 18: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 18 -

• Grafiken für metrische Daten: a) Histogramm mit Kern-Dichte-Schätzer

• histogram v207, kdensity fintensity(inten30) lwidth(none)

Kern-Dichte-Schätzer

Füllfarbe weniger intensiv

Kein Rahmen um Balken

Page 19: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 19 -

• Grafiken für metrische Daten: b) Kern-Dichte-Schätzer

• kdensity v207

Page 20: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 20 -

• Grafiken für metrische Daten: c) Box Plot

• graph box v207

AusreißerGrößter Wert (ohne Ausreißer)

75%-Quartil

25%-Quartil

50%-Quartil

Kleinster Wert (ohne Ausreißer)

Ausreißer

Page 21: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 21 -

• Grafiken für metrische Daten: c) Box Plot

• graph box v207, nooutsides

Page 22: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 22 -

• Grafiken für metrische Daten: c) Box Plot

• graph box v207, over(v174)

Page 23: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 23 -

• Um eine Stata Grafik zu speichern: z.B. mit rechter Maustaste klick auf Grafik > Save Graph … > [Dateiname eingeben und als Dateityp z.B. png auswählen]

• Oder: graph export W:\Stata\graph1.png

Page 24: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 24 -

4. Übungsaufgaben

• Erstelle auf Grundlage von allbus_ueb2.dta sinnvolle Grafiken für die Variablen v52, v381, v189, v151. Speichere die Grafiken als png`s z.B. nach W:\Stata\Grafiken. Benutze dazu ein do-file und integriere hier auch die Befehle zum Speichern der Grafiken. Achte auf den empfohlenen Aufbau von do-files.

���� Übung

Page 25: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 25 -

5. Wiederholung

• Interaktive Wiederholung: Gemeinsame Erstellung eines do-files, das folgendes (inklusive Label) enthalten soll:

• Variable für den 5%-getrimmten Mittelwert für das Einkommen (v381).

• Berechung des 5%-getrimmten Mittelwerts für das Einkommen.

• Erstellung einer Variable, die die Arbeitszeit (v207) in 8 Klassen enthält.

• Erstellung einer Variable, die die Arbeitszeit pro Monat enthält.

• Berechnung von sinnvollen Statistiken für die Variablen v207 und v381.

Page 26: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 4 - 2. Besprechung der Übungsaufgaben vom 14.05.07 • Bilde die Variablen kindwun, age und agegroup wie beschrieben.

Statistik mit Stata - 26 -

Hausaufgaben:

1. Führe jeden Befehl, den die Präsentation enthält mindestens einmal aus. Untersuche die verwendeten Befehle dabei auch auf mögliche Unterbefehle und Optionen.

2. Ergänze deine Tabelle aus der letzten Hausaufgabe um die heute hinzugekommenen Befehle.