Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der...

15
Angela Hoffmann SS 2009 1 Stata Einführung für Version Stata 9.0 Übung zum Modul Quantitative Methoden der Agrarmarktanalyse SS 2009 Einleitung: Stata ist ein Statistikprogramm, das zur Analyse von Zeitreihen und Paneldaten, sowie zur Datenearbeitung und graphischen Präsentation benutzt werden kann. Neben der Bedienung über die Symbolleiste ermöglicht Stata die Befehlseingabe über Tastatur. Die folgenden Kapitel enthalten deshalb immer Erläuterungen dazu, welche Schritte zur Aufgabenlösung bei der Benutzung der Symbole erforderlich sind und am Ende den entsprechenden Tastatur-Befehl (Command: ). In der Regel erscheint v.a. Stata-Neulingen die Verwendung der Symbole einfacher, langfristig spart jedoch die Tastaturbedienung eine Menge Zeit und viele Arbeitsschritte. Eine Übersicht aller Tastatur-Befehle, die im Rahmen der Übung benutzt werden, ist in Kapitel 7.4 zu finden. Inhaltsübersicht 1. Willkommen bei Stata ..................................................................................................2 1.1 Erstellen eines Datensatzes ..........................................................................................3 1.2 Öffnen einer bereits bestehenden Stata-Datei ..............................................................4 2. Datenbearbeitung mit Stata .........................................................................................4 2.1 Neue Variablen/ Datenreihen ........................................................................................4 2.2 Eingabe einzelner Daten ...............................................................................................5 2.3 Daten auswählen/ löschen ............................................................................................5 2.4 Daten sortieren .............................................................................................................6 3. Deskriptive Statistik .....................................................................................................6 4. Graphische Analyse.....................................................................................................7 4.1 Graphiktypen ................................................................................................................7 4.2 Graphik-Optionen..........................................................................................................8 5. Regressionsanalyse ....................................................................................................9 5.1 Schätzungen .................................................................................................................9 5.2 Teststatistiken zur ökonometrischen Interpretation .....................................................10 5.3 Zu den Annahmen des linearen Modells .....................................................................11 5.4 Testen linearer Restriktionen ......................................................................................12 6. Speichern und einfaches Programmieren ..................................................................13 6.1 Daten speichern ..........................................................................................................13 6.2 Graphiken speichern ...................................................................................................13 6.3 log-Dateien: Das Speichern der Ergebnisse................................................................13 6.4 Do-files: Einfache Programme erstellen und durchführen ...........................................13 7. Befehle ......................................................................................................................14 7.1 Syntax.........................................................................................................................14 7.2 Die Bedingungen if und in ...........................................................................................14 7.3 Das Befehls-Präfix by..................................................................................................14 7.4 Übersicht der wichtigsten Befehle (Commands) ............................................................14

Transcript of Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der...

Page 1: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

1

Stata Einführung für Version Stata 9.0

Übung zum Modul Quantitative Methoden der Agrarmarktanalyse

SS 2009

Einleitung:

Stata ist ein Statistikprogramm, das zur Analyse von Zeitreihen und Paneldaten, sowie zur Datenearbeitung und graphischen Präsentation benutzt werden kann. Neben der Bedienung über die Symbolleiste ermöglicht Stata die Befehlseingabe über Tastatur. Die folgenden Kapitel enthalten deshalb immer Erläuterungen dazu, welche Schritte zur Aufgabenlösung bei der Benutzung der Symbole erforderlich sind und am Ende den entsprechenden Tastatur-Befehl (Command: ). In der Regel erscheint v.a. Stata-Neulingen die Verwendung der Symbole einfacher, langfristig spart jedoch die Tastaturbedienung eine Menge Zeit und viele Arbeitsschritte. Eine Übersicht aller Tastatur-Befehle, die im Rahmen der Übung benutzt werden, ist in Kapitel 7.4 zu finden.

Inhaltsübersicht

1. Willkommen bei Stata ..................................................................................................2 1.1 Erstellen eines Datensatzes ..........................................................................................3 1.2 Öffnen einer bereits bestehenden Stata-Datei ..............................................................4 2. Datenbearbeitung mit Stata .........................................................................................4 2.1 Neue Variablen/ Datenreihen ........................................................................................4 2.2 Eingabe einzelner Daten ...............................................................................................5 2.3 Daten auswählen/ löschen ............................................................................................5 2.4 Daten sortieren .............................................................................................................6 3. Deskriptive Statistik .....................................................................................................6 4. Graphische Analyse .....................................................................................................7 4.1 Graphiktypen ................................................................................................................7 4.2 Graphik-Optionen ..........................................................................................................8 5. Regressionsanalyse ....................................................................................................9 5.1 Schätzungen .................................................................................................................9 5.2 Teststatistiken zur ökonometrischen Interpretation .....................................................10 5.3 Zu den Annahmen des linearen Modells .....................................................................11 5.4 Testen linearer Restriktionen ......................................................................................12 6. Speichern und einfaches Programmieren ..................................................................13 6.1 Daten speichern ..........................................................................................................13 6.2 Graphiken speichern ...................................................................................................13 6.3 log-Dateien: Das Speichern der Ergebnisse ................................................................13 6.4 Do-files: Einfache Programme erstellen und durchführen ...........................................13 7. Befehle ......................................................................................................................14 7.1 Syntax .........................................................................................................................14 7.2 Die Bedingungen if und in ...........................................................................................14 7.3 Das Befehls-Präfix by..................................................................................................14 7.4 Übersicht der wichtigsten Befehle (Commands) ............................................................14

Page 2: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

2

1. Willkommen bei Stata

Stata Dateitypen Results: Fenster enthält alle Ergebnisse, Berechnungen, etc.. Review: Auflistung aller durchgeführten Befehle. Auch Befehle, die über die Symbol-

leiste eingegeben wurden erscheinen als Kommando, können kopiert und in der Kommandozeile weiterbearbeitet werden.

Variables: Übersicht aller Variablen des Datensatzes. Command: Fenster zur Eingabe der Befehle über Tastatur („Kommandozeile“). Data editor: Zeigt den Datensatz und Variableninhalte. Diese können per Hand geän-

dert werden. Zu erreichen über Data → Data editor

Page 3: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

3

Stata Hilfe Bei Fragen und Problemen ist Hilfe über die Menüleiste zu finden. Help → Contents oder Search... Wird bei Search ein gesuchtes „Keyword“ eingegeben, liefert Stata eine Auswahl an

Help-Kategorien, die den gesuchten Begriff enthalten.

Command: search TOPIC

Command: help TOPIC

Literaturhinweise zu Stata Juul, S. (2004): Introduction to Stata 8. Department of Epidemiology and Social

Medicine, University of Aarhus. (http://www.cees.fudan.edu.cn/research/download/others-study_main_soft01.pdf (01.04.2007))

Kohler, U. und Kreuter, F. (2006): Datenanalyse mit Stata. Allgemeine Konzepte der Datenanalyse und ihre praktische Anwendung. 2., vollständig überarbeitete und ergänzte Auflage. R.Oldenburg Verlag, München.

Chen, Y.-C. (2002): Introduction to Stata. Center for Social Science Computation & Resaerch. University of Washington.

(http://julius.csscr.washington.edu/pdf/stata.pdf) http://www.Stata.com

1.1 Erstellen eines Datensatzes

Importieren einer Textdatei (.txt) File → Import → ASCII data created by a spreadsheet Browse… → Dateityp: Text file (.txt) Ordner, der die gesuchte Textdatei enthält, öffnen Textdatei aus Liste auswählen und doppelklicken (bzw. Button „Öffnen“ anklicken) Storage type → Use default, um die Datei nach dem Einlesen sofort zu bearbeiten Delimiter → automatically determine delimiter oder anderen Typ bestimmen → OK

Command: insheet using „x:\VName\QMM_Übung\Datensatz1.txt”

Hinweis zu Excel_Tabelle (.xls) Excel-Dateien können nicht ohne weiteres von Stata gelesen werden. Deshalb bietet es sich an, Excel-Dateien als Text-Dateien (*.txt oder *.csv) abzu-

speichern und wie oben beschrieben mit Stata zu öffnen. Um eine Excel-Datei als Text-Datei zu speichern in Excel: Datei → Speichern unter

→ Dateityp: Text (Tabstopp-getrennt) (*.txt) bzw. CSV (Trennzeichen-getrennt) (*.csv) Gewünschten Dateinamen und Zielverzeichnis auswählen → Speichern

Page 4: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

4

1.2 Öffnen einer bereits bestehenden Stata-Datei

File → Open Ordner, der gewünschte Stata-Datei enthält auswählen. Bestehende *.dta-Dateien aus Liste/ Ordner auswählen → Öffnen Im Fenster Variables erscheinen die Variablen, im Reviewfenster erscheint ent-

sprechender Tastaturbefehl.

File → Open Recent Die zuletzt verwendeten/ bearbeiteten Dateien sind hier sofort aufrufbar.

Command: use „x:\VName\QMM_Übung\DATEN.dta“

Command: cd „x:\VName\QMM_Übung“ use DATEN.dta

2. Datenbearbeitung mit Stata

Um sich einen Überblick über die Daten zu verschaffen, bestehen zwei Möglichkeiten: Entweder öffnet man über den Data editor den gesamten Datensatz, was eher unüber-sichtlich ist. Oder man lässt sich ausgewählte Datenbereiche anzeigen. Data → Data editor oder Data → Describe data → List data In „Variables“ → Variable eintragen oder aus Liste auswählen ((Liste über

angezeigt)) → OK

Command: browse VAR1-VAR3

Command: list VAR1 -VAR3 Hinweise: Missing values, d.h. fehlende Daten, werden von Stata als Punkt (.) gekennzeich-net. Erscheint in Resultfenster –more- wird die Liste durch ENTER fortgesetzt. Die Eingabe von quit in der Command-Zeile beendet die Auflistung.

2.1 Neue Variablen/ Datenreihen

Erstellen einer neuen Variablen Data → create or change variables → create new variable In das Feld “New variable name:“ Namen der neuen Variablen eingeben und Inhalt

der Variablen, z.B. 0, in „Contents of new variable: (expression)“ eintragen.

Command: generate NEWVAR_1 = 0

Command: egen NEWVAR_2= mean(VAR)

Page 5: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

5

Ändern der Inhalte einer Variablen Data → create or change variables → change new variable Command: replace NEWVAR = 1 if VAR > 0

Variablen-Namen, -Label und Werte-Label Data → Variable utilities → Rename Variable → ... Command: rename variable OLDNAME NEWNAME Data → Labels → Label Variable → ...

Command: label variable AHV “Anzahl der Mahlzeiten außer Haus pro Woche” Data → Labels → Label Values → Define or modify value labels → …

Command: label define VARLB 0 „Männer“ 1 „Frauen“, modify label values VAR VARLB

2.2 Eingabe einzelner Daten

Die Möglichkeit einzelne Daten mit Hilfe folgender Kommandos zu verändern, darf beim wissenschaftlichen Arbeiten nicht dazu genutzt werden, um Datensätze zur Korrektur der Ergebnisse zu nutzen. Es empfiehlt sich bei jeder Änderung des Datensatzes diesen unter neuem Namen abzuspeichern, um zu jeder Zeit Analyseschritte vollständig nachvollziehen zu können. Data → Data editor In entsprechender Zelle Daten ändern → Eingabetaste Data editor schließen (Alt F4) → Accept Changes Command: replace VAR = 400 in 12

2.3 Daten auswählen/ löschen

Sollen nur bestimmte Variablen zur Analyse verwendet werden, können diese ausgewählt, bzw. andere Variablen gelöscht werden. Gleiches gilt für Beobachtungen, wenn z.B. Analysen nur für einen bestimmten Zeitraum oder nur für bestimmte Personen durchgeführt werden sollen.

Variablen auswählen/ löschen Data → Variable utilities → Keep or drop variables Entscheiden zwischen “Keep” (auswählen) oder “Drop” (löschen) → In „Variable to

keep:“ bzw. „Variable to drop“ → gewünschte Variablen eintragen → OK

Command: keep VAR

Command: drop VAR

Beobachtungen auswählen/ löschen Data → Variable utilities → Keep (Drop) observations entweder “if” → Bedingung formulieren, unter der Beobachtungen ausgewählt

(gelöscht) werden sollen → OK oder „Keep (Drop) a range of observation“ → Bereich der Beobachtungen auswählen,

die ausgewählt (gelöscht) werden sollen → OK

Command: keep if VAR == 1

Command: drop if VAR != 1

Command: keep in 1/30

Command: drop in 31/50

Page 6: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

6

2.4 Daten sortieren

Data → Sort → Ascending sort In „Variables:“ Variable(n) eintragen, nach der sortiert werden soll oder in Liste

auswählen (Liste über angezeigt) → OK Werden z.B. zwei Variablen eingetragen, wird der Datensatz zuerst nach der ersten

angegebenen Variable aufsteigend sortiert; d.h. beginnend mit dem kleinsten Wert. Die zweite Variable gibt an, nach welchem Kriterium die Beobachtungen innerhalb der durch die erste Variable vorgegebenen Ordnung sortiert werden.

Command: sort VAR1 VAR2

Soll der Datensatz absteigend (größter Wert zuerst) sortiert werden: Data → Sort → Ascending and descending sort In „Variables:“ Minuszeichen vor die Variable(n) eintragen, nach denen absteigend

sortiert werden soll. Command: gsort -VAR1 VAR2

3. Deskriptive Statistik

Die Beschreibung der Daten gehört zu jeder vollständigen Analyse. Sie ermöglicht es, einen ersten Eindruck der Daten zu erlangen. Beispielsweise sagen Median und Varianz etwas über die Verteilung einzelner Variablen aus. Bei metrischen Daten zählt zur deskriptiven (beschreibenden) Analyse die Bildung von Mittelwert, Median und ggf. Modus sowie Angabe von Minimum, Maximum und Varianz bzw. Standardabweichung. Bei nominal und ordinal skalierten Daten sind neben dem Stichprobenumfang und der Anzahl fehlender Werte Häufigkeiten anzugeben.

Ausgabe der Lage- und Verteilungsparameter Statistics → Summaries, tables, & tests → Summary statistics → Summary statistics In das Feld “Variables”: Variable eintragen, für die Mittelwerte ausgegeben werden

sollen. Zur Ausgabe weiterer Parameter „Options“ → Display additional statistics → OK

Command: summarize VAR, detail

Häufigkeitsanalyse Statistics → Summaries, tables, & tests → Tables → One-way tables In “Categorical variable:” Variable eintragen bzw. aus Liste auswählen → OK

Command: tabulate VAR

Page 7: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

7

4. Graphische Analyse

Graphiken werden genutzt, um „auf einen Blick“ Informationen über die Datenstruktur und mögliche Zusammenhänge zu gewinnen. Damit sind sie Grundlage der Formulierung von Hypothesen und Modellen.

4.1 Graphiktypen

Streudiagramm Graphics → Easy graphs → Scatter plot In “X variable:” und “Y variable” gewünschte Variablen eintragen → OK oder Graphics → Twoway graph (scatterplot, line, etc.) Bei “Plot type:” Scatter auswählen → In “X variable:” und “Y variable” gewünschte

Variablen eintragen → OK

Command: graph twoway (scatter hheinkommen ausgaben)

Histogramm Graphics → Easy graphs → Histogram “Main”: In “Variable:” Variable eintragen oder aus Liste auswählen → „Continuous

data“ oder „Discrete data“ anklicken „Options“: Bei „Y axis“ „Density“ oder „Frequency“ auswählen → OK oder Graphics → Histogram In “Variable:” Variable eintragen → OK

Command: graph twoway (histogram hhgre) (Zur weiteren Gestaltung eines Histogramms und entsprechende Abbildung unter Punkt 5.2.)

Page 8: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

8

Box-Plots Graphics → Easy graphs → Box plot “Main”: In “Variable:” Variable eintragen oder aus Liste auswählen → OK Graphics → Box plot → ….

Command: graph box ausgaben

4.2 Graphik-Optionen

Anhand einiger Beispiele werden ausgewählte Befehls-Optionen zur Gestaltung einer Stata-Graphik erläutert. Die vorgestellten Optionen gelten im Allgemeinen für alle Graphiktypen. Zur benutzerdefinierten Achsenbeschriftung dient die Option ,xlabel (0(1000)4000) bzw. ylabel (Beachtet werden muss, dass nur die erste Option mit einem Komma eingeleitet wird!). In der Klammer steht zuerst der Startwert der Beschriftung [,xlabel (0(1000)4000)], in der inneren Klammer folgt die Schrittweite [,xlabel (0(1000)4000)] und nach der Klammer folgt der Endwert der Beschriftung [ ,xlabel (0(1000)4000)].

Command: twoway (scatter ausgaben hheinkommen) (lfit ausgaben hheinkommen), xlabel(0(1000)4000 ytitle(„Ausgaben für AHV“ „in Euro“) ylabel(0(5)30)

Die Graphik zeigt außerdem, wie zwei twoway-Graphiken überlagert werden können; scatter und lfit. Welche Hypothesen über den Zusammenhang zwischen dem Einkommen und den Ausgaben lassen sich ableiten?

Alternativ können mit der Option ,xlabel Werte in der Beschriftung durch Wörter ersetzt werden. Dazu folgt innerhalb der Klammer der Zahl, die ersetzt werden soll, in Anführungszeichen der gewünschte Begriff [(0 „Mann“ 1 „Frau“)].

Command: histogram geschlecht, frequency discrete gap(50) title(Histogramm) ytitle(„Absolute Häufigkeiten“) xlabel(0 „Mann“ 1 „Frau“)

Command: histogram geschlecht, frequency discrete gap(50) title(„Histogramm (color(black)“) ytitle(„Absolute Häufigkeiten“) xlabel(0 „Mann“ 1 „Frau“) color(black)

Page 9: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

9

Die weiteren Befehls-Optionen bedeuten: frequency → Ausgabe abs. Häufigkeiten statt Wahrscheinlichkeiten (Dichte). discrete → positioniert die Balken mittig über Werten. gap(50) → bestimmt den Abstand der Balken zwischen den zugehörigen Werten in %,

d.h. 0<WERT<100. title(Histogramm) → fügt eine Überschrift in die Graphik ein. ytitle(„Absolute Häufigkeiten“) → fügt einen Achsentitel ein (Stata würde automatisch

„Frequency“ ausgeben). color(black) → bestimmt die Farbe der Balken.

Detaillierte Erläuterungen zur Erstellung und Gestaltung von Graphiken sowie eine Auflistung aller Graphiktypen können der Stata-Hilfe entnommen werden (Command: help graph (graph intro)).

5. Regressionsanalyse

Nach der Vorabanalyse (graphisch und deskriptiv) kann mit der eigentlichen Regression begonnen werden. Hierzu wird ein Modell formuliert und anschließend anhand der Daten geschätzt. Die Ergebnisse dieser Schätzung werden dann ökonometrisch interpretiert.

5.1 Schätzungen

Das Modell bei einer linearen Regression (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige) Variable und mindestens eine exogene (erklärende oder unabhängige) Variable. Eine mögliche Fragestellung lautet beispielsweise, hängen die Aus-gaben für den Außerhausverzehr (ausgaben) von der Haushaltsgröße (hhgre) und/ oder dem Haushaltseinkommen (hheinkommen) ab. Das zugehörige Modell lautet:

ausgaben = β0 + β1 * hhgre + β2 * hheinkommen + u.

Statistics → Linear models and related → Linear regression Endogene Variable in “Dependent variable:” eintragen → OK Exogene Variable(n) in „Independent variables:“ eintragen. Bei mehreren Variablen

einfach durch Leerzeichen getrennt die Variablen auflisten.

Page 10: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

10

Wichtig: Stata fügt automatisch eine Konstante in die Regression ein (im Output: _const). Soll dies nicht geschehen unter „Treatment of constant“ → Supress constant term

Command: regress ausgaben hhgre hheinkommen

Wichtig: Auch hier muss die Konstante nicht extra aufgeführt werden. Stata erkennt automatisch die erste Variable nach dem Befehl regress als endogene, alle nach-folgenden als exogene Variable.

5.2 Teststatistiken zur ökonometrischen Interpretation

Die Güte des Modells Number of obs: Zahl der Beobachtungen F( 2, 25): empirischer F-Wert zur Überprüfung der Gesamt-

signifikanz des Modells Prob > F Wahrscheinlichkeit, dass alle Parameter βi in GG Null

sind. R-squared: Bestimmtheitsmaß R² Adj R-squared: korrigiertes R² Root MSE: Wurzel der mittleren Abweichungsquadrate des Modells

aus dem Anova-Block

Schätzergebnisse ausgaben: endogene Variable hhgre, hheinkommen: exogene Variable _const: Konstante Coef.: geschätzte Parameter Std. Err.: Standardfehler t: empirischer t-Wert (Coef./ Std. Err.) P > I t I: Wahrscheinlichkeit, dass Nullhypothese (βi=0) zutrifft. [95% Conf. Intervall]: Bereich, der in 95 von 100 Fällen den tatsächlichen Wert

des Parameters einschließt.

Anova-Block Source: ModelSS: erklärte Streuung (MSS) ResidualSS: nicht erklärte Streuung (RSS) TotalSS: Gesamtstreuung (TSS = MSS + RSS) SS: Summe der quadrierten Abweichungen (Sum of Squares) df: Freiheitsgrade MS: mittlere Abweichungsquadrate (MS = SS/df)

Page 11: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

11

5.3 Zu den Annahmen des linearen Modells

Um zu prüfen, ob die Annahmen zur OLS-Schätzung gelten, ist es zuerst notwendig, die geschätzten Fehler als Variable zu generieren. Am einfachsten geschieht dies NACH der Regression durch:

Command: predict RESIDUEN, resid

Test auf Normalverteilung Command: sktest RESIDUEN

Residual-vs.-Fitted-Plot Diese Graphik wird betrachtet, um abzuschätzen, ob Erwartungswert der Residuen im Mittel Null ist. Diese Annahme gilt für die gesamte Stichprobe per Definition, muss jedoch auch lokal gelten. Des Weiteren kann der Plot Hinweise darauf liefern, ob Homoskedastizität oder Autokorrelation vorliegen. In der Graphik soll KEIN funktionaler Zusammenhang zwischen den Residuen und den Fitted-Values (d.h. den geschätzten endogenen Variablen) zu erkennen sein. Graphics → Regression diagnostic plots → Residual-versus-fitted → OK

Command: rvfplot, yline(0) title(„RvF-Plot“ „gespeichert im Format *.wmf“)

Weitere Funktionen zur Validierung der Regressionsergebnisse unter

Command: help regress postestimation

Autokorrelation Durbin-Watson-Test zum Test auf Autokorrelation 1. Ordnung

Command: estat dwatson

Breusch-Godfrey-Test zum Test auf Autokorrelation n-ter Ordnung

Command: estat bgodfrey, lag(1/5)

Hinweis: Stata führt Tests auf Autokorrelation nur durch, wenn der Datensatz als Zeitreihe definiert wurde (siehe help tsset).

Heteroskedastizität Command: estat hettest VAR

Mulikollinearität VIF (Variance-Inflation-Factor) testet anhand des Anwachsen des R², ob zusätzliche

Variablen einen Sinn ergeben.

Command: estat vif

-10

-50

510

15R

esid

uals

11.6 11.8 12 12.2 12.4 12.6Fitted values

RvF-Plotgespeichert im Format *.wmf

Page 12: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

12

5.4 Testen linearer Restriktionen

In vielen Fällen soll neben der statistischen Signifikanz auch eine Aussage darüber gemacht werden, ob bestimmte Annahmen für die Parameter gelten. Es ist beispielsweise bei der Modellierung der Arbeitsnachfrage mit Hilfe der Cobb-Douglas-Funktion nicht nur entscheidend, dass α und β signifikant von Null verschieden sind, sondern auch, ob die Restriktion [α + β = 1] gilt. Dazu wird nach der Regression die zu überprüfende Restriktion (Hypothese) mit folgendem Befehl anhand einer F-Statistik getestet:

Command: test (α + β =1)

Page 13: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

13

6. Speichern und einfaches Programmieren

6.1 Daten speichern

File → Save oder Save as... → Alten Datensatz überschreiben (empfiehlt sich im Allgemeinen nicht!) oder Daten unter neuem Namen (z.B. DATENNEU) im Format *.dta speichern → OK

Command: save „x:\Vname\QMM_Übung\DATENALT.dta, replace

Command: save „x:\Vname\QMM_Übung\DATENNEU.dta

6.2 Graphiken speichern

Die Formate Windows Metafile(*.wmf) (vgl. Kapitel 6.3) und Windows Enhanced Metafile (*.emf) sind zu empfehlen, wenn die Graphiken unter Windows z.B. in WORD-Dateien verwendet werden sollen. Bei der Arbeit mit LATEX sollten die Formate PostScript (*.ps) oder Encapsulated PostScript (*.eps) gewählt werden. File → Save Graph... → Zielverzeichnis, Dateinamen und Dateityp auswählen → OK

Command: graph export „x:\Vname\QMM_Übung\GRAPHIK.wmf“

6.3 log-Dateien: Das Speichern der Ergebnisse

Bei log-Dateien (Stata log files) handelt es sich um reine Textdateien im Format .log bzw. .smcl (formatted log file). Sie enthalten alle verwendeten Befehle einer laufenden Anwendung und deren zugehörige Ergebnisse (Outputs/ Results). D.h. einmal angelegt, dokumentieren sie jeden durchgeführten Anwendungsschritt, solange sie nicht wieder geschlossen werden. Bei Datenanalysen sollten auf jeden Fall log-Dateien angelegt werden, denn nur so kann später auf bereits gewonnene Ergebnisse zugegriffen werden und jeder Analyseschritt nachvollzogen werden.

Anlegen eines log-file File → Log → Begin... → Zielverzeichnis auswählen → In „Dateiname:“ DOKUMENTATION eintragen →

„Dateityp:“ log auswählen → OK

Command: log using „x:\Vname\QMM_Übung\DOKUMENTATION.log“

Schließen des log-file File → Log →Close... → ENTER Command: log close

6.4 Do-files: Einfache Programme erstellen und durchführen

In Do-files werden Kommando-Sequenzen eingegeben und kommentiert. So ist es besonders einfach, bestimmte Analyseschritte mehrmals zu wiederholen und im Nachhinein nachzuvollziehen.

Anlegen und Bearbeiten eines Do-files File → Do… → Zielverzeichnis auswählen → In „Dateiname:“ PROGRAMM eintragen → „Dateityp:“

do auswählen → OK Befehle eintragen, Kommentare durch // bzw. /// einleiten, Überschriften einfügen und

durch * kennzeichnen:

Page 14: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

14

*Deskriptive Statistik use „x:\Vname\QMM_Übung\AHV.dta“ // Datensatz öffnen tab geschlecht /// Häufigkeiten Hinweis: Wenn die Kommentare weniger als 75 Zeichen enthalten genügt der „//“ ansonsten bitte „///“ verwenden. Keine Zeilenumbrüche einfügen, da dies von Stata als Beginn eines neuen Befehls verstanden wird.

Command: cmdlog using „x:\Vname\QMM_Übung\PROGRAMM.do”

Durchführen eines Do-files File → Do… → Zielverzeichnis auswählen → Do-files auswählen → Doppelklicken Command: do „x:\\Vname\QMM_Übung\PROGRAMM.do“

7. Befehle

7.1 Syntax

Bei der Eingabe der Befehle über die Kommando-Zeile muss folgende Syntax beachtet werden. Für Graphiken sind einige Besonderheiten wegen der verschiedenen Plots, d.h. Graphiktypen zu beachten. [Präfix:] Command [Variablenliste] [if Bedingung] [in Bereich] [Gewicht] [, Optionen]

Graph-Command (Plot-Command, Plot Options) (Plot-Command, Plot-Options) [, Graph-Optionen]

7.2 Die Bedingungen if und in

if Der Befehl if wird verwendet, wenn nur ein Teil des Datensatzes (z.B. ein bestimmter Zeit-raum oder Singlehaushalte) bei der Analyse berücksichtigt werden soll. Gleichheit if VAR == Wert Ungleichheit if VAR ~= Wert oder if VAR != Wert Größer- bzw. Kleiner-Verknüpfungen: >, >=, <, <=

in Der Befehl in wird benutzt, um nur bestimmte Bereiche des Datensatzes zu berücksichtigen.

7.3 Das Befehls-Präfix by

Ein Befehls-Präfix geht dem eigentlichen Befehl voran und kann nicht allein stehen. Durch das Präfix by wird der Datensatz in Kategorien unterteilt, für die der nachfolgende Befehl separat durchgeführt wird. D.h. by kann beispielsweise benutzt werden, um die Mittelwerte des Einkommens von Männer und Frauen mit nur einem Kommando zu berechnen. Wichtig: Um das Präfix zu verwenden muss der Datensatz immer zuerst nach der Variable, die die Kategorien vorgibt, sortiert werden; in unserem Beispiel also nach dem Geschlecht.

Command: sort geschlecht by geschlecht: sum hheinkommen

Command: bysort geschlecht: sum hheinkommen

7.4 Übersicht der wichtigsten Befehle (Commands)

Die nachfolgende Tabelle enthält alle in dieser Einführung vorgestellten Befehle. Fett unterlegt sind die empfohlenen Verkürzungen. Diese sind so gestaltet, dass bei möglichst geringer Schreibarbeit die Erkennung der Befehle möglichst einfach bleibt. Ebenso wie bei den Befehlen können Variablen soweit verkürzt werden, dass sie gerade noch erkannt werden. D.h. sollte der Datensatz lediglich aus den Variablen Nummer, Geschlecht und

Page 15: Stata Einführung - · PDF fileÜbung zum Modul Quantitative Methoden der Agrarmarktanalyse ... (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige)

Angela Hoffmann SS 2009

15

Einkommen bestehen, genügt die Unterscheidung N, G, E. Jedoch ist bei der Variablen-Verkürzung besondere Vorsicht geboten, damit die Analyse im Nachhinein auch für andere nachvollziehbar bleibt. Ein weiterer wichtiger Hinweis zur Arbeitserleichterung: Wenn dem Befehl keine Variable/ Variablenliste folgt, führt Stata den Befehl automatisch für alle Variablen durch.

Command Beschreibung browse Anzeigen des Data-Editors (Änderungen nicht möglich) cd Wechseln des Verzeichnisses clear Löschen cmdlog using Erstellen eines Do-files describe* Beschreibung von Datensätzen Do Durchführen eines Do-files drop Daten löschen Egen Erstellen einer neuer Variablen (nachfolgend Funktion) estat bgoldfrey Test auf Autokorrelation n-ter Ordnung estat dwatson Test auf Autokorrelation 1. Ordnung estat hettest Test auf Heteroskedastizät estat vif Test auf Multikollonearität generate Erstellen einer neuer Variablen graph box Erstellen eines Box-Plots graph export Speichern von Graphiken graph twoway histogram Erstellen eines Histogramms graph twoway lfit Erstellen einer Regressionsgrade graph twoway scatter Erstellen eines Streudiagramms gsort Sortieren (auf- und absteigend) help Aufruf der Online-Hilfe insheet using Importieren von Datensätzen im Format .txt keep Daten auswählen label define Erstellen einer Labelvorschrift label values Zuornen einer Labelvorschrift list Auflistung der Daten log close Schließen eines Log-files log using Öffnen eines Log-files outsheet using Daten exportieren predict Errechnung der Residuen einer Regression quit Beendung von Auflistungen bei -more- regress lineare Regression rename variable Umbennen einer Variable replace Ersetzen von Daten, Variablen rvfplot Residuals-vs-Fitted-Plot save Speichern von Daten search Suchen sktest Test auf Normalverteilung sort Daten sortieren summarize Mittelwerte, etc. tabulate Häufigkeitstabellen test Test linearer Restriktionen tsset Variable als Zeitreihe definieren use Laden von Datensätzen im Format .dta * fett unterlegt sind die empfohlenen Verkürzungen der Kommandos. Diese stimmen nicht immer mit der maximal möglichen Verkürzung der Befehle überein. Die maximale Verkürzung ist in der Stata-Online-Hilfe durch Unterstreichung gekennzeichnet.

Kritische Anmerkungen und Verbesserungsvorschläge zu dieser Einführung werden gerne angenommen ([email protected]). Vielen Erfolg und Freude mit Stata!