Goethe University Frankfurt - Methodik empirischer … · 2015-03-15 · Methodik empirischer...

40
Methodik empirischer Sozialforschung. Fehlerquellen, statistische Artefakte und was wir dagegen tun können. Vortrag im Forum Methodenzentrum der Universität Frankfurt 13. Januar 2015 Andreas Diekmann ETH Zürich

Transcript of Goethe University Frankfurt - Methodik empirischer … · 2015-03-15 · Methodik empirischer...

Methodik empirischer Sozialforschung. Fehlerquellen, statistische Artefakte und was wir dagegen tun können.Vortrag im Forum Methodenzentrum der Universität Frankfurt

13. Januar 2015

Andreas DiekmannETH Zürich

1. Neue Entwicklungen2. Methodenprobleme: Beispiele

Räumlicher Kontext und Kausalität3. Veröffentlichungen liefern ein verzerrtes

Bild des Forschungsstands4. Datenmanipulation5. Sind die meisten signifikanten

Ergebnisse in Fachartikeln falsch?6. Was tun?

Neue EntwicklungenEs gibt viele hervorragende methodische Neu- und Weiterentwicklungen, dazu

zählen:

1. Räumliche Daten und GIS2. Analyse kausaler Zusammenhänge mit Paneldaten3. Weiterentwicklungen in der Netzwerkanalyse4. Die Wiederentdeckung von Experimenten,

Feldexperimenten, Vignettenanalysen, Discrete-Choice-Experimente u.a.

5. Das Konzept des „Total Survey Error“ und die systematische Entwicklung der Survey-Methodologie in der „Michigan-School“ (Groves et al. 2004)

6. Neue Daten aus digitaler Technik, Internet, „Big Data“

Beispiel: Haushaltssurvey plus räumliche Daten im Geo-

Informationssystem (GIS)

NO2 PM10 PM 2.5 Ozon Tag Nacht

Schweizer/In ref. ref. ref. ref. ref. ref.

Westeuropa, Nordamerika -0.37 -0.18 -0.10 2.77 0.54 0.62(-0.73) (-0.60) (-0.47) (0.28) (0.90) (1.02)

Südeuropa 2.28** 1.44** 0.91** 18.82+ 1.48* 1.84**(4.10) (4.35) (4.01) (1.73) (2.22) (2.75)

3.20** 1.72** 1.05** -21.23 1.89* 2.03*(4.16) (3.74) (3.33) (-1.41) (2.01) (2.14)

0.27 0.04 0.02 0.74 -0.54 -0.76(0.68) (0.17) (0.13) (0.10) (-1.13) (-1.58)

-0.14** -0.07** -0.05** -0.05 -0.04 -0.04(-4.88) (-4.28) (-4.15) (-0.08) (-1.13) (-1.19)

Ländliches Gebiet ref. ref. ref. ref. ref. ref.

Agglomeration 6.55** 3.36** 2.29** -22.83** 2.30** 2.61**(21.47) (18.52) (18.41) (-3.82) (6.33) (7.16)

Kleine od. Mittlere Stadt 8.33** 2.90** 1.91** -54.37** 5.03** 4.00**(22.49) (13.13) (12.61) (-7.50) (11.37) (8.99)

Großstadt 16.91** 8.50** 5.45** -139.77** 5.37** 4.21**(50.44) (42.58) (39.78) (-21.30) (13.40) (10.45)

Konstante 16.42** 17.24** 13.27** 303.35** 48.52** 37.50**(29.59) (52.13) (58.52) (27.92) (73.02) (56.12)

Korr. R-Quadrat 0.526 0.446 0.409 0.195 0.086 0.052Anzahl Fälle 2569 2568 2568 2565 2546 2546

Äquivalenzeinkommen (mon. in Tsd.)

Luftbelastung Straßenlärm

Andere (Balkan, Osteuropa, Asien, Südamerika)

Bildungsjahre HH (BFS 2007, in Zehner)

Diekmann und Meyer 2010

Problem der Ermittlung kausaler Zusammenhänge mit nicht-

experimentellen Surveydaten

Zeichnung Oswald Huber

So einfach ist esleider nicht!

„Marriage Premium“

Chiodo, A. J. and M. T. Owyang, 2002. For Love or Money. Why married men make more. The Regional Economist.

(Nur ein Beispiel. Vielzahl von Artikeln zur Heiratsprämie inzahlreichen Ländern.)

Problem: Verzerrung durch selektive Stichproben

Aus: Walter Krämer, 1998. Denkste! Trugschlüsse aus der Weltder Zahlen und des Zufalls. München: Piper

Was macht die „methodenbewusste“ Sozialforscherin oder der Sozialforscher (im Großteil von Artikeln in Fachzeitschriften)? – Multivariate OLS-Regression:

► Einkommen = b0 + b1Bildung +b2(Berufserf.) + b3(Berufserf.)2 + b4Fam.stand + (weitere „Kontrollvariablen“)

Fam.stand = 1, wenn die Person jemals verheiratet war, 0 sonst.

► Ergebnis: b4 > 0 und signifikant für α = 0,05

Ermittlung der Höhe der „Heiratsprämie“

► Aber ist der Zusammenhang wirklich kausal? Regressionsmethoden sind keine Garantie zur Aufdeckung kausaler Effekte.

► Die große Frage: Selektion oder Kausalität? Im Beispiel: Haben Männer mit höheren Einkommen andere, „unbeobachtete Merkmale“, die dazu führen, dass sie mit höherer Wahrscheinlichkeit heiraten?

► Insbesondere in der Arbeitsmarkt-, Bildungs oder Gesundheitsforschung: Hat Programm x wirklich dazu geführt, dass Arbeitslose schneller einen Job gefunden haben?

► Hauptproblem von Kausalanalysen mit Surveydaten und von Quasi-Experimenten.

►Selektion oder Kausalität: Beantwortbar durch Panel-Daten und z.B. Analysen mit Fixed-Effects-Regressionsmodellen (siehe z.B. Gangl 2006, Brüderl 2010, Legewie 2012)

►Oder mit experimentellen Designs! Leider werden in der Soziologie viel zu selten Experimente oder Feldexperimente durchgeführt.

Es gibt Methoden, um diese Fragen zu klären!

Selektive Veröffentlichungpositiver Befunde

► „Schubladeneffekt („publication bias“signifikanter Ergebnisse)

► Diagnostik?a) „Caliper Tests“b) Meta-Analysen

Mindestgröße für denEinzug zum franz. Militärdienst: 157 cm.Adolphe Quetelet schätzt,Dass sich etwa 2,2 % oder2200 Mann entzogen haben.Stigler 1986, ausDiekmann 2007

Publication Bias: „Caliper-Test“

1.96 1.96

US journalsof sociology,46 articles

German journalsof sociology, 50articles

Gerber and Malhotra 2008 Auspurg and Hinz 2011Source: Auspurg and Hinz 2011, What fuels publication bias? In: Special issueof the J. of Economics and Statistics, edited by A. Diekmann

Funnel Plot für Metaanalyse vonMindestlohn-Studien

Erhöht die Einführung eines Mindestlohns die Arbeitslosigkeit?

Durchschn. Elastizität -0,19, d.h. 1% Anstieg Mindestlohnverringert die Beschäftigungum 0,19 %. Aber stimmt das wirklich?

Doucouliagos & Stanley 2009, 1424 Studien (nach Auspurg und Hinz 2011)

„Größe“ bzw. „Genauigkeit“ der Studie

Ergebnis erwartet Ergebnis nicht erwartet

Publication bias?

New England Journal of Medicine 358, 2008

74 Studien mit kurzfristig wirkenden Antidepressiva, die bei der FDA registriert und klassifiziert wurden.

Von den 74 Studien wurden fast alle positiven Resultate publiziert,die negativen jedoch sehr selten.

►Werden alle Studien (publizierte und nicht publizierte) in einer Metaanalyse berücksichtigt, ist der Effekt wesentlich geringer.

Ein seltenes Beispiel eines Blicks in„die Schublade“

Ziffernanalyse gefälschterDaten mittels Newcomb-Benfords Gesetz

Z.B. Prüfung von Regressions-koeffizienten. Manipulations-verdacht, wenn die hinterenZiffern von der Benford-Verteilung abweichen!

„Heiße Tomatensuppe“Rising up to higher virtues: Experiencing elevated physical height uplifts prosocial actionsLawrence J. Sanna, Edward C. Chang, Paul M. Miceli, Kristjen B. LundbergDepartment of Psychology, University of North Carolina at Chapel Hill, NC, USAFuqua School of Business, Duke University, NC, USADepartment of Psychology, University of Michigan, MI, USA

Journal of Experimental Social Psychology 47, 2011: 472-476.

„Hot Soup“-Studie im TheaterVersuchsgruppen:♦ Orchestergraben (tief)♦ Kontrollgruppe (mittel)♦ Bühne (hoch)

Abhängige Variable: Vp gibt (scheinbarer) Testperson heisse Tomatensuppe. Je mehr, desto geringer das Mitgefühl. Indikator: Tomatensuppe (Gramm).

Sanna et al. 2011

_________________________________

Simonsohn 2013

______________________________

Nur 15 von 100‘000sind ≤ Homogenität vonSannas SDs

Fang and Casadevall,2011. Retracted Scienceand the Retraction Index.Infection and Immunity 79

Journal Impact and RetractionImpact/Zitationen

Retractions

Zeichnung Oswald Huber

Signifikante Ergebnisse

• Eltern von Töchtern haben ein höheres Scheidungsrisiko als Eltern von Söhnen (Morgan et al. 1988) (dagegen: Diekmann/Schmidheiny 2004)

• Rosenduft steigert die Gedächtnisleistung (MRI & Memory, Uni HL, Science 2007)

• Do pretty women inspire men to discount the future? (Wilson and Daley 2003)

• „Beautiful parents have more daughters than ugly parents…“ (Kanazawa 2006).

• Im Dezember geborene Kinder haben eine höhere Wahrscheinlichkeit als im Juni geborene Kinder, den 105. Geburtstag zu erreichen (Scholz, Doblhammer und Maier 2005).

• Männer untertreiben ihr Körpergewicht bei Anwesenheit eines Interviewers im Mittel um ein Kilo (Kroh 2005).

• Curry steigert die kognitive Leistung des Gehirns bei älteren Menschen (Tze-Pin Ng et al. 2006).

• Linkshändigkeit hat bei Männern mit höherer Bildung einen signifikanten Effekt auf das Lohnniveau (Ruebeck et al . 2006, NBER).

• Chirurgen können besser operieren, wenn sie Erfahrungen mit Videospielen haben (Arch. Surg 142: 181)

• Die durchschnittliche Körpergrösse von Mikroökonomen ist geringer als die von Makroökonomen (forthcoming Diekmann et al. 2015, Journal of Irreproducable Results)

Hypothese der Behaarungs-Sequenzvon Kreml-Machthabern

hat nicht hat hat nicht hat hat nicht hat

hat nicht hat hat nicht hat hat nicht

0 1 0 1 0 1

0 1 0 1 0

P(H0) = 1/210 = 1/1024, hoch signifikant für α = 0,01

1. Pfeil abschießen. 2. Zielscheibe aufhängen

HARKing (Kerr 1998) „Hypothesizing after results are known.“

John P. A. Ioannidis, 2005. PLoS Medicine 2: 696-701

583 Zitationen in ISI Web of Science

► Gilt für alle empirischen Wissenschaften, die Hypothesen mittelsSignifikanztests untersuchen.

► Es wird kein „publication bias“ und kein HARKing angenommen,Alle Forscherinnen und Forscher arbeiten lehrbuchgerecht.

► Dennoch ist (unter bestimmten Bedingungen) die Mehrheit dersignifikanten Ergebnisse falsch!

► Das Ergebnis basiert auf einer einfachen Rechnung mit dem BayesschenTheorem. (Siehe auch zu einer einfachen Darstellung und KritikDiekmann, A., 2011, Are most published research findings false?)

Statt vieler Formeln ein Rechenbeispiel:

Was tun?

Annahmen

α = 0,05β = 0,20 (power = 1 – β = 0,80)P = 0,04 (apriori-Wahrscheinlichkeit einer wahren Hypothese)

800 signifikante Ergebnisse = 320 wahr + 480 falsch-positiv

Replikation mit neuen Daten:

320 • 0,80 = 256 signifikant und wahr480 • 0,05 = 24 signifikant und falsch-positiv

24/280 ► 8,6 % Fehlerquote

Replikation reduziert die Fehlerquote von 60 % auf 8,6 %

„Winner‘s Curse“ „Reproducebility Project“: 22 repliziertepsychologische Experimente

„Winner‘s Curse“ „Reproducebility Project“: 22 repliziertepsychologische Experimente

► Die Effektstärke ist in replizierten Studien, falls der Effektüberhaupt replizierbar ist, meist geringer als in derOriginalstudie.

► Trau‘ keiner Studie, wenn der Effekt nicht repliziert wurde!

• Ausbildung: Forschungsethik, bessere Kenntnisse in Methodik, Datenerhebung und Statistik

• Spielregeln vor dem Spiel: Registrierung von Studien vor Studienbeginn?

• Herausgeber: “Replikationskultur”, COPE, z.B. J. Economics and Statistics: “The editors invite replication studies focusing on the robustness of empirical findings.“

• Irrtümer und Manipulationen: Replikation mit den Daten der Originalstudie

• Falsch-positive Ergebnisse erkennen: Replikation mit neuen Daten

Was tun?

• Zugang zu Rohdaten plus Dokumentation der Daten.

• Daten von veröffentlichten Arbeiten im Internet verfügbar machen.

• Anreize für Replikationen (stud. Arbeiten, Diss., Herausgeber von Journals, Forschungsförderung: Budget für Replikationen)

• Stichprobe veröffentlichter Arbeiten replizieren• Metaanalysen

►Nur so wird Sozialforschung kumulatives Wissen erzeugen und zu einem professionellen Unternehmen werden!

THE END