Statistik f ur Studierende der Sozialwissenschaften ...€¦ · Statistik f ur Studierende der...

Post on 24-May-2020

10 views 0 download

Transcript of Statistik f ur Studierende der Sozialwissenschaften ...€¦ · Statistik f ur Studierende der...

Statistik fur Studierendeder SozialwissenschaftenWintersemester 2010/2011

F. Marohn

,,Es ist mir noch heute ratselhaft,

dass man herausbringt,

was sechzig Millionen Menschen denken,

wenn man zweitausend Menschen befragt.

Erklaren kann ich das nicht. Es ist eben so.”

Elisabeth Noelle–Neumann

Meinungsforscherin

StatSoz 1

Vorlesung und Aufgabenblatter im Internet unter

der Homepage des Lehrstuhls fur Statistik:

http://statistik.mathematik.uni-wuerzburg.de/

Vorlesungsverzeichnis WS 2010/2011

Vorlesung: Statistik fur Studierende der Sozialwis-senschaften

Mathematische Grundlagen: Grundlagen

Vorlesung: Kapitel 1, Kapitel 2, ...

Ubung: Blatt 1, Blatt 2, ...

StatSoz 2

1 Einleitung

1.1 Was soll Statistik?

1.2 Ziele

1.3 Vorkenntnisse

1.4 Literatur

1.1 Was soll Statistik?

In den empirischen Wissenschaften werden zur

Beantwortung vieler Fragestellungen bzw. zur

Uberprufung allgemeiner theoretischer Aussagen

Daten (Beobachtungen, Messwerte)

gesammelt.

Daten werden immer an einzelne

Untersuchungseinheiten (Objekte, Personen)

gewonnen.

StatSoz 3

Fragen der Statistik:

• Wie sollen welche Daten erhoben werden?

(→Datenerhebung)

• Wie soll man Daten beschreiben?

(→Beschreibende Statistik)

• Welche Schlusse lassen sich aus den Daten

ziehen? (→Schließende Statistik)

StatSoz 4

• Datenerhebung (kein zentraler Gegenstand

dieser Vorlesung)

(1) Ausarbeitung eines Fragenkatalogs: Ver-

standlichkeit, Prazision und ,,Neutralitat” der

Fragen sind von entscheidender Bedeutung.

Weitere Punkte: Umfang, Reihenfolge, Ant-

wortauswahl (Kategorien), Kontrollfragen

(2) Ziehung einer Stichprobe: Eine Stichpro-be ist eine Auswahl aus einer Grundgesamt-heit (= Menge aller potentiellen Untersu-

chungseinheiten); die Auswahl muss ,,zufallig”

erfolgen (Stichwort: Reprasentativitat).

Bemerkung: Vollige Kenntnis uber die Grund-

gesamtheit erhalt man nur durch eine Vollerhe-bung (Ausnahme).

StatSoz 5

• Beschreibende (deskriptive) Statistik

Extraktion der Information, die in den Daten

steckt, durch Datenaggregation. Dies geschieht

durch die Berechnung von

– absoluten, relativen bzw. prozentualen

Haufigkeiten (Erstellung einer empirischenHaufigkeitsverteilung); graphische Darstel-

lungsformen: Balken– und Tortendiagramm,

Histogramm.

StatSoz 6

– statistischen Kennzahlen (Mittelwert,...)

Zahlenbeispiel:

Stichprobe von funf Single–Haushalten

Daten (Einkommen in Tausend e):

2.2, 2.0, 1.6, 2.4, 1.8

Mittelwert (arithmetisches Mittel):

2.2 + 2.0 + 1.6 + 2.4 + 1.8

5= 2

StatSoz 7

• Schließende (induktive) Statistik

Frage: Wie gelangt man von der Stichprobe

zu einer allgemein gultigen Aussage, also zu

einer Aussage, die sich auf die Grundgesamtheit

bezieht?

Stichprobe?−→ Grundgesamtheit

Beispiel:

Interessierende Große (unbekannt): Mittelwert

einer Grundgesamtheit (etwa durchschnittliches

Realeinkommen aller Single–Haushalte einer

Stadt)

Empirische Große (bekannt): Mittelwert der

Stichprobe (durchschnittliches Realeinkommen

der Single–Haushalte aus der Stichprobe)

StatSoz 8

Beachte: Daten sind zufallsabhangig in dem

Sinne, dass eine andere Auswahl – also eine an-

dere Stichprobe – im Allgemeinen zu anderen

Daten fuhren wurde. In den Daten steckt also

eine gewisse Variabilitat, die es bei der Beant-

wortung obiger Frage zu berucksichtigen gilt!

Zahlenbeispiel:

Grundgesamtheit

Einheit WertA 2.2B 2.0C 1.6D 2.4E 1.8

Mittelwert=2

Stichprobe: A,C,D

Stichproben–Mittelwert:2.2 + 1.6 + 2.4

3= 2.07

StatSoz 9

Mogliche Stichproben vom Umfang 3:

Stichprobe Daten MittelwertABC 2.2, 2.0, 1.6 1.93ABD 2.2, 2.0, 2.4 2.20ABE 2.2, 2.0, 1.8 2.00ACD 2.2, 1.6, 2.4 2.07ACE 2.2, 1.6, 1.8 1.87ADE 2.2, 2.4, 1.8 2.13BCD 2.0, 1.6, 2.4 2.00BCE 2.0, 1.6, 1.8 1.80BDE 2.0, 2.4, 1.8 2.07CDE 1.6, 2.4, 1.8 1.93

Konsequenz: Es besteht eine Unsicherheit beim

induktiven Schließen von der Stichprobe auf die

Grundgesamtheit.

Naturliche Forderung an eine Stichprobe: Sie soll

moglichst reprasentativ, d.h. unverzerrt sein,

soll also die Verhaltnisse in der Grundgesamtheit

moglichst gut widerspiegeln.

StatSoz 10

Aber: Nur in den seltensten Fallen liegt eine

vollig reprasentative Stichprobe vor. Man hat es

daher immer mit einem

Stichprobenfehler (sampling error)

zu tun.

Der Stichprobenfehler beruht auf zufallige Ab-

weichungen der einzelnen Stichproben von der

Grundgesamtheit. Dieser Fehler ist unvermeid-

lich. Stichprobenfehler sind keine Fehler im ei-

gentlichen Sinne (Wahl einer ,,falschen” Stich-

probe oder andere methodische Fehler).

Bei einer Zufallsauswahl ist es moglich (mit-

tels der Wahrscheinlichkeitsrechnung), eine

Abschatzung fur den Stichprobenfehler anzuge-

ben.

Tendenziell gilt: Je großer der Stichprobenum-

fang, desto reprasentativer die Stichprobe.

StatSoz 11

Die Fragen, die aufgrund von Daten beantwortet

werden sollen, sind haufig von folgendem Typ:

(i) Ein–Stichproben–Problem Wie lasst sich

eine uns interessierende, aber unbekannte

Große (z. B. Mittelwert oder Anteilswert ei-

ner Grundgesamtheit) mittels einer Stichprobe

schatzen und wie genau ist diese Schatzung?

Beispiel: Eine Umfrage in einem Stadtteil er-

gab, dass 42 von 200 Pendlern, also 21%,

regelmaßig offentliche Verkehrsmittel benut-

zen. Wie groß ist der Anteil der Pendler dieses

Stadtteils, die regelmaßig offentliche Verkehrs-

mittel benutzen?

StatSoz 12

(ii) Zwei–Stichproben–Problem Sind Unter-

schiede von zwei Stichproben–Mittelwerten

,,rein zufalliger” Natur, d.h. sind Unterschiede

nur auf die Zufalligkeit der Daten zuruck-

zufuhren? Oder liegt ein systematischer, be-

deutender Unterschied vor, der einer Interpre-

tation wert ist? Unterscheiden sich also zwei

Grundgesamtheiten hinsichtlich ihrer Mittel-

werte?

Beispiel: 12 Kinder reicher Eltern und 12

Kinder armer Eltern werden gebeten, den

Durchmesser (in mm) eines 1 Euro–Stuckes

zu schatzen. Die folgenden Schatzungen wur-

den abgegeben:

StatSoz 13

reich arm

20 24

23 23

23 26

21 28

22 27

25 27

19 25

24 18

20 21

26 26

24 25

25 29

Mittelwert (reich)= 22.67

Mittelwert (arm) = 24.92

Sind die durchschnittlichen Schatzwerte von

armen Kinder signifikant großer als die von

reichen Kinder?

StatSoz 14

(iii) Statistischer Zusammenhang Gibt es einen

Zusammenhang zwischen zwei Großen X und

Y ?

Beispiel: Hat die Schulbildung (X) einen Ein-

fluss auf das Umweltbewusstsein (Y )? In ei-

ner einschlagigen EMNID–Umfrage wurde da-

zu 2004 ,,zufallig” ausgewahlten Personen die

Frage gestellt, wie sehr sie sich durch Umwelt-

schadstoffe beeintrachtigt fuhlten (mit den

vier Kategorien uberhaupt nicht, etwas, mit-

tel, sehr).

unge– Haupt– Real– Gym– Hoch–lernt schule schule nasium schule

nicht 212 434 169 79 45etwas 85 245 146 93 69mittel 38 85 74 56 48sehr 20 35 30 21 20

Tabelle 1–1 EMNID–Umfrageergebnisse

StatSoz 15

Zur Beantwortung dieser Fragen benotigt man

theoretische Verteilungen (Modelle), die auf

dem Begriff der Wahrscheinlichkeit aufbau-

en. Theoretische Verteilungen beschreiben den

,,Zufall”. Empirische Verteilungen (relativeHaufigkeiten) sind dazu ungeeignet!

Der ,,Zufall” lasst sich beschreiben. Denn: Er

folgt gewissen ,,Gesetzmaßigkeiten” (auch der

Zufall kann nicht machen was er will, Zufall

bedeutet nicht Willkur!) und zur Beschreibung

dieser ,,Gesetzmaßigkeiten” dienen die Model-

le der Wahrscheinlichkeitsrechnung. Mit wach-

senden Stichprobenumfangen lassen sich Ge-

setzmaßigkeiten erkennen (Stabilisierung):

StatSoz 16

Theoretische Verteilung:

ϕ(x) =1√2π· e−x2/2

ϕ ist die sogenannte Gaußsche Glockenkurve(Dichte der Standard–Normalverteilung).

Abbildung 1–1 Die Dichte ϕ

StatSoz 17

Ein Modell ist aus der beobachtbaren Wirklich-

keit nicht logisch ableitbar. Es gibt daher auch

kein richtiges oder falsches Modell (dazu fehlt

ein Kriterium), sondern nur ein geeignetes oder

weniger geeignetes Modell. Welches Modell man

wahlt, hangt von verschiedenen situationsbezo-

genen Faktoren ab.

Die Verfahren der schließenden Statistik

(Intervallschatzungen, Tests) hangen von dem

gewahlten Modell und den damit verbundenen

Annahmen ab. Es ist daher wichtig, sich mit

einigen wichtigen Modellen der Wahrscheinlich-

keitsrechnung vertraut zu machen!

StatSoz 18

Aussagen der schließenden Statistik sindWahrscheinlichkeitsaussagen uber die Ver-einbarkeit der in den Daten erfassten Rea-litat mit den Modellen.

Durch die Einbettung der Probleme in einen

wahrscheinlichkeitstheoretischen Rahmen wird

die Unsicherheit statistischer Aussagen nicht auf-

gehoben, wohl aber quantitativ erfassbar!

StatSoz 19

Beispiel: (Fortsetzung) Die Stichprobe ergab

einen Anteilswert von Pendlern, die offentliche

Verkehrsmittel benutzen, von 0.21.

Statistische Aussage: Mit einer Wahrscheinlich-

keit von 0.95 liegt der wahre (aber uns unbe-

kannte) Anteilswert p im Intervall [0.15, 0.27].

Rein logisch gesehen gilt naturlich:

Entweder p ∈ [0.15, 0.27] oder p /∈ [0.15, 0.27]

Nur eine dieser beiden Aussagen kann richtig

sein. Aber: Wir wissen nicht welche, da wir die

Zahl p nicht kennen (Unsicherheit)!!!

Wir konnen nur sagen, dass der Anteilswert p mit

einer gewissen Wahrscheinlichkeit in einem (von

den Daten abhangenden) Intervall liegt (Quan-

tifizierung der Unsicherheit).

StatSoz 20

1.2 Ziele

– Kennenlernen der wichtigsten Arten, Daten

darzustellen und zu beschreiben

– Grundidee von Wahrscheinlichkeitsmodellen

verstehen, Kennenlernen der gebrauchlichsten

Modelle der Wahrscheinlichkeitsrechnung

– Grundbegriffe und Grundaufgaben der schlie-

ßenden Statistik verstehen, Kennenlernen

grundlegender statistischer Verfahren (Punkt–

und Intervallschatzungen, Tests); kompe-

tenter Umgang mit den Begriffen statistischeSignifikanz und p–Wert

– Kritikfahigkeit und Sensibiliat gegenuber sta-

tistischen Anwendungen

– Erster Umgang mit statistischer Software

(SPSS); Output–Exegese (p–Wert,...)

StatSoz 21

– Basis zur selbststandigen Einarbeitung in wei-

tere (und kompliziertere) Methoden der stati-

stischen Datenanalyse

1.3 Vorkenntnisse

Kenntnisse der Schulmathematik sollten aus-

reichen. Allerdings: Ein vertieftes Verstandnis

(weiterfuhrender) statistischer Verfahren ist oh-

ne (hohere) Mathematik und einem gewissen

Formalismus nicht moglich.

Mathematik so wenig wie notig. Aber:

Ganz ohne Mathematik geht es nicht!

Und...

Mit Zahlen umgehen konnen schadet nie!

StatSoz 22

1.4 Literatur

Bortz, J. (2010): Statistik fur Human– und

Sozialwissenschaftler, 7. Auflage, Springer,

Berlin–Heidelberg.

Diaz–Bone, R. (2006) Statistik fur Soziolo-

gen, UVK Verlagsgesellschaft, Konstanz.

Hafner, R. (2000) Statistik fur Sozial– und

Wirtschaftswissenschaften, Band 1, Springer,

Wien–New York.

Kahler, W. M. (2004): Statistische Daten-

analyse, Vieweg, Wiesbaden.

StatSoz 23

Nachschlagewerke (rezeptartige Beschreibun-

gen, Tafeln von Verteilungen, Tabellen von kri-

tischen Werten):

Hartung J., Elpelt, B. und Klosener,

K.-H. (2002): Statistik. Lehr– und Hand-

buch der angewandten Statistik, 13. Auflage,

Oldenbourg–Verlag, Munchen.

Sheskin, D.J. (2004): Parametric and Non-

parametric Statistical Procedures, 3rd Edition,

Chapman& Hall, Boca Raton.

StatSoz 24