Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung...

29
Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven und induktiven Statistik Semesterarbeit im Fach Stochastik und Induktive Statistik im Fachbereich Wirtschaftswissenschaften II im Masterstudiengang Wirtschaftsinformatik der Hochschule für Technik und Wirtschaft Berlin vorgelegt von: Marcus Behrens Matrikel-Nr.: 518161 Mathias Slawik Matrikel-Nr.: 517918 Betreuer: Prof. Dr. Rudolf Swat Abgabetermin: 15.03.2010

Transcript of Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung...

Page 1: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Semesterarbeit

Untersuchung ausgewählter sozioökonomischer Probleme

unter Anwendung von Methoden der deskriptiven und induktiven Statistik

Semesterarbeit

im Fach Stochastik und Induktive Statistik im Fachbereich Wirtschaftswissenschaften II im Masterstudiengang Wirtschaftsinformatik

der Hochschule für Technik und Wirtschaft Berlin

vorgelegt von: Marcus Behrens

Matrikel-Nr.: 518161 Mathias Slawik

Matrikel-Nr.: 517918 Betreuer: Prof. Dr. Rudolf Swat Abgabetermin: 15.03.2010

Page 2: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Inhaltsverzeichnis

II

Inhaltsverzeichnis

1 Aufgabenstellung ............................................................................................... 1

2 Beschreibung der Datenbasis ............................................................................ 2

2.1 Merkmalsträger ........................................................................................... 2

2.2 Grundgesamtheit ........................................................................................ 2

2.3 Stichprobe .................................................................................................. 2

2.4 Datenerhebung ........................................................................................... 3

2.5 Datenformat ................................................................................................ 3

3 Beschreibung der Erhebungsmerkmale .............................................................. 4

3.1 Geschlecht .................................................................................................. 4

3.2 Familienstand .............................................................................................. 5

3.3 Erwerbstätigkeit in Berichtswoche ............................................................... 6

3.4 Vollzeit-/Teilzeittätigkeit ................................................................................ 7

3.5 Wohnfläche ................................................................................................. 8

3.6 Zahl der Personen in der Wohnung ........................................................... 10

3.7 Monatliches Haushaltsnettoeinkommen ..................................................... 13

4 Bearbeitung der Problemstellungen .................................................................. 16

4.1 Problemstellung 1 ..................................................................................... 16

4.2 Problemstellung 2 ..................................................................................... 18

4.3 Problemstellung 3 ..................................................................................... 20

5 Fazit ................................................................................................................. 23

Page 3: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Abbildungsverzeichnis

III

Abbildungsverzeichnis

Abbildung 1: EF32 Geschlecht Grafik Verteilung ...................................................... 4

Abbildung 2: EF35 Familienstand Grafik Verteilung .................................................. 5

Abbildung 3: EF95 Erwerbstätigkeit Grafik Verteilung ............................................... 6

Abbildung 4: EF138 Vollzeit-/Teilzeittätigkeit Grafik Verteilung .................................. 7

Abbildung 5: EF453 Wohnfläche Grafik Ausschnitt ................................................... 8

Abbildung 6: EF500 Zahl der Personen in Wohnung Grafik Verteilung .................... 11

Abbildung 7: EF539 Haushaltsnettoeinkommen Grafik Verteilung ........................... 13

Abbildung 8: EF539 Monatliches Haushaltsnettoeinkommen Grafik Vergleich

Normalverteilung ................................................................................................... 15

Abbildung 9: Problemstellung 1 - Kreuztabelle ....................................................... 17

Abbildung 10: Problemstellung 2 - Übersicht Regressionsmodelle ......................... 19

Tabellenverzeichnis

Tabelle 1: EF32 Geschlecht Verteilung ..................................................................... 4

Tabelle 2: EF35 Familienstand Verteilung ................................................................. 5

Tabelle 3: EF95 Erwerbstätigkeit Verteilung .............................................................. 6

Tabelle 4: EF138 Vollzeit-/Teilzeittätigkeit Verteilung ................................................. 7

Tabelle 5: EF453 Wohnfläche Lagemaße ............................................................... 10

Tabelle 6: EF500 Zahl der Personen in der Wohnung Verteilung ............................. 11

Tabelle 7: EF500 Zahl der Personen in der Wohnung Lagemaße ............................ 12

Tabelle 8: EF539 Monatliches Haushaltsnettoeinkommen Lagemaße ..................... 15

Tabelle 9: Problemstellung 3 - PASW Ergebnis Wann-Whitney-Test ...................... 21

Page 4: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Aufgabenstellung

1

1 Aufgabenstellung

Die vorliegende Semesterarbeit stellt den Abschluss des Fachs Stochastik und In-

duktive Statistik dar und begründet sich in der vorliegenden Aufgabenstellung.1

Es wird eine der vorgeschlagenen

Diese Semesterarbeit hat als Ziel aufzuzeigen, in welchem Maße wir in der Lage sind,

ausgewählte statistische Problemstellungen zu erfassen und mit den in der Lehrver-

anstaltung vermittelten Werkzeugen zu bearbeiten.

2 Datenquellen, der Mikrozensus 20023

1.

verwendet

und nach den Anforderungen an die Auswertung der Datenbasis mit Hilfe des Prog-

ramms PASW Statistics der Version 17 untersucht.

Folgende Fragen sollen durch Anwendung der in der Lehrveranstaltung vermittelten

Methoden beantwortet werden:

Die Lösung dieser Frage soll unter Anwendung eines Chi-Quadrat-

Unabhängigkeitstest

Kann auf Basis der Stichprobe davon ausgegangen werden, dass es einen

Zusammenhang zwischen dem monatlichen Haushaltsnettoeinkommen

und der Gesamtfläche der Wohnung gibt?

4

2.

erfolgen.

In dieser Fragestellung sollen ausgewählte Regressionsmodelle angewendet

werden, um eine Schätzfunktion für den vermuteten Zusammenhang zu ermit-

teln.

Kann dieser Zusammenhang in einer Funktion ausgedrückt werden, die für

die Stichprobe eine möglichst geringe Abweichung von den tatsächlich

beobachteten Ausprägungen besitzt?

3.

Hier wird der MANN-WHITNEY-Test

Kann aufgrund der vorliegenden Stichprobe davon ausgegangen werden,

dass der Median des monatlichen Haushaltseinkommens eines Haushalts

(nicht verheiratet, keine Kinder, erwerbstätig, Vollzeitbeschäftigung) bei

Frauen geringer ist, als bei Männern?

5

1 (Swat, 2009)

Anwendung erfahren.

2 (Swat, 2009 S. 4) 3 CAMPUS-File: (Statistische Ämter des Bundes und der Länder, 2009) 4 (Pearson, 1900)

Page 5: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Datenbasis

2

2 Beschreibung der Datenbasis

Die Datenbasis, das CAMPUS-File zum Mikrozensus 2002 ist eine Stichprobe des

Mikrozensus 2002. Da es speziell für Studenten und Lehrende erstellt wurde, bietet

es sich als Datenbasis der vorliegenden Semesterarbeit an.

Durch methodische Anonymisierung6

2.1 Merkmalsträger

des Mikrozensus 2002 handelt es sich bei dem

CAMPUS-File um eine absolut anonyme Datenbasis. Sie ist für jeden frei verfügbar

(sog. Public-Use-File).

Durch die Stichprobenziehung des Quellmaterials und die mit der Anonymisierung

einhergehende Vergröberung ergeben sich Beeinträchtigungen der Aussagefähigkeit

der auf Basis dieses Datenmaterials gewonnen Kenntnisse.

Da es jedoch auf der einen Seite abwegig ist, durch eine beschränkte Semesterarbeit

zu neuen Erkenntnissen bei einem solch stark bearbeiteten Datenmaterial zu kom-

men und auf der anderen Seite es hier primär darum geht, zu zeigen, dass wir in der

Lage sind, vermittelte statistische Methoden korrekt anzuwenden, ist diese Beeint-

rächtigung der Aussagefähigkeit nicht als Beeinträchtigung der gesamten Semester-

arbeit anzusehen.

Merkmalsträger des CAMPUS-Files zum Mikrozensus 2002 sind aufgrund des Mik-

rozensusgesetzes7

2.2 Grundgesamtheit

ausgewählte und befragte natürliche Personen. Diese sind für die

Erhebung auskunftspflichtig.

Grundgesamtheit ist die im Jahr 2002 wohnhafte Gesamtbevölkerung Deutschlands,

schätzungsweise 82,5 Mio. Personen.

2.3 Stichprobe

Die für den Mikrozensus zu befragenden 788.049 Personen werden auf Grundlage

des Mikrozensusgesetzes nach festgelegten statistischen Verfahren zufällig aus der

Grundgesamtheit ausgewählt.

5 (Mann, et al., 1947) 6 Beschreibung der Anonymisierung: (Statistisches Bundesamt – Forschungsdatenzentrum, 2008) 7 (Statistisches Bundesamt Deutschland, 2004)

Page 6: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Datenbasis

3

Die Stichprobe des CAMPUS-Files von 25.137 Datensätzen erfolgt nach der festge-

legten Anonymisierungsmethodik.

2.4 Datenerhebung

Die Quelldaten des CAMPUS-Files, also die Daten des Mikrozensus 2002, werden

auf der einen Seite durch eine Befragung durch ehrenamtliche Erhebungsbeauftragte

erfasst. Auf der anderen Seite können diese durch schriftliche Auskunftserteilung auf

Erhebungsvordrucke erfolgen.

2.5 Datenformat

Das CAMPUS-File zum Mikrozensus 2002 liegt in den Datenformaten SAS, SPSS,

STATA und ASCII CSV vor. Grundlage dieser Semesterarbeit ist die im SPSS-Format

vorliegende Datendatei. Diese enthält 25.137 Datensätze und 335 Variablen, inklusi-

ve zugehöriger Wertelabels.

Page 7: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

4

3 Beschreibung der Erhebungsmerkmale

In den folgenden Unterkapiteln werden alle für die Bearbeitung der drei Fragestellun-

gen notwendigen Erhebungsmerkmale unter Anwendung von Methoden der deskrip-

tiven Statistik dargestellt.

3.1 Geschlecht

Das Geschlecht (EF32) ist ein dichotomes, nominales Merkmal. Es ist für jeden Da-

tensatz in der Datenbasis vorhanden und wird für die Bearbeitung der Fragestellung

drei benötigt.

Seine Verteilung stellt sich wie folgt dar:8

Häufigkeit Prozent

Männlich 12.087 48,1 %

Weiblich 13.050 51,9 %

∑ 25.137

Tabelle 1: EF32 Geschlecht Verteilung

Abbildung 1: EF32 Geschlecht Grafik Verteilung

8 Datei ef32_Geschlecht_Verteilung.spv

Page 8: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

5

3.2 Familienstand

Der Familienstand (EF35) ist ein nominales Merkmal für das vier unterschiedliche

Ausprägungen definiert sind. Es ist für jeden Datensatz in der Datenbasis vorhanden

und wird für die Bearbeitung der Fragestellung drei benötigt.

Seine Verteilung stellt sich wie folgt dar:9

Häufigkeit Prozent

Ledig 9.648 38,4 %

Verheiratet 12.149 48,3 %

Verwitwet 2.029 8,1 %

Geschieden 1.311 5,2 %

∑ 25.137

Tabelle 2: EF35 Familienstand Verteilung

Abbildung 2: EF35 Familienstand Grafik Verteilung

9 Datei ef35_Familienstand_Verteilung.spv

Page 9: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

6

3.3 Erwerbstätigkeit in Berichtswoche

Das Merkmal Erwerbstätigkeit in Berichtswoche (EF95) ist ein nominales, dichotomes

Merkmal. Es ist für jeden Datensatz der Datenbasis vorhanden, entfällt jedoch bei

Kindern, die das 14. Lebensjahr noch nicht überschritten haben. Es wird für die Be-

arbeitung der Fragestellung drei benötigt.

Seine Verteilung stellt sich wie folgt dar:

Häufigkeit Prozent Gültige Prozente

Gültig Ja 10.796 42,9 % 50,1 %

Nein 10.743 42,7 % 49,9 %

Gesamt 21.539 85,7 % 100,0 %

Fehlend Entfällt (Kinder < 15 Jahre)

3.598 14,3 %

Gesamt 25.137 100,0 %

Tabelle 3: EF95 Erwerbstätigkeit Verteilung10

Abbildung 3: EF95 Erwerbstätigkeit Grafik Verteilung11

10 Datei ef95_Erwerbstätigkeit_Verteilung.spv 11 Eigene Darstellung

Auf den ersten Blick kann der Wert von 42,7% an nicht erwerbstätigen Personen in

Anbetracht der geläufigen Arbeitslosenstatistik eventuell falsch interpretiert werden.

Die Arbeitslosenstatistik, die Quoten um die 8% aufweist, hat als Grundgesamtheit

lediglich Personen, die in der Lage wären, einer Beschäftigung nachzugehen, aber

derzeit arbeitslos sind.

10.796 (42,9 %) 10.743 (42,7%) 3.598(14,3%)

0% 20% 40% 60% 80% 100%

JaNeinEntfällt

Page 10: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

7

Da die Grundgesamtheit des Mikrozensus jedoch die Gesamtbevölkerung Deutsch-

lands ist, werden als nicht erwerbstätige Personen auch die Personengruppen in die

Berechnung des Merkmals EF95 mit aufgenommen, die in der Arbeitslosenstatistik

nicht betrachtet werden, beispielsweise Rentner, Schüler, Auszubildende und Stu-

denten.

3.4 Vollzeit-/Teilzeittätigkeit

Das Merkmal Vollzeit-/Teilzeittätigkeit (EF138) ist ein nominales, dichotomes Merkmal.

Es ist für jeden Datensatz der Datenbasis vorhanden, entfällt jedoch unter Anderem

bei allen Nichterwerbstätigen. Es wird bei der Bearbeitung der Fragestellung drei be-

nötigt.

Seine Verteilung stellt sich wie folgt dar:12

Häufigkeit Prozent Gültige Prozente

Gültig Vollzeit 8.894 35,4 % 79,3 %

Teilzeit 2.317 9,2 % 20,7 %

Gesamt 11.211 44,6 % 100,0 %

Fehlend Entfällt (Nichterwerbstätige) 13.926 55,4 %

Gesamt 25.137 100,0 %

Tabelle 4: EF138 Vollzeit-/Teilzeittätigkeit Verteilung

Abbildung 4: EF138 Vollzeit-/Teilzeittätigkeit Grafik Verteilung

12 Datei ef138_Vollzeit-_Teilzeittätigkeit_Verteilung.spv

Page 11: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

8

3.5 Wohnfläche

Das Merkmal Wohnfläche (EF453) ist ein verhältnisskaliertes Merkmal. Es ist für alle

Datensätze der Datenbasis vorhanden, entfällt jedoch für 252 Personen (approxima-

tiv 1% der Datenbasis), die eine Gemeinschafts- oder Anstaltsunterkunft bewohnen.

Das Merkmal findet Verwendung in den Fragestellungen eins und zwei.

Zwei Besonderheiten sind dem Merkmal zu Eigen. Auf der einen Seite lassen sich

signifikante Ausschläge bei runden Werten der Wohnfläche erkennen. Dies ist wohl

im typischen Verhalten eines Befragten zu begründen, der sicherlich einen Wert von

„zirka 100 m²“ eher nennen wird, als „genau 98,72 m²“.

Folgender Ausschnitt verdeutlicht dies in besonderem Maße:13

Häufigkeit Prozent

97 qm 55 0,2

98 qm 1.76 0,7

99 qm 32 0,1

100 qm 1.670 6,7

101 qm 38 0,2

102 qm 80 0,3

103 qm 65 0,3

Abbildung 5: EF453 Wohnfläche Grafik Ausschnitt

Zum Anderen sind einige Ausprägungen der Datenbasis zu Klassen zusammenge-

fasst. Der numerische Wert der Ausprägung entspricht hierbei der Obergrenze der

Klasse.

Wir nehmen für die weitere Untersuchung an, dass die Klassierung der Daten weni-

ger Einfluss auf die Untersuchungsergebnisse hat, als die „natürliche“ Klassierung der

Daten durch das Antwortverhalten der Befragten. Denn Grundlage der Klassierung

sind die Originaldaten des Mikrozensus, während das Antwortverhalten der Befrag-

ten zu einer mutwilligen Vergröberung der Daten führt.

13 Datei ef453_Wohnfläche.spv

Page 12: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

9

Dieser Annahme folgend müssen wir anerkennen, dass die Genauigkeit der Untersu-

chungsergebnisse beeinträchtigt wird. Jedoch beeinträchtigt dies nicht unser Vorha-

ben, die Ausführung der in der Lehrveranstaltung vermittelten statistischen Werkzeu-

ge zu demonstrieren.

Es gelten folgende Lagemaße für das Merkmal Wohnfläche:

N 24885 Anzahl der vorhandenen Merkmalsausprägungen.

Spannweite 988 Wird durch Klassierung des obersten Wertes (401-998 m²) festgelegt.

Minimum 10 Wird durch Klassierung des untersten Wertes (0 – 10 m²) festgelegt.

Maximum 998 Wird durch Klassierung der untersten und obersten Werte festgelegt.

Mittelwert 101,37 Im Mittel beträgt die bewohnte Wohnfläche aller Merkmalsträger der Stichprobe 101,37 m².

Schiefe 6,343 Die Verteilung ist nicht symmetrisch, sie ist rechts-schief.

Standardfehler 0,016

Kurtosis 90,166 Die Verteilung ist steilgipflig. Die Merkmalsausprä-gungen gruppieren sich dichter als bei der Normal-verteilung und haben längere Flanken. Standardfehler 0,031

Standardab-weichung

55,557 Wäre das Merkmal normalverteilt, würden 68,3% der Merkmalsausprägungen im Intervall 101,37 m² ± 55,557 m² liegen.

In diesem Fall liegen 86,5% der Merkmalsausprä-gungen im angegebenen Intervall, worauf auch der hohe Wert der Kurtosis deutet.

Varianz 3086,534

25-perzentil 70 25% der Merkmalsausprägungen liegen unterhalb, 75% oberhalb von 70 m².

50-perzentil 92 50% der Merkmalsausprägungen liegen unterhalb, 50% oberhalb von 92 m².

Page 13: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

10

75-perzentil 120 75% der Merkmalsausprägungen liegen unterhalb, 25% oberhalb von 120m².

Insgesamt liegen 50% der Merkmalsausprägungen zwischen 70m² und 120m².

Tabelle 5: EF453 Wohnfläche Lagemaße14

Das folgende Diagramm veranschaulicht die Auswirkungen des Aussageverhaltens

auf die gesamte Datenbasis sehr deutlich:

3.6 Zahl der Personen in der Wohnung

Das Merkmal Zahl der Personen in der Wohnung (EF500) ist ein verhältnisskaliertes

Merkmal, welches als nominales Merkmal mit 10 unterschiedlichen Ausprägungen

gespeichert ist. Es ist für alle Datensätze der Datenbasis vorhanden, entfällt jedoch

für 252 Personen (approximativ 1% der Datenbasis) die eine Gemeinschafts- oder

Anstaltsunterkunft bewohnen.

14 Datei ef453_Wohnfläche.spv

Page 14: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

11

Das Merkmal findet Verwendung in der Fragestellung drei und verteilt sich wie folgt:

Abbildung 6: EF500 Zahl der Personen in Wohnung Grafik Verteilung15

Häufigkeit Prozent Gültige Prozente

Gültig 1 Person 4.069 16,2 % 16,4 %

2 Personen 8.042 32,0 % 32,3 %

3 Personen 4.959 19,7 % 19,9 %

4 Personen 5.248 20,9 % 21,1 %

5 Personen 1.785 7,1 % 7,2 %

6 Personen 554 2,2 % 2,2 %

7 Personen 175 0,7 % 0,7 %

8 Personen 24 0,1 % 0,1 %

9 Personen 27 0,1 % 0,1 %

10 und mehr Personen 2 0,0 % 0,0 %

Gesamt 24.885 99,0 % 100,0 %

Feh-lend

Entfällt (Gemeinschafts-/Anstaltsunterkunft)

252 1,0 %

Gesamt 25.137 100,0 %

Tabelle 6: EF500 Zahl der Personen in der Wohnung Verteilung16

15 Datei ef500_Zahl_der_Personen_Verteilung.spv

Page 15: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

12

Es lassen sich folgende Lagemaße identifizieren:

Mittelwert 2,81 Im Mittel bewohnen einen Stichproben-Haushalt

2,81 Personen.

Standardabweichung 1,349 Wäre das Merkmal normalverteilt, würden

68,3% der Merkmalsausprägungen im Intervall

2,81 ± 1,349 liegen.

Schiefe 0,662 Die Verteilung ist nicht symmetrisch, sie ist

rechtsschief. Standardfehler 0,016

Kurtosis 0,306 Die Verteilung ist leicht steilgipflig.

Standardfehler 0,031

Spannweite 9 Die Spannweite wird durch die Festlegung der

nominalen Ausprägungen festgelegt.

Minimum 1 Das Minimum wird durch die Erhebungssyste-

matik festgelegt. Jeder Haushalt wird durch

mindestens eine Person bewohnt.

Maximum 10 Das Maximum von 10 ergibt sich aus der Erhe-

bungssystematik. Alle Fälle mit mehr als 10 Per-

sonen pro Haushalt werden der Merkmalsaus-

prägung 10 zugeordnet.

Perzentile 25 2,00 Durch den nominalen Charakter des Merkmals

(es gibt keine halben Personen) haben die Per-

zentilwerte nur eingeschränkte Aussagekraft. 50 3,00

75 4,00

Tabelle 7: EF500 Zahl der Personen in der Wohnung Lagemaße17

16 Datei ef500_Zahl_der_Personen_Verteilung.spv 17 Datei ef500_Zahl_der_Personen_Verteilung.spv

Page 16: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

13

3.7 Monatliches Haushaltsnettoeinkommen

Das Merkmal monatliches Haushaltsnettoeinkommen (EF539) ist ein verhältnisskalier-

tes, nominalklassiert gespeichertes Merkmal. Es ist für alle Datensätze in der Daten-

basis vorhanden, entfällt jedoch in 1.566 Fällen (approximativ 6% der Datenbasis).

Das Merkmal findet Verwendung in den Fragestellungen eins und zwei und verteilt

sich wie folgt:

Abbildung 7: EF539 Haushaltsnettoeinkommen Grafik Verteilung18

18 Datei ef539_Haushaltsnettoeinkommen.spv

Page 17: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

14

Für die Berechnung der Lagemaße ist es notwendig, die Variable umzukodieren. Da-

bei werden alle entfallenden Werte gefiltert und die jeweiligen Merkmalsausprägun-

gen durch die Klassenmitten ersetzt. Würden weitere Lagemaße für die Grundge-

samtheit vorliegen, würden genauere Werte, als die Klassenmitten verwendet werden

können.

Die Umkodierung erfolgt mit Hilfe des folgenden PASW-Befehls:

RECODE ef539 (1=75) (2=225) (3=400) (4=600) (5=800) (6=1000) (7=1200)

(8=1400) (9=1600) (10=1850) (11=2150) (12=2450) (13=2750) (14=3050)

(15=3400) (16=3800) (17=4250) (18=4750) (19=5250) (20=5750) (21=6750)

(22=8750) (23=14000) (24=18000) (0=SYSMIS) (50=SYSMIS) (99=SYSMIS)

INTO ef539b.

VARIABLE LABELS ef539b 'Haushaltsnettoeinkommen'.

EXECUTE.

Auf Basis dieser umkodierten Variablen lassen sich folgende Lagemaße identifizie-

ren:19

N

Gültig 23.571

Fehlend 1.566

Mittelwert 2.514,55 Das durchschnittliche Haushaltsnetto-

einkommen der Haushalte der Stich-

probe beträgt 2.514,55 €.

Standardabweichung 1.774,87 Wäre das Merkmal normalverteilt, wür-

den 68,3% der Merkmalsausprägungen

im Intervall 2.514,55 € ± 1.774,87€ lie-

gen.

In der Datenbasis sind dies approxima-

tiv 83% der Merkmalsausprägungen.

19 Datendatei mz02_cf_mit_haushaltsnettoeinkommen_und_wohnfläche.sav

Page 18: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Beschreibung der Erhebungsmerkmale

15

Schiefe 3,391 Die Verteilung ist nicht symmetrisch, sie

ist rechtsschief. Standardfehler 0,016

Kurtosis 20,289 Die Verteilung ist steilgipflig.

Standardfehler 0,032

Spannweite 17925,00 Die Spannweite, sowie das Minimum

und Maximum werden durch die Um-

kodierungssystematik festgelegt. Minimum 75,00

Maximum 18000,00

Per-

zentile

25 1400,00 Durch den nominalen Charakter des

Merkmals (die Klassierung der Einkom-

men) haben die Perzentilwerte nur ein-

geschränkte Aussagekraft.

50 2150,00

75 3050,00

Tabelle 8: EF539 Monatliches Haushaltsnettoeinkommen Lagemaße20

Die folgende Grafik vergleicht die Verteilung des Merkmals mit der Standardnormal-

verteilung. Anhand der Abbildung lassen sich leicht die durch die Lagemaße Schiefe

und Kurtosis beschriebenen Eigenschaften der Verteilung erkennen:

Abbildung 8: EF539 Monatliches Haushaltsnettoeinkommen Grafik Vergleich Normalverteilung

20 Datei ef539_Haushaltsnettoeinkommen.spv

Page 19: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Bearbeitung der Problemstellungen

16

4 Bearbeitung der Problemstellungen

4.1 Problemstellung 1

Problemstellung 1 liegt folgende Fragestellung zu Grunde:

Kann auf Basis der Stichprobe davon ausgegangen werden, dass es einen

Zusammenhang zwischen dem monatlichen Haushaltsnettoeinkommen und

der Gesamtfläche einer Wohnung gibt?

Diese Problemstellung soll mit Hilfe des Chi-Quadrat-Unabhängigkeitstestverfahrens

bearbeitet werden.

Die Nullhypothese H0 wird wie folgt definiert: „Die Variablen Wohnfläche und monatli-

ches Haushaltsnettoeinkommen sind stochastisch voneinander unabhängig“.

Die Nullhypothese soll auf einem vorab definierten Signifikanzniveau von α = 0,05

getestet werden.

Da das Merkmal Wohnfläche für eine sinnvolle Darstellung des Chi-Quadrat-Tests zu

viele Merkmalsausprägungen besitzt, wird die Variable mit Hilfe des folgenden

PASW-Befehls in das Merkmal EF453b umkodiert, welches fünf nominelle Ausprä-

gungen analog des zugehörigen Pentils der Ausprägung des Merkmals Wohnfläche

besitzt:21

21 Datei mz02_cf_mit_haushaltsnettoeinkommen_und_wohnfläche.sav

RECODE ef453 (0 thru 63=1) (64 thru 79=2) (80 thru 99=3) (100 thru 129=4)

(130 thru 999=5) INTO ef453b.

EXECUTE.

Nun kann mithilfe des PASW-Werkzeugs Kreuztabellen der Chi-Quadrat-

Unabhängigkeitstest durchgeführt werden.

In der folgenden Tabelle werden die beobachteten mit den erwarteten Häufigkeiten

verglichen. Selbst bei oberflächlicher Betrachtung fällt auf, dass sich die beiden Wer-

te, teilweise erheblich, voneinander unterscheiden. Dies kann als ein Hinweis darauf

gedeutet werden, dass die Nullhypothese abgelehnt werden muss.

Page 20: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Bearbeitung der Problemstellungen

17

Abbildung 9: Problemstellung 1 - Kreuztabelle22

22 Datei 1_Problemstellung.spv

Page 21: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Bearbeitung der Problemstellungen

18

Das Werkzeug Kreuztabelle ermittelt einen Chi-Quadrat-Wert von χ² ≈ 7.731,84.

Da 𝜒𝜒2 ≈ 7.731,84 > 𝜒𝜒0,95 92⁄2 = 115.39 muss die Nullhypothese abgelehnt und von

einer Abhängigkeit der beiden Merkmale ausgegangen werden.

Da 𝜒𝜒2 ≈ 67 ∗ 𝜒𝜒0,95 92⁄2 kann das Ergebnis als „hochsignifikant“ bewertet werden.

4.2 Problemstellung 2

Problemstellung 2 beschäftigt sich mit der folgenden Frage:

Kann der in Problemstellung 1 ermittelte Zusammenhang in einer Funktion

ausgedrückt werden, die für die Stichprobe eine möglichst geringe Abwei-

chung von den tatsächlich beobachteten Ausprägungen besitzt?

Diese Problemstellung wird mit Hilfe der Regressionsanalyse gelöst.

Die Regressionsanalyse versucht hierbei, einen numerischen Zusammenhang zwi-

schen den beobachteten Merkmalsausprägungen für Haushaltsnettoeinkommen und

Wohnfläche zu finden, diesen in einer Funktion auszudrücken und die Parameter so

zu wählen, dass der Unterschied zwischen den tatsächlichen und den durch die

Funktion berechneten Werten (dem Schätzfehler) möglichst gering zu halten.

Als Vorbereitung der Regression wird das Merkmal Wohnfläche auf die Merkmals-

ausprägungen 10 bis 400 begrenzt, sodass der numerische Wert 998 für „größer als

400“ herausfällt und somit die Regressionsfunktion durch die starke Abweichung zu

den anderen Werten nicht beeinflussen kann. Dies geschieht durch folgenden

PASW-Befehl, welcher für alle Fälle mit der Merkmalsausprägung 998 des Merkmals

Wohnfläche den Wert auf „fehlend“ setzt:

RECODE ef453 (998=SYSMIS).

EXECUTE.

Wir haben zur Lösung der Problemstellung den Programmpunkt „Kurvenanpas-

sung“ von PASW verwendet, um zehn unterschiedliche Funktionen für je ein mögli-

ches Regressionsmodell zu ermitteln.

Darüber hinaus verwendeten wir PASW zur Berechnung des Bestimmtheitsmaßes R2

für jede der ermittelten Funktionen, um die Güte der jeweiligen Regressionsfunktion

zu ermitteln.

Page 22: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Bearbeitung der Problemstellungen

19

Im folgenden Diagramm werden die unterschiedlichen Funktionen der besten

Schätzfunktion, der Exponentialfunktion, gegenübergestellt. Schwarz hervorgehoben

ist das Regressionsmodell, für welches der höchste Wert für R2 ermittelt wurde. Die

restlichen Gleichungen sind je nach Ihrer Güte eingefärbt - die fünf schlechtesten im

gestrichelten Grau und die vier besseren im durchgezogenen Grau.

Die tatsächlich beobachteten Merkmalsausprägungen wurden mit kleinen grauen

Kreuzen markiert. Es ergeben sich vertikale Striche, da die Merkmalsausprägungen

lediglich gruppiert vorliegen.

Darüber hinaus wurde die Skalierung der Achsen angepasst, sodass der Verlauf der

einzelnen Regressionsfunktionen distinguierter erscheint.

Abbildung 10: Problemstellung 2 - Übersicht Regressionsmodelle

In der Ausgabedatei23

23 Datei 2_Problemstellung.spv

lassen sich die einzelnen Modelle genauer untersuchen, als in

der vorangegangenen Übersichtsgrafik.

Page 23: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Bearbeitung der Problemstellungen

20

Aus der Regressionsanalyse ergibt sich die geschätzte Exponentialfunktion für das

Verhältnis zwischen den Merkmalen Haushaltsnettoeinkommen und Wohnfläche wie

folgt:

𝑦𝑦 = 5,3253 ∗ 𝑥𝑥0,371 mit

𝑦𝑦 = Wohnfläche und

𝑥𝑥 = Haushaltsnettoeinkommen

4.3 Problemstellung 3

Problemstellung 3 besteht aus der folgenden sozioökonomischen Fragestellung:

Bei der Lösung dieser Problemstellung wird der MANN-WHITNEY-Test

Kann aufgrund der vorliegenden Stichprobe davon ausgegangen werden, dass

der Median des monatlichen Haushaltseinkommens eines Haushalts (nicht

verheiratet, keine Kinder, erwerbstätig, Vollzeitbeschäftigung) bei Frauen ge-

ringer ist, als bei Männern?

24 Anwendung

erfahren, da dieser einerseits zur Untersuchung des Medians zweier unabhängiger

Stichproben geeignet ist und andererseits immer dann angewendet werden sollte,

wenn die Stichproben nicht aus einer normalverteilten Grundgesamtheit stammen,25

3.7

was nach den Ergebnissen aus Kapitel nicht angenommen werden kann.

Als Vorbereitung des Tests werden in der Datendatei26

24 (Mann, et al., 1947)

die Fälle aussortiert, die nicht

die gewünschten Merkmale (nicht verheiratet, keine Kinder, erwerbstätig, Vollzeitbe-

schäftigung) aufweisen.

25 (Eckstein, 2006 S. 337) 26 Datei mz02_cf_mann_whitney.sav

Page 24: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Bearbeitung der Problemstellungen

21

Diese Filterung erfolgt durch folgenden PASW-Befehl:

USE ALL.

COMPUTE filter_$=(ef35 = 1 & ef95 = 1 & ef138 = 1 & ef500 = 1).

VARIABLE LABEL filter_$ 'ef35 = 1 & ef95 = 1 & ef138 = 1 & ef500 = 1 (FILTER)'.

VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.

FORMAT filter_$ (f1.0).

FILTER BY filter_$.

EXECUTE.

Diese Filterung wird vorgenommen, um innerhalb der Stichprobe den Einfluss ande-

rer Merkmale als des Geschlechts auf den Median des Haushaltsnettoeinkommens

auszuschließen.

Es ist offensichtlich, dass als Fortführung der Semesterarbeit auch andere Untersu-

chungsmerkmale ausgewählt werden könnten, um einen MANN-WHITNEY-Test durch-

zuführen, beispielsweise verheiratete versus unverheiratete Vollzeit-Arbeitnehmer

oder Alleinerziehende vs. Verheiratete.

Nachdem die nicht erwünschten Fälle der Stichprobe aussortiert wurden, soll nun

mithilfe von PASW der MANN-WHITNEY-Test durchgeführt werden.

Die Nullhypothese H0 wird wie folgt definiert: „Der Median der monatlichen Haus-

haltseinkommen eines männlichen und weiblichen Single-Haushalts ist gleich“.

Diese soll auf einem vorab definierten Signifikanzniveau von α = 0,05 getestet werden.

Das Ergebnis dieses Tests stellt sich wie folgt dar:27

Haushaltsnettoeinkommen

Z -1,566

Asymptotische Signifikanz (2-seitig) 0,117

Tabelle 9: Problemstellung 3 - PASW Ergebnis Wann-Whitney-Test

27 Ausgabedatei 3_Problemstellung.spv

Page 25: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Bearbeitung der Problemstellungen

22

Die Nullhypothese H0 muss, entgegen der anfangs angenommenen Vermutung, auf-

grund des Testergebnisses angenommen werden, da der berechnete Wert der Test-

variable Z von -1,566 die Bedingung

|𝑧𝑧𝑛𝑛 | ≤ 𝑧𝑧𝑝𝑝

also auf dem vorgegebenen Signifikanzniveau

|𝑧𝑧| ≤ 𝑧𝑧0,975

erfüllt, da gilt:

1,566 ≤ 1,96

Der Wert der asymptotischen Signifikanz gibt an, dass erst bei Annahme eines mehr

als doppelt so hohen Signifikanzniveaus von α = 0,117 die Nullhypothese angenom-

men werden müsste. Sollte dieser Wert für das Signifikanzniveau angenommen wor-

den sein, so müsste aber gleichfalls eine lediglich 88-prozentige Sicherheit der Test-

entscheidung in Kauf genommen werden.

Somit muss schlussendlich auf Basis der vorliegenden Stichprobe davon ausgegan-

gen werden, dass es keinen Grund gibt, die Nullhypothese H0 unter den gegebenen

Umständen abzulehnen. Allerdings sei zu beachten, dass hiermit kein Beweis für die

Richtigkeit der Hypothese gefunden wurde, dass der Median des Nettoeinkommens

beider Geschlechtergruppen gleich ist.

Page 26: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Fazit

23

5 Fazit

Mit der vorliegenden Semesterarbeit haben wir gezeigt, dass wir die vorgegebenen

Lernergebnisse28

des Moduls „Stochastik und Induktive Statistik“ erzielt haben.

Wir haben gezeigt, dass wir auf Basis von Kenntnissen in den Vorgehensweisen der

induktiven Statistik und der Schätz- und Testtheorie in der Lage sind, elementare

statistische Schätz- und Testverfahren zur Untersuchung ausgewählter elementarer

Problemstellungen unter Nutzung von Statistiksoftware vorzubereiten und durchzu-

führen.

Wir haben darüber hinaus unterschiedliche sozioökonomische Probleme unter An-

wendung von Methoden der deskriptiven und induktiven Statistik untersucht und die

Ergebnisse umfassend und anschaulich dargestellt.

Schlussendlich haben wir ferner gezeigt, dass wir mit einer Datenbasis arbeiten kön-

nen, in welcher einige Merkmale lediglich klassiert vorliegen und daraufhin in der La-

ge sind, unser Vorgehen anzupassen.

Infolgedessen kann die Aufgabenstellung als vollständig gelöst betrachtet werden.

28 (Hochschule für Technik und Wirtschaft, 2008 S. 434)

Page 27: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Literaturverzeichnis

IV

Literaturverzeichnis

Eckstein, Peter P. 2006. Repetitorium Statistik. Wiesbaden : Betriebswirtschaftlicher

Verlag Dr. Th. Gabler | GWV Fachverlage GmbH, 2006. ISBN 978-3-8349-0464-5.

Hochschule für Technik und Wirtschaft. 2008. Amtliches Mitteilungsblatt 17/08.

Berlin : s.n., 2008.

Mann, Henry und Whitney, Donald. 1947. On a Test of Whether one of Two Random

Variables is Stochastically Larger than the Other. The Annals of Mathematical

Statistics. 1947, Bd. 18, Nr. 1, S. 50-60.

Pearson, Karl. 1900. On the Criterion that a given System of Deviations from the

Probable in the Case of a Correlated System of Variables is such that it can be

reasonably supposed to have arisen from Random Sampling. [Hrsg.] Taylor & Francis

Group. Philosophical Magazine. Series 5, 1900, Vol 50, S. 157-175.

Statistische Ämter des Bundes und der Länder. 2009. Forschungsdatenzentren der

Statistischen Ämter des Bundes und der Länder. Forschungsdatenzentren der

Statistischen Ämter des Bundes und der Länder. [Online] 27. Juli 2009. [Zitat vom: 2.

März 2010.]

http://www.forschungsdatenzentrum.de/bestand/mikrozensus/cf/2002/index.asp.

Statistisches Bundesamt – Forschungsdatenzentrum. 2008. Konzept zur

Anonymisierung des Mikrozensus 2002 zur Verwendung als CAMPUS File (CF).

forschungsdatenzentrum.de. [Online] 7. April 2008. [Zitat vom: 4. März 2010.]

http://www.forschungsdatenzentrum.de/bestand/mikrozensus/cf/2002/fdz_mikrozen

sus_cf_2002_methodenbeschreibung.pdf.

Statistisches Bundesamt Deutschland. 2004. Mikrozensusgesetz. destatis.de.

[Online] 7. Juli 2004. [Zitat vom: 14. März 2010.]

http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/SharedContent/Oeffentlic

h/AZ/ZD/Rechtsgrundlagen/Statistikbereiche/Bevoelkerung/054a__MZG__2005,pro

perty=file.pdf.

Swat, Rudolf. 2009. Hinweise zum Beleg. [Dokument

STO_STA_Beleghinweise_V_01_09w.pdf] Version 01-b, Berlin : Hochschule für

Technik und Wirtschaft, 23. November 2009.

Page 28: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Online-Quellen

V

Online-Quellen

Die folgende Tabelle listet zusätzlich verfügbare Online-Quellen für einige Quellen des

Literaturverzeichnisses auf:

(Mann, et al., 1947) http://projecteuclid.org/euclid.aoms/1177730491

(Pearson, 1900) http://zs.thulb.uni-jena.de/servlets/MCRFileNodeServlet/ jportal_derivate_00128512/PMS_1900_Bd50.pdf

Page 29: Untersuchung ausgewählter sozioökonomischer Probleme unter ... · Semesterarbeit Untersuchung ausgewählter sozioökonomischer Probleme unter Anwendung von Methoden der deskriptiven

Abschließende Erklärung

Wir versichern hiermit, dass wir die vorliegende wissenschaftliche Arbeit selbststän-

dig und ohne fremde Hilfe angefertigt und keine andere als die angegebene Literatur

benutzt haben. Alle von anderen Autoren wörtlich übernommene Stellen wie auch die

sich an die Gedankengänge anderer Autoren eng anlehnenden Ausführungen unse-

rer Arbeit sind besonders gekennzeichnet. Diese Arbeit wurde bisher in gleicher oder

ähnlicher Form keinem anderen Dozenten vorgelegt und auch nicht veröffentlicht.

Berlin, den 15. März 2010