Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

24
Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale

Transcript of Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

Page 1: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

Statistik: 14.10.04

Erheben von Daten Kategoriale Merkmale

Page 2: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 2

Datenquellen

Primäre Daten, aus Vollerhebung Stichprobenerhebung

Sekundäre Daten Volkszählungsdaten Daten von Statistik Austria, von der

OeNB Daten aus der Hörerevidenz der WU Personal-, Lagerkartei

Page 3: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 3

Messen

Messen: Ist Ergebnis eines Messprozesses mit Messinstrumenten Messverfahren messenden Personen

Beispiele: gemessen werden (1) die Länge eines Tisches, (2) die Länge eines Eies, (3) die Härte von Stahl, (4) die Zufriedenheit des Käufers eines PKW

Page 4: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 4

Qualität von Messungen

Kriterien für die Qualität von Messungen Genauigkeit (accuracy): bezieht sich auf einzelnen Messvorgang systematischer Fehler (Bias) Präzision, Variabilität

Reproduzierbarkeit: bezieht sich auf MesssystemStabilität: zeitlicher Aspekt des Messsystems

Page 5: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 5

Prozesse: Messen - Variabilität

Beobachten (Messen) ist zentrales Element für Qualität von Produktions- und DienstleistungsprozessenProzessvariabilität Messvariabilität

Beispiele: Qualität des Kaffees Wartezeit im Call-Center

Page 6: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 6

Datenerhebungen (surveys)

Vollerhebung (census) und Stichprobe Grundgesamtheit (Umfang N; N meist sehr groß)Statistische Einheiten, ElementeStichprobenrahmen (Liste aller Elemente der Grundgesamtheit) Stichprobe (Umfang n; n meist klein)

Page 7: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 7

Auswahl der Stichprobe Auswahl ohne Zufallsmechanismus (non-probability sample survey) Bequemlichkeits-Stichprobe (convenience

sampling) Systematische StichprobeAuswahl nach Zufallsprinzip (probability sample survey) Einfache Zufallsstichprobe (simple random

sample) Geschichtete Zufallsstichprobe (stratified

random sample) Systematische Zufallsstichprobe Klumpen- (Cluster)stichprobe

Page 8: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 8

Einfache Zufallsstichprobe

jede mögliche Stichprobe vom Umfang n hat die gleiche Wahrscheinlichkeit, gezogen zu werden

Page 9: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 9

Beispiel: Einfache Zufalls-SP

G = {a,b,c,d,e}, n=2: es gibt 10 mögliche Stichproben: (a,b), (a,c), ..., (a,e), ..., (d,e) Urne enthält 10 Zettel mit den 10 Paaren; wir wählen zufällig einen ausUrne enthält 5 Zettel mit den 5 Buchstaben; wir wählen zufällig zwei (ohne Zurücklegen) ausZufallszahlen

Page 10: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 10

Zufallszahlen

In Büchern; z.B. in Hackl & Katzenbeisser, S. 434 Statistik-Software kann Pseudozufallszahlen erzeugen, z.B. EXCEL: Analyse-Funktionen >> Zufallszahlengenerierung >> Diskrete Verteilung

Page 11: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 11

Einfache ZSP: Vor-/Nachteile

Vorteile Ergebnisse haben keinen

systematischen Fehler (Bias); sie sind "unverzerrt"

kontrollierter Stichprobenfehler

Nachteil in Praxis nicht leicht realisierbar, oft

aufwendig

Page 12: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 12

Geschichtete Zufallsstichprobe

Zerlegung der Grundgesamtheit in Schichten Innerhalb jeder Schicht: einfache ZufallsstichprobeVorteil: reduzierter Stichprobenfehler

Page 13: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 13

Beispiel: Einkommen

Reine ZSP Geschichtete ZSPa=2, b=3,

MW=2.5nicht möglich

a=2, c=6, MW=4.0

a=2, c=6, MW=4.0

a=2, d=7, MW=4.5

a=2, d=7, MW=4.5

b=3, c=6, MW=4.5

b=3, c=6, MW=4.5

b=3, d=7, MW=5.0

b=3, d=7, MW=5.0

c=6, d=7, MW=6.5

nicht möglich

Page 14: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 14

Klumpenstichprobe

Vollerhebung in zufällig ausgewählten Teilmengen (Klumpen; Teilmengen, die die Grundgesamtheit gut repräsentieren)

Geschichtete und Klumpenstichprobe: sind Beispiele für zweistufige Stichprobenverfahren

Page 15: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 15

ErhebungsfehlerReiner Stichprobenfehler (pure sampling error) Variation des Ergebnisses dadurch, dass bestimmte

Elemente ausgewählt werden; quantifizierbar Stichprobenverfälschungen, z.B. Fehler im

Stichprobenrahmen

Nicht-Stichprobenfehler (non-sampling error): Fehlende Antwort (non-response), Fehler der beteiligten Personen (Interviewer, Interviewter), Fehler bei Verarbeitung; schlechte Fehlerkontrolle, etc.; kaum messbar

Page 16: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 16

Kategoriale Merkmale

Auch qualitative und kategorielle Merkmale genannt Ordnet der Beobachtungs- oder Untersuchungseinheit eine von endlich vielen Klassen (Kategorien) zu; Dazu gehören nominale und ordinale Merkmale Ist immer diskret (die Menge der Merkmalsausprägungen ist endlich oder abzählbar)

Population Merkmal M-Ausprägungen

WU-Studierende

Geschlecht m, w

Note 1, 2, 3, 4, 5

Produktion Qualität gut, schlecht

Page 17: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 17

Kreisdiagramm

Häufigkeiten der Augenfarbe

blau

grün

braun

grau

schwarz

blau

grün

braun

grau

schwarz

Augenfarbe Häuf'kt

blau 15

grün 12

braun 19

grau 2

schwarz 1

Beispiel: Augenfarbe von Studierenden

Page 18: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 18

Kreisdiagramm

Häufigkeiten der Augenfarbe

blau grün braun grau schwarz

Explodierter 3D-Kreis

Augenfarbe Häuf'kt

blau 15

grün 12

braun 19

grau 2

schwarz 1

Page 19: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 19

Säulen-, Stabdiagramm

Augenfarbe Häuf'kt

blau 15

grün 12

braun 19

grau 2

schwarz 1

Häufigkeit der Augenfarbe

0

5

10

15

20

blau grün braun grau schwarz

Page 20: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 20

Absolute & relative Häufigkeit

(absolute) Häufigkeit: gibt an, wie oft eine bestimmte Kategorie in der Datenmenge vorkommt; typisches Symbol: H i

z.B.: 15 Studierenden haben blaue Augenrelative Häufigkeit (Anteil) h i

n: Umfang der Datenmenge Oft als Prozente (Prozentanteil) angegeben

n

Hh ii

Page 21: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 21

Kumulierte (relative) Häufigkeiten

Summe der relativen Häufigkeiten aller vorhergehenden Kategorien, einschließlich der aktuellen Nur für ordinale Merkmale sinnvoll

1 1

,i i

i j i jj j

C H c h

Page 22: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 22

abs H'kt rel H'kt

kum rel H'kt

1 7 13,5% 13,5%

2 22 42,3% 55,8%

3 15 28,8% 84,6%

4 6 11,5% 96,2%

5 2 3,8% 100,0%

52

Noten von 52 Studierenden Noten: absolute Häufigkeiten

0

5

10

15

20

25

1 2 3 4 5

Abs. und Rel. Häufigkeiten

0,0%

20,0%

40,0%

60,0%

80,0%

100,0%

120,0%

1 2 3 4 5

Noten

Page 23: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 23

Pivot Table-Bericht

„Ein PivotTable-Bericht ist eine interaktive Tabelle, die große Datenmengen rasch kombinieren und vergleichen kann.“ Wichtige Hilfe zum Auszählen von Datenmengen

Page 24: Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale.

11.10.04 PI Statistik, WS 2004/05 24

Fragestellungen

Kommen alle Kategorien gleich häufig vor ?Entsprechen die Häufigkeiten in den Kategorien einer bestimmten Vorgabe ?Entspricht die Häufigkeit (Prozentsatz, Anteil) in einer bestimmten Kategorie einem bestimmten Wert?In welchem Bereich kann man den Anteil einer Kategorie in der Grundgesamtheit erwarten ?