Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier...

18
1 1 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter V Auswertung univariater Datenmengen - deskriptiv 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter V Bibliografie Prof. Dr. Kück; Statistik, Vorlesungsskript Abschnitt 6.1.3, 6.1.4, 6.1.5 Bleymüller/Gehlert/Gülicher; Statistik für Wirtschaftswissenschaftler Verlag Vahlen Bleymüller/Gehlert; Formeln, Tabellen und Programme Verlag Vahlen

Transcript of Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier...

Page 1: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

1

1Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Auswertung univariaterDatenmengen - deskriptiv

2Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Bibliografie

Prof. Dr. Kück; Statistik, Vorlesungsskript Abschnitt 6.1.3, 6.1.4, 6.1.5

Bleymüller/Gehlert/Gülicher;Statistik für WirtschaftswissenschaftlerVerlag Vahlen

Bleymüller/Gehlert;Formeln, Tabellen und ProgrammeVerlag Vahlen

Page 2: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

2

3Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Will man mehrere Eigenschaften (Merkmale) der Objekte (Einheiten) miteinander vergleichen, ist es erforderlich, die unterschiedlichen Merkmalsdimensionen auszuschalten. Das geschieht mittels Standardisierung.

Die hier behandelten Formen der Standardisierung sind:

z-Transformation

0,1-Standardisierung

Standardisierte Maßzahlen

4Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Es gilt:

z-Transformation

Abweichung gegenüber dem Mittel

Die Differenz zwischen Merkmalswert und Mittelwert im Zähler sowie die Standardabweichung im Nenner haben die selbe Dimension, die sich wegkürzt. Durch z-Transformation erhält man dimensionslose Daten.

σµaz i

i−

=Dabei bedeuten:zi : neuer Wertai : alter Wertµ : arithmetisches Mittelσ : Standardabweichung

Page 3: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

3

5Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Eigenschaften der standardisierten Werte zi:

sie sind dimensionslose relative Abweichungen,

das arithmetische Mittel ist Null, E(Z) = 0

die Varianz hat den Wert Eins, V(Z) = 1

z-Transformation

ai

0

0

zi

Gemessene Werte

Standardisierte Werte

6Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Die standardisierten Werte zi sind anschaulicher als die Ausgangswerte ai, denn:

–1 < zi < 1

einfacher Streubereich

–2 < zi < 2

doppelter Streubereich

–3 < zi < 3

dreifacher Streubereich

f(z)

z-3 3210-2 -168,3%*95,5%*99,7%*

z-Transformation

Abweichungen im einfachen Streubereich drücken Normalität in den Abweichungen aus, Abweichungen im dreifachen Streubereich sind eher unwahrscheinlich. *Die angegebenen Wahrscheinlichkeiten gelten nur für die Normalverteilung!

Page 4: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

4

7Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Beispiel: Die standardisierten Merkmalswerte der Leistung der 250 Autos weisen folgende Verteilung auf:

Z-Wert: Leistung [PS]

4,003,50

3,002,50

2,001,50

1,00,500,00

-,50-1,00

-1,50

Std.abw. = 1,00

Mittel = 0,00

N = 250,00

Normalverteilungskurve

z-Transformation

SPSS-Diagramm

Ein Merkmalswert von 280 PS entspricht einem zi-Wert von 2,24; er liegt außerhalb des zweifachen Streubereiches und ist somit auffällig abweichend vom Mittelwert.

8Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Beispiel: Stellt man die standardisierten Werte des Verbrauches dar, so ergibt sich folgende Verteilung:

z-Transformation

SPSS-Diagramm

Der VW Lupo mit einem Verbrauch von 4,3 l/100 km hat einen standardisierten Wert von -2,17 , der Ford Mondeo 2,5i V6 hat einen z-Wert von 2,8.

Normalverteilungskurve

Z-Wert: Kraftstoffverbrauch durchschnittlich

3,252,75

2,251,75

1,25,75,25-,25

-,75-1,25

-1,75-2,25

40

30

20

10

0

Std.abw. = 1,00

Mittel = 0,00

N = 250,00

Page 5: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

5

9Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Beispiel: Wie sind einzelne Fahrzeuge hinsichtlich ihrer Leistungsausstattung und ihrem Benzinverbrauch vergleichend zu beurteilen?

z-Transformation - Beispiel

0,782,8Ford Mondeo 2,5i V6

0,260,25Volvo S80 2,4

-0,88-2,17VW Lupo

Z-Wert der Leistung

Z-Wert des Verbrauchs

><

Analytische Interpretation: Bezüglich der 250 untersuchten Autos hat VW Lupo sowohl eine unterdurchschnittliche Leistung als auch einen unterdurchschnittlichen Verbrauch. Jedoch ist der Verbrauch deutlich geringer als die Leistung im Vergleich zu den anderen 249 Autos. VW Lupo ist ein Fahrzeug, das einen geringen Energieeinsatz je Leistung hat. Negativ fällt in dieser Hinsicht Ford Mondeo auf, Volvo S80 ist „ausgeglichen“.

10Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

z-Transformation - Beispiel

a (1) a (2)1 1,8 2314 -0,90 -0,902 2,1 2700 -0,63 -0,633 4,7 6043 1,72 1,724 1,6 2057 -1,09 -1,095 2,5 3214 -0,27 -0,276 1,3 1672 -1,36 -1,367 2,8 3600 0,00 0,008 3,2 4114 0,36 0,369 4,4 5657 1,45 1,45

10 3,6 4629 0,72 0,72Mittelwert 2,8 3600 0,00 0,00Streuung 1,1 1422 1,00 1,00

z (1) z (2)

Beispiel: Vergleich zweier Messreihen in unterschiedlichen Wertebereichen:

Was erkenntman daraus?

Page 6: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

6

11Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Eine weitere Standardisierungsmöglichkeit ist die Eingrenzung des Wertebereiches [0….1) .

0,1-Standardisierung

maxmin

maxii aa

aas

−−

=

Sind alle ai positiv, so liegen alle si zwischen o und 1.Für den maximalen Merkmalswert amax nimmt die standardisierte Größe si den Wert 0 an, für den minimalen Merkmalswert amin ist si gleich 1.Man sieht somit deutlich Abweichungen gegenüber dem Höchstwert, der zum Maßstab der Standardisierung gemacht wird. Das ist bei Unternehmensvergleichen mit ökonomischen Kennzahlen sinnvoll.

12Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

0,1-Standardisierung von zwei Reihen - Beispiel

a (1) a (2)1 1,8 2314 0,85 0,852 2,1 2700 0,76 0,763 4,7 6043 0,00 0,004 1,6 2057 0,91 0,915 2,5 3214 0,65 0,656 1,3 1672 1,00 1,007 2,8 3600 0,56 0,568 3,2 4114 0,44 0,449 4,4 5657 0,09 0,09

10 3,6 4629 0,32 0,32Minimum 1,3 1672 1,00 1,00Maximum 4,7 6043 0,00 0,00

s (1) s (2)

Page 7: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

7

13Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Beispiel: Würde Nils nicht 101 kg sondern ungesunde 146 kg wiegen, hat die Änderung des Maximalwertes Auswirkung auf alle standardisierten Werte:

Ausreißerproblematik bei 0,1-Standardisierung - Beispiel

Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan NilsNr. i 1 2 3 4 5 6 7 8 9 10

xi 44 46 50 54 56 69 72 78 80 101si 1,00 0,96 0,89 0,82 0,79 0,56 0,51 0,40 0,37 0,00

Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan NilsNr. i 1 2 3 4 5 6 7 8 9 10

xi 44 46 50 54 56 69 72 78 80 146si 1,00 0,98 0,94 0,90 0,88 0,75 0,73 0,67 0,65 0,00

Die gleiche Auswirkung hätte die Änderung des Minimalwertes – in diesem Fall das Gewicht von Lisa. Die 0,1-Standardisierung ist daher problematisch.

14Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Momente sind Maßzahlen für die Beurteilung eindimensionaler Häufigkeitsverteilungen. Sie sind durchschnittliche potenzierte Abweichungen der Merkmalswerte von einem Bezugspunkt.

Man unterscheidet folgende Arten zur Bildung der Momente:

Einführung Momente

Gewöhnliche Momente mit dem Bezugspunkt Null

Zentrale Momente um den Bezugspunkt des arithmetischen Mittels

( ) ( )∑=

−=N

1i

rir µx

N1µm

( ) ∑=

=N

1i

rir x

N10m

Page 8: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

8

15Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Das gewöhnliche erste Moment mit dem Bezugspunkt Null ist das arithmetische Mittel:

Das 2., 3. und 4. zentrale Moment mit dem Bezugspunkt des arithmetischen Mittel ergeben:

die Varianz:

die Schiefe:

die Wölbung:

Momente, Schiefe und Wölbung

( ) ( )∑=

−==N

1i

2i2

2 µxN1µmσ

( ) ( )∑=

−=N

1i

3i3 µx

N1µm

( ) ( )∑=

−=N

1i

4i4 µx

N1µm

( ) ∑=

==N

1i

1i1 x

N10mµ

16Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Die angegebenen Maße sind absolute Maßzahlen, welche die jeweilige Dimension der Merkmalsausprägung in der jeweiligen Potenz haben. (z. B. hat das Schiefemaß für die Verteilung einer Zeitdauer in Stunden die Dimension Stunden³)

Daher ergeben sich oft sehr hohe Werte, die für praktische Auswertungen ungeeignet sind. Momente werden deshalb auch als relative Maßzahlen angegeben.

Momente Schiefe und Wölbung

Page 9: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

9

17Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Aussage dieser Momente:

Neben Lageparametern und Streuungsmaßen lässt sich eine Häufigkeitsverteilung auch noch durch Parameter beschreiben, welche die Form der Verteilung charakterisieren. Hierzu gehören die Momente Schiefe und Wölbung.

Schiefe- und Wölbungsmaße sind deshalb sinnvoll, weil Häufigkeitsverteilungen trotz gleichem arithmetischen Mittel und gleicher Standardabweichung unterschiedliche Formen aufweisen können.

Momente Schiefe und Wölbung

18Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Beispiel: Folgende drei Häufigkeitsverteilungen haben bei gleichem arithmetischen Mittel von 10 und gleicher Varianz von 6,4 unterschiedliche Formen:

Klassenmitte xi 4 6 8 10 12 14 16

f(xi) 0,1 0,1 0,2 0,5 0,2 0,1 0,1

Klassenmitte xi 4 6 8 10 12 14 16

f(xi) 0 0,2 0,2 0,3 0,2 0,2 0

Klassenmitte xi 4 6 8 10 12 14 16

f(xi) 0,1 0,1 0,2 0,3 0,4 0,1 0

00,10,20,30,40,50,6

0

0,1

0,2

0,3

0,4

0

0,1

0,2

0,3

0,4

0,5

Momente Schiefe und Wölbung - Beispiel

1

2

3

Page 10: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

10

19Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

1 und 2 sind symmetrische Verteilungen, wobei sich bei 1 die Merkmalswerte stärker um den Mittelwert konzentrieren.

Die Verteilungen 1 und 2 unterscheiden sich in ihrer Steilheit.

Verteilung 3 ist asymmetrisch, konkret: linksschief (rechtssteil).

0

0,1

0,2

0,3

0,4

0

0,1

0,2

0,3

0,4

0,5

Momente Schiefe und Wölbung

Die Asymmetrie wird durch das Maß der Schiefe ausgewiesen.

1 2 3

Die Steilheit der Verteilung wird durch das Maß der Wölbung ausgewiesen.

00,10,20,30,40,50,6

20Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Eine Verteilung ist symmetrisch, wenn es eine Symmetrieachse gibt, so dass linke und rechte Hälfte der Verteilung spiegelbildlich sind:

Schiefe (skewness)

00,05

0,10,15

0,20,25

0,3

Bei empirischen Verteilungen ist exakte Symmetrie selten!

Page 11: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

11

21Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Schiefe (skewness)

00,05

0,10,15

0,20,25

Eine Verteilung ist rechtsschief bzw. linkssteil, wenn der überwiegende Teil der Daten linksseitig lokalisiert ist, d.h. kleine Merkmalsausprägungen große Häufigkeiten haben.

Eine Verteilung ist linksschief bzw. rechtssteil, wenn der überwiegende Teil der Daten rechtsseitig lokalisiert ist, d.h. große Merkmalsausprägungen große Häufigkeiten haben.

0,00

0,10

0,20

0,30

0,40

0,50

1 2 3 4 5 6 7

22Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Das absolute Schiefemaß ist wie folgt definiert:

Absolutes Schiefemaß (skewness)

Bei rechtsschiefer Verteilung ist das Maß positiv,bei symmetrischer Verteilung ist das Maß Null,bei linksschiefer Verteilung ist das Maß negativ.

( ) ( )∑=

−=N

1i

3i3 µx

N1µm

Das Schiefemaß ist das Mittel der kubierten Abweichung der Einzelwerte vom Mittel. Da durch die 3. Potenz das Vorzeichen der Abweichung erhalten bleibt, kürzen sich bei symmetrischen Verteilungen die Abweichungen weg; bei asymmetrischen Verteilungen wird jedoch ein Schiefemaß größer oder kleiner Null ausgewiesen.

Page 12: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

12

23Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Das absolute Schiefemaß ist umso größer, je größer die Streuung der Merkmalswerte ist. Um die Schiefe verschiedener Verteilungen zu vergleichen, empfiehlt sich eine Normierung.

Analog zum Variationskoeffizienten erhält man ein relatives Maß:

Relatives Schiefemaß (skewness)

( ) ( )³σµm

µm 3*3 =

Das relative Schiefemaß ist eine dimensionslose Größe, welche die relative Abweichung von der Symmetrie indiziert.

Relatives Schiefemaß:(drittes Standardmoment)

24Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Beispiel: Für die 250 untersuchten Autos soll die Verteilung des Anschaffungspreises mit der Verteilung des Kraftstoffverbrauchesverglichen werden:

Preis [DM]

210000,0

190000,0

170000,0

150000,0

130000,0

110000,0

90000,0

70000,0

50000,0

30000,0

10000,0

60

50

40

30

20

10

0

Std.abw. = 26500,57 Mittel = 42609,9

N = 250,00

Kraftstoffverbrauch durchschnittlich [l/100km]

14,0013,50

13,0012,50

12,0011,50

11,0010,50

10,009,50

9,008,50

8,007,50

7,006,50

6,005,50

5,004,50

40

30

20

10

0

Std.abw . = 1,81 Mittel = 8,22

N = 250,00

( ) ( )³σµm

µm 3*3 =

SPSS-Diagramm

Um die unterschiedlich dimensionierten Merkmale miteinander vergleichen zu können, wird das relative Schiefemaß verwendet:

Schiefemaß (skewness) - Beispiel

Page 13: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

13

25Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Beispiel: Für die 250 untersuchten Autos soll die Verteilung des Anschaffungspreises mit der Verteilung des Kraftstoffverbrauchesverglichen werden:

Preis [DM]

210000,0

190000,0

170000,0

150000,0

130000,0

110000,0

90000,0

70000,0

50000,0

30000,0

10000,0

60

50

40

30

20

10

0

Std.abw. = 26500,57 Mittel = 42609,9

N = 250,00

Kraftstoffverbrauch durchschnittlich [l/100km]

14,0013,50

13,0012,50

12,0011,50

11,0010,50

10,009,50

9,008,50

8,007,50

7,006,50

6,005,50

5,004,50

40

30

20

10

0

Std.abw . = 1,81 Mittel = 8,22

N = 250,00

( ) 2,935µm Preis*3 = ( ) 0,668µm Verbrauch

*3 =

Schiefemaß (skewness) - Beispiel

Der optische Eindruck – die Verteilung der Anschaffungspreise ist stärker asymmetrisch als die Verteilung des Kraftstoffverbrauches –wird durch das relative Schiefemaß bestätigt.

26Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Maßzahlen der Wölbung sollen charakterisieren, wie stark oder schwach der zentrale Bereich und die Randbereiche der Verteilung besetzt sind.

Wölbung (Exzess, Kurtosis)

0

0,1

0,2

0,3

0,4

00,10,20,30,40,50,6

Trotz gleicher Varianz weisen die beiden symmetrischen Verteilungen unterschiedliche Wölbungen auf.

Verteilungen mit gleicher Streuung können unterschiedliche Wölbungen besitzen.

Page 14: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

14

27Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Die absolute Wölbung ist wie folgt definiert:

Absolutes Wölbungsmaß (Exzess, Kurtosis)

( ) ( )∑=

−=N

1i

4i4 µx

N1µm

Das Wölbungsmaß ist aufgrund der vierten Potenz stets positiv. Ausnahme: alle Merkmalswerte sind gleich, es existieren keine Abweichungen vom Mittelwert.

28Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Die relative Wölbung wird im Vergleich zur Standardnormalverteilung definiert, deren Wölbungsmaß 3 ergibt. Der Wert Null für das modifizierte relative Wölbungsmaß indiziert die Normalverteilung.

Relatives Wölbungsmaß (Exzess, Kurtosis)

• m*4(µ) = 0, Normalverteilung• m*4(µ) > 0, Maximum der Verteilung größer als NV• m*4(µ) < 0, Maximum der Verteilung kleiner als NV

( ) ( )3

σµmµm 4

4*4 −= !

Das modifizierte relative Wölbungsmaß kann analog zur Schiefe ein positives oder negatives Vorzeichen haben oder im Fall der Normalverteilung Null sein.

Modifiziertes relatives Wölbungsmaß:

Page 15: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

15

29Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Wölbung - Grafische Darstellung

m*4(µ) > 0

m*4(µ) = 0

m*4(µ) < 0

Normalverteilung

30Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Das Diagramm eines Boxplots ermöglicht eine komprimierte Visualisierung einer univariaten Häufigkeitsverteilung, indem die fünf Punkte einer Verteilung zusammengefasst dargestellt werden.

Beschreibung von Häufigkeitsverteilungen mittels grafischer Verfahren

• Maximum• oberes Quartil• Median• unteres Quartil• Minimum

Merkm

alsausprägung

Aufbau des Boxplots:

Page 16: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

16

31Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Aus der konkreten Gestalt des Boxplots lassen sich Aussagen über die empirische Verteilung ableiten.

Boxplots bei asymmetrischer Verteilung

Merkm

alsausprägung

Bei einer asymmetrischen Verteilung liegt der Median nicht mittig in der Box.

Ungleich breite Abstände zwischen Extrema und unteren bzw. oberen Quartil(„whiskers“ ) indizieren ebenfalls Asymmetrie.

Der Streubereich der Merkmalswerte wird durch die Spannweite derExtrema gekennzeichnet.

Je nachdem, wo der Median innerhalb der Box liegt, lassen sich Aussagen über die Symmetrie der Verteilung treffen.

32Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Boxplots bei symmetrischer Verteilung

Für eine exakt symmetrische Verteilung hat das Boxplot folgende Gestalt:

Bei empirischen Verteilungen ist exakte Symmetrie selten!

Der Median liegt mittig in der Box,

die Abstände zwischen Extrema und unteren bzw. oberen Quartil sind gleich.

Merkm

alsausprägung

Jegliche Abweichungen davon bedeuten Asymmetrie der empirischen Verteilung.

Page 17: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

17

33Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Die Gruppe der Großraumlimousinen ist im Vergleich am wenigsten asymmetrisch und weist beim Merkmal Leistung den geringsten Streubereich auf.Den größten Streubereich haben Stufenhecklimousinen.Extreme Leistungen im oberen Leistungsbereich gibt es bei SH und STH.

971172016N =

Karosserieform

STHSHKGL

Leis

tung

[PS

]

400

300

200

100

0

245246247249248

250

211216215214223229235

3029

Beispiel: Für die 250 untersuchten Autos sei die Leistung der Großraumlimousinen, Kombis, Schrägheckfahrzeuge, Stufenheck-limousinen mittels der Boxplot-Darstellung vergleichend dargestellt:

Aussagen des Boxplots - Beispiel

SPSS-Diagramm

34Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

971172016N =

Karosserieform

STHSHKGL

Leis

tung

[PS

]

400

300

200

100

0

245246247249248

250

211216215214223229235

3029

SPSS kann optional bestimmte Objekte aus der Erstellung des Boxplots ausschließen.

Als Ausreißer werden Objekte behandelt, deren Merkmalswerte zwischen 1,5 und 3 Boxlängen vom oberen oder unteren Rand der Box entfernt sind. Die Boxlänge entspricht dem interquartilenBereich.

Als Extremwerte werden Objekte behandelt und gekennzeichnet ausgewiesen, deren Merkmalswerte mehr als 3 Boxlängen vom oberen oder unteren Rand der Box entfernt sind. Die Boxlänge entspricht dem Interquartilsabstand.

Boxplots - Ausreißerproblematik

Page 18: Auswertung univariater Datenmengen - deskriptiv · Das geschieht mittels Standardisierung. Die hier behandelten Formen der Standardisierung sind: ¾z-Transformation ¾0,1-Standardisierung

18

35Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Boxplots für Haushaltsnettoeinkommen in Ost- und Westdeutschland, Quelle: Datenreport 2004 - Beispiel

36Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter V

Lage- und Streuungsparameter

Alles Klar?

Sind Sie wachsam!