Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage...

27
Qualitative Charakterisierung von Verteilungen. hrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung) könnten ganz weit links LIEGEN (Werte sehr klein) oder weit rechts sein. Was heißt nun aber: die Werte? Ist damit gemeint: der Großteil der Werte, die ‚mittleren’ Werte? Der kleinste ( bzw. der größte)? die 10% kleinsten? usw. Dispersion der Verteilung. Konzentration auf wenige Punkte bzw. engen Bereich versus auf viele verschiedene Punkte bzw. weiten Bereich. Das entspricht bei Intervallskalen der Breite der Verteilung (auch Streuung genannt ): Die Werte könnten ganz eng beieinander liegen oder aber weit gestreut. Schiefe der Verteilung: Manche Verteilungen sind mehr oder weniger symmetrisch, andere könnten als schief bezeichnet werden (linksschief bzw. rechtsschief). Kurtizität (Kurvigkeit, Wölbung) der Verteilung. Manche Verteilungen haben einen spitzen bzw. glatten Gipfel (leptokurtisch bzw. platykurtisch). Die Idealfigur ist die Normalverteilung. al glatte bzw. zerklüftete Verteilungen. Auch hier: welche Werte? Alle? Ein Großteil? Der kleinste und größte? Die 10% kleinsten im Vergleich zu den 10% größten? usw.

Transcript of Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage...

Page 1: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Qualitative Charakterisierung von Verteilungen.

Mehrgipflige versus eingipflige Verteilungen.

Lage der Verteilung: Die Werte (und damit die Verteilung) könnten ganz weit links LIEGEN (Werte sehr klein) oder weit rechts sein. Was heißt nun aber: die Werte? Ist damit gemeint: der Großteil

der Werte, die ‚mittleren’ Werte? Der kleinste ( bzw. der größte)? die 10% kleinsten? usw.

Dispersion der Verteilung. Konzentration auf wenige Punkte bzw. engen Bereich versus auf viele verschiedene Punkte bzw. weiten Bereich. Das entspricht bei Intervallskalen der Breite der Verteilung (auch Streuung genannt ): Die Werte könnten ganz eng beieinander liegen oder aber weit gestreut.

Schiefe der Verteilung: Manche Verteilungen sind mehr oder weniger symmetrisch, andere könnten als schief bezeichnet werden (linksschief bzw. rechtsschief).

Kurtizität (Kurvigkeit, Wölbung) der Verteilung. Manche Verteilungen haben einen spitzen bzw. glatten Gipfel (leptokurtisch bzw. platykurtisch). Die Idealfigur ist die Normalverteilung.

ideal glatte bzw. zerklüftete Verteilungen.

Auch hier: welche Werte? Alle? Ein Großteil? Der kleinste und größte? Die 10% kleinsten im Vergleich zu den 10% größten? usw.

Page 2: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

mode(Alter)= 21. Denn f(x) ist bei 21 am größten

Modalwert (engl. Mode): mode(x)

Der Modalwert ist der x-Wert mit größter Dichte.

min(Alter) = 21 = x(1)

max(Alter) = 30 = x(16)

min(x)= x(1), max(x)= x(n).

Mit x(1) und x(n) aus der sortierten Liste

Minimum bzw. Maximum

Beispiele:Lagemaßzahl

Für den Modalwert gilt:

f(mode(x)) = max (f(x))x

Quantitative Charakterisierung, Lage: Min, Max, Mode

Problem: Es kann auch mehrere Modalwerte geben (bimodale oder sogar multimodale Verteilungen)

mode(Familienstand) = 0 (=ledig). Denn f(x) ist bei ‚ledig‘ am größten: 11/16.

mode(IQ) = 100. Denn f(x) ist bei 100 am größten.

mode(Einkommen) = Intervall von 0 bis 100.

Zwei Lösungsstrategien: Modalwertmenge berichten. Eindeutigkeitsstrategie: Bei Intervallen das Intervallmittel berechnen. Sonst: Modalwert nur für unimodale Verteilungen als sinnvoll.

bzw.

mode(Einkommen) = Intervallmittel = 50

Index Wert(i) x(i)

(1) 21(2) 21(3) 21(4) 21(5) 21(6) 21(7) 22(8) 22(9) 22(10) 22(11) 23(12) 23(13) 24(14) 24(15) 24(16) 30

Sortierte Liste

Dichtefunktion f(x), x=Alter

18 20 22 24 26 28 30 x0

0.1

0.2

0.3

0.4

50 70 90 110 130 1500

0.01

0.02

0.03f(IQ)

IQ

Normalverteilung für den IQ

Streifendiagramm, vertikal

ledig verlobt getrennt

0.8

0.6

0.4

0.2

Anteil

00

0.000100.000200.00030

0.00040

0.00050

0.00060

0.000700.00080

0.00090

0.00100f(x)

0 1000 2000 3000 4000 5000

f(x)

Page 3: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Quantitative Charakterisierung, Lage: Median und Co.

Median (‚mittlerer Wert‘): med(x) ist der x-Wert, der die Verteilung in zwei Hälften teilt.

Lagemaßzahl

Diese Idee kann auch auf andere Quantelungen ausgedehnt werden: Einteilung in 3 Teile, 4 Teile usw.

Für diskrete Verteilungen präziser: med(x) ist der x-Wert, für den die beiden Forderungen gelten:

1. mindestens die Hälfte aller Werte ist kleiner gleich med(x)

2. mindestens die Hälfte aller Werte ist größer gleich med(x)

50 70 90 110 130 1500

0.01

0.02

0.03f(x)

x

18 20 22 24 26 28 30 x0

0.1

0.2

0.3

0.4f(x) 21

22

23

24

30

xi

Wert

Anteilsverteilung

0.375

0.125 + 0.125

0.125

0.1875

0.0625

p(xi)

Anteil

i

Index

1

2

3

4

5

Der Median med(x) ist hier = 100.

Der Median med(x) ist hier = 22

Terzile sind die beiden x-Werte, die die Verteilung in drei Drittel teilt: 1. Terzil und 2. Terzil.

Quartile sind die 3 x-Werte, die die Verteilung in 4 Viertel teilt: 1. Quartil und 2. Quartil (= Median) und 3. Quartil.

Darüber hinaus gibt es: Quintile (5 Teile), Sextile (6 Teile), Septile (7 Teile), Oktile (8 Teile), Dezile (10 Teile) usw.

Perzentile heißen die 99 Werte, die eine Quantelung in 100 Teile ermöglichen: 1. Perzentil, 2. Perzentil usw.

Quantile: Diese ‚-ile‘ können unter dem Begriff Quantil zu bestimmten Quanten (= q) zusammengefasst werden.

Beispiel: Das 1. Terzil ist das Quantil zum Quantum 1/3. Das 2. Terzil ist das Quantil zum Quantum 2/3.

Beispiel: Das 1. Quartil ist das Quantil zum Quantum 1/4. Das 3. Quartil ist das Quantil zum Quantum 3/4.

Page 4: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

[z] Die eckigen Klammern um die Zahl z bedeuten, dass die Dezimalstellen abgeschnitten werden sollen (diese Dezimalstellenabschneideregel heißt auch Floor-Function).

Beispiele: [5.13] = 5, [2.4711] = 2, [0.61543] = 0

18 20 22 24 26 28 30 x0

0.1

0.2

0.3

0.4 f(x)

50 70 90 110 130 1500

0.01

0.02

0.03f(x)

x

QuantileBis zu welchem x-Wert liegt ein gegebenes Quantum q (=Anteil) aller Werte?

Für diskrete Verteilungen muss diese Definition präzisiert werden: für gelten die beiden Forderungen:

1.   mindestens q aller Werte ist kleiner gleich ,

2. mindestens (1-q) aller Werte ist größer gleich .

x~q

x~q

x~q

Index Wert(i) x(i)

(1) 21(2) 21(3) 21(4) 21(5) 21(6) 21(7) 22(8) 22(9) 22(10) 22(11) 23(12) 23(13) 24(14) 24(15) 24(16) 30

Sortierte Liste

Bei diskreten Verteilungen

Dieser x-Wert heißt Quantil zum Quantum q: x~q

Gesucht: . Das Quantum q=1/3, n=16. z:=16*(1/3) = 5.3333.

z ist keine ganze Zahl; daher muss [z]+1 berechnet werden: [5.3333]+1 = 6. Das Quantil ist daher das 6. aus der sortierten Liste: x(6)

= 21.

x~ 31

x~ 31

Gesucht: . Das Quantum q= ¾, n=16. z:=16*(¾) = 12.

z ist eine ganze Zahl. Daher ist das Quantil =: (x(12) + x(13) )/2 =

(23+24)/2 = 23.5.

x~ 43

x~ 43

18 20 22 24 26 28 30x

0.9 0.80.70.60.50.40.30.20.10.0

1.0

F(x)

Verteilungsfunktion für Alter

d.h. liegt dort auf der x-Achse, wo F(x) erstmals q überschreitet bzw. erreicht.

x~q

Auf Grund der sortierten Liste das Quantil berechnen:

nein

Berechne z:= n*q

Ist z eine ganze Zahl?

ja 1]z[q x:x

2

z +1zq

xx:x~

~

An der Stelle, wo man auf die Funktion F(x) stößt, ist auf der x-Achse (Abszisse) das Quantil zum Quantum q ablesbar.

So kann das Quantil auch mit Hilfe der Verteilungsfunktion graphisch bestimmt werden:

Starten von der Ordinate bei q.

Die beiden Forderungen, mit der Verteilungs- und Dichte-funktion formuliert, lauten:

q F( ) und

F( ) f ( ) qx~q

x~q

x~q

q = ¾

q =1/3

Index Wert(i) x(i)

(1) 21(2) 21(3) 21(4) 21(5) 21(6) 21(7) 22(8) 22(9) 22(10) 22(11) 23(12) 23(13) 24(14) 24(15) 24(16) 30

Sortierte Liste

q = 0.5

q = ¾Quantile zu

Problem der Nichteindeutigkeit des Quantils wird nur durch die Konvention der Mittelwertbildung gelöst.

Page 5: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Kumulierte Anteilsverteilung

oi

100

500

1000

2000

5000

ui

0

100

500

1000

2000

Klassen Grenzen

1

2

3

4

5

Klassen Index

i

0.10

0.20

0.40

0.70

1.00

Kum. Anteil F(oi)

100

400

500

1000

3000

Klassen Breite

bi

x~¼

x~¼Gesucht: , daher ist q = 0.25. Index m = 3. Erst hier ist F(o3) > 0.25. u3= 500. F(u3) = F(500) = 0.20. Daher ist das 1. Quartil = 500 + (0.25-0.20)500/ 0.20 = 625.

1.00.90.80.70.60.50.40.30.20.10.0

0 x1000 2000 3000 4000 5000

F(x)q = 0.80

q = ¼

Quantile bei stetigen VerteilungenFür stetige Verteilungen können Quantile einfacher definiert werden als für die diskreten.

ist der x-Wert, für den gilt:

x~q

x~qq = F( ) .

An der Stelle, wo man auf die Funktion F(x) stößt, ist auf der x-Achse (Abszisse) das Quantil zum Quantum q ablesbar.

Graphisches Verfahren:

Starten von der Ordinate bei q.

q = ½

625 1333

Gesucht: , daher ist q = 0.80. Index m = 5. Erst hier ist F(o5) > 0.80. u5= 2000. F(u5) = F(2000) = 0.70. Daher ist das Quantil = 2000 + (0.80-0.70)3000/ 0.30 = 3000.

x~.8

x~.8

x~½

x~½Gesucht: , daher ist q = 0.50. Index m = 4. Erst hier ist F(o4) > 0.50. u4= 1000. F(u4) = F(1000) = 0.40. Daher ist der Median = 1000 + (0.50-0.40)1000/ 0.30 = 1333.3.

x~0.7

x~0.7Gesucht: , daher ist q = 0.7. Index m = 4. Hier erreicht F(o4) nun 0.7; F(o4) = 0.7. o4= 2000. u5=2000. Daher ist das Quantil = (2000 + 2000)/2 = 2000.

F(om)

In der Anteilsverteilung den Index m finden, für den F(om) erstmals q überschreitet (F(om) > q) bzw. erreicht (F(om) = q).

> q :qx~ 12

mm uo

qx~ :)u(F)o(F

b))u(Fq(u

mm

mmm

= q

Berechnen für gruppierte Daten

Die in Klassen gruppierten Messwerte seien pro Klasse gleichverteilt im Intervall [ui,oi). Zudem sei der

kumulierte Anteil in jeder Klasse F(oi) bekannt.

Dann kann das Quantil wie folgt berechnet werden.

x~¼

x~¼Gesucht: , daher ist q = 0.25. Index m = 3. Erst hier ist F(o3) > 0.25. u3= 500. F(u3) = F(500) = 0.20. Daher ist das 1. Quartil = 500 + (0.25-0.20)500/ 0.20 = 625.

1.00.90.80.70.60.50.40.30.20.10.0

0 x1000 2000 3000 4000 5000

1.00.90.80.70.60.50.40.30.20.10.0

0 x1000 2000 3000 4000 5000

F(x)

Begründung der Formel für das Quantil

q =Für q muss festgestellt werden, welche Gerade benötigt wird.

b)bu)u(Fq(x~1

mmq b/)aq(x~ x~baq qq

a und b kann durch Einsetzen der Punkte in die Gleichung berechnet werden.

, mm bu)u(Fa uo

)u(F)o(Fbmm

mm

Weiteres Umformen und Einsetzen von a und b liefert die Formel: mmq ))u(Fq(ux~ )u(F)u(F

uo

mm

mm

Jeder Klasse entspricht eine Gerade.

Die Geradengleichung allgemein ist: y = a + bx. Die Gerade geht durch die Punkte und .)( ,u m )u(F m )( ,o m )o(F m

qx~

Nun wird der Punkt in die Gleichung eingesetzt.

~ )q,x( q

Page 6: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

129

228

327

525

426

17

218

323

525

424

525

426

525

424

525

626

424

323

218

17

527

428

232

329

138

525

424

323

218

17

526

427

229

328

132

323

3285

25

424

526

427

525

424

526

427

525

424

526

427

626

527

626

525

428

527

525

424

626

In der EDA (TUKEY, 1977 Exploratory Data Analysis) wurden innovativ ‚anschauliche‘ Begriffe und Konzepte eingeführt, die denen der ‚klassischen‘ Statistik ähnlich sind, aber etwas anders definiert sind. So entsprechen die ‚Hinges‘ (=Falten) fast dem 1. und 3. Quartil, die ‚Eighths‘ fast dem 1. und 7. Oktil, aber nicht bei jedem n.

Beispiel: 9 sortierte Werte 7, 18, 23, 24, 25 ... . Man denke sich die UEen als Perlen, die auf eine Schnur aufgezogen sind.

Hält man die Schnur an beiden Enden fest, fällt die Schnur so, dass unten die Medianperle hängt. Der Median ist dann 25.

Durch Hochziehen der Medianperle entstehen Falten, bei der 3. Perle (von vorn bzw. hinten): die beiden Werte 23 und 27 sind die Hinges

Beispiel: 10 Werte, zusätzlich 32. Hochziehen in der Mitte.

Beispiel: 11 Werte, zusätzlich 38. Hochziehen der Medianperle.

Hinges

Hinges

Der Prozess des Faltens könnte weiter fortgesetzt werden, indem die Hinges selbst hochgezogen werden. Das führt dann zu einer Art Achtelung der Perlenkette. Usw.

BerechnungsmethodeZuerst wird die Tiefe für die Größen berechnet; das ist die Position in der sortierten Liste von vorne bzw. von hinten.

Tiefe(Median)=(n+1)/2. Tiefe(Hinges)=([Tiefe(Median)]+1)/2. Tiefe(Eighths)=([Tiefe(Hinges)]+1)/2.

Der Median(x) = x(Tiefe(Median)) , falls Tiefe(Median) eine ganze Zahl

ist, sonst ist der Median das Mittel der beiden Werte, zwischen denen die Dezimalzahl liegt.

Entsprechend erfolgt die Berechnung der beiden Hinges (hu, ho) und der beiden Eighths(eu, eo).

Beispiel (9 Werte). Tiefe(Median)=(9+1)/2 = 5. Tiefe(Hinges)=([5]+1)/2 = 3. Tiefe(Eighths)=([3]+1)/2 = 2.

Median(x) = 25. hu = 23 (3. von vorne), ho = 27 (3. von hinten), eu = 18 (2. von

vorne), eo = 28 (2. von hinten).

Beispiel (10 Werte). Tiefe(Median)=(10+1)/2 = 5.5. Tiefe(Hinges)=([5.5]+1)/2 = 3. Tiefe(Eighths)=([3]+1)/2 = 2.

Median(x) = (25+26)/2. hu = 23 (3. von vorne), ho = 28 (3. von hinten), eu = 18 (2.

von vorne), eo = 29 (2. von hinten).

Beispiel (11 Werte). Tiefe(Median)=(11+1)/2 = 6. Tiefe(Hinges)=([6]+1)/2 = 3.5. Tiefe(Eighths)=([3.5]+1)/2 = (3+1)/2 = 2.

Median(x) = 26. hu = 23.5 (Mittel des 3. und 4. von vorne), ho = 28.5 (Mittel des 3.

und 4. von hinten), eu = 18 (2. von vorne), eo = 32 (2. von hinten).

Median, Hinges und Eighths aus der EDA.

ho hu

ho hu

Mittel der beiden: 25.5 = Median

Mittel der beiden: 23.5

Mittel der beiden: 28.5 Hinges ho hu

Page 7: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Die Schwerpunkt-Eigenschaft bedeutet, dass die Summe der Differenzen zum Mittel 0 ist, was auch mit Hilfe einer Dezimalwaage demonstriert werden kann.

Das arithmetische Mittel (engl. Mean) wird auch als Mittel, Durchschnitt oder Schwerpunkt (engl. Centroid) bezeichnet bzw. etwas unpräzis einfach als der Mittelwert.

xLagemaß Arithmetisches Mittel

Arithmetisches Mittel des Alters (aus Urliste)

= (22+24+...+23+21+21) / 16 = 362 / 16 = 22.625.

n=16, es wird über 16 Werte gemittelt (ungewichtet).

 

x

n

1ii

n21 xn

1

nx...xxx

Für Urliste:

I

1iiin

1I

1iii xnxpx

Für Verteilung: Arithmetisches Mittel des Alters (aus Verteilung) mit Anteilen (I=5):

= 22.625.

Mittel über 5 Werte (mit Anteilen als Gewichten).

3024232221 x161

163

162

164

166

Der Waagebalken habe kein Eigengewicht

22.625

_X

21 22 2724 25 2623 27 28 29 30Die Summe der Differenzen zum Mittelwert ist 0:

)(...)()( 21 xxxxxx n xnxxx n ...21

0xnxn

xn x...xx n21 Beachte:

Bei den Werten des Balken wird pro UE ein Gewicht gehängt.

Balance ist beim Mittelwert als Haltepunkt gegeben.

Alle Werte werden linear via y = 96 + 100 x (96 ist a, 100 ist b) transformiert: Die y-Werte sind 96, 196, 296, 396. Wie groß ist der Mittelwert? Statt nochmals neu den Mittelwert zu berechnen, kann der Mittelwert ebenfalls nach der Transformation berechnet werden: 96 + 100*1.5 = 246.

ist translationsäquivariant bei linearen Transformationen:

y = a + b x.

x

xbay

D. h.: Werden alle einzelnen Werte linear transformiert, gilt dies auch für das arithm. Mittel:

Beispiel: Währungsumrechnungen sind lineare Transformationen mit a=0. Ist der Mittelwert in einer Währung bekannt, kann er direkt in eine andere Währung umgerechnet werden (ohne Kenntnis der Einzelwerte).

Für jeden der n x-Werte werden die y-Werte gebildet: .Den y-Mittelwert erhält man aus mit der gleichen Transformation.

ii bxay x

Beweis: nbxabxay n /))(...)(( 1

nxxbna n /))...(( 1

xba

Beispiel(4 x-Werte 0, 1, 2, 3): ist 1.5. x

Page 8: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Entscheidungshilfe: Arithmetisches Mittel oder Median

Das Mindestskalenniveau für das arithmetische Mittel ist das Intervallskalenniveau, für den Median reicht das Ordinalskalenniveau.

Das arithmetische Mittel reagiert sensibel auf extreme Messwerte (Ausreißer), nicht aber der Median.

Beispiel: 2 Einkommenslisten, unterscheiden sich in nur einem Wert

Ohne Großverdiener: 100, 100, 100, 100, 200

Mit Großverdiener: 100, 100, 100, 100, 1100 0 1000500

100

Median

100

Das arithm. Mittel eignet sich nicht als Indikator dafür, wie es den ‚meisten‘ Leuten geht.

Der Median reagiert sensibler auf interne Veränderungen als das arithmetische Mittel.

Beispiel: Zuerst haben 5 Leute das gleiche Vermögen, dann nimmt einer jedem 100 weg.

Vor Putsch: 200, 200, 200, 200, 200

Nach Putsch: 100, 100, 100, 100, 600

Das arithm. Mittel bemerkt den ‚Putsch‘ nicht, der Median schon.

0 1000500

Mittel

200

200

Mittel

120

300

200

Median

100

Page 9: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Arithmetisches Mittel (stetige Verteilung)Spezialfall: Berechnen für gruppierte Daten

Für gruppierte Daten kann die übliche Formel für den Mittelwert verwendet werden mit den Klassenmitten als x-Werten.

Anteilsverteilung

oi

100

500

1000

2000

5000

ui

0

100

500

1000

2000

Klassen Grenzen

1

2

3

4

5

Klassen Index

i

0.10

0.10

0.20

0.30

0.30

Anteil pi

50

300

750

1500

3500

Klassen Mitte

xi

5

30

150

450

1050

Produkt pi xi

I

1iiin

1I

1iii xnxpx

Für Verteilung:

Berechnen der Klassenmitten: 2

uox ii

i

Arithmetisches Mittel des Einkommens = 1685xAllgemeiner Fall

Der Mittelwert ist im stetigen Fall das Integral des Produktes der x-Werte mit der Dichtefunktion.

ArithmetischesMittel:

b

a

dx)x(xf

f(x) ist die Dichtefunktion der Verteilung für )b,a(x

Beispiel: Gleichverteilung f(x) = 1/(b-a), in x (a,b). Das unbestimmte Integral ist 2

21

ab1

ab1

ab1 xxdxdxx )ab()ab(dxx 2

12221

ab1b

a ab1

dx)x(xf

hier , das bestimmte . Der Mittelwert der Gleichverteilung ist daher die Mitte des Definitions-Intervalls.

50 60 70 80 90 100 110 120 130 140 1500

0.01

0.02

0.03

50 60 70 80 90 100 110 120 130 140 1500

0.01

0.02

0.03

50 60 70 80 90 100 110 120 130 140 1500

0.01

0.02

0.03

x xxx x

x x

x

f(x)

f(x)

f(x)

b)(a,x

xb)(a,x

)(f(x)x p(x)x Mittel =

Für eine Einteilung des Bereichs von a bis b in mehrere gleich breite (= x) Intervalle seien jeweils die Klassenmitten die x-Werte aus dem Bereich . Das arithmetische Mittel kann dann nach der üblichen Formel berechnet werden:

)b,a(x

Erläuterung

x

Einteilung kann feiner gemacht werden, bis x mickrig klein ist: dx

b

a

dx)x(xf

Beispiel: Normalverteilung. Das Integral für das arithmetische Mittel ist immer der Symmetriepunkt. Im vorliegenden Fall also: 100.

Page 10: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Sortierte Liste

Index Wert(i) x(i)

(1) 21(2) 21(3) 21(4) 21(5) 21(6) 21(7) 22(8) 22(9) 22(10) 22(11) 23(12) 23(13) 24(14) 24(15) 24(16) 30

Andere Mittelwerte: q-getrimmtes und q-winsorisiertes Mittel

Diese Mittelwertbildungen soll die Anfälligkeit des arithmetischen Mittels für Ausreißer abschwächen.

q-getrimmtes Mittel.Beim getrimmten Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte eliminiert.

Das arithm. Mittel der restlichen Werte heißt das q-getrimmte Mittel.

Für sortierte Liste:

Berechne z:= n*q. Beispiel: q-getrimmtes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6.

[z]= 1 (Dezimalstellen abgeschnitten).

q-winsorisiertes Mittel.

Bei diesem Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte durch weniger extreme ersetzt.Das arithm. Mittel der so modifizierten Werte ist das q-winsorisierte Mittel.

Für sortierte Liste: Wie oben z:= n*q.

Beispiel: q-winsorisiertes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6.

[z]= 1 (Dezimalstellen abgeschnitten).

Ersetze den 1. bis zum [z]. durch den [z]+1. Wert.

Der 1. bis 1. Wert soll durch den 2. ersetzt werden.

Die Werte vom 16. bis zum 16. Sollen durch den 15. ersetzt werden.

Ersetze den (n-[z]+1). bis zum n. durch den (n-[z]).

Der Mittelwert über die modifizierten Werte ist das q-winsorisierte Mittel = 22.25.

Berechne den Mittelwert dieser modifizierten Werte

Der Mittelwert über die verbleibenden Werte ist das q-getrimmte Mittel = 22.214

Berechne den Mittelwert der ausgewählten Werte

Daher sollen die alle Werte zwischen dem [z]. d.h. dem 1. und dem n-[z]+1. d.h. dem 16-1+1. = 16.

Die Werte zwischen dem 1. und 16. sind die Werte vom 2. bis zum 15.

Wähle die Werte zwischen dem [z]. und dem (n-[z]+1). aus: x([z]

+1) ,..., x(n-[z])

21

24

q ist der Anteil der fraglichen Ausreißer im oberen bzw. unteren Bereich und muss vorgängig festgelegt werden.

Page 11: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

sp(Alter) = 30-21 = 9.sp(x) := Max(x) –Min(x) Spannweite (engl. range) :=Maximum-Minimum.

Beispiele:Streuungsmaßzahl

Sehr ‚sensibel‘ für einzelne Extremwerte. Für manche Verteilungen unbrauchbar!

Quantitative Charakterisierung, Streuung

Quantilabstand Differenz zwischen symmetrischen Quantilen

für ein gegebenes Quantum q

x~x~d qq1q :

Für q = 0.25 ist d. 0.25 der Quartilabstand;

für q = 0.10 ist d. 0.10 der Dezilabstand. Für Alter: = 23.5 - 21= 2.5.~x0.25

~x0.75d 0.25:

Der halbe Quantilabstand heißt mittlerer Quantilabstand.EDA-Beispiel = 29-23 = 6.~x0.25

~x0.75d 0.25:

~x0.25

89.9~x0.75

110.1

e e82.7 117.3

50 70 90 110 130 1500

0.01

0.02

0.03

H-Spread (Hingedifferenz) dh := ho – hu EDA-Beispiel: hu=23.5. ho=28.5. eu= 18. eo= 32. dh =5,

~x0.75

23.5

eh

~x0.25

21

eh

18 20 22 24 26 28 30 x0

0.1

0.2

0.3

0.4 f(x)

20

30

40

10

15

25

35

5

h~x0.75

~x0.25

e

e

h

EDA Beispiel

Streuungsmessung mit Hilfe der Differenz zweier markanter Lagemaßzahlen

E-Spread (Eighthsdifferenz) de := eo – eu

hh

de =14

Alter

Page 12: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Mittlere Abweichung vom Median := arithmetisches Mittel der Distanzen aller Werte zum Median.

Beispiele:Streuungsmaßzahl

Streuungsmessung mit Hilfe der Abweichungen aller Werte zu einer Lagemaßzahl Median

Quantitative Charakterisierung, Streuung

~x½

18 20 22 24 26 28 30 x0

0.1

0.2

0.3

0.4 f(x)Urliste:

n

1i5.0in

1x~ |x~x|:d 0.5

Verteilung:

I

1i5.0iix~ |x~x|p:d 0.5 |2230||2224||2223||2222||2221|d

161

163

162

164

166

x~ 5.0

1.37582101 161

163

162

164

166

Urliste:

~ |)xx(|: 5.0in,1,iMedianMAD

Erstellen einer sortierten Liste der Abweichungen vom Median.

D.h.

Für diese sortierte Liste den Median bestimmen.

Bei der Erstellung der sortierten Liste der Abweichungen vom Median ist die Verteilung hilfreich, weil da schon gleiche Werte zusammengefasst sind.

~x½

Erstellen einer sortierten Liste der Abweichungen vom Median:

4 Werte aus x=22.0, 0, 0, 0 1, 1, 1, 1, 1, 1,

2, 2, 2,

8.

4 Werte aus x=21, 2 Werte aus x=233 Werte aus x=24.

aus x=30.

Für die sortierte Liste den Median bestimmen: Der Median bei n=16 ist der Mittelwert des 8. und 9. Werts in der sortierten Liste: (1+1)/2 = 1 = MAD.

Median-Abweichung vom Median := Median der Distanzen aller Werte zum Median.engl. Median of Absolute Deviations = MAD.

Page 13: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Var(x) = arithmetisches Mittel der quadrierten Distanzen aller Werte zum arithmetischen Mittel der Werte.

Streuungsmessung mit Hilfe der Abweichungen aller Werte zum Lagemaß Arithm. Mittel

Quantitative Charakterisierung, Streuung

18 20 22 24 26 28 30 x0

0.1

0.2

0.3

0.4 f(x)

Varianz

n

1nn,

n

sq:Var(x) x

x

_

=22.625

))625.2230()625.2224( 21612

163

21622

1642

166 )625.2223()625.2222()625.2221(( 16 xsq

= 77.75

Für n* = n-1: Var(x) = 77.75 / 15 5.18Für n* = n : Var(x) = 77.75 / 16 4.86

Varianz:

Andere Bezeichnungen der Varianz Var(x)Für die Stichprobe:

21ns

oder (um an das Merkmal zu erinnern) oder (falls durch n dividiert wird) oder (falls durch n-1 dividiert wird).

2s 2xs 2

ns

Für die Population: oder (um an das Merkmal zu erinnern).2 2x

Wann: Nur in Stichproben, wenn das arithmetische Mittel auch auf Grund der Stichprobe berechnet wurde. In allen übrigen Fällen wird durch n dividiert.

Wann und wozu durch n-1 dividieren?

Wozu: Die Division durch n-1 in Stichproben wird durchgeführt, wenn die Varianz der Population durch die Varianz in der Stichprobe ‚erwartungstreu‘ geschätzt werden soll.

Bei Division durch n bzw. in diskreten Populationsverteilungen kann die Varianz für die Verteilung etwas einfacher formuliert werden. I

1i2

ii )xx(p:ar(x)Vfür Verteilung: Bei Division durch n.

Standardabweichung: Std(x) := Wurzel aus der Varianz

n

1i

2ix )xx(:sq

für Verteilung:

I

1i

2iix )xx(pn:sq

Qua

drat

sum

men

für Urliste:

Page 14: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

-21 + ½ x

4-Väter-Beispiel: 4 x-Werte Alter: 42, 44, 46, 52

Sei y= -21+ 0.5*x.

a= -21. b= 0.5. 2y 46x

0

1

5

2

iy

4

1

9

0

2i )y( y

Var(y) = 14 / 3

42

44

52

46

ix

16

4

36

0

2i )x( x

Var(x) = 56 / 3•¼

(½)2

Alle x-Werte werden mit der Linearkombination y = a + bx. transformiert. Wie groß ist die Varianz der transformierten Werte?

Dehnung (um b) wirkt sich quadratisch im quadratischen Konzept der Varianz aus.

Var(a+bx)= b2*Var(x)

Varianz einer Linearkombination

‚Breite‘ bleibt gleich bei Verschiebung um a.

Varianz einer Linearkombination.

Verschiebungssatz.zur einfacheren Berechnung der Quadratsummen bei ‚krummen‘ Mittelwerten:

Verschiebungssatz für sqx

xnx xxsqn

1i

22i

n

1i

2ix

Zuerst Summe der quadrierten Werte bilden. Erst danach den Mittelwert (quadriert und mit n multipliziert) subtrahieren.

Beispiel: Alter, 16 Studenten. Mittelwert = 22.625. Berechne zuerst Summe der quadrierten Werte: 82683024*323*222*421*6

22222

Der Standardfehler ist die Standardabweichung der Verteilung aller denkbaren Mittelwerte, die man erhielte, wenn man etwa sehr viele Stichproben ziehen würde (jeweils mit gleichem n).

Standardfehler des arithmetischen

)x(Stdn

1)x(Stf

MittelsDie Standardabweichung des arithm. Mittels ist kleiner als die der Werte selbst, und zwar um den Faktor .

n

1

Standardfehler des Altersmittelswerts bei einer Stichprobengröße von n=16Std( ) = Std(x) / = Std(x) / 4.

X n

56917.04/27668.2

Etwas exakter spricht man vom geschätztem Standardfehler, wenn die Std(x) selbst auf Grund der Stichprobe geschätzt wird.

(Geschätzter) Standardfehler des arithmetischen Mittels

Formeln zur Varianz

Danach16*quadrierter Mw. berechnen Differenz: sqx = 8268 – 8190.25 =77.75 , wie vorher!

25.8190625.22*162

Page 15: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

-2²

n

1i

2iy )yy(:sq

1n

sq:Var(y) y

Im ‚Variablen-Raum‘

Geometrische Interpretation der Varianz

Die Abweichungen vom Mittelwert werden quadriert und können als Flächen-Quadrate dargestellt werden.

Im ‚Einheiten-Raum‘

Pro UE wird eine Achse verwendet. Bei n UEen ist daher ein n-dimensionaler Raum nötig.

Für jeden Wert, der genau dem Mittel entspricht, kann die Dimension um 1 reduziert werden.

3

3

-3

-3

-3

33

y1

y2

y3

y_

y_

y_

Der quadrierte Abstand vom Nullpunkt zum Datenpunkt ist genau die Summe der quadrierten Abweichungen vom Mittelwert = Var(y) * (n-1)

4-Väter-Beispiel: y-Werte 0, 1, 2, 5

Var(y) = 14 / 3 = 4.66.14

2y

4

1

9

0

-2

-1

3

0

0

1

5

2

yi 2

i )y(y_

yiy

yy -2 0 1-1 2 3

-1²

y 0 2 31 4 5

Nun ist e schon die gesuchte Distanz, quadriert: e2 = d2 + b2 = a2 + c2 + b2.

Die Werte werden zentriert (d.h. arithmetisches Mittel wird subtrahiert) und auf dem Zahlenstrahl abgetragen.

Der Nullpunkt stellt den Mittelwert dar. Auf jeder Achse werden als Werte die Differenzen zum Mittelwert eingetragen.

-2

-1

Das Ergebnis ist ein Datenpunkt für die gesamte Stichprobe.

Varianz als mittlere Fläche

14/3 = Var(y)

2 30 1

Std(y) = 2.1

Zuerst noch eine Hilfsebene einfügen.

Berechnung der Distanz: wiederholte Anwendung des PythagorasPythagoras-Satzes:

Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet.

a

b

c

d

Mit dem braunen Dreieck kann d auf Grund von a und c berechnet werden: d2 = a2 + c2.

Mit dem lila Dreieck kann e auf Grund von d und b berechnet werden: e2 = d2 + b2.

e

Page 16: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Bei linksschiefen Verteilungen ist das arithmetische Mittel links(kleiner) vom Median.

Daher ist dann die Differenz arithmetisches Mittel minus Median negativ.

Schiefemaß: schiefe(X) Beispiele für unterschiedliche Verteilungen:

1

3

6

0

1

2

nixi

linksschief

2

6

2

0

1

2

nixi

symmetrisch

6

3

1

0

1

2

nixi

rechtsschief

schiefe(x) = -0.71 schiefe(x) = 0 schiefe(x) = 0.71

Schiefe der Verteilung

Schiefemaß

std(x)

x~x:)x( schiefe 0.5

1schiefe(x)1

Bei symmetrischer Verteilung ist diese Differenz 0 und bei rechtsschiefer Verteilung positiv.

Die Division durch die Standardabweichung normiert den Schiefekoeffizient (siehe MOOD et al. 1974, S. 76)

linksschief

0 210 210 21

0. 1

0. 6

0. 5

0. 4

0. 3

0. 2

0

symmetrisch rechtsschief

Median

arithm. Mittel*

*

*

**

Anteil

*

-

Page 17: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

h-Spread *1.5

h-Spread *1.5

h-Spread *1.5

h-Spread *1.5

Alter

20

30

40

10

15

25

35

5

Oberer innerer Zaun

Oberer äußerer Zaun

Unterer äußerer Zaun

Unterer innerer Zaun

h-Spread

Box-Plot

Ad-Hoc-Beispiel mit n=11. Alters-Werte sortiert: 7, 18, 23, 24, 24.5, 25, 27, 28, 29, 32, 38. Median = 25. hu= 23.5; ho=28.5; h-Spread= ho- hu=5.

Box-Plot (bzw. Box-and-Whisker Plot)

Median

Unterer Hinge hu

Oberer Hinge ho

Whisker

Hinges mit einer Box (daher Box-Plot) verbinden

Median als Querstrich eintragen.

Nun kann das Feld durch Zäune (engl. Fences) abgesteckt werden.

Der obere innere Zaun liegt 1.5* h-Spread über dem oberen Hinge. Der untere innere Zaun liegt 1.5* h-Spread unter dem unteren Hinge.

Bereiche: Innere Zäune = 16 bis 36. Äußere Zäune= 8.5 bis 43.5

Der obere äußere Zaun liegt 3* h-Spread über dem oberen Hinge. Der untere äußere Zaun liegt 3* h-Spread unter dem unteren Hinge. Whisker

Extremwerte-Markierung (Outlier, Ausreißer) Jeder Wert außerhalb der äußeren Zäune wird durch einen

fetten Punkt markiert.

Jeder Wert zwischen dem innere Zaun und äußerem Zaun wird durch einen Stern markiert.

Festlegung der (=Schnurrbart). WhiskersDas sind die Linien (nach oben bzw. unten) bis zum extremsten Wert, der noch innerhalb des inneren Zauns liegt.

Die Zäune gehören nicht zum Boxplot.

Hinges ebenfalls eintragen.

Page 18: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Streuungsmaße für qualitative MerkmaleAlle bisher behandelten Streuungsmaße bauen auf der Breite der Verteilung auf. Das setzt für das Merkmal Intervallskalenniveau voraus. Für ein qualitatives Merkmal kann untersucht werden, inwiefern die Anteilsmasse auf eine einzige Ausprägung bzw. einige wenige Ausprägungen konzentriert ist (geringe Streuung), oder auf mehrere Ausprägungen eher gleichmäßig verteilt ist (große Streuung).

.p,p,p165

3165

2166

1

1610

1661 md = = 0.625

.)p,p,pmax(166

321

qv = )(12

1612

1642

1611

2561381 = = 0.461

)(12

1652

1652

166 qv =

256861= = 0.664

h(x) = )ln()ln()ln(161

161

164

164

1611

1611

0.777 nits

h(x)b =h(x) / ln(2)= 1.4427 h(x) 1.12

)ln()ln(165

1610

166

166 h(x) =

1.095 nits

h(x)b = 1.4427 h(x) 1.58

Modaldispersion: mdDer Anteil der Werte, die nicht in der Modal-Ausprägung liegen.

Die Anteile sind .p,p,p161

3164

21611

1

165

16111 Daher md = = 0.3125

.)p,p,pmax(1611

321 Der größte Anteil ist

Modaldispersion

1/I-1)xmd(0

)p,...,pmax(1:)x(md I1

Qualitative Varianz: qvHier werden alle Anteile (quadratisch) berücksichtigt.

Qualitative Varianz

1/I-1)x(qv0

)p...p(1:)x(qv 2I

21

)p1(p...)p1(p II11

Entropie: h

Potentiell minimale mittlere Länge von Informationen in Bits (bzw. Nits), wenn alle Teilinformationen (Ausprägungen des Merkmals) optimal codiert werden.

(bzw. mittlere Entropie)Zur Entwicklung optimaler Codes im Sinne der Informationstheorie, später!Entropie(in bits)

)p(ldp:)x(h iI

1i ib )x(h

)2ln(1

)pln(p:)x(h iI

1i i )I(nl)x(hx0

Entropie(in nits)

Anteilsmasse konzentriert sich stark auf die Ausprägung‚ledig‘.

Anteilsmasse ist eher gleichmäßig auf die Ausprägungen aufgeteilt.

(große Streuung)(geringe Streuung)

Familienstand

verlobtledig getrennt

Anteil

0.60

0.40

0.20

0 1611

164

161

Familienstand

verlobtledig getrennt166

165

165

Anteil

0.60

0.40

0.20

0

Page 19: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Die Entwicklung optimaler Binärcodes entspricht dem Finden einer optimalen Fragestrategie bei Unsicherheit, wobei jede Antwort nur binär (etwa: nein/ja; bzw. 0/1) sein darf.

Beispiel: Anne und Bert spielen ‚Felderraten‘ auf dem PC. Der PC wählt zufällig (jedes Feld mit gleicher Chance) ein bestimmtes Feld auf einem Schachbrett.

Anne soll erraten, welches Feld ausgewählt ist. Der PC antwortet auf Annes Fragen jeweils mit nein bzw. ja oder 0 bzw. 1.

Bert macht das auch. Beide wiederholen das Spiel öfters. Gewinner ist, wer pro Spiel am wenigsten Fragen braucht.

Welches ist hier die optimale Fragestrategie?

z.B. für Suche von C8

1. Feld oberhalb der Mitte? 1.

2. Feld links der Mitte? 0.

3. Liegt es in Zeile A bzw. B? 0.

4. In Spalte 5 bzw. 6? 0.

5. In der Zeile C? 1.

6. Ist es in Spalte 7? 0.

Antwortfolge: 100010. Daher muss es Feld C8 sein.

Wie viele Fragen dieser Art sind nötig? 6. Mit 6 Fragen kann jedes der 64 Felder eindeutig identifiziert werden.

Die 64 Felder entsprechen den Ausprägungen. Jede Frage kann 2 mögliche Antworten haben. Daher insgesamt 26 = 64 mögliche Antwortsequenzen.

Bei I Ausprägungen sind ld(I) Fragen bei optimaler Fragestrategie erforderlich, wenn die Chancen aller Ausprägungen gleich sind.

Es gilt auch: ld(I) = -ld(1/I) Der Logarithmus von 64 zur Basis 2 löst die Aufgabe: 2 hoch x = 64. D.h. x = ld(64) = 6. Umgeformt: 6 = - ld(1/64).

Bei ungleichen Anteilen sind andere Fragestrategien besser. z.B. Falls der PC fast immer das Feld C8 wählt, ist es wohl optimaler, zuerst zu fragen: Ist es

Feld C8?Die optimale Strategie wird auf Grund der Anteile entwickelt. Nach Ausprägungen mit großem Anteil wird zuerst gefragt.

Überlegungen zur Entwicklung optimaler Binär-Codes

A

B

C

D

E

G

F

H

1 4 5 6 7 82 3

*

Page 20: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Die optimale Strategie wird auf Grund der Anteile entwickelt.

Zuerst nach Ausprägungen mit dem größten Anteil fragen;

danach die seltenen Fälle abklappern!

Bei passenden Anteilen gilt: Fragenanzahl = ld(1/pi) = -ld(pi )

4-Buchstaben-Beispiel: Buchstaben A, B, C, D erraten. Anne weiß aus Erfahrung, dass der PC A in ½, B in ¼, C in 1/8 und D in 1/8 der Fälle auswählt. Welche optimale Fragestrategie soll sie wählen?

Vorschlag: Zuerst nach A fragen., weil der Anteil mit ½ am größten ist (Die Chance, nach der ersten Frage fertig zu sein ist groß). Falls nein nach B fragen (wegen ¼ Chance). Falls nein, nach C fragen.

C

Fragestrategie in Form eines Flussdiagramms

0

1A? 0

1C?0

1B?

BA

DFür das Erraten von: A B C Dbenötigte Fragenanzahl 1 2 3 3

Anteil ½ ¼ 1/8 1/8

Überlegungen zur Entwicklung optimaler Binär-Codes, Forts.

Das Spiel werde nun sehr oft wiederholt. Mit Hilfe der Anteile als Gewichte kann nun die durchschnittlich benötigte Fragenlänge berechnet werden : ½ mal 1, ¼ mal 2, 1/8 mal 3 1/8 mal 3.

Durchschnittlich benötigte Anzahl ‚optimaler‘

Entropie(in bits)=

)p(ldp:)x(h iI

1i ib Fragen

Als gewichtetes arithmetische Mittel: ½ * 1 + ¼ * 2 + 1/8* 3 + 1/8*3 = 14 / 8

kann dann so ausgedrückt werden: - (½ * ld(½ ) + ¼ *ld(¼) + 1/8 *ld(1/8) + 1/8 *ld(1/8))

Übersetzen des Fragespiels in die Übermittlung von Nachrichten. Der Binärcode für alle Ausprägungen eines Merkmals (ein Alphabet, die Bezeichnung der 64 Schachfelder, die

4 Ausprägungen A B C D) optimal aufgebaut werden, damit zur Übertragung von Nachrichten (mit dem betrachteten Alphabet) möglichst wenig binäre Zeichen notwendig sind. Eine Antwortsequenz entspricht einem

Binärcode, die Länge des Binärcodes (gemessen in bit) der Fragenanzahl.

Die Antwortsequenz für eine einzelne Ausprägung entspricht dem Binärcode der Ausprägung (z.B. 100010 für C8 innerhalb des Schachalphabets, im 4-Buchstaben-Beispiel 1 für A , 01 für B, 001 für C und 000 für D).

Übertragen vieler gleicher Ausprägungen in einer Nachricht als Packet.

Wenn in Nachrichten oft mehrere gleiche Ausprägungen hintereinander übertragen werden müssen, kann ein Wiederholungsmodus (eine zahlenmäßige Information derart, dass z.B.100 gleiche Zeichen folgen usw.) eingebaut werden. So kann die (potentiell minimale) durchschnittliche Informationslänge auch kleiner als 1 Bit werden.

Das Übertragen von Nachrichten ist kein kompetitives, sondern ein kooperatives ‚Spiel‘.

Erwartete Fragelänge(in bits)

p iI

1i iFragenanzahl

Für das Erraten von: A B C Dbenötigte Fragenanzahl 1 2 3 3

Anteil ½ ¼ 1/8 1/81/Anteil 2 4 8 8

ld(1/Anteil) 1 2 3 3

Das gewichtete arithmetische Mittel: ½ * 1 + ¼ * 2 + 1/8 * 3 + 1/8 * 3.

Optimal?

Page 21: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

1.00.90.80.70.60.50.40.30.20.10.0

0 x1000 2000 3000 4000 5000

F(x)

0.0001.0002.0003.0004.0005.0006.0007.0008.0009.0010

0 1000 2000 3000 4000 5000

f(x)

Anteilsverteilung

oi

100

500

1000

2000

5000

ui

0

100

500

1000

2000

Klassen Grenzen

1

2

3

4

5

Klassen Index

i

0.10

0.10

0.20

0.30

0.30

Anteil pi

100

400

500

1000

3000

Klassen Mitte

xi Sortierte Liste

Index Wert(i) x(i)

(1) 21(2) 21(3) 21(4) 21(5) 21(6) 21(7) 22(8) 22(9) 22(10) 22(11) 23(12) 23(13) 24(14) 24(15) 24(16) 30

Rest

Page 22: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

0.0001.0002.0003.0004.0005.0006.0007.0008.0009.0010

0 1000 2000 3000 4000 5000

f(x)

Das Verhältnis der Flächen ist gleich dem Verhältnis der Längen:

p m/ qm b m/ s

Daher: . / pmqmb ms

0.0001.0002.0003.0004.0005.0006.0007.0008.0009.0010

0 1000 2000 3000 4000 5000

f(x)

u(F m)

qx~u m s

Page 23: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

x~¼

x~¼Gesucht: , daher ist q = 0.25. Index m = 3. Erst hier ist F(o3) > 0.25. u3= 500. F(u3) = F(500) = 0.20. Daher ist das 1. Quartil = 500 + (0.25-0.20)500/ 0.20 = 625.

1.00.90.80.70.60.50.40.30.20.10.0

0 x1000 2000 3000 4000 5000

1.00.90.80.70.60.50.40.30.20.10.0

0 x1000 2000 3000 4000 5000

F(x)

Begründung der Formel für das Quantil

q =Für q muss festgestellt werden, welche Gerade benötigt wird.

b)bu)u(Fq(x~1

mmq b/)aq(x~ x~baq qq

a und b kann durch Einsetzen der Punkte in die Gleichung berechnet werden.

, mm bu)u(Fa uo

)u(F)o(Fbmm

mm

Weiteres Umformen und Einsetzen von a und b liefert die Formel: mmq ))u(Fq(ux~ )u(F)u(F

uo

mm

mm

Jeder Klasse entspricht eine Gerade.

Die Geradengleichung allgemein ist: y = a + bx. Die Gerade geht durch die Punkte und .)( ,u m )u(F m )( ,o m )o(F m

qx~

Nun wird der Punkt in die Gleichung eingesetzt.

~ )q,x( q

~x0.25

625~x0.75

2500

e200

e3750

0.0001.0002.0003.0004.0005.0006.0007.0008.0009.0010

0 1000 2000 3000 4000 5000

f(x)

Page 24: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

3

3

-3

-3

-3

3

-2

-1

3-1

für Verteilung:

I

1i

2iix )xx(pn:sq

Qua

drat

sum

men

Varianz

n

1i

2iy )yy(:sq

1n

sq:Var(y) y

Page 25: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Zuerst noch Hilfsebene einfügen

A

B

C

D

E

G

F

H

1 4 5 6 7 82 3

a

b

c

Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet.

Berechnung der Distanz: wiederholte Anwendung des PythagorasPythagoras Satzes.

Berechnung der Distanz: wiederholte Anwendung des PythagorasPythagoras Satzes.

Page 26: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Andere Mittelwerte, Geometrisches Mittel

Das geometrische Mittel ist die n-te Wurzel aus dem Produkt aller Werte.

Für Urliste: n

n21G xxxx ...

nn

1iix

Beispiel (Eine Firma habe seit 4 Jahren des Bestehens folgende Gewinne: 200, 400, 300, 300). Der Wachstumsfaktor des Gewinns ist hier das Verhältnis des jeweiligen Gewinns zum Vorjahresgewinn.Das ergibt 3 Wachstumsfaktoren: x1=400/200=2, x2 =0.75, x3 =1.

3G 10.752x 1.14 (etwas anders formuliert: das ist

ein durchschnittliches Wachstum von 14 %).

An die Stelle des Addierens tritt das Multiplizieren. Statt durch n zu divi-dieren, wird die n-te Wurzel gezogen.

Das arithmetische Mittel der logarithmierten Werte ist der Logarithmus des geometrischen Mittels.

Auf beiden Seiten Logarithmieren liefert:

n

1iin

1G )xlog()xlog(

405465.0))1ln()75.0ln()2(ln()xln(31

31

G

Die Formel gilt für jede Art von Logarithmus, hier wird der zur Basis e verwendet (natürlicher Logarithmus):

Aus dem Logarithmus einer Zahl kann mit Hilfe des Potenzierens der Basis die Zahl selbst berechnet werden:

)405465.0exp())xexp(ln(x31

GG 1.14

Das arithm. Mittel der Wachstumsfaktoren = 1.25 (=25% Wachstum; etwas größer). Wendet man dies als durchschnittliches Wachstum über die Jahre an wie vorher, erhält man: 200*1.25*1.25*1.25 =390.625 (Wohl etwas zu optimistisch).

Bei Wachstumsfaktoren liefert das geometrische Mittel die adäquate Berechnung des Endwerts aus dem Anfangswert.

Das Merkmal muss mindestens Verhältnisskalenniveau haben. Die Werte sollten positiv sein.

Generell ist das geometrische Mittel ist kleiner (bzw. gleich) als das arithmetische.

Wenn über Wachstumsfaktoren gemittelt wird, sollte statt des arithmetischen auf jeden Fall das geometrische Mittel verwendet werden.

Voraussetzungen und Eigenschaften des geometrischen Mittels

Wendet man den durchschnittlichen Wachstumsfaktor pro Jahr seit Beginn an: 200*1.14*1.14*1.14 =300. Der tatsächliche Gewinn am Ende kann damit vom Anfang her mit Hilfe des durchschnittlichen Wachstums berechnet werden.

Page 27: Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Beispiel: Logit für den ‚männlich‘-Anteil logit(14/16) =ln(7) = 1.96.

Der Logit für den ‚weiblich‘- Anteil logit(14/16)=ln(1/7) = -1.96.

Beispiel: Bei Sex unter den ersten 16 ist der ‚männlich‘-Anteil =14/16, der ‚weiblich‘-Anteil=2/16. Als Verhältnis 14 : 2 bzw. 7:1 mit ‚weiblich‘ als Referenzkategorie. bzw. (1/7) : 1 mit ‚männlich‘ als Referenzkategorie bzw. 0.1428 : 1

Als Darstellung interessiert das Verhältnis der Anteile (Häufigkeiten) zueinander bzw. zu einer ‚Referenz‘-Ausprägung.

(engl. Odds), beim Wetten als Angabe zur Charakterisierung der Chancen Verhältnisangaben

Verteilungscharakterisierung durch Funktionen der Anteile

Odds

oddsj(pi ) := pi : pj = pi/pj

mit j als Index für die Referenzausprägung

Der Logit ist der natürliche Logarithmus der Odds.Logit.

Die Verhältnisse werden logarithmiert; so werden die ‚multiplikativen‘ Verhältnisangaben ‚additiv‘.

Logits

Logitj(pi ) := ln( pi /pj )

= ln(pi )-ln(pj).mit j als Index für die Referenzausprägung

Durch das Logarithmieren erhält man bei zwei Ausprägungen den gleichen Wert (einmal positiv, einmal negativ). Die Wahl der Referenzausprägung ist dadurch nicht mehr so wichtig.

Bei den Odds versucht man, die Referenzausprägung so zu wählen, dass möglichst als Verhältnis Werte größer als 1 resultieren (bei Odds für Teilgruppen schwer realisierbar).

Beispiel: Nach MENDEL sollten 4 Erbsensorten bei einem Kreuzungsexperiment im Verhältnis 9 : 3 : 3 : 1 stehen (Angaben als Odds). Die Häufigkeiten beim MENDEL’schen Experiment waren: 315, 108, 101, 32. Mit der 4. Ausprägung als Referenz-kategorie lauten die realisierten Odds: 9.8 : 3.375 : 3.156 : 1