Zusammenfassung Statistik 1 Kap. 1-5

22
Modul 2.1: Methoden und Analyseverfahren Zusammenfassung ‚Statistik’ – Kurseinheit 1 (Beschreibende Statistik) Kap. 1- 5 SEMESTER: SS12 AUTOR: Liquidacao

Transcript of Zusammenfassung Statistik 1 Kap. 1-5

Page 1: Zusammenfassung Statistik 1 Kap. 1-5

Modul 2.1: Methoden und Analyseverfahren

Zusammenfassung ‚Statistik’ – Kurseinheit 1 (Beschreibende Statistik) Kap. 1- 5

SEMESTER: SS12 AUTOR: Liquidacao

Page 2: Zusammenfassung Statistik 1 Kap. 1-5

1. Statistik, Daten und statistische Methoden

1.2 Aufgaben und Teilbereiche der Statistik Aufgaben der Statistik

- Erhebung von Daten - Beschreibung und Visualisierung - Identifikation von Auffälligkeiten - Ableitung von Schlüssen

Mehrdeutigkeit des Begriffs „Statistik“ Teilbereiche der Statistik: Innerhalb der Statistik gibt es zwei Bereiche:

1. Beschreibende Statistik (Deskriptive Statistik) a. Umfasst numerische und grafische Verfahren zur Charakterisierung und

Präsentation von Daten. b. Explorative Statistik: Data mining Sammlung von Daten um

Auffälligkeiten zu beobachten 2. Schließende oder induktive Statistik

a. Zieht Schlussfolgerungen aus Daten. b. Diese werden als Ausprägungen von Zufallsvariablen interpretiert und

durch Wahrscheinlichkeitsmodelle beschrieben. Grundlage des Verwaltungsrechts ist das Verfassungsrecht, was entsprechend durch das GG verkörpert wird. Auf dessen Grundlage gibt es die drei staatlichen Gewalten, nämlich die gesetzgebende Gewalt (Legislative), die ausführende Gewalt (Exekutive oder eben die Verwaltung) und die richterliche Gewalt (Judikative).

1.3 Methodenkompetenz als Lernziel

Methodenkompetenz als Basis für datengestützte Entscheidungsfindung

2. Grundbegriffe der Statistik

- Planung

- Erhebung - Aufbereitung - Und Auswertung von Daten

Page 3: Zusammenfassung Statistik 1 Kap. 1-5

Grundbegriffe ( Buch S. 14 ff)

- Objekte auf die sich die statistische Untersuchung bezieht, nennt man statistische Einheiten oder Merkmalsträger.

- Menge aller statistischen Einheiten nennt man Grundgesamtheit. - Eigenschaften einer statistischen Einheit nennt man Merkmale oder Variablen - Die möglichen Werte, die ein Merkmal annehmen kann, nennt man

Merkmalsausprägung.

- Wenn man aus einer Grundgesamtheit nach einem bestimmten Auswahlverfahren

eine Teilmenge auswählt, spricht man von einer Stichprobe. - Die Wert, die man für ein Merkmal in einer Grundgesamtheit oder einer Teilmenge

einer Population beobachtet, nennt man Urwerte, Primärdaten oder Rohdaten. Urliste

2.2 Merkmalsklassifikationen und Skalen Einteilung von Merkmalen nach der Anzahl der Ausprägungen

- Diskretes Merkmal: ist ein Merkmal, das nur endlich viele Ausprägungen oder aber höchsten abzählbar viele Ausprägungen annehmen kann. Zählvariablen sind stets diskret.

o Bsp.: Anzahl der Fachsemester, Güteklassen, Alter, Anzahl der zu einem Haushalt gehörenden Personen.

- Stetiges Merkmal: ist dadurch gekennzeichnet, dass die Ausprägungen ein Intervall bilden. Für jede zwei Merkmalsausprägungen eines stetigen Merkmals gilt, dass auch alle Zwischenwerte angenommen werden.

o Zeitangaben, Längen, Gewichte, Körpergröße

Page 4: Zusammenfassung Statistik 1 Kap. 1-5

Einteilung von Merkmalen nach der Skalierung

Skala Art Beispiele Nominalskala verschiedene Kategorien

keine Reihenfolge für die einzelnen Ausprägungen definiert

männlich / Weiblich Farben ja /nein

Ordinalskala (rangskaliert)

Rangfolge bzw. Rangordnung festlegbar

aber: keine Angaben über die Abstände zwischen den Ausprägungen möglich

vorkommen (häufig, selten, nie)

Geschmack (sehr gut, gut, befriedigend)

Intervallskala ( Kardinalskala ) -metrisch

Rangfolge definiert wie bei Ordinalskala

gleich große Skalenabschnitte Nullpunkt willkürlich, aber festlegbar

- Temperaturskala in Celcius ( hat keinen natürlichen Nullpunkt; Aussagen wie 20 Grad sind doppelt so viel wie 10 Grad sind nicht sinnvoll)

Verhältnisskala -metrisch

wie Intervallskala aber: natürlicher Nullpunkt

vorhanden

Preis eines Artikels ( es können sinnvolle Verhältniszahlen berechnet werden ( also 10 € sind doppelt so viel wie 5 €)

Haushaltsgröße in Personen

Körpergröße in cm

Page 5: Zusammenfassung Statistik 1 Kap. 1-5

Bsp.: Nominal Ordinal Intervall Verhältnis Geschlecht X Alter in Lebensjahren

X

Mathematik - Zensuren

X

Temperatur in C

X

Platzierung im Wettlauf

X

Gehalt in € X Beruf X Bsp.: Notwendiges Skalenniveau - Welches Skalenniveau ist mindestens erforderlich, damit folgende Aussagen zutreffen? Nominal Ordinal Intervall Verhältnis Ein Messwert ist größer als ein anderer.

X

Ein Messwert ist doppelt so groß. X Zwei Messwerte sind ungleich. X (x1-x2) < (x3 - x4) X Die Differenz zweier Messwerte ist gleich.

X

Ein Messwert liegt zwischen zwei anderen.

X

Ein Messwert ist gleich einem anderen.

X

Einteilung von Merkmalen nach dem Typ der Ausprägung Typ der Merkmalsausprägung (Kategorie oder Zahl). Wenn die Ausprägungen Kategorien sind, spricht man von einem qualitativen Merkmal. Die Merkmalsausprägung en spiegeln hier eine Qualität wider, keine Intensität oder ein Ausmaß. (Nominal oder ordinal skaliert) Sind die Ausprägungen eines Merkmals „echte“ Zahlen, so liegt ein quantitatives Merkmal vor.

2.3 Operationalisierung von Merkmalen Bevor eine Variable anhand einer Messskala gemessen wird, muss ihre Messbarkeit gesichert sein. Dies geschieht durch die Operationalisiserung bezeichnete Festlegung von Messanweisung. Qualitätsbewertung für Messverfahren Die Beurteilung der Qualität von Messverfahren erfolgt anhand von drei Kriterien. Es sind dies die Objektivität (intersubjektive Nachvollziehbarkeit), die Reliabilität (Messgenauigkeit) sowie die Validität ( Gültigkeit) des Verfahrens. Von letzterer spricht man, wenn wirklich das gemessen wird, was man messen will. Validität bezieht sich also auf den inhaltlichen Aspekt der Messung, während die Reliabilität auf die technische Ebene abstellt. Ein nicht-reliables Messverfahren ist i. a. auch nicht-valide und auch ein hochreliables Messverfahren kann wenig valide sein. Letzteres trifft zu, wenn ein

Page 6: Zusammenfassung Statistik 1 Kap. 1-5

Verfahren zwar etwas genau misst, aber inhaltlich etwa anderes erfasst als erfasst werden sollte.

3. Datengewinnung und Auswahlverfahren 3.1 Erhebungsarten und Studiendesigns

- Für empirische Überprüfung von Forschungsfragen werden Daten benöitigt, d.h.

beobachtete Werte eines Merkmals oder mehrere Merkmale in einer Grund- ode Teilgesamtheit von Merkmalsträgern.

- Die Gewinnung von Daten bezeichnet man als Datenerhebung, die Planung Erhebungsdesign.

- Primärdaten sind Daten, die eigens für die Untersuchung eigenständig gewonnen wurden.

- Sekundärdaten sind Daten, die aus schon vorhandenen Quellen gewonnen wurden.

Varianten der Befragung Eine mündliche Befragung kann unstrukturiert, teilstrukturiert oder strukturiert erfolgen. Eine unstrukturierte Befragung hat einen offenen Charakter und kann Varianten der Befragung ohne Fragebogen realisiert werden. Bei teilstrukturierten und strukturierten Interviews ist die Befragung teilweise oder ganz standardisiert. Dies lässt sich durch die Verwendung von Fragebögen mit teilweise oder vollständig geschlossenen Fragen erreichen. ... ( S. 21 ff) Klassifikation von Erhebungen nach dem zeitlichen Zusammenhang der Daten

- Querschnittsreihe: Wenn an verschiedenen Merkmalsträgern zu einem festen Zeitpunkt die Ausprägung eines Merkmals erfasst werden.

- Zeitreihe: Verfolgt man ein Merkmal an einer statistischen Einheit im Zeitverlauf. - Panel: Kombiniert Querschnitts- und Zeitreihenanalyse.

Eine weitere Klassifikation für Erhebungen bezieht sich auf den Umfang der erhobenen Daten. Bei der Vollerhebung werden alle Elemte einer Grundgesamtheit in die Erhebung eingebzogen, während man bei einer Teilerhebung oder Stichprobenerhebung nur Daten für eine Teilmenge der für die jeweilige Fragestellung relevanten Grundgesamtheit heranzieht.

3.2 Stichprobenauswahl Formal ist eine geschichtete Stichprobenauswahl ein zweistufiges Auswahlverfahren, bei der eine Grundgesamtheit mit N Elementen zunächst anhand eines Hilfsmerkmals – der Schichtungsvariablen – in L disjunkte Teilgesamtheiten des Umfangs N1 , N2 , . . . ,NL zerlegt wird (N1 + N2 + .. + NL = N ), aus denen im zweiten Schritt Zufallsstichproben des Umfangs n1 , n2 , . . . ,nL gezogen werden (n1 + n2 + .. + nL = n). Je nachdem, ob der Anteil ni Ni (i = 1, 2, .., L) der einer Schicht entnommenen Stichprobenelemente fest ist oder nicht, liegt eine proportional geschichtete Stichprobe resp. eine disproportional geschichtete Stichprobe vor. Abbildung 3.4 zeigt eine Grundgesamtheit von N = 50 Elementen, bei der zunächst eine Zerlegung in drei Schichten mit den Umfängen N1 = 25, N2 = 15, N3 = 10 und dann in jeder Schicht eine zum Schichtumfang proportionale Zufallsstichprobe gezogen wird. Bei dem Illustrationsbeispiel beträgt der Auswahlsatz 20 % der Elemente einer Schicht.

Page 7: Zusammenfassung Statistik 1 Kap. 1-5

Bei einer disproportional geschichteten Stichprobe ist die Auswahlwahrscheinlichkeit der Stichprobenelemente innerhalb einer Schicht konstant, nicht aber von Schicht zu Schicht. Man muss hier die Stichprobenelemente beim Rückschluss auf die Grundgesamt- heit gewichten – die Gewichte sind dabei zu den Auswahlwahrscheinlichkeiten reziprok. Disproportionale Schichtung wird z. B. angewendet, wenn Schichten dünn besetzt sind. Bei geschichteten Zufallsstichproben wird eine Grundgesamtheit anhand eines Hilfsmerk- mals (Schichtungsvariable) in disjunkte Teilmengen zerlegt. Manchmal zerfällt aber eine Grundgesamtheit auf „natürliche“ Weise, also von vorneherein, in disjunkte Teilgesamt- heiten, die hier Klumpen genannt werden. Bei einer Grundgesamtheit von Schülern könnten die Klumpen durch Klassenverbände und bei Tieren durch Herden gegeben sein. In solchen Fällen zieht man manchmal ein anderes zweistufiges Auswahlverfahren heran, die sog. Klumpenstichprobe. Hier wird im ersten Schritt eine Zufal lsstichprobe aus der Menge al ler Klumpen gezogen. Im zweiten Schritt werden dann al le Elemente der ausgewählten Klumpen untersucht. In der Praxis, etwa in der Markt- und Meinungsforschung, werden Stichproben nicht immer zufällig, sondern auf der Basis einer Systematik ausgewählt. Ein Beispiel für ein systematisches Stichprobenauswahlverfahren ist die Quotenauswahl. Bei dieser versucht man eine Stichprobe durch Vorgabe von Quoten bezüglich eines meist sozioöko- nomischen Merkmals, z. B. Geschlecht oder Alter, so zu erzeugen, dass die Stichprobe hinsichtlich dieses Merkmals – damit allerdings nicht zwingend auch hinsichtlich des eigentlich interessierenden Untersuchungsmerkmals – eine Art verkleinertes Abbild der Grundgesamtheit darstellt.

3.3 Träger amtlicher und nicht-amtlicher Statistik Organisation der amtlichen Statistik in Deutschland Für Datensammlungen, die ganz Deutschland betreffen, ist das Statistische Bundesamt zuständig, für regionale Daten die Statistischen Landesämter. Daneben gibt es auch einige kommunale Statistikämter. Nur wenige amtliche Statistiken werden unter direkter Kontrolle von Ministerien geführt, etwa die Arbeitsmarktstatistik der Bundesagentur für Arbeit, bei der das Bundesministerium für Arbeit und Soziales Mitverantwortung trägt. Träger nicht-amtlicher Statistik Während die Träger der amtlichen Statistik eine Informationspflicht gegenüber der Öffentlichkeit haben, gilt dies nicht für die Träger der nicht-amtlichen Statistik.

Page 8: Zusammenfassung Statistik 1 Kap. 1-5

Die größten Wirtschaftsforschungsinstitute in Deutschland sind das Institut für Wirtschaftsforschung (IFO) in München, das Deutsche Institut für Wirtschaftsforschung (DIW) in Berlin, das Rheinisch-Westfälische Institut für Wirt- schaftsforschung in Essen (RWI), das Institut für Weltwirtschaft in Kiel (IfW) und das Institut für Wirtschaftsforschung Hal le (IWH). Internationale Träger amtlicher Statistik

- Eurostat - Europäische Amt für Statistik

4. Univariate Häufigkeitsverteilung 4.1 Absolute und relative Häufigkeiten

Univariate oder multivariate Datenanalyse: Je nachdem, ob man Daten für ein Merkmal oder für mehrere Merkmale auswertet, spricht man von univariater oder multivariater Datenanalyse. (Betrachtet sei eine Erhebung, bei der für ein beliebig skaliertes Merkmal X an n Merkmalsträgern oder Untersuchungseinheiten jeweils die Merkmalsausprägung festge- stellt wird. Die beobachteten oder gemessenen Merkmalswerte x1 , . . . , xn konstituieren die Urliste. Da sich die Urliste hier auf ein einziges Merkmal bezieht, liegt eine univa- riate Urliste vor. In dieser können Werte mehrfach auftreten. Dieser Fall tritt z. B. bei diskreten Merkmalen auf, wenn die Länge n der Urliste die Anzahl k der möglichen Merk- malsausprägungen überschreitet.) Verteilung von absoluten und relativen Häufigkeiten Urlisten werden mit wachsender Länge n und sich wiederholenden Merkmalswerten rasch unübersichtlich. Es empfiehlt sich dann, die in den Rohdaten enthaltene Informa- tion durch Angabe von Häufigkeiten für die Merkmalsausprägungen – oder, bei grup- pierten Daten, für Klassenbesetzungshäufigkeiten – zusammenzufassen. Hat man ein diskretes Merkmal mit Ausprägungen a, . . . , ak, so ist die im Folgenden mit

hi := h(ai ) i = 1, 2, . . . , k

bezeichnete absolute Häufigkeit für die Ausprägung ai die Anzahl der Elemente der Urliste, die mit dem Wert ai übereinstimmen. Absolute Häufigkeiten haben den Nachteil, dass sie von der Länge n der Urliste abhän- gen. Um Häufigkeiten auch für Datensätze unterschiedlichen Umfangs direkt vergleichbar zu machen, teilt man die absoluten Häufigkeiten durch den Umfang n der Beobachtungs- reihe. Die resultierenden relativen Häufigkeiten

repräsentieren Anteile, die man auch oft in Form von Prozentwerten ausweist (Multi- plikation mit 100).1 Häufigkeiten lassen sich, wie anhand von Beispiel 4.1 illustriert, in Tabellenform ausweisen. Dabei resultieren Häufigkeitsverteilungen für absolute oder relative Häufigkeiten. Eine Häufigkeitsverteilung für ein Merkmal X wird auch als em-

Page 9: Zusammenfassung Statistik 1 Kap. 1-5

pirische Verteilung für dieses Merkmal bezeichnet. Es ist sofort einsichtig, das sich die absoluten Häufigkeiten zu n und die relativen Häufigkeiten zu 1 addieren. Im Vor- computerzeitalter wurden für absolute Häufigkeiten anstelle von Zahlen auch manchmal Strichlisten verwendet, also z. B. „ “ anstelle von „7“ geschrieben. Diese Verfahrens- weise bot sich aber allenfalls bei kleinen Werten h(ai) an. Buch S.67 ff

Page 10: Zusammenfassung Statistik 1 Kap. 1-5
Page 11: Zusammenfassung Statistik 1 Kap. 1-5

Weiteres Beispiel im Skript S. 37

Absolute Häufigkeit

Relative Häufigkeit

Page 12: Zusammenfassung Statistik 1 Kap. 1-5

Visualisiserung univariater Häufigkeitsverteilungen Kreisdiagramm: Dabei werden die absoluten oder relativen Häufigkeiten durch Kreissektoren repräsentiert. Stabdiagramm: Häufigkeiten werden durch vertikale dicke Stäbe (Striche) dargestellt. Beim Säulendiagramm durch vertikale dicke Stäbe (rechtecke) dargestellt. Beispiel aus Skript S. 38

Page 13: Zusammenfassung Statistik 1 Kap. 1-5

4.2 Die empirische Verteilungsfunktion Vorausgehend wurde die absolute Häufigkeitsverteilung resp. Relative Häufigkeitsverteilung thematisiert. Sie gibt Aufschluss darüber, wie oft jede Ausprägung in einem Datensatz vorkommt. Wenn die Merkmalswerte metrisch oder zumindest ordinalskaliert sind, also eine na- türliche Rangordnung erklärt ist, will man oft auch wissen, wieviele Werte unterhalb oder oberhalb eines Schwellenwertes x liegen. Bei einem Datensatz, der den höchsten erreichten Bildungsabschluss einer Personengruppe beschreibt (ordinalskaliertes Merk- mal „höchster erreichter Bildungsabschluss“), kann man z. B. fragen, wieviele Personen einen Abschluss unterhalb eines Hochschulabschlusses haben, also die Hochschulreife oder einen darunter liegenden Abschluss besitzen. Beim n-fachen Würfeln mit einem Würfel kann man etwa an der Häufigkeit von Ergebnissen interessiert sein, die die Au- genzahl 5 unterschreiten. Eine Antwort auf solche Fragen liefert die absolute oder relative kumulierte Häufigkeitsverteilung. Betrachtet sei also ein zumindest ordinalskaliertes Merkmal X mit Ausprägungen a1 , . . . , ak . Für das Merkmal liegen n Beobachtungen xi vor (i = 1, 2, . . . , n), die bereits aufsteigend geordnet seien. Die absolute kumulierte Häufigkeitsverteilung für X ergibt sich, wenn man für einen beliebigen reellen Wert x die Anzahl der Beobachtungen ermittelt, die x nicht überschreiten. Formal ergibt sich diese kumulierte Häufigkeitsverteilung H (x) als Summe der absoluten Häufigkeiten h(ai ), die der Bedingung ai ≤ x genügen. Die Funktion H (x) ist also für x < a1 Null, springt in x = a1 auf den Wert h(a1 ) und bleibt auf diesem Niveau bis zur Stelle x = a2 , an der sie auf den Wert h(a1 ) + h(a2 ) springt usw. Die absolute kumulierte Häufigkeitsverteilung H (x) für ein Merkmal X ist somit eine monoton steigende Treppenfunktion, die jeweils in x = ai um den Betrag hi nach oben springt. Formal lässt sich H (x) wie folgt schreiben:

Die relative kumulierte Häufigkeitsverteilung F (x) resultiert, wenn man H (x) durch den Umfang n des Datensatzes dividiert:

Page 14: Zusammenfassung Statistik 1 Kap. 1-5
Page 15: Zusammenfassung Statistik 1 Kap. 1-5

5. Kenngrößen univariater empirischer Verteilungen 5.1 Lagemaße

Modalwert/ Modus Xmod

Zur Charakterisierung des „Zentrums“ einer Verteilug werden Lageparameter herangezogen. Der Modus lässt sich immer anwenden, also auch bei Merkmalen, deren Ausprägung nur Kategorien sind (qualitative Merkmale). Er ist definiert als die Merkmalsausprägung mit der größten Häufigkeit. Beispiel aus Skript In Beispiel 4.1 (ZDF-Politbarometer vom 16. Oktober 2009, Merkmal „Parteipräferenz“)war die Ausprägung a1 (Präferenz für die CDU/CSU) mit der größten Häufigkeit verbunden, d. h. hier ist xmod = a1 . Anhand von Abbildung 4.4 lässt sich der Modus leicht bestimmen, weil die Häufigkeit h(a1 ) deutlich größer als alle anderen Häufigkeiten war. Wären zwei Häufigkei- ten, z. B. h(a1 ) und h(a2 ) gleich groß, hätte man eine zweigipflige Häufigkeitsverteilung und es gäbe zwei Modalwerte (Modi). Der Modus ist also nur dann eindeutig erklärt, wenn die Häufigkeitsverteilung ein eindeutig bestimmtes Maximum aufweist. Aus Buch S. 79

Median/Zentralwert Bezeichnet den Wert, der in der Mitte einer der Größe des betrachteten Merkmals nach angeordneten Folge aller untersuchten Merkmalsausprägungen steht. ( Zahlenwerte sind unwichtig) - Bei ungeraden n: einfach abzulesen. Beispiel 1 1 2 3 5, Me = 2 - Bei geraden n: Mittelwert bilden; Beispiel 1 1 2 3 5 6, Me= 2,5 Für gerade n gilt: Bei geradem n existiert kein mittleres Element. Deshalb ermittelt man Me aus den Ausprägungen der beiden Elemente, die der Mitte am nächsten stehen, mithilfe des arithmetischen Mittels. Für die Folge der Ausprägungen 1 ... 1 .... 2 ... | .... 3 .... 5 ... 6 gilt somit Me = 2 + 3 / 2 = 2,5 Der Median teilt die Häufigkeitsverteilung in 2 Hälften. Die ersten 50% der Merkmalsträger besitzen eine Merkmalsausprägung, die kleiner ist als der Median, die restlichen eine, die gleich oder größer ist.

Page 16: Zusammenfassung Statistik 1 Kap. 1-5

Quartile Ähnlich wie der Median, Unterteilung aber in 4 Teile (25%, 50%, 75%, 100%) Mittelwert (arithmetisches Mittel)

Merkmalen anwendbar und ergibt sich, idem man alle Werte x1, x2, ..., xn eines Datensatzes addiert und die resultierende Summe durch n dividiert: Formel:

!

x (X-Strich) =

!

x1+ x2 + ...+ xn

n =

mit den Merkmalsausprägungen x1, x2 ... xn

und der Anzahl der Beobachtung n Das arithmetisches Mittel X-Strich ist die Summe aller beobachteten Merkmalsausprägungen, geteilt durch deren Anzahl. Der Mittelwert berücksichtigt demnach alle Werte eines Datensatzes mit gleichem

Gewicht

!

1

n , während in die Berechnung eines Medians nur ein oder zwei zentrale

Elemente eines Datensatzes eingehen. Wenn man also bei einem Datensatz den größten Wert xmax=X(n) deutlich vergrößert, hat dies nur auf den Mittelwert einen Effekt. Der Mittelwert reagiert demnach, anders als der Median, empfindlich gegenüber extremen Werten. Man spricht dabei von einer höheren Sensivität oder auch von einer geringeren Robustheit des Mittelwerts gg. Ausreißern, d.h. gg auffällig großen oder kleinen Beobachtungswerten. Gewogenes arithmetisches Mittel Kommen verschiedene Merkmalsausprägungen mehrfach vor, so wird zur einfacheren Berechnung des Mittelwerts die Formel für das gewogene arithmetische Mittel herangezogen:

!

x gew =x1h1

+ x2h2

+ ...+ xkhk

h1

+ h2

+ ...+ hk

=x1h1

+ x2h2

+ ...+ xkhk

n=1

nxihi

i=1

k

"

Beispiel aus Buch S. 79 Benutz Werten die Angaben aus dem Beispiel auf S. 74. Dabei stellen die Ausprägungen die Zimmer da (1 bis 6 Zimmer) und die Anzahl der Aufträge die Beobachtungen. Insgesamt – also n – sind 200 Aufträge vorhanden. Das arithmetische Mittel – hier gewogenes arithmetisches Mittel - lässt sich wie folgt berechnen:

!

x gew. =1" 20 + 2 " 54 + 3" 50 + 4 " 6 + 5 " 2 + 6 "18

200= 3,2

Somit haben die sanierten Altbauwohnungen eine durchschnittliche Größe von 3,2 Zimmern.

Page 17: Zusammenfassung Statistik 1 Kap. 1-5

In der Wochenzeitung „Die Zeit“, Ausgabe vom 11. 4. 2002, fand man in Ergänzung des Bei- trags „Big Oil regiert“ von Th. Fischermann die nachstehende Tabelle mit umweltrelevanten Kennzahlen für die USA, Deutschland, Japan, China und Indien. Die Daten beziehen sich auf das Jahr 1999 und stammen von der Internationalen Energieagentur.

Man erkennt, dass die USA vergleichsweise großzügig Energie verbrauchen und C O2 emittieren. Gedanklich stelle man sich 5 Personen vor, je eine Person aus den Ländern USA, Deutschland, Japan, China und Indien, für die jeweils die in Tabelle 5.1 angegebenen Verbrauchs-

Gibt es einen „besten“ Lageparameter? Welchen der vorgestellten Lageparameter sollte man aber verwenden? Hierzu gibt es keine allgemeingültige Ausage. Die Antwort hängt sowohl von der Skalierung des Merk- mals ab als auch von der jeweiligen Fragestellung. Bei einem nominalskalierten Merkmal kann man nur den Modalwert verwenden. Bei einem metrisch skalierten Merkmal hat man schon drei Alternativen, nämlich den Modalwert, den Median und den Mittelwert und es ist zu überlegen, wie robust die zu berechnende Kenngröße gegenüber Extremwerten sein soll. Bei einem kleinen Datensatz für das Merkmal „Bruttoverdienst“ (in Euro / Stunde) kann z. B. ein einziger Extremwert den Mittelwert erheblich beeinflussen. Hier kann dann der Median aussagekräftiger sein, während der Modalwert i. a. wenig Information liefert, vor allem wenn die Verdienste auf Cent genau ausgewiesen werden.

Page 18: Zusammenfassung Statistik 1 Kap. 1-5

Bei metrisch skalierten Daten wird oft nicht nur ein Lageparameter berechnet, weil ein zweiter Parameter, etwa der Median zusätzlich neben dem Mittelwert, noch zusätzliche Information über die empirische Verteilung eines Datensatzes liefern kann. Bei einer Einkommensverteilung kann man z. B. x-Strich und x-Schlange vergleichen und hieraus Aussagen zur Symmetrie oder Asymmetrie der Verteilung ableiten.

5.2 Streuungsmaße Zur Charakterisierung von Merkmalen, für die Abstände zwischen Merkmalsausprägungen erklärt sind, also bei quantitativen Merkmalen (metrische Merkmalsskalierung), muss man somit noch Kenngrößen heranziehen, die die Streuung innerhalb des Datensatzes messen. Ein besonders einfach Streuungsmaß für metrisch skalierte Merkmale ist die Spannweite R eines Datensatzes. Um diese zu berechnen, ordnet man – wie bei der Berechnung des Medians – den Datensatz zunächst nach aufsteigender Größe. Die Spannweite ergibt sich dann aus dem geordneten Datensatz x(1), x(2),..., x(n) als Differenz aus dem größten Wert x(n) und dem kleinsten Wert x(1):

R:= x(n) – x(1).

Die Spannweite hat den Nachteil, dass sie eine hohe Empfindlichkeit bzw. eine geringe Robustheit gegenüber Ausreißern besitzt. Ändert man in einem Datensatz den maxima- len oder den minimalen Wert stark, wirkt sich dies auch massiv auf den Wert von R aus. Varianz (oder Stichprobenvarianz s2, oder empirische Varianz) In die Varianz gehen die Abweichungen xi – x-Strich der Merkmalswerte vom Mittelwert x-Strich ein. Die Varianz bildet den Mittelwert aus dem quadrierten Abweichungen (xi – x-Strich)2, d.h. es gilt

Aus Buch S. 80 ff

Page 19: Zusammenfassung Statistik 1 Kap. 1-5
Page 20: Zusammenfassung Statistik 1 Kap. 1-5

Aus Buch: Die Beschreibung der Mitte der Häufigkeitsverteilung, bspw. Mit dem arithmetischen Mittel, kann durch Maßzahlen ergänzt werden, die zum Ausdruck bringen, wie stark die beobachteten Merkmalsausprägungen von dieser Mitte abweichen (um diese Mitte streuen). Gebräuchliche Streuungsmaße sind die Varianz und Standardabweichung.

Page 21: Zusammenfassung Statistik 1 Kap. 1-5
Page 22: Zusammenfassung Statistik 1 Kap. 1-5

Weiter Beispiele im Skript S. 57 f

5.3 Quantile und Boxplots Quantile und Boxplots siehe Skript S. 59 ff.