Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen...

141
Statistik f¨ ur Ingenieure 4 Deskriptive Statistik Prof. Dr. Hans-J¨ org Starkloff TU Bergakademie Freiberg Institut f¨ ur Stochastik Wintersemester 2019/2020 letzte ¨ Anderung: 15.11.2019

Transcript of Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen...

Page 1: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Statistik fur Ingenieure4 Deskriptive Statistik

Prof. Dr. Hans-Jorg Starkloff

TU Bergakademie FreibergInstitut fur Stochastik

Wintersemester 2019/2020letzte Anderung: 15.11.2019

Page 2: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4 Deskriptive Statistik4.1 Grundbegriffe der Statistik

I Der Begriff Statistik wurde Ende des 17. Jahrhunderts gepragt furdie verbale oder numerische Beschreibung eines bestimmten Staatesoder den Inbegriff der

”Staatsmerkwurdigkeiten“ eines Landes oder

Volkes (er hat dieselbe Wortwurzel wie”Staat“ oder

”Staatsmann“).

I Heute hat dieser Begriff viele verschiedene Bedeutungen, z.B. furI eine tabellarische oder grafische Darstellung von erhobenen Daten;

I einen Fachausdruck fur eine Stichprobenfunktion;

I eine”methodische Hilfswissenschaft zur quantitativen Untersuchung

von Massenerscheinungen“.

I Hier soll mit dem Begriff”Statistik“ eine Zusammenfassung von

Methoden verstanden werden, die zur zahlenmaßigen oder grafischenAnalyse von Daten dienen soll, insbesondere im Zusammenhang mitMassenerscheinungen und zufallsbehafteten Vorgangen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 2

Page 3: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Teilgebiete der Statistik

I Die beschreibende oder deskriptive Statistik behandelt zum Beispielbeschreibende Aussagen uber statistische Daten, derenVeranschaulichung oder Moglichkeiten der Datenreduktion.

I Eng damit verwandt ist die explorative Datenanalyse, bei der zumBeispiel Daten auf Unstimmigkeiten hin untersucht werden oderModellvorstellungen uber die den Daten zugrundeliegendenGesetzmaßigkeiten entwickelt werden.

I Die Methoden der schließenden oder beurteilenden Statistik dienenzum Beispiel zur Ableitung von statistisch gesicherten Aussagen uberdie den Daten zugrunde liegenden Sachverhalte, etwa die Schatzungvon Kenngroßen oder die Durchfuhrung von statistischen Tests.

I Insbesondere in der schließenden Statistik werden Methodenverwendet, deren (Weiter-)Entwicklung und Begrundung durch diemathematische Statistik erfolgt. Insgesamt bestehen engeBeziehungen zwischen Statistik und Wahrscheinlichkeitstheorie.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 3

Page 4: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Untersuchungseinheiten, Grundgesamtheit und Stichprobe

I Daten werden an gewissen Objekten (den Untersuchungseinheiten,Merkmalstragern oder statistischen Einheiten) beobachtet, z.B.

die Wirksamkeit eines Medikaments an Patienten;Lebensdauern an elektronischen Geraten;Ankunftszeiten an Kunden.

I Eine Untersuchungseinheit ist ein Einzelobjekt einer statistischenUntersuchung.

I Eine Grundgesamtheit ist eine Menge von Untersuchungseinheiten,fur die vom Untersuchungsziel her eine Frage geklart werden soll.Sie muss durch ubereinstimmende Identifikationskriterien derbetrachteten Untersuchungseinheiten zeitlich, raumlich und sachlicheindeutig abgegrenzt werden.

I Eine Stichprobe ist die Teilmenge der Grundgesamtheit, die bei einerstatistischen Untersuchung (Teilerhebung) erfasst wird.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 4

Page 5: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Merkmale und Merkmalsauspragungen

I Eigentlich interessieren nicht die Untersuchungseinheiten selbst,sondern bestimmte Eigenschaften der Untersuchungseinheiten(sogenannte Merkmale).

I Z.B. interessiert nicht der Patient selbst, sondern ob oder wie dasMedikament bei ihm wirkt; bei Umfragen interessiert nicht derPassant, sondern seine Meinung.

I Ein Merkmal ist eine Große oder Eigenschaft einerUntersuchungseinheit, die auf Grund der interessierendenFragestellung erhoben bzw. gemessen wird.

I Eine Merkmalsauspragung ist ein moglicher Wert, den ein Merkmalannehmen kann.

I Eine Untersuchungseinheit wird auch Merkmalstrager genannt.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 5

Page 6: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Mietspiegel

I Nettomiete abhangig von Merkmalen wieArt: Altbau, Neubau, . . . ;Lage: Innenstadt, Stadtrand,. . . ;Große: 40m2, 95m2, . . . ;Baujahr:︸ ︷︷ ︸ 1932, 1965, 1983, 1995, . . . .︸ ︷︷ ︸Merkmale Auspragungen

I In der Regel werden mehrere Merkmale an einem Merkmalstragerbeobachtet; z.B.I Merkmalstrager: Wetter zu einem bestimmten Zeitpunkt an einem

bestimmten Ort;I Merkmale: Temperatur, Niederschlagsmenge, Luftdruck, Bewolkung,

Luftfeuchtigkeit, Sicht, . . . .

I Merkmalsauspragungen mussen keine Zahlen sein, z.B.I Bewolkung: wolkenlos, heiter, leicht bewolkt, wolkig, bedeckt, . . . ;I Autofarbe: rot, grun, schwarz, . . . .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 6

Page 7: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Bezeichnungen und Klassifikationen von Merkmalen

I Bezeichnungen:I Grundgesamtheit: Ω .

I Untersuchungseinheit: ω oder i .

I Merkmale: X , Y , Z oder auch X1 , X2 , X3 , . . . .

I Menge der Merkmalsauspragungen: S .

I Merkmalsauspragungen oder -werte: x = X (ω) oder xi = X (i) .

I Mathematisch betrachtet ist ein Merkmal eine Funktion X : Ω→ S ,die jeder Untersuchungseinheit die zugehorige Merkmalsauspragungzuordnet.

I Klassifikationen von Merkmalen:

zum BeispielI qualitative Merkmale, Rangmerkmale und quantitative Merkmale;

I diskrete, stetige und spezielle Merkmale.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 7

Page 8: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Merkmalstypen

I Qualitatives Merkmal: es gibt weder eine naturliche Ordnung derAuspragungen, noch ist es sinnvoll, Abstande oder Verhaltnisse derAuspragungen zu betrachten; Auspragungen werden meist verbalbeschrieben.

I Rangmerkmal: es gibt eine naturliche Ordnung der Auspragungen,aber es ist nicht sinnvoll, Abstande oder Verhaltnisse zu betrachten;Auspragungen werden verbal oder durch ganze Zahlen beschrieben.

I Quantitatives Merkmal: Auspragungen sind Zahlen, es gibt einenaturliche Ordnung, Abstande oder Verhaltnisse sind interpretierbar.

I Diskretes Merkmal: Auspragungen sind isolierte Zustande, dieMenge der moglichen Auspragungen ist hochstens abzahlbar.

I Stetiges Merkmal: Auspragungen (Werte) sind Zahlen, sie liegendicht, zwischen je zwei Auspragungen ist stets eine weitere moglich.

I Beachte: Jede praktische Messung bei stetigen Merkmalen ist –durch die jeweilige Grenze der Messgenauigkeit bedingt – diskret.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 8

Page 9: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Merkmalstypen (Beispiele)Merkmal Auspragungen Art

Geschlecht m / w keine Ordnung qualitativ

Automarke Fiat, Toyota, ... keine Ordnung qualitativ

Prufungsnote 1, 2, 3, 4, 5 Ordnung, RangmerkmalAbst. nicht interpr.

Beliebtheit von sehr, maßig, nicht Ordnung, RangmerkmalPolitikern Abst. nicht interpr.

Anzahl Kinder 0, 1, 2, 3, ... Ordnung, quantitativ,in einer Familie Abst. interpr., diskret

keine Auspr. zw.2 anderen mogl.

Regenmenge 20mm, 50mm, ... Ordnung, quantitativ,an einem Tag Abst. interpr., stetig

Verhaltn. interpr.,zwischen 2 Auspr.immer weitere mogl.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 9

Page 10: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Skalenniveaus

I Je nach Art des Merkmals werden die Merkmalsauspragungenanhand verschiedener Skalen gemessen:I Nominalskala (lat. nomen = Name);

I Ordinalskala (lat. ordinare = ordnen, auch Rangskala);

I Intervallskala;

I Verhaltnisskala (auch Ratioskala, Rationalskala, Proportionalskala);

I Absolutskala.

I Intervall-, Verhaltnis- und Absolutskala werden auch in demOberbegriff metrische Skala (oder Kardinalskala; griech.metron = Maß) zusammengefasst.

I Auch feinere oder andere Unterteilungen und spezielle Skalenwerden genutzt.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 10

Page 11: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Nominalskala

I Die Merkmalsauspragungen entsprechen begrifflichen Kategorien.

I Es gibt keine naturliche Ordnungsrelation.I Sind nur zwei Auspragungen vorhanden, spricht man auch von

dichotomen Merkmalen, z.B.I Geschlecht (

”mannlich“,

”weiblich“);

I Zustimmung (”Ja“,

”Nein“).

I Gibt es eine vor der Datenerhebung feststehende Einteilung derGrundgesamtheit in endlich viele disjunkte Klassen und wird jedeUntersuchungseinheit eindeutig in eine der Klassen eingeordnet,spricht man auch von einer kategoriellen Skala. Die Auspragungenheißen dann auch Kategorien oder Stufen des Merkmals.

I Beispiele sindI Familienstand (

”ledig“,

”verheiratet“,

”geschieden“,

”verwitwet“);

I Status (”Eigentumer“,

”Hauptmieter“,

”Untermieter“);

I Status (”Azubi“,

”Geselle“,

”Meister“);

I Behandlung (”Placebo“,

”altes Medikament“,

”neues Medikament“).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 11

Page 12: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Ordinalskala

I Zwischen den Merkmalsauspragungen besteht eine naturlicheReihenfolge (Ordnungsrelation, Anordnung).

I Abstande zwischen zwei Auspragungen (oder Quotienten) habenkeine inhaltliche Bedeutung.

I Beispiele sindI Hochster Schulabschluss (

”Keiner“,

”Hauptschule“,

”Mittlere Reife“,

”Hochschulreife“);

I Status (”Eigentumer“,

”Hauptmieter“,

”Untermieter“);

I Status (”Azubi“,

”Geselle“,

”Meister“);

I Bewertung (”gut“,

”mittel“,

”schlecht“).

I Eine Ordinalskala mit ganzzahligen Ordungsziffern (Rangen,Rangziffern), die mit 1 beginnend in ununterbrochener Reihenfolgehintereinander stehen, heißt auch Rangskala, z.B. Rangplatze in derBundesliga.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 12

Page 13: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Intervallskala

I Merkmalsauspragungen (Merkmalswerte) sind reelle Zahlen.

I Neben der Ordnungsrelation zwischen den Merkmalsauspragungenlassen sich auch deren Abstande interpretieren. Es existiert allerdingsein willkurlich gesetzter Nullpunkt.

I Beispiel: Temperatur in C .

I Quotienten durfen nicht gebildet werden, so ist z.B. die Aussage

”20C ist doppelt so warm wie 10C“ sinnlos.

I Eine Intervallskala wird auch reelle Skala genannt.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 13

Page 14: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Verhaltnisskala

I Bei einer Verhaltnisskala (auch ratio, positiv reell, relativen Skala)konnen nur positive Zahlen beobachtet werden.

I Zusatzlich zu den Eigenschaften der Intervallskala gibt es einennaturlichen Nullpunkt.

I Multiplikation und Division sind inhaltlich sinnvolle Operationen, derQuotient von zwei Werten ist inhaltlich sinnvoll (4 ist doppelt sogroß wie 2).

I Beispiele: Gewichte, Langen.

I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen(und eventuell versuchen), durch Logarithmieren der Daten zu einerreellen Skala zu gelangen. Oft kann man dann zugrundeliegendeGesetzmaßigkeiten viel besser erkennen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 14

Page 15: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Absolutskala

I Zusatzlich zu den Forderungen der Verhaltnisskala ist neben demnaturlichen Nullpunkt hier auch eine naturliche Einheit zwingendvorgeschrieben.

I Dies ist zum Beispiel bei Merkmalen der Fall, wenn dieMerkmalsauspragungen Anzahlen sind.

I Beispiel Anzahl von Kindern in einem Haushalt.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 15

Page 16: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Bemerkungen

I Auch andere bzw. weitere Einteilungen und spezielle Skalen werdengenutzt, z.B. die Anteilskala.

I Bei einer Variable in der Anteilskala (auch Wahrscheinlichkeitsskala)konnen nur Werte zwischen 0 und 1 beobachtet werden. Die Wertesind als Anteile interpretierbar.

I Durch die naturliche Beschrankung auf das Intervall [0, 1] konnendie Werte nicht beliebig addiert werden und der

”Rest“ bis zur 1

spielt immer eine Rolle.

I Sind nur kleine Anteile von Interesse, kann oft mit einer Ratio-Skalagearbeitet werden, sind auch großere Anteile wichtig, sollte man mitder Anteilskala rechnen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 16

Page 17: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Das Problem der Reprasentativitat

Die Reprasentativitat spielt fur statistische Auswertungen und Aussageneine sehr große Rolle. Dabei konnen unter anderem zwei Probleme beiTeilerhebungen von Bedeutung sein.I Das Auswahlverfahren der Individuen aus der Grundgesamtheit (das

Ziehen der Stichprobe). Dieses sollte so organisiert sein, dassI jedes Individuum die gleiche Chance hat, ausgewahlt zu werden und

I dass die Individuen unabhangig voneinander ausgewahlt werden.

Zu beachten ist, dass zu jedem Individuum auch mehrere Merkmalebeobachtet werden konnen.

I Die Erhebung einer Stichprobe aus Zufallsexperimenten. Dabei solltegewahrleistet sein, dassI die Versuche unter gleichbleibenden Versuchsbedingungen

durchgefuhrt werden und dass

I die Zufallsexperimente unabhangig voneinander durchgefuhrt werden.

Auch in diesem Fall konnen mehrere Merkmale von Interesse sein.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 17

Page 18: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Verbundene Stichproben

I Liegen zwei oder mehr Stichproben vor, deren Werte einanderpaarweise zugeordnet sind, spricht man von einer gepaartenStichprobe bzw. von verbundenen Stichproben.

I Diese entstehen zum Beispiel dann, wenn man zwei oder mehrMerkmale an ein- und demselben statistischen Objekt beobachtet.

I Beispiele:I Messwerte fur die Wirkungen jeweils zweier Medikamente fur ein- und

dieselben Patienten;I Anzahl von Bestellungen einer Kundengruppe vor (1. Stichprobe) und

nach (2. Stichprobe) einer Werbeaktion.

I Verbundene (mathematische) Stichproben werden durchunabhangige Zufallsvektoren (X1,Y1) , . . . , (Xn,Yn) modelliert.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 18

Page 19: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Erste Analyseschritte fur einen neuen Datensatz

Eine Datenauswertung beginnt mit folgenden Analyseschritten:

I Wie liegen die Daten vor ?Datenmatrix, Datentafel, unvorbereitet, . . . .

I Welche Variablen gibt es und was bedeuten sie ?Dazugehorige Beschreibung beachten .

I Welche Skala haben die einzelnen Variablen ?diskret: nominal, kategoriell, ordinal, Intervall, Anzahl;stetig: reell, ratio, Anteil, (Anzahlverstetigung, z.B. Preise);speziell: irgendwie anders .

I Ein-, Zwei-, oder Mehrstichprobensituation, verbundene(gepaarte) oder gepoolte Großen in der Stichprobe ?Eine Grundgesamtheit, zwei oder mehrere bzw. einZufallsexperiment, zwei oder mehrere ?

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 19

Page 20: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Fortsetzung: erste Analyseschritte

I Was sind die Grundgesamtheiten ?Welche wunschen wir uns ?Fur welche sind die Daten wohl reprasentativ ?

I Sind die Daten fur die Grundgesamtheit reprasentativ ?Wie sind die Daten zustandegekommen, gab es eine unabhangigeund gleichwahrscheinliche Auswahl der statistischen Individuenund/oder unabhangige Zufallsexperimente unter gleichbleibendenBedingungen, so dass die Variablen als unabhangig und identischverteilt angesehen werden konnen ?

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 20

Page 21: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Nutzung von Statistik-Computerprogrammen

I Statistische Untersuchungen werden heutzutage im Allgemeinenunter Verwendung von Statistik-Computerprogrammen durchgefuhrt.

I Im Rahmen dieser Vorlesung werden entsprechende Vorgehensweisenmit Hilfe des Programmpakets

”R“ illustriert.

I Es konnen naturlich nicht alle Details im Zusammenhang mit diesemProgrammpaket in den Ubungen geubt werden, deshalb sind hierselbststandige Bemuhungen wunschenswert.

I Die Interpretation der Ausgabeinformationen der Programme unddie prinzipielle Vorgehensweise (die Schritte, die nacheinander und inAbhangigkeit von bereits erzielten Ergebnissen durchzufuhren sind)sind jedoch Bestandteil der Vorlesung und auch der Ubung undgehoren zum Prufungsstoff.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 21

Page 22: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Das Programmpaket”R“

I”R“ ist ein freies Statistik-Softwarepaket.

I Es kann unter http://www.cran.r-project.org/ kostenlosheruntergeladen werden.

I R ist ein kommandozeilenorientiertes Programm. Man gibt Befehleein, die sofort ausgefuhrt werden und oft Ausgabeinformationenerzeugen.

I Benutzeroberflachen, wie z.B.”RStudio“ erleichtern das Arbeiten

mit R.

I Mit Hilfe von Skripten konnen aufeinanderfolgende Befehlskettenzur Verarbeitung vorbereitet und dann jedes Mal bei Bedarfausgefuhrt werden.

I Durch die Mitarbeit vieler Personen wachst der Umfang derProgramme und damit der Umfang der mit R bearbeitbarenProbleme standig.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 22

Page 23: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispieldatensatz”Iris“

I Der Datensatz enthalt Werte von jeweils 50 Blumen von 3Blumenarten

”Iris setosa“ (Borsten-Schwertlilie),

”Iris versicolor“

(Schwertlilie) und”Iris virginica“ (Virginische oder Blaue

Sumpfschwertlilie).

I Zu jeder Blume wurden jeweils die folgenden Informationen erhoben:I die Lange des Kelchblattes in cm (

”Sepal.Length“);

I die Breite des Kelchblattes in cm (”Sepal.Width“);

I die Lange des Blutenblattes in cm (”Petal.Length“);

I die Breite des Blutenblattes in cm (”Petal.Width“);

I die Blumenart (”Species“).

I Die Daten konnen in R wie folgt geladen werden:> data(iris).

I Informationen zum Datensatz erhalt man in R durch> help(iris).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 23

Page 24: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

R Dokumentation zum Iris-Beispieldatensatz

iris datasets R Documentation

Edgar Anderson's Iris Data

Description

This famous (Fisher's or Anderson's) iris data set gives the measurements in centimeters of the variablessepal length and width and petal length and width, respectively, for 50 flowers from each of 3 species ofiris. The species are Iris setosa, versicolor, and virginica.

Usage

irisiris3

Format

iris is a data frame with 150 cases (rows) and 5 variables (columns) named Sepal.Length,Sepal.Width, Petal.Length, Petal.Width, and Species.

iris3 gives the same data arranged as a 3-dimensional array of size 50 by 4 by 3, as represented byS-PLUS. The first dimension gives the case number within the species subsample, the second themeasurements with names Sepal L., Sepal W., Petal L., and Petal W., and the third the species.

Source

Fisher, R. A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7,Part II, 179–188.

The data were collected by Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of theAmerican Iris Society, 59, 2–5.

References

Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth &Brooks/Cole. (has iris3 as iris.)

See Also

matplot some examples of which use iris.

Examples

dni3 <- dimnames(iris3)ii <- data.frame(matrix(aperm(iris3, c(1,3,2)), ncol=4, dimnames = list(NULL, sub(" L.",".Length", sub(" W.",".Width", dni3[[2]])))), Species = gl(3, 50, labels=sub("S", "s", sub("V", "v", dni3[[3]]))))all.equal(ii, iris) # TRUE

[Package datasets version 2.15.2 Index]

R: Edgar Anderson's Iris Data http://127.0.0.1:28690/library/datasets/html/iris.html

1 von 1 03.12.2012 20:47.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 24

Page 25: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

”Iris setosa“ (Borsten-Schwertlilie)

Quelle: Wikipedia, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=170298

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 25

Page 26: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

”Iris versicolor“ (Verschiedenfarbige Schwertlilie)

Quelle: Wikipedia, Paul Adam, CC BY-SA 3.0 de, https://commons.wikimedia.org/w/index.php?curid=22792483

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 26

Page 27: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

”Iris virginica“ (Virginische Schwertlilie)

Quelle: Wikipedia, Eric Hunt, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=72555262

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 27

Page 28: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Datenmatrix als Darstellungsform fur statistische Daten

I Eine Darstellung der von den Untersuchungseinheiten erhobenengleichartigen Daten in einer Tabelle mit Zeilen und Spalten ist eineDatenmatrix. Von jeder Untersuchungseinheit werden die gleichenMerkmale erhoben.

I Die Informationen zu einer Untersuchungseinheit werden in einerZeile dargestellt. Die zu den einzelnen Zeilen gehorenden Individuenbezeichnet man auch als Falle und die zugehorigen Daten(individuelle) Datensatze.

I Die zu einem Merkmal gehorende Information wird jeweils in einerSpalte dargestellt. Die Spalten bezeichnet man auch als Variable unddie Spaltenuberschrift als den Namen der Variable.

I Am Schnittpunkt der i−ten Zeile mit der j−ten Spalte ist also derBeobachtungswert xij fur die j−te Variable beim i−ten Individuumeingetragen. Zur modellbasierten Analyse werden die Werte xij alsRealisierungen von Zufallsgroßen Xij angesehen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 28

Page 29: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Ausschnitt Datensatz”Iris“

> data(iris)

> iriszzgr_daten_iris.txt

Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa6 5.4 3.9 1.7 0.4 setosa7 4.6 3.4 1.4 0.3 setosa8 5.0 3.4 1.5 0.2 setosa9 4.4 2.9 1.4 0.2 setosa10 4.9 3.1 1.5 0.1 setosa11 5.4 3.7 1.5 0.2 setosa12 4.8 3.4 1.6 0.2 setosa13 4.8 3.0 1.4 0.1 setosa14 4.3 3.0 1.1 0.1 setosa15 5.8 4.0 1.2 0.2 setosa16 5.7 4.4 1.5 0.4 setosa17 5.4 3.9 1.3 0.4 setosa18 5.1 3.5 1.4 0.3 setosa19 5.7 3.8 1.7 0.3 setosa20 5.1 3.8 1.5 0.3 setosa21 5.4 3.4 1.7 0.2 setosa22 5.1 3.7 1.5 0.4 setosa23 4.6 3.6 1.0 0.2 setosa24 5.1 3.3 1.7 0.5 setosa25 4.8 3.4 1.9 0.2 setosa26 5.0 3.0 1.6 0.2 setosa27 5.0 3.4 1.6 0.4 setosa28 5.2 3.5 1.5 0.2 setosa29 5.2 3.4 1.4 0.2 setosa30 4.7 3.2 1.6 0.2 setosa

Seite 1

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 29

Page 30: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Datenliste

I Gibt es nur Beobachtungen zu einem Merkmal, konnen dieBeobachtungswerte in einer Datenliste angegeben werden.

I Beispiel: R-Datensatz”morley“ (Lichtgeschwindigkeitsmessungen)

> data(morley)

> help(morley)

> morley

> lightspeeds=morley$Speed + 299000

> lightspeeds[1:20]

[1] 299850 299740 299900 300070 299930 299850 299950

[8] 299980 299980 299880 300000 299980 299930 299650

[15] 299760 299810 300000 300000 299960 299960

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 30

Page 31: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Datentafel

I Die Datentafel ist eine alternative Darstellung der Daten zurDatenmatrix, wenn nur diskrete Merkmale auftreten und diestatistische Information durch Anzahlen von Untersuchungseinheitenangegeben werden kann.

I Eine Datentafel enthalt die Anzahl der Untersuchungseinheiten mitder gegebenen Faktorkombination in der jeweiligen Zelle.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 31

Page 32: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Datentafel fur Datensatz”Titanic“

Ein Beispieldatensatz in R ist der Datensatz”Titanic“:

> data(Titanic)

> help(Titanic)

> Titanic

> ftable(Titanic,col.vars=c("Class","Survived"))

Class 1st 2nd 3rd Crew

Survived No Yes No Yes No Yes No Yes

Sex Age

Male Child 0 5 0 11 35 13 0 0

Adult 118 57 154 14 387 75 670 192

Female Child 0 1 0 13 17 14 0 0

Adult 4 140 13 80 89 76 3 20

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 32

Page 33: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2 Grafiken und statistische Maßzahlen (Kenngroßen,Parameter) fur Daten

I Grafiken und statistische Maßzahlen dienen dazu, einen Uberblickuber die vorliegenden Daten zu erhalten, Vorstellungen ubermogliche zugrundeliegende Verteilungen, Eigenschaften oderBesonderheiten zu entwickeln oder einfache Beschreibungen derDaten mit wenigen, moglichst aussagekraftigen Kenngroßen zuermoglichen.

I In Abhangigkeit von den Skalenniveaus und anderen Eigenschaftender Daten (wie z.B. univariate, bivariate oder multivariateDatensatze) konnen unterschiedliche Grafiken und Kenngroßengenutzt werden.

I Im Rahmen dieser Vorlesung werden nicht alle Moglichkeitenvorgestellt, sondern nur eine Auswahl von haufiger verwendeten bzw.aussagekraftigen Grafiken und Maßzahlen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 33

Page 34: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Fragestellungen im Zusammenhang mit den Grafiken

I Fur welche Daten eignet sich die Grafik ?

I Wie ist die Grafik aufgebaut ?

I Wie interpretiert man die Grafik ?

I Welche Informationen kann die Grafik liefern und warum ?

I Welche Informationen kann die Grafik nicht liefern und warum ?

I Versucht man mit einer vorliegenden Grafik zu tauschen, etwasbestimmtes zu suggerieren ?

(Zitat, zu finden z.B. in Benesch, Schlusselkonzepte zur Statistik,Springer, 2013, S.2:

”Die Statistik ist dem Politiker, was die Laterne

dem Betrunkenen ist: Sie dient zum Festhalten, nicht derErleuchtung.“Siehe dazu zum Beispiel auch die

”Unstatistiken des Monats“ unter

http://www.rwi-essen.de/unstatistik/.)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 34

Page 35: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.1 Grafiken fur univariate stetige Daten(a) Punktdiagramm

I Ein Punktdiagramm kann fur ein stetiges Merkmal erstellt werden.Dabei werden die Beobachtungswerte durch Punkte auf einemgeeigneten Abschnitt der reellen Zahlengeraden markiert.

I Man erhalt einen Uberblick uber den Bereich, in demBeobachtungswerte liegen und wie stark sie streuen.

I Teilweise kann man Teilbereiche erkennen, in denen sich dieBeobachtungswerte haufen oder seltener vorkommen.

I Ebenfalls kann man sehr große oder sehr kleine Beobachtungswerte,die von der

”Masse“ der Werte relativ weit entfernt sind und

eventuell als Ausreißer zu behandeln sind, erkennen.

I Die Zusatzinformationen zum Datensatz muss ggf. mit genutztwerden (falls Daten transformiert sind etc.).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 35

Page 36: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Punktdiagramm fur Datensatz”morley“

> data(morley)

> lightspeeds=morley$Speed+299000

> stripchart(lightspeeds, main="Punktdiagramm Lichtgeschwindigkeitsmessungen")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 36

Page 37: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Probleme mit Punktdiagrammen

I Zusammenfallende oder sehr nah beieinander liegendeBeobachtungswerte sind im Diagramm nicht mehr unterscheidbar,so dass Punkte durch

”Uberdeckung“ verloren gehen konnen.

I Dieses Problem kann man beheben, indem man die Punktpositionenin die ungenutzte Richtung (vertikal bei horizontalenPunktdiagrammen) durch systematisches Stapeln (gestapeltesPunktdiagramm) oder durch zufalliges Verzittern (verzittertesPunktdiagramm) verschiebt.

I Ein verzittertes Punktdiagramm sieht nach jedem Neuzeichnenanders aus.

I Beim gestapelten Punktdiagramm konnen Muster vorgegaukeltwerden, die aber nur sehr zufallig und damit wenig aussagekraftigsind. Die Verteilung der Punkte kann nicht immer gut erfasstwerden.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 37

Page 38: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Gestapeltes Punktdiagramm fur Beispiel> stripchart(lightspeeds,method="stack", main="Gestapeltes Punktdiagramm

+ Lichtgeschwindigkeitsmessungen")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 38

Page 39: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Verzittertes Punktdiagramm fur Beispiel> stripchart(lightspeeds,method="jitter", main="Verzittertes Punktdiagramm

+ Lichtgeschwindigkeitsmessungen")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 39

Page 40: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(b) Histogramm

I Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte.

I Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, ineine endliche Anzahl disjunkter Teilintervalle, die sogenanntenKlassen oder Gruppen zerlegt. Jede Klasse ist dann eindeutig durchdie Klassenmitte und die Klassenbreite bzw. durch die untere undobere Klassengrenze bestimmt.

I Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein.

I Die Klassenbreiten sollten ubereinstimmen (ggf. mit Ausnahme derRandklassen).

I Nach Festlegung einer Klasseneinteilung werden die absolutenKlassenhaufigkeiten bestimmt, d.h. fur jede Klasse wird die Anzahlder Beobachtungswerte in der Klasse gezahlt.

I Dann werden in einem Koordinatensystem aneinanderstoßendeRechtecke mit Flacheninhalten proportional zurKlassenhaufigkeit und Klassenintervallen als Basis gezeichnet.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 40

Page 41: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Histogramm fur Beispiel Lichtgeschwindigkeiten

> hist(lightspeeds)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 41

Page 42: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Histogramm und gestapeltes Punktdiagramm fur Beispiel> hist(lightspeeds)

> stripchart(lightspeeds,method="stack", add=TRUE,col="red")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 42

Page 43: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Histogramm mit 3 Klassen und Beispielpunktdiagramm> b=c(299600,299800,300000,300200)

> hist(lightspeeds,breaks=b)

> stripchart(lightspeeds,method="stack", add=TRUE,col="red")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 43

Page 44: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Histogramm mit 50 Klassen und Beispielpunktdiagramm> b=c(seq(299600,300100,by=10))

> hist(lightspeeds,breaks=b)

> stripchart(lightspeeds,method="stack", add=TRUE,col="red")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 44

Page 45: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Bemerkungen zu Histogrammen

I Die Gestalt eines Histogramms hangt stark von der gewahltenKlasseneinteilung (und auch des gewahlten Gesamtintervalls) ab,deshalb sollte man ggf. etwas experimentieren, um ein moglichstaussagekraftiges Histogramm zu erzeugen.

I Durch die Klasseneinteilung geht Information verloren.

I Man kann ggf. Ausreißer am linken oder rechten Rand erkennen.

I Man kann eventuell Verteilungseigenschaften, wie Symmetrie oderSchiefe, erkennen (oder erahnen).

I Bei ubereinstimmenden Klassenbreiten sind die Hohen der Rechteckeproportional zu den Haufigkeiten.

I Statt der absoluten Haufigkeiten konnen die Hohen der Rechteckeauch so normiert werden, dass der Gesamtflacheninhalt unter allenRechtecken gleich 1 ist. Dann ist ein (meist nicht sehr belastbarer)Vergleich mit einer Verteilungsdichte moglich.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 45

Page 46: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispielhistogramm mit Normalverteilungsdichteschatzung> hist(lightspeeds,freq=F)

> curve(dnorm(x,mean(lightspeeds),sd(lightspeeds)), add=TRUE,col="red")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 46

Page 47: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.2 Grafiken fur univariate diskrete Daten(a) Balkendiagramm

I Bei Balkendiagrammen werden die Anzahlen der Beobachtungswertein den einzelnen Kategorien (Klassen) durch gleich breite Balkenflachen- und auch hohenproportional dargestellt.

I Im Unterschied zum Histogramm fur stetige Daten haben die Balkenbeim Balkendiagramm einen Abstand, um den diskreten Charakterder Daten zu unterstreichen.

I Sowohl beim Histogramm als auch beim Balkendiagramm werdenaber Haufigkeiten oder Anteile flachenproportional dargestellt.

I Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balkender naturlichen Ordnung der Merkmalsauspragungen entsprechen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 47

Page 48: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Datensatz”Titanic“ R–Befehle

Funktion zur Gewinnung von Summenanzahlen z.B.

> margin=function(x, ...)

+ apply(x,pmatch(c(...),names(dimnames(x))), sum)

> margin(Titanic,"Survived")

No Yes

1490 711

Erzeugung der Balkendiagramme

> opar=par(mfrow=c(1,3))

> barplot(margin(Titanic,"Survived"),main="Survived")

> barplot(margin(Titanic,"Sex"),main="Sex")

> barplot(margin(Titanic,"Class"),main="Class")

> par(opar)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 48

Page 49: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Balkendiagramme im Beispiel”Titanic“

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 49

Page 50: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(b) Kreisdiagramm

Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnenKategorien (Klassen) konnen ggf. auch durch ein Kreisdiagramm(Tortendiagramm, Kuchendiagramm) flachenproportional (hier auchwinkelproportional) dargestellt werden.

R–Befehle zur Erzeugung der Kreisdiagramme im Beispiel:

> opar=par(mfrow=c(1,3))

> pie(margin(Titanic,"Survived"),main="Survived")

> pie(margin(Titanic,"Sex"),main="Sex")

> pie(margin(Titanic,"Class"),main="Class")

> par(opar)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 50

Page 51: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispielkreisdiagramme

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 51

Page 52: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.3 Kenngroßen und Parameter zur Beschreibungunivariater Daten

I LageparameterI Mittelwerte (arithmetisch, geometrisch, harmonisch)I empirischer MedianI empirische Quantile (Quartile, Dezentile, . . . )

I Variabililitatsparameter (Streuparameter)I empirische VarianzI empirische StandardabweichungI SpannweiteI empirischer (Inter-)Quartilsabstand IQRI empirischer VariationskoeffizientI empirische geometrische Standardabweichung

I FormparameterI empirische SchiefeI empirische Wolbung

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 52

Page 53: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(a) Arithmetischer Mittelwert

I Fur reelle Beobachtungswerte x1, x2, . . . , xn ist der arithmetischeMittelwert definiert durch

x =1

n

n∑i=1

xi =1

n(x1 + x2 + . . .+ xn) .

I In der Statistik wird er als Realisierung des Stichprobenmittelwerts(eine spezielle Stichproben- oder Schatzfunktion)

X =1

n

n∑i=1

Xi =1

n(X1 + X2 + . . .+ Xn)

einer mathematischen Stichprobe (X1,X2, . . . ,Xn) (unabhangigeund identisch verteilte Zufallsgroßen) betrachtet. Unter geeignetenVoraussetzungen liefert er eine erwartungstreue und konsistenteSchatzfunktion fur den Erwartungswert der Xi : EX = X .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 53

Page 54: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Unterschied konkrete und mathematische Stichprobe

I Liegen n beobachtete Werte x1, . . . , xn eines Merkmals X vor,so bilden diese eine konkrete Stichprobe vom Umfang n .

I Man betrachtet jeden beobachteten Wert xi als Realisierung einerZufallsgroße Xi , wobei die Xi (i = 1, ..., n) alle unabhangig undidentisch verteilt (engl.: i.i.d.) mit FXi

= FX seien.

I Die Zufallsgroße Xi beschreibt also das zufallige Ergebnis der i-tenMessung, des i-ten Zufallsexperiments oder der i-ten Auswahl einesMerkmalstragers, je nachdem wie die konkrete Stichprobe zustandegekommen ist.

I Die Zufallsgroßen X1, . . . ,Xn bilden die mathematische Stichprobe.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 54

Page 55: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Arithmetischer Mittelwert in R

Der Befehl in R zur Berechnung des (arithmetischen) Mittelwertes ist”mean()”.

> mean(lightspeeds)

[1] 299852.4

Ein Histogramm mit Mittelwertsliniekann dann z.B. so erzeugt werden:> hist(lightspeeds)

> abline(v=mean(lightspeeds),col="red")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 55

Page 56: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(b) Geometrischer Mittelwert

I Fur nichtnegative reelle Beobachtungswerte (einer ratio-Skala)x1, x2, . . . , xn ist der geometrische Mittelwert definiert durch

xG = n

√√√√ n∏i=1

xi = (x1 · x2 · . . . · xn)1n .

I Bemerkung: Es gilt immer xG ≤ x .

I Anwendung findet er zum Beispiel, wenn eine logarithmische Skala(Transformation) sinnvoll ist oder die Merkmalsauspragungenrelative Anderungen sind, so bei der Mittelung vonWachstumsfaktoren.

I In R kann man die Exponentialfunktion zur Berechnung vongeometrischen Mittelwerten nutzen:

xG = exp

(1

n

n∑i=1

ln(xi )

).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 56

Page 57: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel zum geometrischen Mittelwert

I Beispiel:Zeitpunkt 0 1 2

Zustandswert 100 81 100

Merkmalswert=Wachstumsfaktor x1 = 0.81 x2 = 1.234

⇒ xG = 1.000aber x = 1.022 (obwohl insgesamt keine Anderung desZustandswerts zum Ausgangszeitpunkt vorliegt).

I In R ergibt zum Beispiel:> x=c(81/100,100/81)

> exp(mean(log(x)))

[1] 1

> mean(x)

[1] 1.022284

I Bemerkung: log(x) berechnet in R den Vektor der naturlichenLogarithmen des Vektors x .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 57

Page 58: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(c) Harmonischer Mittelwert

I In manchen Situationen ist fur nur positive (oder nur negative)Beobachtungswerte x1, x2, . . . , xn der harmonische Mittelwert

xH =n

n∑i=1

1xi

besser geeignet, so z.B. bei Mittelwertbildung von Verhaltniszahlen(bei gleichem Zahler) wie Durchschittsgeschwindigkeiten(gleichlange Teilstrecken) oder Durchschnittspreisen (gleicheGeldbetrage).

I Gilt xi > 0 fur alle i = 1, . . . , n , dann gilt immer

xH ≤ xG ≤ x .

I Im Fall von x1 = x2 = . . . = xn = x > 0 erhalt man

xH = xG = x = x .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 58

Page 59: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel zum harmonischen Mittelwert

I Beispiel: Konstante Geschwindigkeiten auf jeweiligen TeilstreckenTeil-/Gesamtstrecke 1 2 1 + 2

Streckenlange in km 100 100 200

Zeit in h 2 1 3

Geschwindigkeit in km/h x1 = 50 x2 = 100 2003 = 66.6

⇒ xH =2

150 + 1

100

= 66.66 , aber x = 75 und xG = 70.71 .

I In R (ab dem Zeichen # beginnt ein Kommentar):> x=c(50,100)

> 1/mean(1/x) # Harmonisches Mittel

[1] 66.66667

> mean(x) # Arithmetisches Mittel

[1] 75

> exp(mean(log(x))) # Geometrisches Mittel

[1] 70.71068

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 59

Page 60: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(d) Empirischer Median

I Der empirische Median oder Zentralwert der Beobachtungsreihex1, x2, . . . , xn ist dadurch gekennzeichnet, dass jeweils 50 % derBeobachtungswerte einen Wert großer oder gleich bzw. kleiner odergleich dem empirischen Median annehmen.

I Sind

x(1) ≤ x(2) ≤ . . . ≤ x(n)

die der Große nach geordneten Beobachtungswerte, kann der(empirische) Median x bestimmt werden durch

x =

x( n+1

2 ), falls n ungerade,

12

(x( n

2 ) + x( n2+1)

), falls n gerade .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 60

Page 61: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiele zum empirischen Median

I Beobachtungswerte 4, 5, 1, 3, 6, 7, 8 ⇒ n = 7 , x = 5 , x = 4.857 .

I Beobachtungswerte 4, 5, 1, 3, 6, 7 ⇒ n = 6, x = 4.5 , x = 4.33 .

I Beobachtungswerte 4, 5, 1, 3, 6, 7, 800 ⇒ n = 7 , x = 5 , x = 118 .

I Der Median ist weniger empfindlich gegenuber Ausreißern in derBeobachtungsreihe, d.h. Werte, die weit von den ubrigen entferntliegen, beeinflussen den Median nicht (oder kaum). Dies trifft aufden arithmetischen Mittelwert im Allgemeinen nicht zu.

I In R:> median(lightspeeds)

[1] 299850

I Der Median kann sogar fur Daten auf einer nur ordinalen Skalagenutzt werden (wenn z.B. die Addition, die zur Bildung desarithmetischen Mittelwerts notwendig ist, gar keinen Sinn macht).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 61

Page 62: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Histogramm mit Mittelwert (rot) und Median (blau)> hist(lightspeeds)

> abline(v=mean(lightspeeds),col="red")

> abline(v=median(lightspeeds),col="blue")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 62

Page 63: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(e) Empirische Quantile

I Ein Ordnen der Datenreihe x1, x2, . . . , xn der Große nach ergibt diegeordnete Datenreihe (geordnete Stichprobe, Variationsreihe)

xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .

I Andere Bezeichnungen fur die Variationsreihe sind

x∗1 ≤ x∗2 ≤ . . . ≤ x∗n oder x1:n ≤ x2:n ≤ . . . ≤ xn:n .

I Das empirische p−Quantil mit 0 < p < 1 ist ein Zahlenwert xp(oder bezeichnet mit xp) fur den gilt, dass p · 100% der Werte inder Variationsreihe kleiner oder gleich xp und (1− p) · 100% derWerte großer oder gleich xp sind, z.B.

xp =

x(k), falls np keine ganze Zahl ist, k ist

dann die auf np folgende ganze Zahl;12

(x(k) + x(k+1)

), falls np =: k eine ganze Zahl ist.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 63

Page 64: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel zu empirischen Quantilen

I 10 Beobachtungswerte: 1, 3, 7, 2, 20, 9, 15, 2, 11, 10 .

I Variationsreihe: 1 ≤ 2 ≤ 2 ≤ 3 ≤ 7 ≤ 9 ≤ 10 ≤ 11 ≤ 15 ≤ 20 .

I 0.05−Quantil :p = 0.05, np = 0.5 ⇒ k = 1 , x0.05 = x(1) = 1 .

I 0.10−Quantil :p = 0.10, np = 1 = k ⇒ x0.05 = 1

2(x(1) + x(2)) = 1.5 .

I 0.20−Quantil :p = 0.20, np = 2 = k ⇒ x0.20 = 1

2(x(2) + x(3)) = 2 .

I 0.25−Quantil :p = 0.25, np = 2.5 ⇒ k = 3, x0.25 = x(3) = 2 .

I 0.50−Quantil :p = 0.50, np = 5 = k ⇒ x0.50 = 1

2(x(5) + x(6)) = 8 = x .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 64

Page 65: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Spezielle empirische Quantile

I Das 0.5−Quantil ist der Median.

I Das 0.25−Quantil heißt auch unteres oder erstes Quartil (oder auchunterer Viertelwert).

I Das 0.75−Quantil heißt auch oberes oder drittes Quartil (oder auchoberer Viertelwert).

I Das n10−Quantil mit n ∈ 1, 2, 3, 4, 5, 6, 7, 8, 9 heißt auch n−tes

Dezentil .

I Als 0−Quantil kann man das Minumum xmin = x(1) ansehen.

I Als 1−Quantil kann man das Maximum xmax = x(n) ansehen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 65

Page 66: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Berechnung von Quantilen mit R

I Der Befehl quantile() erzeugt als Ausgabe eine Tabelle mitWerten fur das Minimum, das Maximum, den Median und dieQuartile.

I Damit die Quantile nach der oben angegebenen Formel berechnetwerden, muss type=2 angegeben werden.

I Beispiel:> quantile(lightspeeds,type=2)

0% 25% 50% 75% 100%

299620 299805 299850 299895 300070

> quantile(lightspeeds)

0% 25% 50% 75% 100%

299620.0 299807.5 299850.0 299892.5 300070.0

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 66

Page 67: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Berechnung von Quantilen mit R

I Sollen fur bestimmte Niveaus p die zugehorigen Quantileberechnet werden, konnen diese dem Befehl mit ubergeben werden.

I Beispiele:> quantile(lightspeeds,c(0.1,0.2,0.3))

10% 20% 30%

299760 299798 299810> quantile(lightspeeds,c(0.1,0.2,0.3),type=2)

10% 20% 30%

299760 299795 299810

> quantile(lightspeeds,seq(0.85,0.95,0.05))

85% 90% 95%

299941.5 299960.0 299980.0> quantile(lightspeeds,seq(0.85,0.95,0.05),type=2)

85% 90% 95%

299945 299960 299980

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 67

Page 68: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(f) Empirische Varianz

I Fur reelle Beobachtungswerte x1, x2, . . . , xn ist die empirischeVarianz

s2 =1

n − 1

n∑i=1

(xi − x)2 =1

n − 1

(n∑

i=1

x2i − nx2

).

I In der Statistik wird sie als Realisierung des Stichprobenvarianz

S2 =1

n − 1

n∑i=1

(Xi − X )2

einer mathematischen Stichprobe (X1,X2, . . . ,Xn) betrachtet.Diese definiert unter geeigneten Voraussetzungen durch die Wahldes Nenners n − 1 eine erwartungstreue und konsistente

Schatzfunktion fur die Varianz der Zufallsgroßen Xi : VarX = S2 .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 68

Page 69: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Exkurs zur Parameterschatzung

I Es wird eine Annahme uber die den Beobachtungen zugrundeliegende Verteilung getroffen, z.B. X ∼ N(µ, σ2) oder X ∼ B(p) .

I Ein unbekannter Parameter ϑ der Verteilung soll aus den Datengeschatzt werden.

I Als Schatzfunktion verwendet man eine geeignete Funktion dermathematischen Stichprobe (eine Stichprobenfunktion)

ϑn = f (X1, ...,Xn) .

I Wunschenschenswerte Eigenschaften einer Schatzfunktion sind:I Erwartungstreue: Eϑn = ϑ (im Mittel trifft die Schatzung den

wahren Parameter);

I Konsistenz: limn→∞ ϑn = ϑ (die Schatzung konvergiert gegen denwahren Parameterwert mit wachsendem Stichprobenumfang).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 69

Page 70: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(g) Empirische Standardabweichung

I So wie die (theoretische) Standardabweichung einer Zufallsgroße alsQuadratwurzel aus der Varianz definiert wird, ist die empirischeStandardabweichung die Quadratwurzel aus der empirischen Varianz:

s =√s2 =

√√√√ 1

n − 1

n∑i=1

(xi − x)2 .

I Sowohl die empirische Varianz als auch die empirischeStandardabweichung sind empfindlich gegenuber Ausreißern.

I Beide Maßzahlen konnen nur bei bestimmten Verteilungen, wiez.B. der Normalverteilung, gut interpretiert werden.

I Bei Merkmalswerten mit (physikalischen etc.) Maßeinheiten kommtbei der empirischen Varianz diese Maßeinheit im Quadrat vor, beider empirischen Standardabweichung die Maßeinheit selber.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 70

Page 71: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(h) Spannweite

I Die Spannweite (oder Variationsbreite) der Stichprobe ist dieDifferenz der extremalen Werte,

∆ = xmax − xmin = x(n) − x(1) .

Sie gibt folglich die Lange des kleinsten Intervalls an, in das alleBeobachtungswerte fallen.

I Die Spannweite ist empfindlich gegenuber Ausreißern, da sie nur vonden extremen Werten abhangt.

I Berechnung der bisher behandelten drei Streumaße in R:

> var(lightspeeds) # empirische Varianz

[1] 6242.667

> sd(lightspeeds) # empirische Standardabweichung

[1] 79.01055

> max(lightspeeds)-min(lightspeeds) # Spannweite

[1] 450

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 71

Page 72: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(i) Empirischer Interquartilsabstand

I Der empirische Interquartilsabstand ist die Differenz des oberen unddes unteren Quartils,

IQR(x) = x0.75 − x0.25 .

I Da die sehr großen und sehr kleinen Beobachtungswerte bei derBerechnung des Interquartilsabstands keine Rolle spielen, ist errelativ unempfindlich gegenuber Ausreißern.

I In dem Intervall der Lange des Interquartilabstandes vom unterenzum oberen Quartil liegt die Halfte der Beobachtungswerte.

I Beispielberechnung in R:

> IQR(lightspeeds)

[1] 85

> IQR(lightspeeds,type=2)

[1] 90

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 72

Page 73: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(j) Empirischer Variationskoeffizient

I Fur Merkmalswerte in der Verhaltnisskala konnen Streumaße durchQuotientenbildung in Bezug zu Lagemaßen gebracht werden.Dadurch entstehen einheitenlose Maßzahlen, die z.B. zum Vergleichunterschiedlicher Daten genutzt werden konnen.

I Der empirische Variationskoeffizient ist definiert durch

v(x) =s

x,

er ist eine Schatzung fur den theoretischen Variationskoeffizienten.

I Beispielberechnung in R:

> sd(lightspeeds)/mean(lightspeeds)

[1] 0.0002634981

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 73

Page 74: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(k) Geometrische Standardabweichung

I Die (theoretische) geometrische Standardabweichung einer positivenZufallsgroße X ist definiert durch

exp(√

Var (ln(X ))).

Den entsprechenden empirischen Wert fur eine Datenreihe dazuerhalt man, in dem man die Standardabweichung durch dieempirische Standardabweichung ersetzt.

I Beispielberechnung in R:

> exp(sd(log(lightspeeds)))

[1] 1.000264

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 74

Page 75: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(l) Schiefe (engl. ”skewness”) als Formparameter

I Oft spielt auch die Form z.B. der Verteilungsdichte beiUntersuchungen oder bei der Modellierung eine Rolle.

I Die Schiefe der Zufallsvariablen X wird definiert als

E(X − EX )3

(VarX )3/2.

Damit ist die Schiefe auch das 3. Moment der standardisiertenZufallsgroße zu X .

I Die empirische Schiefe fur eine konkrete Stichprobe x1, . . . , xn ist

1

n

n∑i=1

(xi − x

s

)3

.

I Rechtsschief (oder linkssteil) ist eine Verteilung, wenn die Dichtenach rechts hin langsamer auslauft, dann ist der Schiefeparameterpositiv. Analog ist der Schiefeparameter bei linksschiefen(bzw. rechtssteilen) Verteilungen negativ.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 75

Page 76: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Ein- und Mehrgipfligkeit

I Eine Rolle spielt haufig auch, ob eine Dichtefunktion (oderHaufigkeitsverteilung) ein ausgepragtes Maximum (eingipfligeVerteilung), oder mehrere derartige Maxima (mehrgipfligeVerteilung) besitzt oder keine dieser Situationen vorliegt.

I Mehrgipflige Verteilungen ergeben sich oft durch Mischungenmehrerer eingipfliger Verteilungen. Im Beispiel wird eineNormalverteilung mit Erwartungswert -5 und Varianz 1 (Dichte f1)mit einer solchen mit Erwartungswert 5 (Dichte f2) gemischt, dieDichte der gemischten Zufallsgroße ist hier f = 0.5f1 + 0.5f2 .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 76

Page 77: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(m) Wolbung und Exzess als Formparameter

I Die Wolbung oder Kurtosis ist eine Maßzahl fur die Steilheit oder

”Spitzigkeit“ einer eingipfligen Dichtefunktion. Verteilungen mit

geringer Wolbung streuen relativ gleichmaßig; bei Verteilungen mithoher Wolbung resultiert die Streuung mehr aus extremen, aberseltenen Ereignissen.

I Die Wolbung der Zufallsgroße X istE(X − EX )4

(VarX )2, die empirische

Wolbung1

n

n∑i=1

(xi − x

s

)4

.

I Der Exzess (auch: Uberkurtosis) ist definiert alsE(X − EX )4

(VarX )2− 3 ,

so erfolgt ein Vergleich mit der Wolbung einer Normalverteilung.

I Eingipflige Verteilungen mit einem positiven Exzess haben imVergleich zur Normalverteilung spitzere Verteilungen (

”steilgipflig“

im Gegensatz zu”normalgipflig“ bzw.

”flachgipflig“).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 77

Page 78: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Grafiken zur Schiefe und zum Exzess

links: Dichte ein lognormalverteilten Zufallsgroße exp(X ) mitX ∼ N(0, 0.52) : rechtsschiefe Verteilung mit Schiefe ≈ 1.75 ;

rechts: Dichte einer Normalverteilung und einer t−Verteilung mit 5Freiheitsgraden, Erwartungswerte 0 ; Varianzen 5/3 , ExzessNormalverteilung: 0 , t−Verteilung : 6 .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 78

Page 79: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.4 Weitere Grafiken fur univariate stetige Daten(a) Box-Plots

I Ein Box-Plot (Box-Whisker-Plot, Kasten-Diagramm) ist eineaussagekraftige grafische Darstellung der Funfer-Charakteristik,bestehend aus dem Median x = x0.5 , den empirischen Quartilen(Viertelwerten) x0.25 und x0.75 und den Ausreißergrenzen Au,Ao .

I Die Ausreißergrenzen werden dabei definiert durch

Au = x0.25 − 1.5 · IQR(x) und Ao = x0.75 + 1.5 · IQR(x) .

Dies betrifft die sogenannten inneren Zaune (”inner fences”); furmanche Fragen verwendet man auch die sogenannten außeren Zaune(”outer fences”), definiert durch ±3 · IQR(x) .

I Die Grenzen fur die Box (”hinges”, Tukeys Scharniere (Turangel))werden durch das untere und das obere Quartil bestimmt.

I Eine gerade Linie kennzeichnet innerhalb der Box den Median.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 79

Page 80: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Fortsetzung Box-Plots

I Die untere Begrenzungslinie wird dabei nicht durch die untereAusreißergrenze definiert, sondern durch den kleinstenBeobachtungswert, der ≥ Au ist.

I Analog wird die obere Begrenzungslinie definiert durch den großtenBeobachtungswert, der ≤ Ao ist.

I Diese Grenzen heißen auch Whisker-Grenzen (”whisker”:Schnurrhaare der Katze).

I Ausreißer (d.h. Datenwerte außerhalb der Ausreißergrenzen) werdenextra durch Punkte angegeben.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 80

Page 81: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Erzeugung von Box-Plots in R

I Beispielhaft in R:

> boxplot(lightspeeds)

erzeugt ein vertikales Box-Plot vom Datensatz lightspeeds,ein horizontales Box-Plot wird erzeugt durch> boxplot(lightspeeds,horizontal=TRUE)

I Die Kenngroßen in diesem Datensatz waren:

Median x = x0.5 = 299850 ;unteres Quartil x0.25 = 299805 ;oberes Quartil x0.75 = 299895 ;

Quartilsabstand IQR(x) = 90 ;

untere Ausreißergrenze Au = x0.25 − 1.5 · IQR(x) = 299670 ;

obere Ausreißergrenze Ao = x0.75 + 1.5 · IQR(x) = 300030 .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 81

Page 82: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Vertikales Box-Plot fur Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds, main="Box-Plot Lichtgeschwindigkeiten")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 82

Page 83: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Horizontales Box-Plot fur Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds,horizontal=TRUE, main="Box-Plot Lichtgeschwindigkeiten")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 83

Page 84: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Horizontales Box-Plot mit Punktdiagramm fur Beispiel> boxplot(lightspeeds,horizontal=TRUE, main="Box-Plot Lichtgeschwindigkeiten")

> stripchart(lightspeeds,method="stack", col="red",add=TRUE)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 84

Page 85: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Daten fur Box-Plots in R

I Die Zahlenwerte fur das Box-Whisker-Plot, aus denen sich diegrafische Darstellung ergibt, konnen durch den Funktionsaufrufboxplot()$stats abgefragt werden.

I Im Beispiel:

> boxplot(lightspeeds)$stats

[,1]

[1,] 299720

[2,] 299805

[3,] 299850

[4,] 299895

[5,] 300000

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 85

Page 86: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Gekerbte Box-Whisker-Plots

I Als zusatzliche Information werden manchmal zusatzlich Kerben(”notches”) zur Kennzeichnung eines 95%-Konfidenzintervalles furden Median (unter Normalverteilungsannahme berechnet) miteingezeichnet.

I Ein 95%-Konfidenzintervall fur den Median ist dabei ein zufalligesIntervall, welches unter der bestimmten Verteilungsannahme dentatsachlichen oder wahren Median mit einer Wahrscheinlichkeit von0.95 uberdeckt. Fur vorliegende Beobachtungswerte kann dann einkonkretes Intervall berechnet werden.

I In R kann ein solches gekerbtes Box-Plot durch den zusatzlichenParameter notch=TRUE im Befehl boxplot() erzeugt werden.Die Zahlenwerte dazu konnen mit boxplot()$conf abgefragtwerden.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 86

Page 87: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Gekerbtes Box-Plot fur Beispiel Lichtgeschwindigkeiten> boxplot(lightspeeds,main="gekerbtes Box-Plot Lichtgeschwindigkeiten",

+ notch=TRUE)

> boxplot(lightspeeds)$conf

[,1]

[1,] 299835.8

[2,] 299864.2

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 87

Page 88: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Weitere Bemerkungen zu Box-Plots

I Mit Box-Plots konnen Informationen gewonnen werden uberI die Lage der Daten (durch den Median);I die Streuung der Daten (durch den Interquartilsabstand);I besondere Werte (durch die extra Angabe der Ausreißer);I den Bereich der Datenwerte (durch die Zaune und die extra Angabe

der Ausreißer);I ggf. die Symmetrie (Symmetrie in der Box und den Zaunen).

I Die folgenden Details konnen zum Beispiel im Allgemeinen nicht auseinem Box-Plot abgelesen werden:I die Anzahl der Beobachtungen;I Bindungen oder Werthaufungen;I Mittelwert und empirische Varianz;I die allgemeine Verteilungsform.

I Bei einer kleinen Anzahl von Beobachtungswerten sind Box-Plotsnicht sehr aussagekraftig.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 88

Page 89: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(b) Q-Q-Plots

I Ein Q-Q-Plot oder (empirisches) Quantil-Quantil-Diagramm dientz.B. zum Vergleich der Beobachtungswerte x1, . . . , xn mit einertheoretischen Verteilung.

I Dazu werden in ein kartesisches Koordinatensystem in der EbenePunkte mit theoretischen Quantilen xp als Abszissenkoordinaten(x-Werte) und empirischen Quantilen xp (oder den Werten dergeordneten Stichprobe) als Ordinatenkoordinaten (y -Werte) furbestimmte Niveaus p eingezeichnet.

I Beispielniveaus: pi = in+1 oder pi = i−0.5

n , i = 1, . . . , n .

I Sind die Beobachtungswerte x1, . . . , xn Realisierungen vonunabhangigen Zufallsgroßen mit der gewahlten theoretischenVerteilung, dann liegen die Punkte etwa auf einer Geraden mitAnstieg 1 durch den Koordinatenursprung.

I Starke Abweichungen von der Geraden signalisieren einNichtzutreffen der Verteilung.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 89

Page 90: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Erstes Beispiel Q-Q-Plot: Gleichverteilung U[0,1]> xu=c(seq(0.1,0.9,by=0.1))

> xu

[1] 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

> qqplot(qunif(ppoints(9),min=0,max=1),xu, xlab="Theoret. Quantile U[0,1]",

+ main="Q-Q-Plot xu gegen U[0,1]")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 90

Page 91: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Q-Q-Plot Lichtgeschwindigkeiten gegen Normalverteilungmit geschatzten Parametern> qqplot(qnorm(ppoints(100),mean=mean(lightspeeds), sd=sd(lightspeeds)),

+ lightspeeds,xlab="Theoret. Quantile",

+ main="Q-Q-Plot Lichtgeschw. gegen Normalvert.")

> curve(1*x,299600,301000,col="red",add=TRUE)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 91

Page 92: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Q-Q-Plots gegen Normalverteilung

I Bei manchen Verteilungen mussen fur Q-Q-Plots nicht alleParameter der angenommenen theoretischen Verteilung schon ausden Daten bestimmt werden, sondern es reicht aus, die Daten miteiner Verteilung vom gegebenen Typ zu vergleichen.

I Dies ist zum Beispiel fur die Normalverteilung richtig, hier kann mandie empirischen Quantile der Beobachtungswerte z.B. mit dentheoretischen Quantilen der Standardnormalverteilung vergleichen.

I Folgen die Beobachtungswerte einer beliebigen Normalverteilung,liegen die Punkte etwa auf einer Geraden (nicht unbedingt mitAnstieg 1 und durch den Koordinatenursprung).

I Dies folgt aus der Beziehung zp =xp − µσ

zwischen den Quantilen

xp fur X ∼ N(µ, σ2) und zp fur Z ∼ N(0, 1) .

I Diese Eigenschaft kann allerdings nicht fur jeden Verteilungstypgenutzt werden, z.B. nicht fur die Lognormalverteilung.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 92

Page 93: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Q-Q-Plot Lichtgeschw. gegen Normalverteilung N(0, 1)

> qqnorm(lightspeeds, main="Q-Q-Plot Lichtgeschwindigkeiten gegen N(0,1)")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 93

Page 94: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Q-Q-Plot Lichtgeschw. gegen Lognormalverteilung

Vergleich mit theoretischer Verteilung von exp(X ) mit X ∼ N(0, 1) .

> qqplot(qlnorm(ppoints(100),meanlog=0,sdlog=1),

+ lightspeeds,xlab="Theoret. Quantile",

+ main="Q-Q-Plot Lichtgeschw. gegen Lognormalvert.")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 94

Page 95: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Q-Q-Plot Lichtgeschw. gegen Exponentialverteilung mitgeschatztem Erwartungswert> qqplot(qexp(ppoints(100),rate=1/mean(lightspeeds)),

+ lightspeeds,xlab="Theoret. Quantile",

+ main="Q-Q-Plot Lichtgeschw. gegen Exponentialvert.")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 95

Page 96: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Bemerkungen zu Q-Q-Plots

I Ist der Anstieg der Kurve im Q-Q-Plot an einem oder beiden Endenwesentlich steiler als im Mittelteil, deutet dies auf eine extremereVerteilung der Extremwerte hin, als dies nach der angenommenenVerteilung erwartet wird. Dann konnten z.B. Verteilungen mitschweren Enden geeignet sein (bei denen eine Annaherung derFunktionswerte der Verteilungsfunktion an 0 bzw. 1 eher durcheine Potenz- statt eine Exponentialfunktion beschrieben wird).

I Ist jedoch der Anstieg der Kurve im Q-Q-Plot an einem oder beidenEnden wesentlich flacher als im Mittelteil, ist eher eine Verteilungmit einer schnelleren Konvergenz der Funktionswerte derVerteilungsfunktion an 0 bzw. 1 als bei der angenommenenVerteilung oder eine Verteilung mit begrenztem Wertebereichgeeignet.

I Ausreißer sind ggf. durch einzelne, weit von der Kurve entferntePunkte an den Randern sichtbar.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 96

Page 97: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel mit steilem Ende> set.seed(123456)

> x=rnorm(1000)

> qqnorm(sign(x)*x^4,main="Normal Q-Q Plot mit

+ steilem Ende",ylab="sign(X)*X^4")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 97

Page 98: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel mit flachen Enden> set.seed(123456)

> x=rnorm(1000)

> qqnorm(sign(x)*sqrt(abs(x)),main="Normal Q-Q Plot

+ mit flachen Enden",ylab="sign(X)*sqrt(abs(X))")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 98

Page 99: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Weitere Bemerkungen zu Q-Q-Plots

I Klare Bogenformen weisen bei einer symmetrischen theoretischenVerteilung auf eine schiefe Verteilung hin.

I Liegen mehrere aufeinanderfolgende Punkte auf einer waagerechtenLinie zusammen, entsprechen diese ubereinstimmendenBeobachtungswerten. Das Mehrfachauftreten ubereinstimmenderBeobachtungswerte wird auch als Bindung bezeichnet. Sie konnenzum Beispiel hindeuten aufI gerundete Beobachtungswerte;

I eine ungenaue Datenerhebung;

I das Ersetzen von fehlenden Werten durch Standardwerte;

I spezielle Werte mit positiver Wahrscheinlichkeit, wenn also nichtwirklich eine stetige Verteilung vorliegt.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 99

Page 100: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(c) Empirische Verteilungsfunktion

I Die empirische Verteilungsfunktion F (x) ist eine Schatzung dertheoretischen Verteilungsfunktion FX (x) = P(X < x)(bzw. FX (x) = P(X ≤ x)) aus den Beobachtungswerten x1, . . . , xn.

I Es gilt

F (x) =Anzahl der i mit xi < x (bzw. ≤ x)

n, x ∈ R .

I Eine empirische Verteilungsfunktion ist eine stuckweise konstanteFunktion mit Sprungen und den anderen Eigenschaften einerVerteilungsfunktion.

I Bindungen erzeugen hohere Sprunge.

I Man kann Quantile aus der empirischen Verteilungsfunktion ablesen.

I Die empirischen Verteilungsfunktionen konvergieren fur n→∞unter ublichen Bedingungen gegen die Verteilungsfunktion FX (x)(”Hauptsatz der mathematischen Statistik“,

”Satz von Gliwenko“).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 100

Page 101: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Empirische Verteilungsfunktion Lichtgeschwindigkeiten

> plot(ecdf(lightspeeds),main="Empir. Verteilungsfkt. Lichtgeschw.")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 101

Page 102: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Empirische Verteilungsfunktion Lichtgeschwindigkeiten undNormalverteilung (mit geschatzten Parametern)> plot(ecdf(lightspeeds),main="Empir. Verteilungsfkt. Lichtgeschw.")

> curve(pnorm(x,mean=mean(lightspeeds), sd=sd(lightspeeds)),add=TRUE,col=2)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 102

Page 103: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.5 Kenngroßen fur kategorielle Daten

I Fur eine diskrete Wahrscheinlichkeitsverteilung ist der Modalwert(auch Modus oder Mode) die Merkmalsauspragung, die mit dergroßten Wahrscheinlichkeit auftreten kann. Es kann auch mehrerederartige Auspragungen geben, sie treten dann alle mit derselbenWahrscheinlichkeit auf.

I Entsprechend ist fur einen Datensatz der empirische Modalwert dieMerkmalsauspragung (bzw. sind die Merkmalsauspragungen), dieam haufigsten vorkommt (bzw. vorkommen).

I Fur diskrete Daten konnen außerdem die Anteile als Kenngroßen vonInteresse sein, zur Berechnung dieser werden die absolutenHaufigkeiten der Merkmalswerte pro Merkmalsauspragung durch dieGesamtzahl der Beobachtungen geteilt.

I Im Beispiel:> margin(Titanic,"Survived")/sum(Titanic)

No Yes

0.676965 0.323035

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 103

Page 104: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.6 Zufallsvektoren

I Bei den meisten stochastischen Modellen ist nicht nur eineZufallsgroße von Interesse, sondern eine endliche oder sogarunendliche Anzahl unterschiedlicher Zufallsgroßen.

I n Zufallsgroßen X1, . . . ,Xn kann man zum (n−dimensionalen)Zufallsvektor (X1, . . . ,Xn) zusammenfassen.

I Viele Eigenschaften kann man an zweidimensionalen Zufallsvektoren(X ,Y ) sehen bzw. untersuchen, so dass wir diesen Fall hier naherbetrachten. Jede Realisierung des Zufallsvektors ist dann ein Punkt(x , y) im zweidimensionalen Euklidischen Raum R2 .

I Die in einer konkreten Zufallssituation auftretende Realisierung kannman im Allgemeinen nicht vorausberechnen, man kann nurWahrscheinlichkeiten dafur angeben, dass Realisierungen desZufallsvektors in interessierenden Mengen liegen, diese bilden dieWahrscheinlichkeitsverteilung oder kurz Verteilung desZufallsvektors.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 104

Page 105: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Verteilungsfunktion eines Zufallsvektors

I Die Verteilung des Zufallsvektors (X ,Y ) kann durch diegemeinsame (oder Verbund-)Verteilungsfunktion beschriebenwerden: Fur x , y ∈ R gilt

F(X ,Y )

(x , y) = P(X < x ∩ Y < y) = P(X < x ,Y < y) .

I Verbundverteilungsfunktionen haben ahnliche Eigenschaften wie dieVerteilungsfunktionen reeller Zufallsgroßen, unter anderemI 0 ≤ F

(X,Y )(x , y) ≤ 1 , (x , y) ∈ R2 ;

I limx→−∞

F(X,Y )

(x , y) = limy→−∞

F(X,Y )

(x , y) = 0 ;

I limx,y→∞

F(X,Y )

(x , y) = 1 ;

I die Funktion F(X,Y )

(x , y) ist bezuglich jeder Variable monoton nichtfallend.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 105

Page 106: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Verteilungsdichte eines stetigen Zufallsvektors

I Fur stetige Zufallsvektoren (Zufallsvektoren mit absolut stetigerVerteilung) kann die Verteilung auch durch die Verteilungsdichtef(X ,Y )

(s, t), (s, t) ∈ R2, bestimmt werden:

F(X ,Y )

(x , y) =

∫ x

−∞

∫ y

−∞f(X ,Y )

(s, t) dt ds .

I Dann gilt fur geeignete Teilmengen B ⊂ R2 :

P((X ,Y ) ∈ B) =

∫ ∫Bf(X ,Y )

(s, t) dt ds .

I Fur Verteilungsdichten von stetigen Zufallsvektoren gilt:I f

(X,Y )(s, t) ≥ 0, (s, t) ∈ R2 ;

I∫ ∞−∞

∫ ∞−∞

f(X,Y )

(s, t)dt ds = 1 .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 106

Page 107: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Verbundverteilung und Randverteilungen

I Die gemeinsame Verteilung des Zufallsvektors (X ,Y ) , gegebenz.B. durch die Verbundverteilungsfunktion oder die gemeinsameVerteilungsdichte, bestimmt eindeutig die Verteilungen derKomponenten X und Y (die Randverteilungen), wenn diese alseinzelne Zufallsgroßen betrachtet werden.

I So gelten:I F

X(x) = P(X < x) = lim

y→∞F

(X,Y )(x , y), x ∈ R ;

I FY

(y) = P(Y < y) = limx→∞

F(X,Y )

(x , y), y ∈ R ;

I falls die Verteilungsdichte fur den Zufallsvektor (X ,Y ) existiert,existieren auch die Dichtefunktionen fur X und Y und es gelten

fX

(s) =

∫ ∞−∞

f(X,Y )

(s, t)dt, s ∈ R , sowie

fY

(t) =

∫ ∞−∞

f(X,Y )

(s, t)ds, t ∈ R .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 107

Page 108: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Momente von Zufallsvektoren

I Wichtige von der Verteilung eines Zufallsvektors abgeleiteteKenngroßen sind die Momente des Zufallsvektors.

I Fur den stetigen Zufallsvektor (X ,Y ) und nichtnegative ganzeZahlen k, ` ist

E[X kY `

]=

∫ ∞−∞

∫ ∞−∞

skt`f(X ,Y )

(s, t) ds dt

ein (im Allgemeinen gemischtes) Moment der Ordnung k + ` (fallses existiert) .

I Momente erster Ordnung sind (falls sie existieren)

EX =

∫ ∞−∞

∫ ∞−∞

s f(X ,Y )

(s, t) ds dt =

∫ ∞−∞

s fX

(s) ds ;

EY =

∫ ∞−∞

∫ ∞−∞

t f(X ,Y )

(s, t) ds dt =

∫ ∞−∞

t fY

(t) dt .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 108

Page 109: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Zweite Momente von Zufallsvektoren

Neben den zweiten Momenten E[X 2]

und E[Y 2]

fur X bzw. Y undden Varianzen VarX und VarY (als

”zentralen zweiten Momenten“)

konnen noch das zweite gemischte Moment

E[XY ] =

∫ ∞−∞

∫ ∞−∞

s t f(X ,Y )

(s, t) ds dt

und das entsprechende zentrale zweite gemischte Moment, welchesKovarianz genannt wird, definiert werden,

Cov[X ,Y ] = E[(X − EX )(Y − EY )]

=

∫ ∞−∞

∫ ∞−∞

(s − EX )(t − EY )f(X ,Y )

(s, t) ds dt

= E[XY ]− EX · EY .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 109

Page 110: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Korrelationskoeffizient und Unkorreliertheit von ZG

I Gilt fur ZG X und Y jeweils 0 < VarX <∞ , 0 < VarY <∞ ,dann definiert man den Korrelationskoeffizient von X und Y als

ρX ,Y

= Corr[X ,Y ] =Cov[X ,Y ]√VarX

√VarY

.

I Es gilt immer −1 ≤ ρX ,Y≤ 1 .

I Der Korrelationskoeffizient ist ein Maß fur die Starke eines linearenZusammenhangs zwischen X und Y :

ρX ,Y

= 1 ⇒ perfekter positiver linearer Zusammenhangzwischen X und Y , d.h. Y = a + bX mit b > 0 , a ∈ R ;

ρX ,Y

= −1 ⇒ perfekter negativer linearer Zusammenhangzwischen X und Y , d.h. Y = a + bX mit b < 0 , a ∈ R .

I Die Zufallsgroßen X und Y heißen unkorreliert, fallsCov[X ,Y ] = 0 gilt (dann gilt auch ρ

X ,Y= 0) , andernfalls nennt

man sie korreliert.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 110

Page 111: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Eigenschaften der Kovarianz

I Sind zwei Zufallsgroßen X und Y stochastisch unabhangig undexistieren die Erwartungswerte, dann gilt E[X · Y ] = EX · EY ;damit sind X und Y auch unkorreliert.

I Die Umkehrung gilt im Allgemeinen nicht.

I Die Kovarianz ist symmetrisch, d.h. Cov[X ,Y ] = Cov[Y ,X ] .

I Die Kovarianz ist linear in beiden Komponenten, d.h.

Cov[X + Y ,Z ] = Cov[X ,Z ] + Cov[Y ,Z ] .

I Es gilt VarX = Cov[X ,X ] .

I Es giltVar[X + Y ] = VarX + VarY + 2Cov[X ,Y ] .

I Sind zwei Zufallsgroßen X und Y unkorreliert (insbesondere wennsie stochastisch unabhangig sind), dann gilt fur deren Summe

Var[X + Y ] = VarX + VarY .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 111

Page 112: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel: zweidimensionale Normalverteilung

I Ein stetiger Zufallsvektor (X ,Y ) besitzt eine zweidimensionaleNormalverteilung, wenn seine Dichtefunktion lautet

f(X ,Y )

(s, t) = c · e− 1

2(1−ρ2)

[(s−µ

X)2

σ2X

−2ρ(s−µ

X)(t−µ

Y)

σXσY

+(t−µ

Y)2

σ2Y

]

mit c =1

2πσXσ

Y

√1− ρ2

.

I Dann gelten: EX = µX

, EY = µY

, VarX = σ2X

, VarY = σ2Y

,Corr[X ,Y ] = ρ

X ,Y= ρ ∈ (−1, 1) .

I Die einzelnen Komponenten X und Y des Zufallsvektors sindnormalverteilte Zufallsgroßen mit den oben angegebenenParametern.

I In diesem Fall sind X und Y genau dann unabhangig, wenn sieunkorreliert sind, d.h. wenn Corr[X ,Y ] = ρ = 0 gilt.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 112

Page 113: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Dichtefunktionsgrafiken Normalverteilungen in R2

Dichtefunktionen von normalverteilten Zufallsvektoren (X ,Y ) mitEX = EY = 0, VarX = VarY = 1 sowie

ρ = 0 (links), ρ = −0.5 (mitte) und ρ = −0.9 (rechts).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 113

Page 114: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.7 Grafiken, Kenngroßen fur multivariate stetige Daten(a) Streudiagramm

I Fur bivariate stetige Daten (eine verbundene zweidimensionaleStichprobe) konnen die Datenpunkte in einem Streudiagrammdargestellt werden, d.h. als Punkte in einem kartesischenKoordinatensystem.

I Wie das Punktdiagramm ist auch das Streudiagramm anfalliggegenuber Bindungen, die durch Uberlagerung unsichtbar werden.

I Kenngroßen kann man aus dem Streudiagramm im Allgemeinenschlecht schatzen.

I Man kann im Allgemeinen schlecht Ausreißer im Streudiagrammidentifizieren.

I Die Lage des Nullpunktes und die Achseneinheiten und Grenzenkonnen den Eindruck, den ein Streudiagramm macht, starkbeeinflussen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 114

Page 115: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Streudiagramm im Datensatz”Iris“

> data(iris)

> plot(iris$Sepal.Length,iris$Sepal.Width, xlab="Sepal.Length",

+ ylab="Sepal.Width")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 115

Page 116: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Einzelne Punktdiagramme im Beispiel> stripchart(iris$Sepal.Length,method="stack", xlab="Sepal.Length")

> stripchart(iris$Sepal.Width,method="stack", xlab="Sepal.Width")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 116

Page 117: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(b) Der empirische (gewohnliche) Korrelationskoeffizient

I Fur eine konkrete Stichprobe (x1, y1) , . . . , , (xn, yn) definiert manden empirischen Korrelationskoeffizienten

rX ,Y

=

n∑i=1

(xi − x) (yi − y)√n∑

i=1(xi − x)2

n∑i=1

(yi − y)2.

I Er ist eine Schatzung des theoretischen Korrelationskoeffizientenund wird auch gewohnlicher oder (Bravais-)PearsonscherKorrelationskoeffizient genannt. Es gilt auch

rX ,Y

=

n∑i=1

xiyi − n · x · y√(n∑

i=1x2i − n x2

)(n∑

i=1y2i − n y2

) .

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 117

Page 118: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Eigenschaften des gewohnlichen Korrelationskoeffizienten

I Es gelten rX ,Y

= rY ,X

und −1 ≤ rX ,Y≤ 1 .

I Der gewohnliche Korrelationskoeffizient rX ,Y

ist ein Maß fur dieStarke und Richtung des linearen Zusammenhanges zwischen denx− und y−Werten der Stichprobenpunkte (xi , yi ) , i = 1, . . . , n .

I rX ,Y

> 0 bedeutet unter anderem, dass großen x−Werten ehergroße y−Werte entsprechen und umgekehrt. Man spricht dann vonpositiver oder gleichsinniger Korrelation .

I rX ,Y

< 0 bedeutet unter anderem, dass großen x−Werten eherkleine y−Werte entsprechen und umgekehrt. Man spricht dann vonnegativer oder ungleichsinniger Korrelation .

I Fur Werte |rX ,Y| nahe bei 1 liegt eine stark ausgepragte lineare

Beziehung zwischen den x− und y−Werten vor.

I Insbesondere im Fall von normalverteilten Zufallsvektoren konnendie gewohnlichen Korrelationskoeffizienten gut interpretiert und furstatistische Schlusse genutzt werden.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 118

Page 119: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Streudiagramme fur simulierte Werte

Streudiagramme (Scatterplots) von 1000 simulierten Realisierungenvon normalverteilten Zufallsvektoren (X ,Y ) mit

EX = EY = 0 , VarX = VarY = 1 sowie

ρ = −1 (links), ρ = 0 (mitte) und ρ = 1 (rechts).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 119

Page 120: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Streudiagramme fur simulierte Werte – Fortsetzung

ρ = ±0.3 (links), ρ = ±0.5 (mitte), ρ = ±0.9 (rechts).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 120

Page 121: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(c) Rangkorrelation

I Mochte man statistische Aussagen uber den Zusammenhang zweiernichtnormalverteilter Merkmale X und Y treffen (eventuell auchnur ordinal messbar), kann man den Rangkorrelationskoeffizientenvon Spearman r (S)

X ,Ynutzen. Der Zusammenhang bezieht sich dann

auf die Ordnungsbeziehung (nicht einen linearen Zusammenhang).

I Man bestimmt einzeln fur die x−Werte und die y−Werte dervektoriellen Stichprobe Range R(xi ) bzw. R(yi ) , i = 1, . . . , n .

I Zur Bestimmung der Range werden die Werte der Große nachgeordnet, der kleinste erhalt Rang 1, der zweitkleinste Rang 2 usw.Treten Bindungen (also ubereinstimmende Werte in jeweils einerDatenreihe) auf, wird der arithmetische Mittelwert der zugehorigenRangzahlen als Rang gewahlt.

I Beispiel:Wert 1 2 2 3.5 10

Rang 1 2.5 2.5 4 5

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 121

Page 122: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Spearmanscher Rangkorrelationskoeffizient

I Der Spearmansche Rangkorrelationskoeffizient wird berechnet,indem in der Formel fur den gewohnlichen Korrelationskoeffizientendie Werte der Zufallsgroßen und Mittelwerte durch die Werte derRange und entsprechend der Mittelwerte der Range ersetzt werden,also die Range selbst als Merkmalswerte betrachtet werden,

r (S)X ,Y

=

n∑i=1

(R(xi )− R(x)

)(R(yi )− R(y)

)√

n∑i=1

(R(xi )− R(x)

)2√ n∑i=1

(R(yi )− R(y)

)2 .I Liegen sowohl in der Stichprobe x1, . . . , xn als auch in der

Stichprobe y1, . . . , yn keine Bindungen vor, gilt auch

r (S)X ,Y

= 1−6

n∑i=1

(R(xi )− R(yi ))2

n(n2 − 1).

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 122

Page 123: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Eigenschaften von r (S)X ,Y

I Es gilt |r (S)X ,Y| ≤ 1 .

I r (S)X ,Y

ist ein Maß fur die Starke des monotonen Zusammenhangs von

X und Y , das Vorzeichen von r (S)X ,Y

ist ein Maß fur die Richtungdes monotonen Zusammenhangs von X und Y .

I Im Fall von |r (S)X ,Y| = 1 besteht eine streng monotone Beziehung

zwischen X und Y .

I Ubersteigt der Betrag des Spearmanschen Korrelationskoeffizientenden Betrag des Pearsonschen Korrelationskoeffizienten deutlich, soliegt vermutlich ein nichtlinearer monotoner (oder antitoner)Zusammenhang vor oder es gibt Ausreißer.

I Ubersteigt der Betrag des Pearsonschen Korrelationskoeffizientenden Betrag des Spearmanschen Korrelationskoeffizienten deutlich, soliegen vermutlich Ausreißer vor.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 123

Page 124: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Rangverfahren

I Die Nutzung des Spearmanschen Korrelationskoeffizienten gehort zuden Rangverfahren, bei denen die Daten durch ihre Range ersetztwerden.

I Dies hat den Vorteil, dass die (meist unbekannte) Verteilung keinegroße Rolle mehr spielt.

I Als Nachteile bei einem solchen Vorgehen kann man nennen:I Man nutzt (viel) weniger Information.I Die Interpretation von Kenngroßen etc. ist schwieriger.I Die Bestimmung der Range (und dann zu nutzende Formeln,

Eigenschaften, etc.) kann problematischer sein.

I Im Beispiel:> cor(iris$Sepal.Length,iris$Sepal.Width)

[1] -0.1175698

> cor(iris$Sepal.Length,iris$Sepal.Width, method="spearman")

[1] -0.1667777

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 124

Page 125: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(d) Q-Q-Plot zum Vergleich zweier Merkmale

I Einen Q-Q-Plot kann man auch zum Vergleich der beidenempirischen Randverteilungen einer zweidimensionalen Stichprobe(x1, y1), . . . , (xn, yn) nutzen.

I Dazu berechnet man die empirischen Quantile fur beideKomponenten extra (wie fur den Vergleich eines Merkmals mit einertheoretischen Verteilung), bildet entsprechende Wertepaare undzeichnet diese als Punkte in ein kartesisches Koordinatensystem.

I Liegen diese Punkte etwa auf einer Geraden mit Anstieg 1 durchden Koordinatenursprung, stimmen die Verteilungen der beidenKomponenten naherungsweise uberein, liegen sie etwa auf eineranderen Geraden sind die Verteilungen der beiden Merkmalsgroßennaherungsweise durch eine lineare Transformation (eigentlich: linearaffine Transformation) miteinander verbunden.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 125

Page 126: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Q-Q-Plot zum Vergleich zweier Merkmale> qqplot(iris$Sepal.Length,iris$Petal.Length, xlab="Sepal.Length",

+ ylab="Petal.Length",main="Q-Q-Plot Vergleich zweier Merkmale")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 126

Page 127: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(e) Streudiagrammmatrix

I Zum Veranschaulichung von mehr als zwei stetigen Merkmalen kannman z.B. eine Streudiagrammmatrix nutzen. Dazu werden dieStreudiagramme fur je zwei unterschiedliche Merkmale erzeugt undin Matrixform angeordnet.

I Fur den R-Beispieldatensatz”Iris“ erhalt man z.B. mit dem R-Befehl

> pairs(list(iris$Sepal.Length,iris$Sepal.Width,

+ iris$Petal.Length,iris$Petal.Width),

+ labels=list("Sepal.Length","Sepal.Width",

+ "Petal.Length","Petal.Width"))

die auf der nachsten Folie gezeigte Matrix.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 127

Page 128: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Streudiagrammmatrix

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 128

Page 129: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.8 Grafiken fur multivariate diskrete Daten(a) Gestapelte Balkendiagramme

I Bei gestapelten Balkendiagrammen werden Rechtecke mitFlacheninhalten proportional zu den Anzahlen entsprechend derAuspragungen einer zweiten Variablen ubereinander abgetragen.

I Damit konnen sowohl absolute Haufigkeiten als auch die bedingteVerteilung der zweiten Variable gegeben die erste Variablewahrgenommen werden. Beide konnen aber vom Auge nicht direktquantitativ bewertet werden.

I Die Reihenfolge der Variablen ist fur die Darstellung wesentlich.I Bei ordinalen Daten sollte man die Reihenfolge der

Merkmalsauspragungen beachten.I In den Beispielen wird der Datensatz

”Titanic“ genutzt.

> X=apply(Titanic,c(2,3),sum)

> XAge

Sex Child Adult

Male 64 1667

Female 45 425

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 129

Page 130: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel gestapelte Balkendiagramme> barplot(X,main="Passagiere der Titanic (dunkel: mannlich, hell: weiblich)")

> barplot(t(X),main="Passagiere der Titanic (dunkel:Kind, hell:Erwachsener)")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 130

Page 131: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(b) Parallele Balkendiagramme

I Bei parallelen Balkendiagrammen werden die Rechtecke zu denverschiedenen Merkmalsauspragungen der zweiten Variablennebeneinander gezeichnet.

I Damit erlauben sie einen direkten Vergleich der absolutenHaufigkeiten, bedingte Verteilungen konnen aber im Allgemeinennicht so gut wahrgenommen werden.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 131

Page 132: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel parallele Balkendiagramme> barplot(X,main="Passagiere der Titanic (dunkel: mannlich, hell: weiblich)")

+ beside=TRUE)

> barplot(t(X),main="Passagiere der Titanic (dunkel:Kind, hell:Erwachsener)")

+ beside=TRUE)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 132

Page 133: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(c) Mosaikplots

I Mosaikplots eignen sich besonders gut zur gleichzeitigen Darstellungmehrerer kategorieller Variablen.

I Bedingte Verteilungen sind besser wahrzunehmen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 133

Page 134: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Mosaikplots> mosaicplot(X,main="Passagiere der Titanic",color=c(2,4)) # links

> mosaicplot(t(X),main="Passagiere der Titanic",color=c(2,4)) # rechts

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 134

Page 135: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel Mosaikplot mit mehr als 2 Variablen

> mosaicplot(Titanic,main="Passagiere der Titanic")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 135

Page 136: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

4.2.9 Grafiken fur gemischte multivariate Daten(a) Parallele Punktdiagramme

I Bei der Darstellung eines Datensatzes mit einer diskreten und einerstetigen Variablen konnen zum Beispiel parallele Darstellungen derstetigen Variablen fur jede Merkmalsauspragung der diskretenVariablen genutzt werden.

I Ein Beispiel liefern parallele Punktdiagramme, bei denenPunktdiagramme neben- oder ubereinander gezeichnet werden, sodass ein guter anschaulicher Vergleich moglich ist.

I Hier wird wieder der R-Datensatz”Iris“ genutzt.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 136

Page 137: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel paralleles Punktdiagramm> data(iris)

> stripchart(split(iris$Sepal.Length,iris$Species),

+ method="stack",main="Sepal.Length")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 137

Page 138: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(b) Parallele Box-Plots

I Das Verfahren bei den Punktdiagrammen kann auch fur Box-Plotsgenutzt werden.

I Werden dabei gekerbte Box-Plots genutzt und kann mannaherungsweise von normalverteilten Daten ausgehen, kann manmitunter noch aus der Anschauung heraus Aussagen uber denMedian treffen:

Uberlappen sich die Kerben nicht, kann man mit einer geringenIrrtumswahrscheinlichkeit von unterschiedlichen Medianen ausgehen.

I Ein objektiverer Vergleich kann durch statistische Tests erfolgen.

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 138

Page 139: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel parallele Box-Plots> data(iris)

> boxplot(split(iris$Sepal.Length,iris$Species), main="Sepal.Length")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 139

Page 140: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

Beispiel parallele gekerbte Box-Plots> data(iris)

> boxplot(split(iris$Sepal.Length,iris$Species), main="Sepal.Length",

+ notch=TRUE)

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 140

Page 141: Statistik für Ingenieure 4 Deskriptive Statistik · I Bei stetigen Merkmalen in der relativen Skala kann man uberlegen (und eventuell versuchen), durch Logarithmieren der Daten zu

(d) Weitere Moglichkeiten

Farben, Symbole und Beschriftungen eignen sich, um eine oder mehrerekategorielle Information(en) zusatzlich zu jeder stetigen Grafik, welchedie Falle durch separate Punkte trennt, hinzuzufugen, zum Beispiel:> plot(iris$Sepal.Length,iris$Sepal.Width,

+ col=c("red","green","blue")[iris$Species],

+ main="Kelchblatt",xlab="Lange",ylab="Breite")

Prof. Dr. Hans-Jorg Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 141