Datenanalyse aus einer Urliste - fernuni-hagen.de · - NA`s sind in Urlisten zugelassen, sie werden...

21
Datenanalyse aus einer Urliste Worum geht es in diesem Modul? Geordneter Datensatz und Extremwerte Empirische Verteilungsfunktion Bestimmung von Quantilen Spezielle Quantile Median und Angeln Fünf-Zahlen-Zusammenfassung und Box-and-Whisker-Plot Erweiterte Fünf-Zahlen-Zusammenfassung Boxplot Worum geht es in diesem Modul? In diesem Lernmodul wird die statistische Datenanalyse in Bezug auf eine Urliste vermittelt. Die Methoden der deskriptiven Statistik werden sowohl theoretisch als auch an einem praktischen Beispiel erläutert. Die sich anschließende Coaching-Komponente dient einer ersten Einführung in die Erstellung statistischer Reports. Geordneter Datensatz und Extremwerte Fragebogenaktion eines Dozenten Ein Dozent an einer Universität möchte nähere Informationen über die Studierenden seiner Veranstaltung erhalten und konzipiert aus diesem Grund einen Fragebogen. Nach der Befragung liegen die ausgefüllten Fragebögen vor; das Datenmaterial ist ungeordnet. Deshalb trägt der Dozent in einem ersten Schritt das ihn interessierende Merkmal "Körpergröße" in der erfragten Reihenfolge in die so genannte Urliste ein: 175 160 172 181 170 170 163 183 172 186 186 183 158 190 174 160 169 167 172 171 166 165 172 180 183 168 190 185 166 198 175 160 165 168 181 173 178 194 185 162 194 186 204 160 192 179 201 175 163 165 163 166 165 165 164 Urliste Die Daten einer Erhebung liegen zunächst in Form einer Urliste bzw. eines Datensatzes vor. Die Daten werden im Rahmen der Erhebung in der erfragten Reihenfolge auch notiert. Dies stellt insbesondere bei großen Datenbeständen ein Problem dar; eine mögliche Struktur in den Daten lässt sich mit größer werdendem Datenumfang immer schwerer erkennen. (c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste Page 1

Transcript of Datenanalyse aus einer Urliste - fernuni-hagen.de · - NA`s sind in Urlisten zugelassen, sie werden...

Datenanalyse aus einer Urliste

Worum geht es in diesem Modul?Geordneter Datensatz und Extremwerte

Empirische VerteilungsfunktionBestimmung von Quantilen

Spezielle QuantileMedian und Angeln

Fünf-Zahlen-Zusammenfassung und Box-and-Whisker-PlotErweiterte Fünf-Zahlen-Zusammenfassung

Boxplot

Worum geht es in diesem Modul?

In diesem Lernmodul wird die statistische Datenanalyse in Bezug auf eine Urlistevermittelt. Die Methoden der deskriptiven Statistik werden sowohl theoretisch als auchan einem praktischen Beispiel erläutert. Die sich anschließende Coaching-Komponentedient einer ersten Einführung in die Erstellung statistischer Reports.

Geordneter Datensatz und Extremwerte

Fragebogenaktion eines Dozenten

Ein Dozent an einer Universität möchte nähere Informationen über die Studierendenseiner Veranstaltung erhalten und konzipiert aus diesem Grund einen Fragebogen. Nachder Befragung liegen die ausgefüllten Fragebögen vor; das Datenmaterial istungeordnet. Deshalb trägt der Dozent in einem ersten Schritt das ihn interessierendeMerkmal "Körpergröße" in der erfragten Reihenfolge in die so genannte Urliste ein:

175 160 172 181 170 170 163 183 172 186 186 183 158 190 174 160 169 167 172 171166 165 172 180 183 168 190 185 166 198 175 160 165 168 181 173 178 194 185 162194 186 204 160 192 179 201 175 163 165 163 166 165 165 164

Urliste

Die Daten einer Erhebung liegen zunächst in Form einer Urliste bzw. eines Datensatzesvor. Die Daten werden im Rahmen der Erhebung in der erfragten Reihenfolge auchnotiert. Dies stellt insbesondere bei großen Datenbeständen ein Problem dar; einemögliche Struktur in den Daten lässt sich mit größer werdendem Datenumfang immerschwerer erkennen.

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 1

Eine Möglichkeit zur Verbesserung der Übersichtlichkeit besteht darin, dieBeobachtungswerte der Größe nach zu ordnen. Es entsteht ein geordneter Datensatz.Eine derartige Ordnung der Daten ist nur bei ordinal oder kardinal skalierten Datenmöglich, da es in einer nominalen Metrik kein Ordnungskriterium gibt.

Vgl. hierzu

Geordneter Datensatz

Der Dozent setzt diese Möglichkeit um und erhält den geordneten Datensatz:

158 160 160 160 160 162 163 163 163 164 165 165 165 165 165 166 166 166 167 168168 169 170 170 171 172 172 172 172 173 174 175 175 175 178 179 180 181 181 183183 183 185 185 186 186 186 190 190 192 194 194 198 201 204

Der Vorteil der Bildung eines geordneten Datensatzes liegt in einer verbessertenÜbersichtlichkeit des betrachteten Datenmaterials. Nach dem Ordnen der Daten hebensich sofort zwei Werte hervor - der kleinste Wert 158 (das Minimum) und der größteWert 204 (das Maximum). Diese werden als Extremwerte bezeichnet.

Es muss beachtet werden, dass aufgrund dieser Neuordnung der Daten auchInformationen verloren gehen. In einer Urliste liegen die Beobachtungswerte in derReihenfolge vor, in der sie beobachtet wurden. Diese Struktur kann für einigeFragestellungen von Interesse sein. Besteht beispielsweise Interesse an der Erfassungdes Lärmpegels in einer Wohnsiedlung, so spielt es in diesem Zusammenhang einewichtige Rolle zu wissen, zu welchen Tageszeiten es besonders laut bzw. leise ist. DieseInformation geht durch die Erstellung eines geordneten Datensatzes jedoch verloren.

Die formale Darstellungsweise erfolgt nach dem folgenden Muster:

Der Datensatz sei mit

bezeichnet. ist der Umfang des Datensatzes.

Der geordnete Datensatz wird mit

angegeben.

bezeichnet das Minimum.

bezeichnet das Maximum.

Im Rahmen der Fallstudie wird diese Thematik mit Hilfe eines ausführlicherenDatensatzes des Merkmals "Körpergröße der Studierenden" aufgegriffen. Dort könnendie hier beschriebenen Schritte zur Erstellung und ersten Interpertation eines geordnetenDatensatzes selbständig nachvollzogen werden.

Zur praktischen Umsetzung der in diesem Abschnitt vorgestellten Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 2

Die Konzepte "Geordneter Datensatz" und "Extremwerte" lassen sich im R-Kalkulatordirekt mit Hilfe der Funktionen des base package von R umsetzen.

Demonstrationsseite im Labor: Geordneter Datensatz ( a5d.spf )

Hinweise:

- Die Daten seien auf der Variablen x abgelegt. Im betrachteten Fall müssen sie dieForm einer Urliste haben.- Die Anweisung xr <- sort(x) legt den geordneten Datensatz (die Rangwertreihe) von xauf der Variablen xr ab.- Der Zugriff xr[1] liefert das minimale Element von x, während xr[length(xr)] dasmaximale Element liefert.- Die Funktion length ermittelt die Anzahl der Elemente eines Vektors.- Mittels der Funktionen min, max können wir die gesuchten Extremwerte auch direktohne vorheriges Sortieren ermitteln.- Die Anweisungen sind min(x) für das Minimum, bzw. max(x) für das Maximum.

Steckbrief/Kurzbeschreibung

Beschreibungen der verwendeten Funktionen finden Sie in der "R Reference" (inenglischer Sprache).

Die "R Reference" kann im Hauptmenü des Statistiklabors ("Hilfe", "R Reference")abgerufen werden.

Empirische Verteilungsfunktion

Mit Hilfe des geordneten Datensatzes kann mittels Auszählen die folgende Fragebeantwortet werden:

"Wie viele der beobachteten Ausprägungen sind kleiner als ein vorgegebener Wert,beziehungsweise wie groß ist dieser Anteil?"

Zählen erscheint auf die Dauer umständlich. Es wird somit ein Konstrukt gesucht, ausder die Antwort auf die obige Fragestellung einfach "abzulesen" ist.

Ausgangspunkt der Überlegungen zur Herleitung eines entsprechenden Konstrukteistder geordnete Datensatz. Jedem Wert dieses geordneten Datensatzes wird als

Beitrag zugeordnet. Die empirische Verteilungsfunktion an der Stelle ist danndefiniert als die Summe der Beiträge aller , die kleiner oder gleich dem

betrachteten sind.

Definition: Empirische Verteilungsfunktion

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 3

Der Graph der empirischen Verteilungsfunktion ist eine Treppenfunktion:

Empirische Verteilungsfunktion des Merkmals "Alter"Quelle: Eigene Befragung

Im Exkurs Grafik der empirischen Verteilung wird die Umsetzung im Statistiklabordemonstriert.

Aus der Definition der empirischen Verteilungsfunktion lassen sich folgendeEigenschaften der Funktion ableiten:

ist gleich 0, falls kleiner ist als der kleinste Beobachtungswert im Datensatz.

ist gleich 1, falls größer ist als der größte Beobachtungswert im Datensatz.

Mit steigendem steigt auch im Bereich von 0 1.

Die empirische Verteilungsfunktion hat ihre Sprungstellen genau an den

verschiedenen Beobachtungswerte im Datensatz.

Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 4

Beispiel: Mathematikprüfung - Die Bestimmung von Anteilen

Problemstellung

Wie die meisten Studierenden zu Beginn ihres Studiums an der Fakultät fürWirtschaftswissenschaften der Universität Bielefeld sehr schnell feststellen, ist ihrStudium stark mathematisch ausgerichtet. Auch geht sofort im ersten Semester dasGerücht um, wie schwer es ist, die Mathematik-Klausuren zu bestehen.

Einige Studierende des ersten Semesters wollen diesem Gerücht auf den Grund gehen.Sie haben im Rahmen ihrer ersten Vorlesungen in Statistik erste Methoden zurDatenanalyse erlernt und wollen diese nun für ihre Zwecke einsetzen. Um zu erfahren,ob tatsächlich so viele Studierende an der Mathematik-Klausur scheitern, erfragen siebei 20 älteren Kommilitonen deren Punktzahl bei ihrer Mathematikprüfung:

30 35 37 40 40 62 65 67 74 89

57 58 60 60 62 49 51 54 54 55

Maximal waren 100 Punkte zu erreichen.

Die interessanteste Frage in diesem Zusammenhang ist für die Studierenden des erstenSemesters die Folgende:

"Welcher Anteil der Studierenden hat in der Mathematikprüfung weniger als 50 Punkteerreicht und damit nicht bestanden?"

Lösungsweg

Der erste Schritt zur Beanwortung der obigen Frage besteht in der Erstellung desgeordneten Datensatzes:

30 35 37 40 40 49 51 54 54 55

57 58 60 60 62 62 65 67 74 89

Mit dessen Hilfe wird die empirische Verteilungsfunktion erstellt. Dabei wird jedemWert des geordneten Datensatzes der Beitrag und damit in unserem Beispiel

zugeordnet. Um nun den Anteil der Studierenden bestimmen zu können, die weniger als49 Punkte erzielt haben, wird die Summe der Beiträge aller gebildet, die kleiner

oder gleich dem betrachteten Wert x = 49 sind.

Antwort

Zur Beantwortung der Frage nach dem Anteil der durchgefallenen Studierenden wirddemnach gerechnet:

,

da 6 der 20 Werte des geordneten Datensatzes kleiner gleich 49 sind.

Weitere Problemstellungen und Antworten

Auf dieselbe Art können ähnliche Fragen beantwortet werden. So könnte es weiterhin

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 5

von Interesse sein, wie groß der Anteil derjenigen ist, die die Klausur nur knappbestanden haben. In diesem Fall müssten diejenigen Werte des geordneten Datensatzesberücksichtigt werden, die 50 und größer sind, aber beispielsweise kleiner als 55. DieFrage scheint sich von der oben gestellten grundsätzlich zu unterscheiden, wird abernach dem selben Prinzip beantwortet.

Der Anteil derjenigen, die mindestens 54 Punkte haben (gesucht sind Werte kleiner als55) ist:

Allerdings interessieren uns hier nicht die Studierenden, die die Klausur nicht bestandenhaben, die demnach weniger als 50 Punkte haben. Diesen Anteil haben wir bereitsbestimmt und müssen ihn nun von subtrahieren:

Dieses Ergebnis besagt, dass 15% der befragten Studierenden die Mathematikprüfungnur knapp bestanden haben.

Ebenso könnten sich die Studierenden des ersten Semesters dafür interessieren, welcherAnteil der von ihnen befragten Kommilitonen nur knapp nicht bestanden hat. Wirsuchen den Anteil, der weniger als 50 aber mehr als 46 Punkte in der Klausur erzielthat. Das Prinzip ist das selbe. Wir rechnen:

5% der befragten Studierenden haben die Mathematikprüfung nur knapp nichtbestanden, sie hatten zwischen 47 und 49 Punkten erreicht.

Die Funktion EmpVert setzt das Konzept Graph einer empirischen Verteilungsfunktionim Labor um.

- Aufruf im R-Kalkulator des Labors: EmpVert(x)- Demonstrationsseite 1 im Labor: Grafik(1) der empirischen Verteilung ( b3e.spf )- Demonstrationsseite 2 im Labor: Grafik(2) der empirischen Verteilung ( b41.spf )

Hinweise

- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,Rangwertreihe, diskreten oder kontinuierlichen Häufigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Die Graphik erscheint in dem mit dem R-Kalkulator verbundenen LaborobjektR-Graphik.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Im Labor findet sich im Objekt R-Graphik-Wizard mit dem Angebot "Empirische

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 6

Verteilungsfunktion" eine einfache Umsetzung des Konzepts "EmpirischeVerteilungsfunktion".

Steckbrief/Kurzbeschreibung

Steckbrief der Funktion EmpVert: EmpVert() ( : b55.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.

Die Funktion pemp setzt das Konzept einer empirischen Verteilungsfunktion im Laborum.

- Aufruf im Statistiklabor: pemp(x)- Demonstrationsseite im Labor: Empirische Verteilungsfunktion ( b7c.spf )

Hinweise

- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,Rangwertreihe, diskreten oder kontinuierlichen Häfigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberüksichtigt.- Soll der Wert der empirischen Verteilungsfunktion an der Stelle xp berechnet werden,dann erreicht man dies im R-Kalkulator des Labors durch den Aufruf: pemp(xp,x)- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.

Steckbrief/Kurzbeschreibung

Steckbrief der Funktion: Empirische Verteilungsfunktion ( : b8e.pdf )

Quelle: Bibliothek danalyse.r

Bestimmung von Quantilen

Haben wir bislang Fragen nach Anteilen gestellt, die einen bestimmten Wert nichtüberschreiten, muss es auch eine Möglichkeit geben, die umgekehrte Fragestellung zubeantworten. Bezogen auf die in diesem Lernmodul verwendete Aufgabe könnte einederartige Frage lauten:

"Wie viele Tore werden in 90% der Spiele der ersten Fußball-Bundesliga nichtüberschritten?"

Diese kann mit Hilfe der Bestimmung des dazugehörigen p-Quantils beantwortetwerden. Verglichen mit der empirischen Verteilungsfunktion ist bei den Quantilen dasVorgehen umgekehrt. Wurde bei der Bestimmung der Verteilungsfunktion nach demAnteil der Beobachtungswerte gefragt, der kleiner oder gleich einem interessierendenWert ist, so ist bei den Quantilen von Interesse, welcher Wert zu einem bestimmtenVerteilungsfunktionswert korrespondiert.

Dieses teilt den Datensatz auf die Art in zwei Teile, so dass etwa der

Daten unterhalb und der Rest oberhalb des p-Quantils liegen.

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 7

So befinden sich beispielsweise bei dem 0.4-Quantil 40% der Daten unterhalb und 60%der Daten oberhalb des hier gesuchten Wertes.

Um ein p-Quantil bestimmen zu können, wird der geordnete Datensatz betrachtet. DieVoraussetzung hierfür ist, dass die betrachteten Merkmale mindestens ordinalskaliertsein müssen, um Quantile bestimmen zu können.

Vgl. hierzu

Beispiel

Veranschaulichen wir uns dieses anhand des geordneten Datensatzes der "Körpergröße"von 55 Studierenden:

158 160 160 160 160 162 163 163 163 164 165 165 165 165 165 166 166 166 167 168168 169 170 170 171 172 172 172 172 173 174 175 175 175 178 179 180 181 181 183183 183 185 185 186 186 186 190 190 192 194 194 198 201 204

Wir möchten wissen, welche Körpergröße von 90% der Studierenden nichtüberschritten wird. Wir haben 55 Beobachtungen; damit ergibt sich für die Position desgesuchten Wertes in dem geordneten Datensatz folgender Wert:

.

Die Körpergröße, die an der 50ten Position in dem geordneten Datensatz steht, ist 192cm, dies ist der Wert, der von 90% der Studierenden nicht überschritten wird.

Formulieren wir diese Zusammenhänge formal:

Definition: p-QuantilFür jeden Anteil mit ist das p-Quantil des Datensatzes

der kleinste x-Wert, für den gilt, formal: falls

und . Wir sprechen auch vom p-Quantil der empirischen

Verteilungsfunktion. Das p-Quantil eines Datensatzes ist der Wert eines

geordneten Datensatzes , wenn k bestimmt wird aus .

: Flashanimation ' Animation Quantile ' siehe Online-Version

Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

Die Funktion qemp setzt das Konzept eines Quantils (Prozentpunkt) im Labor um.

- Aufruf im Labor: qemp()- Demonstrationsseite im Labor: Quantile der Empirischen Verteilung ( c0c.spf )

Hinweise

- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 8

Rangwertreihe, diskreten oder kontinuierlichen Häufigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Soll der Wert des Quantils für den Anteil p (das p-Quantil) berechnet werden, dannerreicht man dies im R-Kalkulator des Labors durch den Aufruf: qemp(p,x)- Quartile und Dezile werden durch entsprechende Setzungen von p ermittelt.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.

Steckbrief/Kurzbeschreibung

Steckbrief der Funktion: qemp() ( : c20.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt

Spezielle Quantile

Einige Quantile, die so genannten speziellen Quantile, tragen besondere Namen.

Unter dem Begriff Quartile werden zusammengefasst.

wird dabei als unteres Quartil und als oberes Quartil bezeichnet. Das mittlere

Quartil wird im Allgemeinen als Median bezeichnet.

Durch diese Quartile wird ein Datensatz in vier etwa gleich große Teile unterteilt, d.h.in jedem Teil liegen etwa 25% der betrachteten Daten.

Die Quantile werden als Dezile bezeichnet. Die Quantile

werden auch Perzentile genannt.

Bei der Europameisterschaft 2000 in Holland und Belgien fanden 31 Spiele statt. ImFolgenden finden Sie eine Urliste der Anzahl der Tore je Spiel:

2 5 1 1 5 3 3 3 2 0 2 3 1 6 3 1

7 0 3 1 3 3 2 5 2 2 7 3 3 0 3

a) Bestimmen und zeichnen Sie die empirische Verteilungsfunktion aus dem geordnetenDatensatz.

b) Wie groß ist der Anteil der Spiele, in denen höchstens zwei Tore geschossen wurden?

c) Wie groß ist der Anteil der Spiele, in denen mehr als ein Tor, aber weniger als fünfTore geschossen wurden?

d) Berechnen Sie die Dezile aus dem vorliegenden Datensatz.

e) Interpretieren Sie Ihre Ergebnisse.

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 9

Median und Angeln

Die Extremwerte zeigen, zwischen welchen beiden Werten sich die beobachtetenMerkmalswerte bewegen, zwischen und. Jedoch können keine Aussagen darübergetroffen werden, wie sich die Daten im Einzelnen in diesem Bereich verteilen.

Betrachten wir das Beispiel des Dozenten, der aufgrund eines Fragebogens und derBildung des geordneten Datensatzes des Merkmals "Körpergröße" seiner Studierendenweiß, dass der kleinste Studierende 158cm, der größte 204cm groß ist.

"Liegt der Großteil der Daten denn nun eher in der Nähe des Minimums, desMaximums oder verteilen sie sich gleichmäßig in diesem Bereich?"

Um eine Frage wie diese beantworten zu können, wäre ein Wert nützlich, von dem wirsagen könnten, er teile die Beobachtungen in zwei Teile, so dass die eine Hälfte derDaten unterhalb und die andere oberhalb dieses Wertes liegt. Dieser Wert repräsentiertdie Datenmitte und wird als Median bezeichnet.

Wird jeweils der Median der beiden Datensatzhälften bestimmt, erhalten wir diesogenannte untere und obere Angel. Mit diesen Werten wird der Datensatz in vier Teilegeteilt. Es stellt sich die Frage, inwiefern eine derartige Aufteilung eines Datensatzesfür eine Interpretation nützlich sein kann.

Der Median wird als zentraler Wert des geordneten Datensatzes bezeichnet, da er diesenhalbiert. Das untere Angel ist der Median des Teils mit den kleineren, die obere Angelist der Median des Teils mit den größeren Werten. Ein Datensatz wird folglich in vierTeile geteilt, in denen jeweils 25% der beobachteten Werte liegen.

Betrachten wir in diesem Zusammenhang den folgenden geordneten Datensatz desMerkmals "Körpergröße" von 55 Studierenden, in der der Median und die beidenAngeln markiert sind:

158 160 160 160 160 162 163 163 163 164 165 165 165 165 165 166 166 166 167 168168 169 170 170 171 172 172 172 172 173 174 175 175 175 178 179 180 181 181 183183 183 185 185 186 186 186 190 190 192 194 194 198 201 204

50% der Studierenden sind kleiner als 172cm, die restlichen 50% der Studierenden sindgrößer als 172cm - diese Aussage können wir mit Hilfe des Medians treffen. Das untereQuartil ist gleich 165. Damit sind 25% der Studierenden kleiner als 165cm, da dasuntere Quartil der Median der unteren Datenhälfte ist. Das obere Quartil mit dem Wert185 kann folglich dahingehend interpretiert werden, dass 75% der Studierenden kleinersind als 185cm.

Definition: Median, AngelnGegeben sei der geordnete Datensatz . Der Median ergibt sich aus:

Zur Bestimmung der Angeln wird die obige Definition auf die beiden Teile angewendet.

Der nachstehend vereinbarte Sprachgebrauch erfordert streng genommen jeweils eineungerade Anzahl von Daten.

Mit einem "cum grano salis" wollen wir unsere Vereinbarung absegnen.

unteres Angeln

oberes Angeln

(vgl. hierzu Abschnitt Spezielle Quantile )

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 10

Im Rahmen der Fallstudie wird diese Thematik mit Hilfe eines ausführlicherenDatensatzes des Merkmals "Körpergröße der Studierenden" aufgegriffen. Dort könnendie hier beschriebenen Schritte selbständig nachvollzogen werden.

Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

Beispiel: Mathematikprüfung - Berechnung von Quartilen

Problemstellung

Die Studierenden des ersten Semesters haben bereits ein erstes Instrument derstatistischen Datenanalyse auf die von ihnen erhobenen Daten angewendet. Sie wollenwissen, ob sie den Gerüchten an der Universität Glauben schenken dürfen und dieMathematikprüfung tatsächlich schwer zu bestehen ist. Aus diesem Grund haben sie 20ältere Kommilitonen nach deren Punktzahl in der besagten Klausur befragt. Sie wollennun genauere Aussagen über den Ausgang der Klausur treffen.

Lösungsweg

Die Studierenden wollen aus dem geordneten Datensatz die entsprechenden Quartileberechnen:

30 35 37 40 40 49 51 54 54 55

57 58 60 60 62 62 65 67 74 89

Sie berechnen in einem nächsten Schritt den Median, der den geordneten Datensatz inzwei gleich große Teile teilt, sowie das untere und obere Quartil.

Antwort

Anhand des geordneten Datensatzes können die Studierenden erkennen, dass dieniedrigste Punktzahl in der interessierenden Mathematikprüfung gleich 30 Punkte unddie höchste Punktzahl gleich 89 Punkte ist.

50% der Studierenden haben in der interessierenden Prüfung mindestens 56 Punkteerreicht. Gehen wir nun davon aus, dass eine Prüfung als bestanden gilt, wennmindestens 50% der möglichen Punktzahl, in unserem Fall also mindestens 50 Punkte,erreicht wurden, so bedeutet dies, dass mehr als die Hälfte der befragten Studierendendie Prüfung bestanden haben. Zu diesem Ergebnis gelangen wir durch die Betrachtungdes Medians - dieser ist gleich 56, d.h. 50% der befragten Studierenden haben mehr als56 Punkte in der Klausur erreicht.

Mit Hilfe der beiden berechneten Quartile erhalten wir genauere Ergebnisse bezüglichdes Ausfalls der Klausur, da diese Werte die durch den Median entstandenen Hälftenweiter unterteilen.

Das untere Quartil ist gleich 44.5 Punkte. Das bedeutet, dass 25% der befragtenStudierenden eine Punktzahl zwischen 30 und 44.5 Punkten und weitere 25% einePunktzahl zwischen 44.5 und 56 Punkten erreicht haben. Dieses Ergebnis kann derartinterpretiert werden, dass der befragten Studierenden die besagte Prüfung eher knappnicht bestanden haben.

Das obere Quartil ist gleich 62 Punkte. Aus diesem Wert lässt sich ablesen, dass einweiteres Viertel der Studierenden die Prüfung deutlich bestanden hat; diese mussten

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 11

demnach nicht um ihre Note fürchten, da sie mehr als 62 der möglichen 100 Punkteerreicht haben.

Bei der Europameisterschaft 2000 im Fußball in Holland und Belgien fanden 31 Spielestatt. Im Folgenden finden Sie eine Urliste der Anzahl der Tore je Spiel:

2 5 1 1 5 3 3 3 2 0 2 3 1 6 3 1

7 0 3 1 3 3 2 5 2 2 7 3 3 0 3

a) Erstellen Sie den geordneten Datensatz der Urliste.

b) Bestimmen Sie den Median, das untere Quartil und das obere Quartil.

c) Interpretieren Sie Ihre Ergebnisse.

Die Funktion Median setzt das Konzept des Medians im Labor um.

- Aufruf im R-Kalkulator des Labors: Median(x)- Demonstrationsseite im Statistiklabor: Median ( d1b.spf )

Hinweise

- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,Rangwertreihe, diskreten oder kontinuierlichen Häufigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.

Aufruf mit Hilfe von R-Standardfunktionen

- Im R-Kalkulator steht auch die Funktion median zur Verfügung. Sie ist nur auf Datenanwendbar, die als Urliste oder Rangwertreihe vorliegen. Der Aufruf ist median(x)

Steckbrief/Kurzbeschreibung

- Steckbrief zur Funktion Median: Median() ( : d33.pdf )

- Eine Beschreibung der Funktion median finden Sie in der "R Reference" (inenglischer Sprache. Die "R Reference" kann im Hauptmenü des Statistiklabors ("Hilfe","R Reference") abgerufen werden.

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt

Fünf-Zahlen-Zusammenfassung und Box-and-Whisker-Plot

Extremwerte, Median, unteres und oberes Quartil geben jeweils bestimmteInformationen über einen Datensatz wieder. Mit Hilfe der Extremwerte kann gezeigtwerden, in welchem Bereich sich die beobachteten Daten verteilen. Der Median und dieQuartile unterteilen diesen Bereich in vier Teile, in denen jeweils 25% der beobachtetenWerte liegen. (vgl. hierzu Abschnitt Quartile )

Um die auf diese Art erhaltenen Informationen sinnvoll interpretieren zu können, wird

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 12

ein Instrument benötigt, welches diese gemeinsam darstellt.

Eine Möglichkeit besteht darin, die ermittelten Werte tabellarisch zusammen zu fassen.Dies geschieht in der Fünf-Zahlen-Zusammenfassung, welche die fünf WerteMaximum, Minimum, unteres Quartil, oberes Quartil und Median enthält.

Die Informationen werden in dem nachstehenden Schema zusammengefasst:

Der folgende Exkurs demonstriert die Umsetzung im Statistiklabor.

Aus einem geordneten Datensatz, welcher die Körpergrößen von 55 Studierendenumfasst, wurden die folgenden Werte ermittelt:

Die Fünf-Zahlen-Zusammenfassung wird in Form eines Box-and-Whisker-Plotsgrafisch dargestellt. Dieser Plot hat den folgenden schematischen Aufbau:

Schematischer Aufbau eines BoxplotsQuelle: Statistik interaktiv

Die errechneten Werte Median und Quartile teilen den Bereich, in dem sich dieBeobachtungswerte verteilen, in vier Abschnitte. In jedem dieser Abschnitte befindensich genau 25% der Daten. Die Box enthält 50% der Beobachtungswerte.

Mit Hilfe des Box-and-Whisker-Plots können wir eine erste Definition einersymmetrischen Datenverteilung geben. Wir wollen von einer symmetrischenDatenverteilung reden, wenn der Box-and-Whisker-Plot (in etwa) spiegelbildlich zumMedian ist.´

Der folgende Exkurs demonstriert die Umsetzung im Statistiklabor.

Betrachten wir den Box-and-Whisker-Plot unseres Beispiels, so lässt sich erkennen,dass dieser Datensatz schief verteilt ist. Die Breite der verschiedenen Abschnitteunterscheiden sich deutlich voneinander; dies zeigt sich vor allem bei einem Vergleichdes unteren Viertels, in welchem sich die 25% der Studierenden mit der geringstenKörpergröße befinden, mit dem oberen Viertel, d.h. mit den 25% der größtenStudierenden.

Boxplot des Merkmals "Körpergröße"Quelle: Eigene Befragung

Folgende Exkurse zeigen die Umsetzung im Statistiklabor:

Five-ValuesBox & Whisker

Die Funktion five.values setzt das Konzept der Fünf-Zahlen-Zusammenfassung imLabor um.

- Aufruf im Statistiklabor: five.values()- Demonstrationsseite im Labor: Five Values ( d95.spf )

Hinweise

- Die Funktion ist nur auf Daten in der Form einer Urliste oder Rangwertreiheansetzbar.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Die Daten werden nachstehend als auf der Variablen x abgelegt angenommen.

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 13

- Die Fünf-Zahlen-Zusammenfassung kann in zwei Formen erstellt werden: DieAuswahl erfolgt über den Parameter tukey (s. Steckbrief).- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.

Steckbrief/Kurzbeschreibung

Der Steckbrief zur Funktion: Five.Values() ( : da9.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt

Die Funktion box.and.whisker setzt das Konzept des Box-And-Whisker-Plots im Laborum.

- Die einfachste Art des Aufrufs im R-Kalkulator des Labors ist: box.and.whisker(x)- Demonstrationsseite im Statistiklabor: Box & Whisker-Plot ( dc2.spf )

Hinweise:

- Die Daten seien auf der Variablen x (x1, x2, x3) abgelegt. Sie können in Form einerUrliste oder Rangwertreihe vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Die Graphik erscheint in dem mit dem R-Kalkulator verbundenen LaborobjektR-Graphik.- * Es besteht auch die Möglichkeit mehrere Datensätze jeweils alsBox-And-Whisker-Plot in einer Graphik zusammenzufassen. Für den Fall derDatensätze x1, x2, x3 leistet dies der Aufruf im R-Kalkulator:box.and.whisker(x1,x2,x3)- Es lassen sich den jeweiligen Box-And-Whisker-Plots auch andere als dieDefaultkennung zu ordnen. Dazu sind die gewünschten Kennungen in einem Vektorzusammenzufassen und dem Aufruf mitzugeben, z.B. für obigen Fall:box.and.whisker(x1,x2,x3,names=c("KenX1","KenX2","KenX3"))- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.

Steckbrief/Kurzbeschreibung

Steckbrief der Funktion Box and Whisker: box.and.whisker() ( : dd8.pdf )

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt

Erweiterte Fünf-Zahlen-Zusammenfassung

Mit Hilfe der Fünf-Zahlen-Zusammenfassung konnten bereits eine Vielzahl vonInformationen aus dem betrachteten Datensatz hergeleitet werden. Diese ist zum einengut geeignet, um erste Aussagen über die Lage der Verteilung zu treffen, d.h. in

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 14

welchem Bereich bewegt sich das Datenmaterial und wo liegt seine Mitte. Zum anderenkonnten wir vor allem an der grafischen Darstellung derFünf-Zahlen-Zusammenfassung erkennen, ob die Verteilung schief oder symmetrischist.

(s. Abschnitt Box-and-Whisker )

Die Fünf-Zahlen-Zusammenfassung wurde nach dem folgenden Schema bestimmt:

Der Bereich zwischen dem Minimum und dem Maximum wird so unterteilt, dass 50%der beobachteten Daten unterhalb und 50% der Daten oberhalb des errechneten Wertesliegen - es wird der Median bestimmt. Im nächsten Schritt werden die beidenentstehenden Hälften erneut halbiert, indem der Median der kleineren Datenhälfte undder Median der oberen Datenhälfte bestimmt wird - es wird das untere und das obereQuartil berechnet. (s. Abschnitt Quartile )

Um diese beiden Werte leichter bestimmen zu können, wird an dieser Stelle der Begriffder "Tiefe eines Datenwertes"eingeführt. Dieser gibt die kürzeste Entfernung einesWertes der Rangwertreihe vom Rand des Datensatzes an und damit die Position desMedians in dem geordneten Datensatz. Die Tiefe des Medians ist gegeben durch:

Das untere und das obere Quartil können ebenfalls mit Hilfe ihrer Tiefe bestimmtwerden:

Hierbei bedeuten die Gauß-Klammern [ ], dass bei der Berechnung der Tiefe nur derganzzahlige Anteil des benötigten Wertes berücksichtigt wird. Ergab sichbeispielsweise bei der Bestimmung der Tiefe des Medians der Wert 3,5, so wird bei derBestimmung der Tiefe der Quartile nur der ganzzahlige Anteil, nämlich 3, in die Formeleingesetzt.

Ist ganzzahlig, so berechnen sich die Quartile wie folgt:

,

Ist nicht ganzzahlig, so gilt:

,

Für die sogenannte Erweiterte - Fünf - Zahlen - Zusammenfassung wird das Schema derFünf - Zahlen- Zusammenfassung um einige Informationen (Namen, Umfang, Tiefe)erweitert. Dabei werden die Abkürzungen M = Median, H = Angeln,E = Extremwerte verwandt. Ist die Tiefe nicht ganzzahlig, so wird ihren ganzzahligenAnteil ein h angehängt.

Zur praktischen Umsetzung der hier vorgestellten Methode im Statistiklabor sei auf demfolgendem Exkurs verwiesen.

Beispiel: Mathematikprüfung - Box-and-Whisker-Plot

Problemstellung

Die Studierenden des ersten Semesters haben sich bereits mit einigen Zahlen zu demProblem ihrer Mathematikprüfung beschäftigt. Sie haben zwanzig ältere Kommilitonennach ihrer Punktzahl in der besagten Prüfung befragt, um zu ermitteln, ob diesetatsächlich so schwer zu bestehen ist, wie die Gerüchte darüber vermuten lassen.Nachdem sie in ihrer Statistik-I-Veranstaltung weitere Methoden zur statistischenAuswertung eines Datensatzes erlernt haben, wenden sie diese auch auf ihr Problem an.

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 15

Lösungsweg

Der Median, das untere und das obere Quartil, sowie die Extremwerte wurden bereitsermittelt. Diese Werte lassen sich nun in der Fünf-Zahlen-Zusammenfassungtabellarisch darstellen.

Die Zusammenstellung der Werte ist in der Tat recht übersichtlich, bringt allerdingskeine weiteren Zusatzinformationen. Aus diesem Grund werden die Werte mit Hilfe desBox-and-Whisker-Plots grafisch dargestellt.

Box-and-Whisker-Plot des Merkmals "Punktzahl Mathematikprüfung"Quelle: R

Antwort

Bei der Betrachtung des Box-and-Whisker-Plots können Aussagen über die Symmetriedes Datensatzes getroffen werden. Der Median und die beiden Quartile teilen denBereich, in dem sich die Beobachtungswerte verteilen, in vier Bereiche. In jedem dieserAbschnitte liegen 25% der Beobachtungswerte.

Der aus den erhobenen Daten erstellte Box-and-Whisker-Plot scheint nicht symmetrischzu sein. So ist der Bereich zwischen Median und oberem Quartil sehr viel kürzer als dieanderen; das bedeutet, dass hier 25% der Werte auf sehr viel engerem Raum liegen, alsin den anderen Abschnitten.

Bei der Europameisterschaft 2000 in Holland und Belgien fanden 31 Spiele statt. ImFolgenden finden Sie eine Urliste der Anzahl der Tore je Spiel:

2 5 1 1 5 3 3 3 2 0 2 3 1 6 3 1

7 0 3 1 3 3 2 5 2 2 7 3 3 0 3

a) Erstellen Sie die Fünf-Zahlen-Zusammenfassung des Datensatzes.

b) Zeichnen Sie den dazugehörigen Box-and-Whisker-Plot.

c) Interpretieren Sie Ihre Ergebnisse.

Boxplot

Der Box-and-Whisker-Plot liefert einen schnellen ersten Überblick über einenDatensatz. Dieser lässt vor allem erste Erkenntnisse über Symmetrie, Variabilität undextreme Werte zu.

Die Aussagekraft dieser grafischen Darstellung lässt allerdings bereits erheblich bei derFrage nach möglichen Ausreißern in dem betrachteten Datensatz nach. Betrachten wirin diesem Zusammenhang den Box-and-Whisker-Plot des Merkmals "Alter" von 55Studierenden:

Box-and-Whisker-Plot des Merkmals "Alter"Quelle: Eigene Befragung

Die Vermutung liegt nahe, dass in diesem Datensatz ein oder auch mehrere Ausreißervorhanden sind, da der Abschnitt der 25% ältesten Studierenden sehr viel länger ist alsdie übrigen. Doch ab welchem Alter kann nun von einem Ausreißer ausgegangenwerden? Diese Frage kann mit Hilfe des Box-and-Whisker-Plots nicht beantwortetwerden.

Beobachtungswerte, die weit rechts vom oberen (unteren) Quartil liegen, kämen für die

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 16

Bezeichnung Ausreißer in Frage. Es gilt aber die Beurteilung "weit" zuoperationalisieren.

Sei die Breite der zentralen Box des Box-and-Whisker-Plots, Quartilsabstand genannt,d.h. , dann können wir in der Entfernung rechts (links) von dem oberen (unteren)Quartil einen "Zaun" konstruieren. Beobachtungen die außerhalb der Zäune liegen, sindverdächtigt, Ausreißer zu sein. Den Faktor f kann man variieren, um den Datensatz zudurchmustern, gewöhnlich setzt man f = 1.5 .

Setzen wir diese Überlegung für unser obiges Beispiel um, so erhalten wir denfolgenden Boxplot:

Boxplot des Merkmals "Alter"Quelle: Eigene Befragung

Von den Quartilen erstreckt sich jeweils eine mit einem senkrechten Strichabgeschlossene Gerade bis zur kleinsten beziehungsweise größten Beobachtunginnerhalb des "normalen" Bereichs zwischen den Zäunen. Die Beobachtungenaußerhalb der Zäune, so wie die Grenzen üblicherweise genannt werden, werdenbesonders kenntlich gemacht:

Extreme Werte erhalten das Zeichen . In unserem Beispiel können alle Werte, diegrößer sind als 27 als Ausreißer identifiziert werden; damit scheint es in diesem Bereichnur einen Ausreißer mit dem Wert 37 zu geben.

Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.

Beispiel: Mathematikprüfung - Boxplot

Problemstellung

Die Studierenden des ersten Semesters haben bereits einen Box-and-Whisker-Ploterstellt, um herauszufinden, wie schwer die von ihnen bereits erwarteteMathematikprüfung nun tatsächlich ist. ( Beispiel Mathe )

In der von ihnen besuchten Statistik-I-Veranstaltung haben sie den Boxplot kennengelernt, mit dessen Hilfe Ausreißer in einem Datensatz erkannt werden können. Diesenwollen sie nun auf ihre Daten anwenden.

Lösungsweg

In dem bereits erstellten Box-and-Whisker-Plot werden die Zäune eingezeichnet. Dieseunterteilen die Bereiche außerhalb der Box jeweils in zwei Abschnitte: dieBeobachtungen, die außerhalb der Zäune liegen, werden besonders kenntlich gemacht,da es sich hierbei um potentielle Ausreißer handelt. Die Zäune werden mit Hilfefolgender Gleichung bestimmt:

Da der Quartilsabstand gleich 17.5 ist und der Wert 1.5 für gewählt wird, ergibt sichdamit für unser Beispiel:

Der Boxplot sieht wie folgt aus:

Boxplot des Merkmals "Punktzahl Mathematikprüfung"Quelle: R

Antwort

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 17

Wie an dem Boxplot zu erkennen ist, liegt nur ein Wert außerhalb der Zäune. Dies istder Wert des Studierenden mit der höchsten Punktzahl in der Mathematikprüfung mit89 Punkten. Es stellt sich die Frage, ob es sich hierbei tatsächlich um einen Ausreißerhandelt, da dieser Punkt nahe an dem oberen Zaun mit dem Wert 88.25 liegt.

Es lässt sich festhalten, dass keine Ausreißer in dem von den Studierenden des erstenSemesters betrachteten Datensatz über die Punktzahl älterer Kommilitonen in derMathematikprüfung vorliegen - keiner der älteren Studierenden hat im Vergleich zu denanderen Prüflingen außerordentlich gut beziehungsweise außerordentlich schlechtabgeschnitten.

Betrachten wir ein letztes Mal die Europameisterschaften 2000 im Fußball in Hollandund Belgien und die Anzahl der in den einzelnen Spielen gefallenen Toren.

2 5 1 1 5 3 3 3 2 0 2 3 1 6 3 1

7 0 3 1 3 3 2 5 2 2 7 3 3 0 3

a) Erstellen Sie den Boxplot zu dem vorliegenden Datensatz.

b) Welche Aussagen können Sie bezüglich möglicher Ausreißer treffen?

Labordatei öffnen ( ebb.zmpf )

Kurz nachdem man sich auch in Australien auf das metrische System festgelegt hatte,ließ der Dozent T. Lewis die Studierenden seines Statistik-Kurses die Breite desHörsaals in Metern schätzen. Sie sollten ihre Angaben in vollen Metern machen. Vonden 44 Teilnehmern kamen die nachstehenden Daten zusammen:

8 13 16 17 14 10 40 16 12 16

17 13 9 13 38 15 12 11 15 35

10 14 17 10 14 17 11 15 27 25

15 11 11 15 22 20 15 10 10 15

18 18 15 10

a) Erstellen Sie den geordneten Datensatz der Daten.

b) Bilden Sie die Fünf-Zahlen-Zusammenfassung und erstellen Sie den dazugehörigenBox-and-Whisker-Plot. Interpretieren Sie Ihr Ergebnis.

c) Bilden Sie aus dem geordneten Datensatz die empirische Verteilungsfunktion undinterpretieren Sie diese.

d) Wie groß ist der Anteil der Studierenden, die mindestens 19 m geschätzt haben?

e) Bestimmen Sie den Anteil der Studierenden, welche die Breite des Hörsaals aufmindestens 10m, aber höchstens auf 32 m geschätzt haben.

d) Erstellen Sie den Boxplot und interpretieren Sie diesen. Sind in dem Datensatzpotentielle Ausreißer vorhanden?

Die zu dieser Übung gehörige Laborseite finden Sie unter dem folgenden Link:Labordatei öffnen ( eda.spf )

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 18

Die Funktion boxplot setzt das Konzept des Boxplots im Labor um.

- Die einfachste Art des Aufrufs im R-Kalkulator des Labors ist: boxplot(x)- Demonstrationsseite im Statistiklabor: Boxplot ( ee9.spf )

Hinweise

- Die Daten seien auf der Variablen x (x1, x2, x3) abgelegt. Sie können in Form einerUrliste oder Rangwertreihe vorliegen.- Die Graphik erscheint in dem mit dem R-Kalkulator verbundenen LaborobjektR-Graphik.- Es besteht aber auch die Möglichkeit mehrere Datensätze jeweils als Boxplots in einerGraphik zusammenzufassen. Für den Fall der Datensätze x1, x2, x3 leistet dies derAufruf im R-Kalkulator: boxplot(x1,x2,x3)- Es lassen sich den jeweiligen Boxplots auch andere als die Defaultkennung zu ordnen.Dazu sind die gewünschten Kennungen in einem Vektor zusammenzufassen und demAufruf mitzugeben, z.B. für obigen Fall:- boxplot(x1,x2,x3,kenn=c("KenX1","KenX2","KenX3"))- Im Labor findet sich im Objekt R-Graphik-Wizard mit dem Angebot "Boxplot" eineeinfache Umsetzung des Konzepts "Boxplot". Hier können Boxplots aus Datensätzeneinfach per Mausklick erzeugt werden.

Weitere Quellen

Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.

Das Ziel einer statistischen Datenanalyse liegt in der sinnvollen Auswahl undAnwendung statistischer Methoden auf einen interessierenden Datensatz und in derzielgerichteten Interpretation der Ergebnisse. Da eine einfache Anwendungausgewählter Methoden unter statistischen Gesichtspunkten nicht ausreicht, besteht dieNotwenigkeit einer Dokumentation des Einsatzes der ausgewählten Instrumente undeiner Dokumentation der Interpretation. Dieses geschieht im Rahmen eines statistischenReports, dessen Erstellung genau diese Zielsetzung verfolgen sollte.

Mit Hilfe eines statistischen Reports werden nun zwei Merkmale der Fallstudie"Studentendaten" exemplarisch aufbereitet - "Alter" und "Anzahl Bücher". Ziel ist es,zu zeigen, auf welche Art mit den in diesem Lernmodul vermittelten InstrumentenInformationen aus Datensätzen gezogen werden können.

Der zu diesen Merkmalen erstellte Report kann unter dem folgenden Link eingesehenwerden: Reportdatei öffnen ( f18.rtf )

Die dazugehörigen Laborseiten finden Sie unter der folgenden Links:

Labordatei 1 öffnen ( f1d.spf )

Labordatei 2 öffnen ( f20.spf )

Um die in diesem Lernmodul besprochenen Funktionen im Statistiklabor ausprobierenzu können, muss die Bibliothek "Danalyse.R" geladen werden. Sollte sie bei IhrerVersion des Statistiklabors nicht mit installiert worden sein, können sie diese hier laden:

Bibliothek "danalyse.R" ( f2a.r )

Informationen zum Aufbau und der Verwendung der Funktionen:

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 19

Beschreibung der Bibliothek "danalyse.R" ( : f2f.pdf )

AngelnExplanationarithmetischen MittelExplanationAusreißerExplanationBox-and-Whisker-PlotExplanationBoxplotExplanationDatenExplanationDatenanalyseExplanationDatensatzExplanationdeskriptiven StatistikExplanationDezileExplanationempirische VerteilungsfunktionExplanationExtremwerteExplanationFragebogenExplanationFünf-Zahlen-ZusammenfassungExplanationgeometrische MittelExplanationkardinalExplanationLagemaßExplanationLetter Value DisplayExplanationlinksschiefExplanationMaximumExplanationMedianExplanationMerkmalsausprägungExplanationMinimumExplanationmittlere absolute AbweichungExplanationmittlere quadratische AbweichungExplanationModusExplanationnominalExplanationobere AngelExplanationoberes QuartilExplanationordinalExplanationp-QuantilErklärungQuantileErklärungQuartilsabstandErklärungRangwertreiheErklärungrechtsschiefErklärungrelativen HäufigkeitenErklärungSchiefeErklärungSpannweiteErklärungStandardabweichung

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 20

ErklärungStreuungErklärungStreuungsmaßErklärungSymmetrieErklärungTiefeErklärunguntere AngelErklärungunteres QuartilErklärungUrlisteErklärungVarianzErklärung

(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale SystemeKontakt: http://www.neuestatistik.de

(c) Projekt Neue Statistik 2003 - Lernmodul: Datenanalyse aus einer Urliste

Page 21