Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul...
Transcript of Klassierte Daten - FernUniversität in Hagen · Klassierte Daten Worum geht es in diesem Modul...
Klassierte Daten
Worum geht es in diesem ModulKlassierung
Häufigkeitstabelle für klassierte DatenHistogramm
Verteilungsfunktion aus klassierten DatenQuantile aus klassierten Daten
Worum geht es in diesem Modul
In diesem Lernmodul wird die Klassierung von Daten und ihre Zusammenfassung ineiner Häufigkeitstabelle behandelt. Nach der Erklärung ihres Aufbaus wird derengrafische Darstellung in Form eines Histogramms betrachtet. Anschließend wird dieVerteilungsfunktion für klassierte Daten aufgestellt. Mögliche Anwendungsgebietewerden skizziert. Dies geschieht abschließend in Form eines statistischen Reports.
Klassierung
Bei einem Merkmal mit vielen möglichen Ausprägungen ergeben die bisherbetrachteten Häufigkeitstabellen unter Umständen keine anschauliche Darstellung.
(s. ).
Im Rahmen des Mikrozensus, einer amtlichen Repräsentativstatistik über dieBevölkerung und den Arbeitsmarkt, an der jährlich 1% aller Haushalte in Deutschlandbeteiligt sind, wird eine Reihe von Daten erhoben; eine der hier gestellten Fragen ist dienach dem monatlichen Bruttoverdienst des befragten Haushalts. Die Übersichtlichkeitüber dieses Datenmaterial kann nicht durch die Erstellung eines Stabdiagramms erhöhtwerden, da hier eine Vielzahl von unterschiedlichen Ausprägungen vorliegen.
Deshalb wird eine "Transformation" des Datensatzes vorgenommen. Der Wertebereichwird in nicht-überlappende Teilbereiche, so genannte Klassen, eingeteilt. Diese Klassenstellen neue Ausprägungen dar, in welche die beobachteten Merkmalsausprägungeneingeteilt werden. Bei dieser Klassierung geht die Information über den genauen Wertder Ausprägung innerhalb der Klassen verloren.
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 1
Die Klassen werden durchgezählt und mittels eines Index bezeichnet. Bei Klassen
läuft der Index von bis . Jede Klasse hat eine untere (linke) und obere (rechte)
Klassengrenze. Für die i-te Klasse werden sie mit und bezeichnet.
Abgesehen von den Randklassen, ist die obere Klassengrenze der i-ten Klasse gleich derKlassengrenze der unteren Klassengrenze der (i+1)-ten Klasse.
Mit wird jeder Klasse eine Klassenbreite zugeordnet.
Ausprägungen, die genau mit einer Klassengrenze zusammenfallen, sind in die kleinereKlasse einzuordnen. Der Ausprägungsbereich der i-ten Klasse ist damit als
festgelegt.
: Flashanimation ' Animation Klassierung ' siehe Online-Version
Häufigkeitstabelle für klassierte Daten
Bei der Erstellung einer klassierten Häufigkeitstabelle werden nicht die beobachtetenMerkmalsausprägungen und ihre Häufigkeiten, sondern die Häufigkeiten derbeobachteten Klassen betrachtet (s. Abschnitt Klassierung ).
Die Häufigkeit der i-ten Klasse gibt an, wie oft eine Merkmalsausprägung im Datensatzauftritt, die zwischen den Grenzen der i-ten Klasse liegt. Diese Zählung liefert dieabsolute Häufigkeit für die i-te Klasse. Der Umfang des Datensatzes bleibt unverändert.Die relative Häufigkeit für die i-te Klasse wird jeweils durch die Division derzugehörigen absoluten Häufigkeit durch den Umfang des Datensatzes bestimmt.
Klassennummer Auspräg.bereich absolute Häufigkeit relative Häufigkeit
1
2
Die i-te Klasse lässt sich schreiben als oder auch als .
Die absolute Häufigkeit der i-ten Klasse wird als
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 2
,
die entsprechende relative Häufigkeit als
angegeben.
Für das Beispiel werden 100 Haushalte nach ihrem monatlichen Bruttoverdienst befragt.Die erhobenen Daten werden in einer klassierten Häufigkeitstabelle dargestellt:
1 0 500 9 0.09
2 500 1000 13 0.13
3 1000 1500 32 0.32
4 1500 2000 41 0.41
5 2000 3000 3 0.03
6 3000 5000 2 0.02
Wir sehen, dass der Großteil der Bruttoverdienste in dem mittleren Einkommensbereichliegt, die wenigsten zu den Spitzenverdienern zählen. Da die "wahren" Einkommen inden Klassen verschwinden, ist nicht mehr klar, wie viel genau die beidenSpitzenverdiener tatsächlich verdienen.
Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.
Beispiel: Körpergewicht - Erstellung einer klassierten Häufigkeitstabelle
Problemstellung
Im Rahmen des Fragebogens, den die Studierenden des ersten Semesters in der
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 3
Veranstaltung Statistik-I ausfüllen sollten, wurde neben vielen weiteren Merkmalenauch das Körpergewicht der dort Anwesenden erhoben.
Dabei ergab sich folgende Urliste der 20 Studierenden:
79 73 70 71 80 70 68 66 80 80
74 80 70 76 75 84 83 73 76 69
Der Dozent dieser Veranstaltung möchte nun diese Urliste genauer untersuchen, umAussagen über die Verteilung des Körpergewichts treffen zu können
Lösungsweg
Die Lösung besteht darin, die Daten zu klassieren. Der Dozent entschließt sich für diefolgenden 4 Klassen:
1.Klasse: von über 65 bis 702.Klasse: von über 70 bis 753.Klasse: von über 75 bis 804.Klasse: von über 80 bis 85
Aus dem vorliegenden Datensatz erstellt er hiernach die folgende Häufigkeitstabelle:
1 65 70 6 0.3
2 70 75 5 0.25
3 75 80 7 0.35
4 80 85 2 0.1
Antwort
Nach dieser klassierten Häufigkeitstabelle wiegen die meisten Studierenden derStatistik-I-Veranstaltung zwischen 75 und 80 kg; diese machen einen Anteil von 35%an den befragten Studierenden aus. Die wenigsten Studierenden befinden sich in dervierten Klasse der Häufigkeitstabelle - nur 10% haben ein Gewicht zwischen 80 und 85kg.
Um weitergehende Aussagen treffen zu können, scheint unser Dozent eine anderestatistische Methode anwenden zu müssen, welche diesen Sachverhalt deutlicherdarstellt.
Um detailliertere Informationen zu erhalten, wählt der Dozent eine kleinere
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 4
Klassenbreite:
1 65 68 2 0.1
2 68 71 5 0.25
3 71 74 3 0.15
4 74 77 3 0.15
5 77 80 5 0.25
6 80 83 1 0.05
7 83 86 1 0.05
Antwort
Die zweite Tabelle lässt sich schwerer interpretieren, da hier 7 und nicht 4 Klassengebildet wurden. In der zweiten und in der fünften Klasse liegen die meisten Werte.Jeweils 25% der Studierenden wiegen zwischen 68 und 71 kg beziehungsweisezwischen 77 und 80 kg. Die wenigsten Werte können in den letzten beiden Klassenbeobachtet werden - dort liegt jeweils nur ein Beobachtungswert.
Die relativen Häufigkeiten in den einzelnen Klassen lassen, wie bereits in der erstenklassierten Häufigkeitstabelle, eher auf eine schiefe Verteilung des Datensatzesschließen.
Zu Beginn des Wintersemesters ist es für jeden unterkunftssuchenden Studierenden eineSelbstverständlichkeit, in den Anzeigenteil der hiesigen Tageszeitung zu blicken. In derletzten Ausgabe der Zeitung erschienen 20 Anzeigen für in Frage kommendeWohnungen, bei denen die Warmmiete angegeben wurde:
690 370 490 580 650 460 460 479 580 490
660 560 500 383 580 400 650 580 522 469
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 5
a) Erstellen Sie die Häufigkeitstabelle. Wählen Sie dabei eine Klassenbreite von 70 undbilden Sie 5 Klassen, wobei die erste bei 350 beginnt.
b) Verkleinern Sie nun die Klassenbreite auf 50 und erstellen Sie erneut eineHäufigkeitstabelle.
c) Interpretieren Sie Ihre Ergebnisse.
Die Funktion KontHaeuf setzt das Konzept der Häufigkeitstabelle für klassierte Datenim Labor um.
- Aufruf im Statistiklabor: KontHaeuf(x)- Demoseite im Statistiklabor: Häufigkeitstabelle für klassierte Daten ( d14.spf )
Hinweise
- Die Funktion ist nur auf Daten x in der Form einer Urliste oder Rangwertreiheansetzbar.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Das Objekt Häufigkeitstabelle hat Matrixform mit den 4 Spalten:Klassenuntergrenzen, Klassenobergrenzen, absolute Häufigkeiten und relativeHäufigkeiten.- Mit Aufrufen wie beispielsweise xh <- KontHaeuf(x) wird die Häufigkeitstabelle aufder Variablen xh zur weiteren Verarbeitung in Funktionen wie beispielsweiseMittelwert, Histogramm etc. abgelegt.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Im Labor findet sich im Objekt Häufigkeitstabelle" eine einfache Umsetzung desKonzepts "Häufigkeitstabelle für klassierte Daten".
Für die Gestaltung der Klasseneinteilung stehen dem Benutzer vier Möglichkeiten zurVerfügung.
1. Vorgabe der Klassenanzahl m KontHaeuf(x,N=m)2. Vorgabe der Klassenbreite s KontHaeuf(x,S=s)3. Vorgabe von Klassengrenzen xg KontHaeuf(x,B=xg)4. R entscheidet (Defaultsetzung) KontHaeuf(x)
Steckbrief/Kurzbeschreibung
Steckbrief der Funktion KontHaeuf: KontHaeuf() ( : d2e.pdf )
Weitere Quellen
Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.
Histogramm
Das Stabdiagramm hat sich bei unklassierten Daten als ein geeignetes Werkzeugerwiesen, den Inhalt einer Häufigkeitstabelle darzustellen. Da in der Häufigkeitstabellefür klassierte Daten der Ausprägungsbereich an Stelle der Ausprägungen getreten ist
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 6
und in der Klassenbreite eine zusätzliche Information verankert ist, wird eine geeignetegrafische Darstellung benötigt.
Statt die Häufigkeit (absolute, relative) wie bisher der Länge des Stabes zuzuordnen,werden die Häufigkeiten als Fläche dargestellt. Dabei wird über jeder Klasse, d.h. überjedem Intervall , ein Rechteck mit einer zur Häufigkeit proportionalen
Fläche aufgetragen. Die Breite des Rechtecks ist die Klassenbreite , die Höhe ergibt
sich aus der Häufigkeit dividiert durch die dazugehörige Klassenbreite . Diese wird
als Häufigkeitsdichte bezeichnet, welche wie folgt definiert ist:
Wird gesetzt, so ergibt sich die folgende erweiterte
Häufigkeitstabelle:
1
Gehen wir auf das Beispiel bezüglich des monatlichen Bruttoverdienstes in Euro ein, soerweitern wir die klassierte Häufigkeitstabelle zunächst um die Spalte derHäufigkeitsdichte (s. Abschnitt Häufigkeitstabelle ):
1 0 500 9 0.09 500 0.00018
2500
100013 0.13 500 0.0002
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 7
31000
150032 0.32 500 0.00064
41500
200041 0.41 500 0.00082
52000
30003 0.03 1000 0.00003
63000
50002 0.02 2000 0.00001
Das dazugehörige Histogramm ergibt sich, indem auf der Merkmalsachse (x-Achse) dieKlassengrenzen markiert, auf der Ordinate (y-Achse) aufgetragen wird, d.h.
es entsteht über jeder Klasse ein Rechteck mit der Höhe .
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 8
Histogramm des Merkmals "Monatlicher Bruttoverdienst in Euro"Quelle: Eigener Datensatz
Anhand dieser grafischen Darstellung wird deutlich, dass der Großteil der befragtenHaushalte einen monatlichen Bruttoverdienst zwischen 1000 und 2000 Euro zurVerfügung hat, während der Anteil der Spitzenverdiener sehr gering ist.
: Flashanimation ' Animation Histogramm ' siehe Online-Version
Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.
Beispiel: Körpergewicht - Erstellung eines Histogramms
Problemstellung
Im Rahmen der Datenerhebung wurde in einer Veranstaltung neben einer Vielzahl vonMerkmalen auch das Gewicht der Studierenden erfragt. Die daraus resultierende Urlistekann unter dem folgenden Link eingesehen werden: Teil 1 des Beispiels
Es wurde bereits eine klassierte Häufigkeitstabelle des Datensatzes erstellt undinterpretiert. Da eine grafische Darstellung vorgezogen wird, besteht die Aufgabe darin,
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 9
die zu den klassierten Häufigkeitstabellen gehörigen Histogramme zu erstellen.
Lösungsweg
In einem ersten Schritt werden die beiden bereits erstellten klassiertenHäufigkeitstabellen um die Spalte der Häufigkeitsdichte erweitert:
1 65 70 6 0.3 5 0.06
2 70 75 5 0.25 5 0.05
3 75 80 7 0.35 5 0.07
4 80 85 2 0,1 5 0,02
1 65 68 2 0.1 3 0.033
2 68 71 5 0.25 3 0.083
3 71 74 3 0.15 3 0.05
4 74 77 3 0.15 3 0.05
5 77 80 5 0.25 3 0.083
6 80 83 1 0.05 3 0.017
7 83 86 1 0.05 3 0.017
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 10
In einem nächsten Schritt können die grafischen Darstellungen dieser erstellt werden:
Histogramm des Merkmals "Gewicht" mit der Klassenbreite 5Quelle: Eigene Befragung
Histogramm des Merkmals "Gewicht" mit der Klassenbreite 3
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 11
Quelle: Eigene Befragung
Antwort
Aufgrund der beiden Histogramme kann die Annahme bestätigt werden, dass es sich beidiesem Datensatz nicht um eine symmetrische Verteilung handelt.
Das erste Histogramm, welches aus vier Klassen besteht, zeigt deutlich eine schiefeVerteilung, welche zwei "Hochpunkte" besitzt; in der zweiten und in der vierten Klassebefinden sich die meisten Beobachtungswerte. Man spricht von einem bimodalenHistogramm. Eine mögliche Erklärung hierfür könnte sein, dass zwei Gruppen, d.h.Männer und Frauen, gleichzeitig betrachtet werden. Da Frauen im Allgemeinen leichtersind als Männer, kann hier ein bimodales Histogramm entstehen. Dies müsste jedochgenauer überprüft werden, da dieses auch durchaus andere Gründe haben kann.
Auch das zweite Histogramm zeigt deutlich eine Bimodalität; die zweite und die fünfteKlasse ragen deutlich hervor. Damit drängt sich auch hier die Erklärung dergleichzeitigen Betrachtung zweier Gruppen auf, von der die eine im Allgemeinenweniger wiegt als die andere. Doch die Aussage kann auch in diesem Fall nicht ohneeine genauere Überprüfung des Sachverhaltes getroffen werden. Ansonsten zeigt diesesHistogramm, dass die meisten der Studierenden ein Gewicht zwischen 68 und 80 kghaben. Zu den Rändern fällt die Häufigkeitsverteilung deutlich ab.
Bei Ihrer Suche nach einer passenden Wohnung durchsuchen Sie den Anzeigenteil derTageszeitung und finden dabei 20 Anzeigen von in Frage kommenden Wohnungen, beidenen die Warmmiete angegeben wurde. Diese wollen wir erneut betrachten ( Teil 1 derAufgabe ).
a) Zeichnen und interpretieren Sie das Histogramm zu der Häufigkeitstabelle mit derKlassenbreite von 70.
b) Zeichnen und interpretieren Sie das Histogramm zu der Häufigkeitstabelle mit derKlassenbreite von 50.
c) Welche Unterschiede lassen sich zwischen diesen beiden Histogrammen erkennen?Welches dieser beiden halten Sie für eine Darstellung des Wohnungsmarktes fürsinnvoller?
Die Funktion Histogramm setzt das Konzept des Histogramms im Labor um.
- Aufruf im R-Kalkulator des Labors: Histogramm(x)- Demoseite im Statistiklabor: Histogramm ( I10ed.spf )
Hinweise
- Sie ist nur auf Daten x in der Form einer kontinuierlichen Häufigkeitstabelleansetzbar.- Die Graphik erscheint in dem mit dem R-Kalkulator1 verbundenen LaborobjektR-Graphik.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Im Labor findet sich im Objekt R-Graphik-Wizard mit dem Angebot "Histogramm"eine eingeschränkte Umsetzung des Konzepts "Histogramm". Damit können alternativzum Aufruf in R schnell Histogramme gezeichnet werden.
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 12
Steckbrief/Kurzbeschreibung
Steckbrief zur Funktion Histogramm: Histogramm() ( : I10ff.pdf )
Weitere Quellen
Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.
Verteilungsfunktion aus klassierten Daten
Um das Konzept der Verteilungsfunktion auf den Fall klassierter Daten zu übertragen,gehen wir von der nachstehenden Definition aus:Formal ist die Verteilungsfunktion definiert als als
Anteil der Beobachtungen, die kleiner oder gleich sind.
Fällt mit einer Klassengrenze zusammen, so gibt es keine Probleme bei derBerechnung von .
Betrachten wir die i-te Klasse. Setzen wir , dann ist die Summe
aller relativen Häufigkeiten der Klasse bis . Für tritt zu
diesem Wert die relative Häufigkeit hinzu.
Ein Problem besteht für Werte von zwischen den Klassengrenzen und .
Der gesuchte Wert liegt zwischen und , schreiben wir die
als .
Zur Bestimmung von r gehen wir davon aus, dass die Werte innerhalb einer Klassegleichmäßig verteilt sind; dann ist der Beitrag des Stücks zur relativen
Häufigkeit der i-ten Klasse proportional zu seinem Anteil an der Klassenbreite.
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 13
Skizze eines SteigungsdreiecksQuelle: eigene Darstellung
Formelmäßig heißt das
woraus folgt: .
Da weiterhin gilt , kann für die Verteilungsfunktion die folgende Formel
aufgestellt werden:
Empirische Verteilungsfunktion
wobei die Nummer der Klasse ist, in die fällt.
Die praktische Umsetzung im Statistiklabor zeigt der folgende Exkurs .
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 14
Setzen wir diese Überlegungen für ein Zahlenbeispiel um:
Betrachten wir die Häufigkeitstabelle des Merkmals "Monatlicher Bruttoverdienst inEuro", so erhalten wir folgende empirische Verteilungsfunktion:
Empirische Verteilungsfunktion des Merkmals "Monatlicher Bruttoverdienst in Euro"Quelle: Eigener Datensatz
Zur grafischen Darstellung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.
Beispiel: Körpergewicht - Erstellung einer empirischen Verteilungsfunktion
(Problemstellung)
Problemstellung
Im Rahmen einer Datenerhebung wurde in einer Veranstaltung neben einer Vielzahlvon Merkmalen auch nach dem Gewicht der Studierenden gefragt. Die darausresultierende Urliste kann unter dem folgenden Link eingesehen werden: Teil 1 desBeispiels
Nachdem der Dozent die klassierte Häufigkeitstabelle und das dazugehörigeHistogramm zu jeweils zwei unterschiedlichen Klassenbreiten erstellt und interpretiert
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 15
hat, möchte er Aussagen bezüglich Anteile treffen können ( Teil 2 des Beispiels ).
Lösungsweg
Um Anteile bestimmen zu können, bietet sich die Berechnung der empirischenVerteilungsfunktion an.
Da bei diesem Datensatz eine Klassierung der Merkmalsausprägungen vorgenommenwurde, können die konkreten Werte der Verteilungsfunktion nur an den Klassengrenzenbestimmt werden. Um diese Werte wird die klassierte Häufigkeitstabelle erweitert:
165
703 0.15 5 0.03 0.15
270
757 0.35 5 0.07 0.5
375
804 0.2 5 0.04 0.7
480
856 0.3 5 0.06 1
Die Häufigkeitstabelle zur Klassenbreite 3 ist die Folgende:
165
682 0.1 3 0.033 0.1
2668
71 5 0.25 3 0.083 0.35
371
743 0.15 3 0.05 0.5
474
773 0.15 3 0.05 0.65
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 16
577
805 0.25 3 0.083 0.9
680
831 0.05 3 0.017 0.95
783
861 0.05 3 0.017 1
Die beiden Verteilungsfunktionen sehen demnach wie folgt aus:
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 17
Empirische Verteilungsfunktion des Merkmals "Gewicht" mit der Klassenbreite 5Quelle: Eigene Befragung
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 18
Empirische Verteilungsfunktion des Merkmals "Gewicht" mit der Klassenbreite 3Quelle: Eigene Befragung
Beispiel: Antwort
Der Vergleich der beiden Verteilungsfunktionen zeigt deren Unterschiede auf:
Die zweite Verteilungsfunktion steigt vor allem im mittleren Bereich schneller an, d.h.in dem gesamten Beobachtungsraum der erhobenen Daten befinden sich demnach hierdie meisten Beobachtungen. Wie wir schon bei der Betrachtung des dazugehörigenHistogramms festgestellt haben, wiegen die meisten der befragten Studierendenzwischen 68 und 80 kg.
Die erste Verteilungsfunktion zeigt keine so deutliche Gruppierung in dem mittlerenBereich auf. Der gleichmäßige Anstieg der Funktion konnte bereits aufgrund derrelativen Häufigkeiten der einzelnen Klassen vermutet werden; diese liegen relativ dichtbeieinander, so dass eine Aufsummierung dieser auch einen relativ gleichmäßigenFunktionsverlauf ergeben muss.
Nehmen wir an, der Dozent wiegt 72 kg. Aus diesem Grund möchte er wissen, wie großder Anteil der Studierenden ist, die höchstens 72 kg wiegen.
Zunächst berechnet er diesen Anteil aus der ersten klassierten Häufigkeitstabelle:
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 19
29% der befragten Studierenden in der Veranstaltung Statistik-I wiegen höchstens soviel wie ihr Dozent, nämlich 72 kg.
Nun berechnet er den selben Anteil mit den Werten aus der zweiten klassiertenHäufigkeitstabelle und stellt fest, dass dieses Ergebnis deutlich höher ist:
Damit stellt sich die Frage, welches Ergebnis das genauere ist. Da in der zweitenDarstellung mit der kleineren Klassenbreite der Informationsverlust geringer ist, geradeweil die Klassen schmaler gewählt wurden, ist anzunehmen, dass der Wert der zweitenBerechnung des gesuchten Anteils genauer ist. Allerdings soll diese Einschätzung nichtbedeuten, dass der Grundsatz gilt: "Je schmaler, desto besser."
Bei Ihrer Suche nach einer passenden Wohnung durchsuchen Sie den Anzeigenteil derTageszeitung und finden dabei 20 Anzeigen von in Frage kommenden Wohnungen, beidenen die Warmmiete angegeben wurde. Diese wollen wir an dieser Stelle erneutbetrachten: Teil 1 der Aufgabe
a) Zeichnen und interpretieren Sie die empirische Verteilungsfunktion zu derKlassenbreite 70.
b) Zeichnen und interpretieren Sie die empirische Verteilungsfunktion zu derKlassenbreite 50. Zeigen Sie die Unterschiede zwischen den beiden Funktionen auf.
c) Bestimmen Sie zu beiden Fällen .
Die Funktion DiskHaeuf setzt das Konzept der Häufigkeitstabelle für nichtklassierteDaten im Labor um.
- Aufruf im Statistiklabor: DiskHaeuf(x)- Demonstrationsseite im Statistiklabor: Häufigkeitstabelle (nichtklassierte Daten) (I13e0.spf )
Hinweise:
- Sie ist nur auf Daten x in der Form einer Urliste oder Rangwertreihe ansetzbar.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Das Objekt Häufigkeitstabelle hat Matrixform mit den 3 Spalten Ausprägungen,absolute Häufigkeiten und relative Häufigkeiten.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Mit xh <- DiskHaeuf(x) wird die Häufigkeitstabelle auf der Variablen xh zur weiterenVerarbeitung in Funktionen wie beispielsweise Mittelwert, Stabdiagramm etc. abgelegt.- Im Labor findet sich im Objekt "Häufigkeitstabelle" eine eingeschränkte Umsetzung
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 20
des Konzepts "Häufigkeitstabelle für diskrete Daten".
Steckbrief/Kurzbeschreibung
Ein Steckbrief der Funktion: Häufigkeitstabelle (nichtklassierte Daten) ( :
I13f6.pdf )
Weitere Quellen
Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.
Die Funktion EmpVert setzt das Konzept Graph einer empirischen Verteilungsfunktionim Labor um.
- Aufruf im R-Kalkulator des Labors: EmpVert(x)- Demonstrationsseite 1 im Labor: Grafik(1) der empirischen Verteilung ( I140d.spf )- Demonstrationsseite 2 im Labor: Grafik(2) der empirischen Verteilung ( I1410.spf )
Hinweise
- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,Rangwertreihe, diskreten oder kontinuierlichen Häufigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Die Graphik erscheint in dem mit dem R-Kalkulator verbundenen LaborobjektR-Graphik.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.- Im Labor findet sich im Objekt R-Graphik-Wizard mit dem Angebot "EmpirischeVerteilungsfunktion" eine einfache Umsetzung des Konzepts "EmpirischeVerteilungsfunktion".
Steckbrief/Kurzbeschreibung
Steckbrief der Funktion EmpVert: EmpVert() ( : I1424.pdf )
Weitere Quellen
Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.
Quantile aus klassierten Daten
Die Idee der Quantile aus klassierten Daten ist analog zu der bei unklassierten Daten. (s.)
Die Frage nach einem Quantil, d.h. "Welcher Wert wird von einem bestimmten Anteilnicht überschritten?" ist gerade die Umkehrung der Frage, die zur Verteilungsfunktionführt, d.h. "Welcher Anteil wird von einem bestimmten Wert nicht überschritten?"
Da die Verteilungsfunktion bei klassierten Daten streng monoton ist, ist diesesInversionsproblem leicht zu lösen.
Die Verteilungsfunktion im klassierten Fall wird über folgende Formel bestimmt:
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 21
Die Lösung des Problems liegt nun darin, die Inverse der Verteilungsfunktionaufzustellen. Sei der (gegebene) Anteil, dann bestimmt sich das zugehörige Quantil
durch
,
dabei ist die Klasse für die gilt
.
Zur praktischen Umsetzung der hier vorgestellten statistischen Methoden imStatistiklabor sei auf den folgenden Exkurs verwiesen.
Die bisher sehr theoretischen Ausführungen werden nun mit Hilfe eines Beispiels nähererläutert:
Betrachten wir die folgende Häufigkeitstabelle
1 0 500 9 0.09 0.09
2 500 1000 13 0.13 0.22
31000
150032 0.32 0.54
41500
200041 0.41 0.95
52000
30003 0.03 0.98
63000
50002 0.02 1.00
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 22
(s. Abschnitt Histogramm )
Es wurden 100 Haushalte nach ihrem monatlichen Bruttoverdienst befragt. Wir wollenwissen, welcher Verdienst von 80% der Haushalte nicht überschritten wird, d.h. gesuchtist das Quantil . Der erste Schritt besteht darin, die Klasse zu suchen, in welche
dieses 0.8 - Quantil fällt; in unserem Fall ist das die 4. Klasse. Nun können wir alleerforderlichen Werte in die entsprechende Formel einsetzen:
Das heißt, 80% der befragten Haushalte haben einen monatlichen Bruttoverdienst vonnicht mehr als 1817.07 Euro.
Eine Firma XY stellt Glühbirnen her. Um deren Brenndauer besser einschätzen zukönnen, wird eine Stichprobe aus der täglichen Produktion gezogen, die Brenndauerdieser Glühbirnen beobachtet und die Ergebnisse in der folgenden Häufigkeitstabellezusammen gefasst:
(Das Merkmal X gibt die Brenndauer der Glühbirne in Stunden an)
1 0 4000 12
2 4000 6000 28
3 6000 7000 44
4 7000 8000 68
5 8000 9000 30
6 9000 10000 18
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 23
a) Erweitern Sie die Häufigkeitstabelle um die relativen Häufigkeiten, die kumuliertenrelativen Häufigkeiten und die Häufigkeitsdichte.
b) Erstellen Sie das dazugehörige Histogramm und interpretieren Sie dieses.
c) Zeichnen Sie die empirische Verteilungsfunktion und interpretieren Sie diese.
d) Bestimmen Sie den Anteil der Glühbirnen, die höchstens 7900 Stunden gebrannthaben.
e) Bestimmen Sie den Anteil der Glühbirnen, die mindestens 6800 Stunden aberhöchstens 8000 Stunden gebrannt haben.
f) Wie würde sich das Histogramm verändern, wenn bei gleich bleibenden Häufigkeitendie Obergrenze der fünften Klasse 10000 Stunden und die Grenzen der sechsten Klasse10000 und 12000 Stunden betragen hätte? Erklären Sie hieran den Begriff derHäufigkeitsdichte.
Die zu dieser Übung gehörige Laborseite finden Sie unter dem folgenden Link:
Labordatei öffnen ( I1602.spf )
Die Funktion qemp setzt das Konzept eines Quantils (Prozentpunkt) im Labor um.
- Aufruf im Labor: qemp()- Demonstrationsseite im Labor: Quantile der Empirischen Verteilung ( I1611.spf )
Hinweise
- Die Daten seien auf der Variablen x abgelegt. Sie können in Form einer Urliste,Rangwertreihe, diskreten oder kontinuierlichen Häufigkeitstabelle vorliegen.- NA`s sind in Urlisten zugelassen, sie werden bei der jeweiligen Verarbeitung nichtberücksichtigt.- Soll der Wert des Quantils für den Anteil p (das p-Quantil) berechnet werden, dannerreicht man dies im R-Kalkulator des Labors durch den Aufruf: qemp(p,x)- Quartile und Dezile werden durch entsprechende Setzungen von p ermittelt.- Als Funktion aus der Bibliothek danalyse.r arbeitet sie defaultmäßig im Silent-Modus.Durch Setzen des Parameters SIL=F im Aufruf, gibt die Funktion Informationen überihr Arbeiten.
Steckbrief/Kurzbeschreibung
Steckbrief der Funktion: qemp() ( : I1625.pdf )
Weitere Quellen
Im Anhang sind die für das Labor benötigte Bibliothek "danalyse.R" und eineBeschreibung der Bibliothek abgelegt.
Die Methoden der statistischen Datenanalyse sollen die Möglichkeit geben, aus eineminteressierenden Datensatzes benötigte Informationen zur Beschreibung undInterpretation desselben zu gewinnen. Eine Anwendung der Methoden ist allerdingsnicht ausreichend, um statistisch sinnvoll zu arbeiten. Vielmehr müssen die Auswahlder Methoden, die einzelnen Arbeitsschritte und die abschließende Interpretation derErgebnisse dokumentiert werden. Eine derartige Dokumentation wird im Rahmen einesstatistischen Reports verfasst.
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 24
Wir wollen abschließend einen solchen Report über einen exemplarischen Datensatzerstellen und aufzeigen, wie die beschriebenen statischen Methoden zur Datenanalyseaus einer Häufigkeitstabelle mit Klassierung sinnvoll angewandt und deren Ergebnisseinterpretiert werden können.
Der Datensatz, der diesem Report zugrunde gelegt wird, ist der "Videofallstudie"entnommen worden.
In einem Wohnviertel werden Lärmmessungen vorgenommen, um mit den derarterhaltenen Daten gegen die dort herrschende Lärmbelästigung vorgehen zu können.
Es wird eine Woche lang jeden Tag von acht Uhr morgens bis acht Uhr abends alle 5Sekunden eine Messung vorgenommen. Auf diese Art entsteht eine kaum zubewältigende Datenmasse. Auch der Versuch, diese zu reduzieren, indem ein Rastereingefügt wird, welches für die Messergebnisse einer Stunde den Mittelwert bildet,kann das Datenmaterial nicht so zusammenfassen, als das es übersichtlich erscheint. DieTabelle ist immer noch zu umfangreich.
Mit Hilfe eines statistische Reports wird nun aufgezeigt, wie ein derartig umfangreichesDatenmaterial übersichtlich zusammengefasst und sinnvoll interpretiert werden kann.
Der Report kann unter dem folgenden Link eingesehen werden:
Reportdatei öffnen ( I164f.rtf )
Die dazugehörige Laborseite könne Sie hier einsehen:
Labordatei öffnen ( I1654.zmpf )
Um die in diesem Lernmodul besprochenen Funktionen im Statistiklabor ausprobierenzu können, muss die Bibliothek "Danalyse.R" geladen werden. Sollte sie bei IhrerVersion des Statistiklabors nicht mit installiert worden sein, können sie diese hier laden:
Bibliothek "danalyse.R" ( I165e.r )
Informationen zum Aufbau und der Verwendung der Funktionen:
Beschreibung der Bibliothek "danalyse.R" ( : I1663.pdf )
LiteraturangabeBourier (2001): Beschreibende Statistik, 4.Auflage, Wiesbaden, Gabler Verlag.
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale SystemeKontakt: http://www.neuestatistik.de
(c) Projekt Neue Statistik 2003 - Lernmodul: Klassierte Daten
Page 25