Deskriptive Statistik - Springer978-3-642-61676-1/1.pdf · 1964 Habilitation fUr Statistik an der...

12
Deskriptive Statistik

Transcript of Deskriptive Statistik - Springer978-3-642-61676-1/1.pdf · 1964 Habilitation fUr Statistik an der...

Deskriptive Statistik

Franz Ferschl, *20.6.1929 in Freistadt (Oberosterreich). Ab 1948 Studium der Mathe­matik und Physik an der Universitat Wien. Dort 1952 Lehramtspriifung fUr das Lehramt an Gymnasien, 1956 Promotion zum Dr. phil. 1955-1965 Statistiker in der Bundes­kammer der gewerblichen Wirtschaft in Wien. 1964 Habilitation fUr Statistik an der Rechts- und Staatswissenschaftlichen Fakultat der Universitat Wien. 1965 bis 1972 ordentlicher Professor fUr Statistik an der Universitiit Bonn, 1972 bis 1975 an der Uni­versitat Wien, seit 1975 an der Universitat Miinchen im Institut fUr Statistik und Wissen­schaftstheorie.

Franz Fersch!

Deskriptive Statistik

3., korrigierte Auflage

Physica-Vedag· Wiirzburg-Wien

1985

ISBN 3 7908 0336 7

CIP-Kurztitelaufnahme der Deutschen Bibliothek

Ferschl, Franz: Deskriptive Statistik / Franz Ferschl. - 3., korrigierte Aufl. - Wiirzburg : Physica-Verlag, 1985

ISBN-13: 978-3-7908-0336-5 e-ISBN-13: 978-3-642-61676-1 DOl: 10.1007/978-3-642-61676-1

Das Buch oder Teile davon diirfen weder photomechanisch, elektronisch noch in irgend­einer anderen Form ohne schriftliche Genehmigung des Verlages wiedergegeben werden.

© Physica-Veriag, Wiirzburg 1978, 1980, 1985

Composersatz und Offsetdruck "Journalfranz" Arnulf Liebing GmbH + Co., Wiirzburg

Vorwort

Grundlage dieses Buches sind zwei Statistik-Skripten, die ich seit 1965 im Einftihrungsunterricht an den Universitaten Bonn und Wien verwendet habe. An beiden Orten erstreckte sich die Einftihrung in die Statistik fur Wirt­schafts- und Sozialwissenschaftler auf zwei Semester; die Vorlesung des ersten Semesters war dabei hauptsachlich der deskriptiven Statistik gewidmet. Viele spezielle Einzelheiten sind somit im praktischen Unterrichterprobt; einige Besonderheiten der Reihenfolge, die dem Kenner auffallen werden (Index­rechnung vor den mehrdimensionalen Merkmalen, die Reihenfolge: qualita­tiv, quantitativ, ordinal beim Studium des Zusammenhangs in Kapitel 5.) wur­den dabei, der Unterrichtspraxis folgend, bewu~t beibehalten.

Neben dem eleinentaren Kanon der deskriptiven Statistik finden hier eini­ge Themen besondere Beriicksichtigung, die vor allem Wirtschafts- und Sozial­wissenschaftler interessieren kannen: Theorie der Mittelwerte, Messung der Konzentration, Indexrechnung und Standardisierung, M~e der nominalen und ordinalen Assoziation sowie das mehrmals wiederkehrende Thema der Streuungszerlegung. Die verwendete Mathematik ist fast durchwegs ganz ele­mentar; die Matrizenrechnung etwa wird nur im Abschnitt tiber die multiple Regression eingesetzt. Ausdruck des elementaren Charakters sollten auch die ausflihrlichen Rechenschemata und die zahlreichen vollst~ndig durchgerech­neten Beispiele sein, welche die theoretischen tlberlegungen begleiten. Man kann nattirlich fragen, ob so etwas zu tun im Zeit alter der "statistical pack­ages", die heute schon zu Taschencomputern angeboten werden, noch sinn­voll ist. Nun, diese Programme enthalten im wesentlichen genau das, was hier im Detail dem direkten Verstandnis nahegebracht werden soll. Besonderes Augenmerk wurde auch auf die Bereitstellung von geeigneten tlbungsaufga­ben gelegt. Originelle, ohne gro~en Aufwand rechenbare Aufgaben zu finden, ist gerade in der deskrlptiven Statistik - im Gegensatz etwa zur Wahrschein­lichkeitsrechnung - nicht ganz leicht. Neben Aufgaben, die in Statistik-Klau7 suren und Tutorenkursen erprobt wurden, die also in relativ kurzer Zeit "von Hand" durchgerechnet werden kannen, habe ich - vor allem im 5. Kapitel -auch Beispiele aufgenommen, die eine gra~ere Realitatsnahe mit etwas gra~e­rem Rechenaufwand erkaufen. Schlie~lich fmdet man auch Erganzungen des Stoffes in theoretische Aufgaben gekieidet, die von einem interessierten Le­ser leicht gemeistert werden kannen. Nicht zuletzt sollte dieser Typ von Auf­gaben zeigen, d~ auch in der deskriptiven Statistik eine Reihe von weiterflih­renden und zugleich interessanten Fragestellungen zu fmden sind.

Es erscheint mir angemessen, die Prasentation eines Lehrbuches der des­kriptiven Statistik mit einigen Reflexionen tiber die Bedeutung dieses Tells der Statistik einzubegleiten. tlberblickt man die statistische Literatur der letz-

6 Vorwort

ten Jahrzehnte, so bemerkt man, daE die Beschiiftigung mit der deskriptiven Statistik als selbstiindfger statistischer Methode zuniichst dtastisch zuriickge­gangen war. In der Pionierzeil der modemen Statistik sowohl im angelsachsi­schen Bereich als auch auf dem europiiischen Kontinent fehlte zuniichst eine klare Trennung zwischen der Beschreibung und Analyse von Fakten einerseits und der statistischen Inferenz andererseits. Mit der rasanten Entwicklung der mathematischen Statistik, die eine Hille von wahrscheinlichkeitsbezogenen Modellen zur LOsung mannigfacher Probleme hervorbrachte, wurde die be­wu~te Pflege der Deskription etwas ins Abseits gedriingt. Nur in den Berei­chen der Bevolkerungs- und Wirtschaftsstatistik, die es direkt mit sehr gro~en Aggregaten zu tun haben, war naturgem~ die Frage nach der "geeigneten MaEzahl" zur Beschreibuag eines Phiinomens im Vordergrund geblieben. Musterbeispiele sind die Konzentrationsmessung und die Indexrechnung. An­sonsten wurden Daten immer mehr als Stichproben und Ma~zahlen haupt­sachlich nach ihren Verteilungseigenschaften bei der Schiitzung unbekannter Parameter von stochastischen Modellverteilungen beurteilt. Ein Anliegen des vorliegenden Buches ist es zu zeigen, daE die deskriptive Statistik mehr bein­haltet als blo~e Datenverarbeitung fUr die Zwecke der statistischen Inferenz. Neuerdings scheint sich bier eine Tendenzwende anzubahnen. Zum Zeugen seien zwei rezente Publikationen aufgerufen. Tukey [1977] ist eine sehr aus­ftihrliche und·eingehende Darstellung der deskriptiven Statistik, die hier als "Exploratory Data Analysis" apostropbiert wird. Dort finden wir auf Seite If.:

The processes of criminal justice are clearly divided between the search for the evidence ... and the evaluation of the evidence's strength - a matter of juries and judges. In data analysis a similar distinction is helpful. Explo­ratory data analysis is detective in character. Confirmatory data analysis is judicial or quaSi-judicial in character ... Unless the detective finds the clues, judge or jury has nothing to consider. Unless exploratory data anal­ysis uncovers indications, usually quantitative ones, there is likely to be nothir'g for confirmatory data analysis to consider.

Die Arbeit Guttman [1977] setzt sich kritisch mit gewissen Fehlanwendun­dungr.n der inferenzstatistischen Methode auseinander und betont dabei die Bedeutung, ja den Vorrang der (deskriptiven) Datenanalyse (S. 82):

In recent years eminent mathematical statisticians ... have underlined limitations of statistical inference; there is increasing emphasis on the need for focusing on data analysis instead.

Und zur selbstiindigen Bedeutung der Daten selbst: ... Nor do such investigators show that they are aware of the fact that their data analytic problem would remain even if there were no sampling error ...

Vorwort 7

In dem vorliegenden Buch wird also "exploratory data analysis" betrieben; die Daten werden als fur sich stehend betrachtet und nicht in erster Linie als Stichproben aus einer Grundgesamtheit (auch dann, wenn sie tatsachlich als Stichproben gewonnen wurden). Das zieht allerdings bei der Wahl von Be­zeichnungen manche Schwierigkeit nach sich. Ein typisches Beispiel hieftir bietet die empirische Varianz, die mit 0 2 bezeichnet wurde. Fast durchwegs wird in der Datenanalyse hierftir das Symbol S2 gebraucht und der Nenner n - 1 zur Division der Quadratsumme der Abweichungen verwendet. Nattir­lich ist die Zahl n - 1 nicht aus einer sachlichen Interpretation des Streuungs­phiinomens zu rechtfertigen, sondem nur aus .Eigenschaften eines SchOtzers fur die Varianz einer hinter den Daten liegenden Modellverteilung. Jedoch: Welcher Schatzer? Welche Eigenschaften? Welche Verteilung? Diese Fragen zeigen, d~ ein Argumentieren mit Stichprobeneigenschaften - zumindest in diesem Fall- fur die deskriptive Statistik niehts einbringt. Deskriptiv am sinnvollsten erscheint die Division durch n. Wtirde man dieses Ergebnis aber mit S2 bezeichnen, entstiinde erst recht eine arge Bezeichnungskollision mit dem gewohnten Gebrauch dieses Symbols. Anders die Lage beim Korrela­tionskoefflZienten. Er wurde mit r bezeichnet, einem Symbol, das haufig ftir eine Stichprobenfunktion verwendet wird. Da bei Verwendung von p der Re­chenausdruck ftir den - empirischen - KorrelationskoefflZienten mit dem Parameter einer speziellen Modellverteilung, niimlich der bivariaten Normal­verteilung,.leicht verwechselt wird, wurde in diesem Fall das Stichprobensym­bol tibemommen und p ftir Spearmans KoefflZient verwendet. 1m Grunde wird durch diese Schwierigkeiten nur deutlich, daE hinter scheinbar harmlo­sen Bezeichnungskonventionen theoretische Entscheidungen stehen, aber neuen theoretischen Konzepten leider oft nicht mit einem - an sich notwen­digen - kompletten neuen Satz von Symbolen entsprochen werden kann.

Dieses Lehrbuch hat vor aHem drei ,,geistige Vater", deren Einflu~ zum Teil schon die Abfassung der ibm zugrundeliegenden Skripten begleitete1 ).

Es sind diesP!anzagl [1972], Calot [1973] und Benninghaus [1974]. Das Btichlein vonP!anzagl ist insofem bahnbrechend, als es zeigt, d~ nach wie vor oIiginelle Methoden und scharfsinnige Argumente auch in scheinbar ein­fachsten Gebieten der Datenanalyse ihren Platz haben. Das umfangreiche Werk von Calot hat mich ermutigt, auch bei einfacheren Fragen der Datenor­ganisation eine ausfiihrliche Darstellung beizubehalten. Beide Werke haben besonders das Kapitel 4 tiber Indexrechnung und Standardisierung stark be­einfl~t. Benninghaus kommt das Verdienst zu, das Opus der Autoren Good­man und Kruskal tiber nominale und ordinale Assoziationsm~e fur den

1) Dies betrifft in erster Linie frtihere Auflagen der zitierten Biicher von ptanzagl und von Calot.

8 Vorwort

deutschsprachigen Einflihrungsunterricht aufbereitet zu haben. Gegeniiber der Skripten-Urfassung wurde dann auch Kapitel 5 am starksten umgearbeitet und erweitert. Einen Ansto~ dazu gab Benninghaus [1974].

Die Aufgabensammlung dieses Buches hatte ohne ein am Institut fur Sta­tistik der Universitat Wien entstandenes Manuskript ,,100 Aufgaben zur des­kriptiven Statistik" nicht in der vorliegenden Form gegeben werden konnen. Herr Werner Till, Wien hatte einen wesentlichen Beitrag zum Zustandekom­men dieses Manuskripts geleistet. Herrn Dr. Klaus Steiner, Bonn, verdanke ich einige zentrale Beispiele dieser Sammlung. Die Grundlagen ftir das Sachver­zeichnis steuerte Herr Dr. Klaus Haagen bei; Frau RosiMaisberger hat bei der Oberpriifung der Druckfahnen wertvolle Hilfe geleistet. Schlie~lich mochte ich auch Frau Adelheid Schuller danken, die sich urn die zeitgerechte Fertig­stellung des Manuskripts gro~e Verdienste erworben hat.

Miinchen, im Herbst 1977

Vorwort zur 2. Auflage

Bis auf einige kleine, aber nicht unwesentIiche Verbesserungen konnte der Text der ersten Auflage unverandert iibernommen werden. Fiir mehrere wert­volle Anderungsvorschlage bin ich insbesondere Herrn Prof. Dr. Leo Kniisel, Miinchen, zu gro~em Dank verpflichtet. Fiir weitere Anregungen mochte ich auch den Herren Dr. Klaus Haagen, Miinchen, und Dr. Fritz Poustka, Mann­heim, recht herzlich danken.

Miinchen, im Friihjahr 1980

Vorwort zur 3. Auflage

Der Text der ersten beiden Auflagen wurde im wesentlichen unverandert iibernommen. Immerhin wurden bei einer emeuten Durchsicht eine gro~ere Zahl von Druckfehlern und kleineren Unstimmigkeiten entdeckt und nun­mehr ausgemerzt. Fiir die genaue Durcharbeitung des Textes der zweiten Auf­Iage danke ich besonders Dipl.Stat. Angelika Rosch und Dipl.Stat. Harald Schmidbauer.

Miinchen, im Herbst 1985

Inhaltsverzeichnis

1. Einfiihrung. Grundbegriffe . . . . . . . . . . 1.1 Die Rolle der Statistik im Konzert der Wissenschaften 1.2 Deskriptive und induktive Statistik . . . . . . 1.3 Die statistische Verteilung . . . . . . . . . 1.3.1 Grundgesamtheit, Merkmal, Merkmalsauspriigungen 1.3.2 Die Klassiflkation von Merkmalen . . . . . . 1.3.3 Mehrdimensionale Merkmale. . . . . . . . 1.3.4 Hinweise auf einige weitere, oft gebrauchte Begriffe und Be­

zeichnungen . . . . . . . . . . . . . . . .

2. Datenorganisation; die Darstellung eindimensionaler Verteilungen. 2.1 Die Tabellendarstellung von Verteilungen . . . . . . . . 2.1.1 Die allgemeine Form der Verteilungstabelle bei einer endlichen

zaW von Merkmalsauspriigungen . . . . . . . . . . . 2.1.2 Die allgemeine Form der Verteilungstabelle bei quantitativ-ste-

tigem Merkmal; Klassenbildung . . . . . . . . . 2.2 Die geometrische (graphische) Darstellung von Verteilungen 2.2.1 Hiiufigkeitsdiagramme . . . . . . . . . . . . 2.2.2 Die Darstellung kumulierter Hiiufigkeiten; Summenkurven 2.2.3 Hiiufigkeitsverteilungen mit ungleichen Klassenbreiten, der Ver-

gleich von Verteilungen . 2.3 Aufgaben zu Kapitel 2

3. Verteilungsmaizahlen . 3.1 Lagemaj3zahlen (Lageparameter, Lokalisationsparameter) 3.1.1 Das arithmetische Mittel 3.1.2 Das geometrische Mittel 3.1.3 Das harmonische Mittel. 3.1.4 Das quadratische Mittel. Potenzmittel 3.1.5 Der Median (Zentralwert). . . . 3.1.6 p-Quantile und daraus abgel!litete Lagemaie . 3.1.7 Der Modalwert (Modus) einer Verteilung. . 3.1.8 Aufgaben und Ergiinzungen zu Abschnitt 3.1 3.2 Streuungsmaj3zahlen . . . . . . . . . 3.2.1 Allgemeine Oberlegungen zum Phiinomen der Streuung 3.2.2 Streuungsmaie, die von Quantilen abhiingen'. . , . 3.2.3 Streuungsmaie, welche die Abstiinde aller Merkmalsauspriigun­

gen voneinander beriicksichtigen. . . . , . . . . . .

13 13 14 16 16 19 22

23

27 27

27

29 33 33 36

39 44

46 48 48 58 61 63 65 71 74 75 83 83 87

88

10 Inhaltsverzeichnis

3.2.4 Streuungsm~e, we1che die Abstande der Merkmalsauspragun-gen von einem Lagem~ 1>enutzen . . . 89

3.2.5 Die Varianz. . . . . . . . . . . 92 3.2.6 Dispersionsm~e. Der Variationskoefflzient 102 3.2.7 Die Entropie . . . . . . . . . . 104 3.2.8 Aufgaben und Ergiinzungen zum Abschnitt 3.2 . 105 3.3 Hohere VerteilungsmafJzahlen. Momente 108 3.3.1 Einleitung: Grililde fur die Betrachtung hOherer Verteilungs-

m~zahlen. . . . . . . . . . . . . . 108 3.3.2 Schiefem~zahlen . . . . . . . . . . . 109 3.3.3 M~ der Kurtosis (Wo1bungs- oder Steilheitsm~e) 112 3.3.4 Zur Beurteilung von Formm~zahlen . . . 113 3.3.5 Momente einer Verteilung. . . . . . . 114 3.3.6 Aufgaben und Ergiinzungen zu Abschnitt 3.3 120 3.4 Die Messung der Konzentration . . . . . 122 3.4.1 Das Konzentrationsphanomen . . . . . 122 3.4.2 Konstruktion der Lorenzkurve und eines zugehOrigen Konzen-

trationsm~es fur Einze1daten. . . . . . . . . . .; 124 3.4.3 Lorenzkurve und Konzentrationsm~ von Lorenz/Miinzner fUr

gruppierte Daten. . . . . . . . . . 130 3.4.4 Aufgaben und Erganzungen zu Abschnitt 3.4 134

4. Allgemeine Theorie der Mai- und Indexzahlen 141 4.1 Die Konstruktion von MaJ3zahlen. . . 141 4.1.1 M~zahlen und aquivalente Sachverhalte 141 4.1.2 Eine KlassifIkation von M~zahlen 142 4.2 MeJ3zahlenreihen (einfache Indizes) . . 147 4.2.1 Defmitionen und Bezeichnungen. . . 147 4.2.2 Umbasierung von Me6zahl{Index-)Reihen 148 4.2.3 Verkettung von Me6zahl{Index-)Reihen . 148 4.2.4 Gleichzeitige Betrachtung mehrerer MeBzahlreihen. 150 4.3 Theorie der Preis- und Mengenindexzahlen. . . . 152 4.3.1 Entwicklung der Fragestellung des Preisindex an Hand eines

Beispie1s. . . . . . . . . . . . . 153 4.3.2 Preisindizes. . . . . . . . . . . . . . . .. 156 4.3.3 Indizes zur Messung von Mengenanderungen. . . . .. 158 4.3.4 Der Zusammenhang zwischen Preis-, Mengen- und Umsatzindi-

zes . . . . . . . . . . . 160 4.3.5 Spezialprobleme der Indexrechnung 162 4.3.5.1 Erweiterung des Indexschemas 162 4.3.5.2 Substitution einer Ware. . . . 165

Inhaltsverzeichnis 11

4.3.5.3 Teil- oder Subindizes . . . . . . 168 4.3.5.4 Der Durchschnittswertindex . . . . 171 4.3.5.5 Der 6konomische oder "Befriedigungsindex" 173 4.4 Standardisierung . . . . . . . . . 174 4.4.1 Die Aufgabenstellung der Standardisierung 174 4.4.2 Das formale Modell der Standardisieiung . 177 4.4.3 Kaufkraftparitiiten . . . . . . . 184 4.5 Aufgaben und Ergiinzungen zu Kapitel4 190

s. Mehrdimensionale Merkmale. . . . . 195 5.1 Einleitende Bemerkungen . . . . . 195 5.2 Die Tabellendarstellung bei zweidimensionalenMerkmalen 196 5.2.1 Allgemeine Bezeichnungen; Grundbegriffe 196 5.2.2 Randverteilungen. . . . . . . . . . 200 5.2.3 Bedingte Verteilungen; Unabhiingigkeit 201 5.2.4 Aufgaben und Ergiinzungen zu Abschnitt 5.2 205 5.3 Qualitative Merkmale: Assoziationsmaj3e [iir Kontingenztafeln 206 5.3.1 Allgemeine Gesichtspunkte fUr die Konstruktion von Assozia-

tionsmaJ.)en . . . . . . . . . . . . . . 206 5.3.2 MaJ.)e der priidiktiven Assoziation . . . . . . 208 5.3.3 AssoziationsmaJ.)e, die auf der Gr6~e X2 aufbauen . 212 5.3.4 Vierfeldertafeln . . . . . . . . . . . . 218 5.3.5 Aufgaben und Ergiinzungen zu Abschnitt 5.3 222 5.4 Quantitative Merkmale: Ko"elations- und Regressionsrechnung. 225 5.4.1 Der KorrelationskoeffIzient . . . . . . 226 5.4.2 Die Regressionsgerade . . . . . . . . 233 5.4.3 Die Streuungszerlegung. BestimmtheitsmaJ.)e . 246 5.4.4 Aufgaben und Erganzungen zu Abschnitt 5.4 254 5.5 Quantitative Merkmale: Multiple Regression und Ko"elation.

Partielle Ko"elation . . . . . . . . . . . . .. 262 5.5.1 Regressionsebenen . . . . . . . . . . . . .. 263 5.5.2 Multiple Regression und Korrelation. Darstellung im Matrizen-

kalkiil . . . . . . . . . . . 269 5.5.3 Partielle Korrelation; Scheinkorrelation . . 272 5.5.4 Nichtlineare Regression. . . . . . . . 276 5.5.5 Aufgaben und Ergiinzungen zu Abschnitt 5.5 280 5.6 Rangmerkmale: Ordinale Maj3e des Zusammenhangs . 283 5.6.1 Der Spearman'sche RangkorrelationskoeffIzient. .. 284 5.6.2 MaJ.)zahien, die auf der Betrachtung konkordanter und diskor-

danter Paare aufbauen . . . . . . . . 287 5.6.3 Aufgaben und Ergiinzungen zu Abschnitt 5.6 . . . . .. 294

12 Literaturverzeichnis .

Autorenregister

Sachregister

Inhaltsverzeichnis

.298

301

302