Angewandte Statistik Sachs Hedderich

722
Ausgewahlte Schranken der Standardnorrnalverteilung und der x2 Verteilung 1 FG fur die einseitige und fur die zweiseitige Fragestellung einseitig 0 001 3 090 0 Ol 2 326 0 05 1 645 0 lO 1 282 0 20 0 842 0 50 0 Griechischer Buchstabe zweiseitig 3 291 2 576 1 960 1 645 1 282 0 674 Das griechische Alphabet x fur einen Freiheitsgrad Name des Buchstabens Alpha Beta Gamma Delta Epsilon Zeta Eta Theta Jota Kappa Lambda MY einseitig 9 550 5 412 2 706 1 642 0 708 0 Griechischer Buchstabe zweiseitig 10 828 6 635 3 841 2 706 1 642 0 455 Name des Buchstabens NY Xi Omikron Pi Rho Sigma Tau Ypsilon Phi Chi Psi Omega

Transcript of Angewandte Statistik Sachs Hedderich

  • Ausgewahlte Schranken der Standardnorrnalverteilung und der x2-Verteilung (1 FG) fur die einseitige und fur die zweiseitige Fragestellung

    einseitig

    0,001 3,090

    0,Ol 2,326

    0,05 1,645

    0,lO 1,282

    0,20 0,842

    0,50 0

    Griechischer Buchstabe

    zweiseitig

    3,291

    2,576

    1,960

    1,645

    1,282

    0,674

    Das griechische Alphabet

    x2 fur einen Freiheitsgrad

    Name des Buchstabens

    Alpha

    Beta

    Gamma

    Delta

    Epsilon

    Zeta

    Eta

    Theta

    Jota

    Kappa

    Lambda

    MY

    einseitig

    9,550

    5,412

    2,706

    1,642

    0,708

    0

    Griechischer Buchstabe

    zweiseitig

    10,828

    6,635

    3,841

    2,706

    1,642

    0,455

    Name des Buchstabens

    NY

    Xi

    Omikron

    Pi

    Rho

    Sigma

    Tau

    Ypsilon

    Phi

    Chi

    Psi

    Omega

  • !"# !$% &

  • ' () ) )

    *#"!"+ ,(

    (-) .) / 0 !1#"1#2 30-(4)5)

    6 !) 7 2) 8 9!:1$ !:1: !:+#

    ./;5!% 25*"%52#!1%5$ - / ;

  • Vorwort zur zwolften Auage

    ,,Viele Forscher machen sich bei der Behandlung der statistischen Beobachtungen die Sache zuleicht. Allerdings kann man in den letzten Jahren einen gewissen Fortschritt wahrnehmen, vielestatistische Arbeiten der Neuzeit lassen aber noch viel zu wunschen ubrig. Es ist zwar von demje-nigen, welcher nur einen gelegentlichen Gebrauch von statistischen Untersuchungen macht, nichtzu erwarten, dass er die Methoden der mathematischen Statistik vollstandig beherrscht; jedenfallskann aber ein jeder ohne Schwierigkeit einen Uberblick uber viele der wichtigsten Elementar-grundsatze gewinnen und dadurch einer Menge von Fehlern und Fehlschlussen entgehen. (HaraldWestergaard (1901))

    Diese Erkenntnis liegt zwar mehr als 100 Jahre zuruck, lange bevor die Grundlagen der Wahr-scheinlichkeitsrechnung (A.N. Kolmogoroff) und der modernen Statistik (R.A. Fisher oder J. Ney-man und E.S. Pearson) gelegt wurden, ist aber auch heute noch uneingeschrankt gultig. Unter An-gewandter Statistik verstehen die Autoren zugleich den Methodenkorper anwendbarer mathema-tischer Verfahren und die Anwendung dieses Methodenkorpers auf gemessene und/oder gezahlteBeobachtungen. Der Schwerpunkt des Buches liegt daher auf Prinzipien der statistischen Denk-ansatze und auf der Darstellung der Voraussetzungen, die erfullt sein mussen, bevor man eine be-stimmte Formel oder einen bestimmten Test anwenden darf. Berucksichtigt werden insbesonderedie Analyse von Stichproben kleiner Umfange und verteilungsunabhangigeMethoden. Angespro-chen werden in diesem Lehr- und Nachschlagebuch Nichtmathematiker, insbesondere Praktiker inTechnik und Wissenschaft, Ingenieure, Mediziner sowie Studierende und Wissenschaftler dieserund anderer Bereiche. Dem an der praktischen statistischen Arbeit interessierten Mathematikergibt es einen Uberblick.

    Fur die neue Auage der ,,Angewandten Statistik war eine Uberarbeitung des vor 40 Jahren kon-zipierten Werkes nicht mehr ausreichend. Schon die letzten Auagen boten kaum Gelegenheit, dieGliederung und den Inhalt grundlegend zu modizieren oder zu erganzen. So konnten nur einigealtere oder uberholte Verfahren entfernt werden, um Platz fur einiges Neue zu schaffen. Die vor-liegende 12. Auage ist somit ein neues Buch, das der neue Autor (Dipl. Inform. J. Hedderich) inenger Zusammenarbeit mit dem Namengeber (Prof. Dr. rer. nat. L. Sachs) konzipiert und realisierthat, wobei groere Teile der 11. Auage ubernommen und in einen neuen Kontext gestellt wordensind. Die neue Gliederung in acht Kapiteln erleichtert einerseits den Einstieg in und das Aufn-den von statistischen Verfahren. Andererseits wird diese Gliederung auch zukunftigen Auagengerecht, wenn es um Neuerungen und Erganzungen hinsichtlich der statistischen Methodik geht.

    Das 1. Kapitel gibt eine Einfuhrung in die statistische Arbeitsweise bei wissenschaftlichen Frage-stellungen. Es verdeutlicht, dass statistische Methoden Kern wissenschaftlicher Erkenntnisprozes-se sind. Grundlagen aus der Mathematik, von den Grundrechenarten bis zum Funktionsbegriff undder Kombinatorik, sind im 2. Kapitel zusammengefasst. Dieses Kapitel wird erganzt durch einekurze Einfuhrung in die Matrixalgebra, die hilfreich fur ein besseres Verstandnis der Verfahren zurModellbildung im achten Kapitel ist.

    Verfahren der deskriptiven Statistik, konsequent gegliedert nach dem Skalenniveau der zu be-schreibenden Merkmale, sind im 3. Kapitel zusammengefasst. Methoden zur Exploration vonDaten, insbesondere auch die Erfassung von Abhangigkeiten und Zusammenhangen in den Beob-

  • vi Vorwort

    achtungen, ermoglichen den Einstieg in eine weiterfuhrende Analyse und Bewertung der Daten.

    Der Begriff der Wahrscheinlichkeit, insbesondere im Hinblick auf ein Verstandnis von Vorausset-zungen und Konsequenzen der Unabhangigkeit von Ereignissen wird ausfuhrlich im 4. Kapitelmit zahlreichen Beispielen eingefuhrt. Die Ausfuhrungen zum diagnostischen Test stehen dabeieher beispielhaft fur die in der Regel auf bedingten Wahrscheinlichkeiten basierende Terminologieund Argumentationsweise statistischer Verfahren.

    Von zentraler Bedeutung bei der Auswahl und Anwendung statistischer Methoden ist nach An-sicht der Autoren der Begriff der Zufallsvariablen, eine Modellvorstellung, die erst eine formaleUbertragung der ,,realen Beobachtungen in die Sprache und die numerischen Analyseverfahrender Mathematik ermoglicht. Daher sind im 5. Kapitel die wichtigsten Verteilungsmodelle zusam-mengefasst, um neueModelle erganzt (z.B. die negativeBinomialverteilung und die Weibullvertei-lung) und mit zahlreichen Beispielen versehen worden. Neu ist hier eine einheitliche Notation zuden Quantilen (kritischen Schranken) spezieller Verteilungen, die fur Leser der vorangegangenenAuagen verwirrend sein konnte. Dabei wird nun einheitlich das obere Quantil einer Verteilung,z.B. 0,95 fur ,,0,05; einseitig und 0,975 fur ,0,05; zweiseitig, verwendet.

    Die neue Auage der Angewandten Statistik versucht, moglichst klar die Methodenansatze furdas ,,Schatzen von Parametern (6. Kapitel) und fur das ,,Testen von Hypothesen (7. Kapi-tel) zu trennen. Eine eindeutige und stringent eingefuhrte Notation soll hier einerseits die Bruckezur vertiefenden Lekture der Spezialliteratur der (theoretischen) Statistik bilden, andererseits sol-len Gemeinsamkeiten und Parallelen der verschiedenen Ansatze deutlich werden. Dabei wurdenaltere Verfahren prazisiert und neue Verfahren mit zahlreichen Beispielen aufgenommen, z.B.das Bootstrapping, Randomisierungsverfahren und das Prufen von Aquivalenzaussagen. Weite-re Erganzungen betreffen die Verfahren zur Fallzahlbestimmung (Powerberechnung), die mit demProgrammR exibel eingesetzt werden konnen. Der Abschnitt zur Analyse von Haugkeiten wur-de um eine ausfuhrliche Darstellung des Kappa-Koefzienten erganzt.

    Vollig neu ist das 8. Kapitel. Die Autoren sind uberzeugt, dass Methoden zur Bildung und Bewer-tung von statistischen Modellen heute als zentraler Bestandteil der Angewandten Statistik anzu-sehen sind. Somit werden die multiple lineare Regression, die logistische Regression, loglineareModelle und letztlich auch die Analyse von Ereigniszeiten ( Uberleben) mit Beispielen eingefuhrtund diskutiert. Diese Verfahren konnen nicht so elementar und ausfuhrlich dargestellt werden wiedie Methoden in den vorangehenden Kapiteln. Dazu gibt es umfangreiche spezielle und vertie-fende Monographien. Im Rahmen dieser kurzen Einfuhrung soll zumindest das Verstandnis furVerfahren der Modellbildung gefordert und die weitverbreitete Zuruckhaltung bei der Anwen-dung und Interpretation im Rahmen explorativer Datenanalysen abgebaut werden.

    Das Verstandnis fur statistische Methoden erschliet sich letztlich auch aus der selbstandigen Ana-lyse (eigener) Daten nach festen Anleitungen und Formeln. Dafur wurden fruher Rechenblatterentworfen, mit denen schrittweise durch elementare Berechnungen Ergebnisse hergeleitet und ge-pruft werden konnten. Ein fruhes Hilfsmittel war dabei sicher der Taschenrechner, mit dem dieseArbeit sicherer und schneller zu bewerkstelligenwar. Seit den 70iger Jahren des vergangenen Jahr-hunderts ist die Entwicklung von kommerziellen Statistik-Programmpaketen, genannt seien hiernur SPSS und SAS, weit voran geschritten. Diese stellen ,,vorkonfektionierte Losungen bereit,die von dem Anwender haug nur schwer nachzuvollziehen sind. Mit dem kostenlosen ProgrammR steht ein Werkzeug zur Verfugung, mit dem einerseits elementare Berechnungen einfach durch-gefuhrt werden konnen, andererseits auch komplexe statistische Verfahren und Modelle aus festenPaketen genutzt werden konnen. Daher wurden viele Beispiele in dieser Auage mit R berechnetund zahlreiche erklarende Abbildungen mit R neu erstellt. Die dafur verwendeten Befehle sind im

  • Vorwort vii

    Internet auf der Produktseite des Buches (Download) beim Springer-Verlag abrufbar und konnenparallel zur Lekture des Buches modiziert und erganzt werden. Einen Einstieg in die Verwendungvon R bietet das 9. Kapitel. Wichtige Befehle sind in einer Ubersicht (Lesezeichen) am Ende desBuches zusammengefasst. Die Autoren sind uberzeugt, dass sich hieraus ein besseres Verstandnisder statistischen Methodik ohne die haug abschreckende Rechenarbeit entwickeln und die Sta-tistik mehr Freunde nden kann.

    Um die 12. Auage zu entlasten, ist auf Teile des Textes und auf die Ubernahme der sehrausfuhrlichen Bibliographie alterer Auagen verzichtet worden. Die neue Bibliographie und dasneue Sachverzeichnis sind an den Schwerpunkten der neuen Auage orientiert und mussen sichunter der geanderten Ausrichtung erst entwickeln.

    Unser Dank gilt den Kolleginnen am Institut fur Medizinische Informatik und Statistik derChristian-Albrechts-Universitat Kiel (Direktor Prof. Dr. rer. nat. M. Krawczak), Frau Dr. A. Ca-liebe und Frau Dipl. Math. U. Schulz, fur zahlreiche Anregungen und die kritische Durchsicht vonTeilen des Manuskripts. Herrn Dipl. Inform. O. Junge danken wir fur die Hilfestellung bei tech-nischen Problemen mit LATEX, die insbesondere durch den Ubergang von der 11. zur 12. Auageaufgetreten sind. Unser Dank gilt auch den Damen und Herren der Kieler Universitatsbibliothek,vor allen Dingen Herrn Dr. J. Aschenbach.Am Schluss ist es uns eine angenehme Picht, zahlreichen Lesern fruherer Auagen zu danken,die durch ihre kritischen Anmerkungen manches Versehen auszumerzen halfen. Den Damen undHerren des Springer Verlages, insbesondere Herrn C. Heine, Frau L. Braun und Frau R. Milewskidanken wir fur die angenehme Zusammenarbeit. Trotz einer sorgfaltigen Bearbeitung von Tex-ten, Formeln und Beispielen lassen sich Fehler und Unklarheiten nicht ausschlieen. Wir bittenden Leser, uns diese mitzuteilen (schriftlich an die Adresse der Autoren oder auch per E-mail [email protected]). Auch fur Verbesserungsvorschlage sind wir dankbar. Hoffentlich weni-ge Korrekturen werden aktuell uber die Produktseite des Buches beim Springer-Verlag (Errata)im Internet angegeben.

    Kiel, Marz 2006

    J. Hedderich Lothar Sachs

    Ubersetzungen alterer Auagen liegen vor: ins Russische (1976): ohne ISBN Nummer, der vergleichbare sowjetische Code 3[(10805

    146)/(008(01) 76)][115 76], *BTOROI INDEKS-10803, CTATISTIKA, MOSKBA;

    ins Spanische (1978): ISBN 84-335-6412-9, Editorial Labor, S.A., Barcelona;

    ins Amerikanische (1984): ISBN 0-387-90976-1, Springer, New York.

  • viii Vorwort

    Vorwort zur zehnten Auage

    Ziele alterer Auflagen, die auch fur diese Neubearbeitung gelten

    Das Buch wendet sich an Interessierte, die ich im Einzelnen in meinen Vorworten zur 1.,7. bis 9. Auflage (vgl. S. VIXI) charakterisiert habe und die ,,etwassuchen, das demLERNEN dient, die Grundlagen vermittelnd, einfuhrend und vertiefend, auch anhandvieler durchgerechneter Beispiele, dem ANWENDEN mit zahlreichen Planungs- undAuswertungsempfehlungen aus der Praxis und dem NACHSCHLAGEN, um einen Uberblickuber ein weitgefasstes Methodenspektrum zu gewinnen. Allen drei Zielen dient nebenden Querverweisen und den weiterfuhrenden Literatur-Hinweisen insbesondere das zumNachschlagen und Wiedernden durchstrukturierte sehr ausfuhrliche Sachverzeichnis.

    Kurz nach der 9. folgt jetzt die neu gesetzte und damit lesbarere 10. Auage, weitreichenduberarbeitet und aktualisiert. Im Text wurden Unstimmigkeiten und Druckfehler beseitigt, Pra-zisierungen vorgenommen, zahlreiche Erganzungen und Hinweise sowie weitere Web-Sites auf-genommen. Manche Anregungen kamen von ehemaligen Teilnehmern an meinen Oberseminaren,einige aufgrund von Leserbriefen, herzlichen Dank! Auch das Sachverzeichnis und die Literaturhabe ich auf den neuesten Stand gebracht, wobei dem Leser, der sich intensiver mit der Statistikbeschaftigen mochte, auf S. 690 ein eleganter Weg aufgezeigt wird. Andere folgen hier weiterunten sowie auf S. XXXVI. Herrn Prof. Dr. Carsten Stick, Direktor des Instituts fur MedizinischeKlimatologie der Universitat Kiel, danke ich fur eine Liste hauger Fehler in Dissertationsschrif-ten (vgl. S. XXXVII).Mein Dank gilt auch wieder den Damen und Herren der Kieler Universitatsbibliothek, vor allemHerrn Dr. Jurgen Aschenbach. Den Damen und Herren des Springer-Verlages danke ich fur dieausgezeichnete Zusammenarbeit. Fur Leserzuschriften bin ich weiterhin dankbar, insbesonderefur jeden Verbesserungsvorschlag.

    Klausdorf, im Januar 2002 Lothar Sachs

    Vorwort zur achten Auage

    Auch die 8., vollig neu bearbeitete und erweiterte Auage dient zum Lernen, Anwenden undNachschlagen fur anwendungsorientierte Leser mit unterschiedlichen Vorkenntnissen und breitgestreuten Interessen. Es ist ein ausfuhrlich gefasstes Lehrbuch und Nachschlagewerk, das demAnfanger anhand zahlreicher Arbeitshilfen und vertiefender Wiederholungen, unterschiedlich ak-zentuiert, den Einstieg in die Anwendung statistischer Methoden ermoglicht und ihn unterstutzt.Dem Fortgeschrittenen bietet es eine Fulle von Hinweisen und Berechnungsmethoden zu weite-ren wichtigen, speziellen Verfahren der Statistik. Hierzu dienen auch die wesentlich erweitertendrei Verzeichnisse: das Literaturverzeichnis, das Namenverzeichnis und das Sachverzeichnis. Eserganzt daher auch jedes Statistik-Software-Handbuch. Angesprochen werden in erster Linie Stu-denten und Praktiker aus den Bereichen der Naturwissenschaften, der Medizin und der Technik.Es eignet sich aber auch fur Interessierte und Wissenschaftler anderer Disziplinen, die sich umErkenntnisgewinnung durch statistische Ansatze bemuhen und die hier Hinweise und Details zurPlanung undAuswertung von Untersuchungenerhalten. Die Neubearbeitung habe ich zunachst aufFormulierungs-, Formel- und Druckfehler durchgesehen, wobei mir aufmerksame Leser Hinwei-se gegeben haben, fur die ich herzlich danke. Weiter habe ich Anfragen von Lesern, Fachkollegenund Teilnehmern an meinen Oberseminaren berucksichtigt, denen ich ebenfalls herzlich danke. Da

  • Vorwort ix

    jetzt auf den Informationsstatistik-Ansatz nach Woolf und Kullback verzichtet werden kann, warendie Seiten 456/465 und 608/611 wieder frei verfugbar. Auerdem ist ein kleiner Anhang hinzuge-kommen. Generell habe ich zahlreiche Textstellen neu formuliert, Aussagen prazisiert und vieleserganzt: Anwendungsschwerpunkte,Methoden, Formeln, Tabellen, Ubersichten, Beispiele, Kom-mentare, Querverweise sowie Warnungen und Empfehlungen fur die praktische Arbeit. WichtigeAbschnitte habe ich auch in dieser Auage weitgehend ,,autark belassen und eine Wiederho-lung nicht gescheut. Bevor ein bestimmtes Verfahren angewandt wird, ist ein Blick auf zugehorigeHinweise und Querverweise unerlasslich. Bewusst einfach gehaltene Beispiele bieten sich an, siezur Ubung in gering modizierter Form durchzurechnen, etwa indem ein Messwert variiert wird,so dass sich das erwartete Resultat abschatzen lasst. Die zahlreichen Erganzungen hat zwar dieInformationsdichte erhoht, die Seitenzahl des Textes konnte jedoch konstant bleiben. Manches In-teressante ist jetzt als Kleingedrucktes etwas stiefmutterlich behandelt worden. Deutlich erweitertund vertieft habe ich das zum Nachschlagen und Wiedernden besonders wichtige strukturierteSachverzeichnis mit Ubersichtscharakter sowie die nicht nur fur den Praktiker unentbehrlichenLiteraturangaben. Erstaunlich schnell gelangt man hier in unwegsames Gelande, was auch fur an-dere reizvolle Fachgebiete gilt, sobald man ausgetretene Pfade verlasst. Den Damen und Herrendes Springer-Verlages danke ich herzlich fur die ausgezeichnete Zusammenarbeit. Fur Leserzu-schriften bin ich dankbar, insbesondere fur jeden Verbesserungsvorschlag.

    Klausdorf, im Herbst 1996 Lothar Sachs

    Vorwort zur siebenten Auage

    Auch die 7., vollig neu bearbeitete Auage mit wesentlich mehr mathematisch-statistischen Ta-bellen, Ubersichten, Formeln und vollstandig durchgerechneten Zahlenbeispielen dient zum LER-NEN, daher die fur das Selbststudium unerlasslichen vertiefenden Wiederholungen mit bewusstunterschiedlicher Akzentsetzung, zum ANWENDEN statistischer Verfahren in der praktischenArbeit, daher der Handbuch-Charakter, und zum NACHSCHLAGEN, um genau das aufzuspuren,was dem Suchenden weiterhilft. Aus diesen Grunden war ein vollig neu bearbeitetes ausfuhrlichesLiteraturverzeichnis notwendig. Hierzu dienen neben den 94 meist neuen Ubersichten vier volligneu bearbeitete ausfuhrliche Verzeichnisse: das Inhaltsverzeichnis (20 Seiten), das Literaturver-zeichnis (51 S.), das Namenverzeichnis (14 S.) und das Sachverzeichnis (79 S.).Statistische Programmpakete sind weit verbreitet. So konnte manches wegfallen. Dafur habe ichmehr zur Planung einer Untersuchung ausgefuhrt, Zusammenhange und Verweise starker aktua-lisiert, die Zahl der Hinweise, Ubersichten, Tabellen, Formeln und insbesondere der Beispieledeutlich vermehrt sowie zahlreiche Gebiete ausfuhrlicher behandelt (z.B. die Kombinatorik) undneue Methoden (z.B. den Jonckheere Test) aufgenommen. Auf das rapide anwachsende und in-teressante Gebiet der multivariaten Statistik, das die im Buch behandelten Themen wesentlicherganzt, habe ich an einigen Stellen hingewiesen und weiterfuhrende Monographien genannt.Da sich Wahrscheinlichkeitsrechnung und Kombinatorik mit interessanten Beispielen schmuckenlassen, die weiterfuhrende Ansatze enthalten, sind diese Beispiele im ersten Kapitel von B1 bisB172 durchnumeriert worden, so dass sich in spateren Kapiteln leicht auf sie zuruckkommenlasst. Auch einige Bemerkungen zu Simulationen sind mit anderen Hinweisen in das 1. Kapitelintegriert worden. Kapitel 2 enthalt jetzt allgemein interessierende Bemerkungen zu epidemio-logischen und ahnlichen Studien sowie drei vielseitig verwendbare geschlossene Folgetestplane.Die restlichen funf Kapitel sind ebenfalls neu bearbeitet worden. Details bietet das vollig neu undsehr ausfuhrlich angelegte Inhaltsverzeichnis, das durch die Ubersichten erganzt wird. Teilweisegestaffelte schlagwortartige Untertitel zu den einzelnen Abschnitten erleichtern die Ubersicht; dasThema selbst wird im Untertitel nur selten gegliedert oder noch einmal genannt.

  • x Vorwort

    Wiederholungenwaren u.a. dort nicht zu vermeiden, wo wichtige Abschnitte weitgehend ,,autarksein sollten; zusatzliche Querverweise sollte der Leser beachten, bevor ein bestimmtes Verfahrenangewandt wird. Viele Beispiele sind bewut einfach gehalten. Sie sollten zur Ubung in geringmodizierter Form durchgerechnet werden, etwa einen Messwert variieren, so dass sich das er-wartete Resultat abschatzen lasst.Wer tiefer in die statistische Methodik eindringen mochte, wird den im Literaturverzeichnis an-gefuhrten Arbeiten wesentlich mehr entnehmen als die knappen Hinweise im Text ahnen lassen.Erstaunlich schnell gelangt man hier in unwegsames Gelande, was auch fur andere reizvolle Fach-gebiete gilt, sobald man die ausgetretenen Pfade verlasst.Der Biometric Society danke ich fur die Erlaubnis aus der Arbeit von J.K. Haseman: Exact samplesizes for use with the Fisher-Irwin Test for 2 2 tables. Biometrics 34 (1978), 106109 Tables1 + 2, pages 107 und 108 ubernehmen zu durfen. Mein Dank gilt auch wieder den Damen undHerren der Kieler Universitatsbibliothek, insbesondere Frau Dr. Gudrun Otto und Herrn Dr. JurgenAschenbach.In einem losen Zusammenhang mit dieser Neubearbeitung steht mein Oberseminar, das von derAbteilung, insbesondere von ihrem Direktor, Herrn Prof. Dr.-Ing. K. Sauter, stets nachhaltiggefordert worden ist. Herrn Prof. Sauter sowie Frau Katrin Anger und Frau Petra Neumann, diemeine Kartei gefuhrt und Entwurfe fur das Oberseminar geschrieben haben, sei herzlich gedankt.Den Damen und Herren des Springer-Verlages danke ich fur die ausgezeichnete Zusammenarbeit.Fur Leserzuschriften bin ich dankbar, insbesondere fur jeden Verbesserungsvorschlag.

    Klausdorf, im Januar 1992 Lothar Sachs

    Vorwort zur ersten Auage

    ,,Das kann kein Zufall sein, sagte sich im Jahre 1710 der Arzt der Konigin Anne, John Arbuthnot(16671735), Wissenschaftler und Satiriker (er erfand ,,John Bull), Freund und Mitarbeiter vonJonathan Swift, Alexander Pope und John Gay, auerordentlich geschatzt von Dr. Samuel Johnson,als er in den Geburtsregistern von 82 Jahrgangen (16291710) ausnahmslos die Knabengeburtenhauger vertreten fand als die Madchengeburten. Dieser Stichprobenumfang bot ihm eine aus-reichende Sicherheit fur seinen Schluss. Er konnte hinter die Zahl der Knabengeburten jedesmalein Pluszeichen setzen (groer als die Anzahl der Madchengeburten), und schuf so den Vorzei-chentest. Bei groen Stichproben genugt Zweidrittelmehrheit des einen Vorzeichens. Bei kleinenStichproben ist eine 4/5- oder sogar eine 9/10-Mehrheit fur den Nachweis eines verlasslichenStichprobenunterschiedes notwendig.Charakteristisch fur unsere Zeit ist die sturmische Entwicklung von Wahrscheinlichkeitsrechnung,mathematischer Statistik und ihrer Anwendungen in Wissenschaft, Technik, Wirtschaft und Poli-tik.Dieses Buch ist auf Anregung von Herrn Prof. Dr. H.-J. Staemmler, jetzt Chefarzt der StadtischenFrauenklinik in Ludwigshafen am Rhein, geschrieben worden. Ihm bin ich fur die geleistetevielfaltige Unterstutzung zu groem Dank verpichtet!Bei der Beschaffung von Literatur waren mir Herr Prof. Dr. W. Wetzel, Direktor des Seminarsfur Statistik der Universitat Kiel, jetzt Direktor des Institutes fur angewandte Statistik der F.U.Berlin, Frau Brunhilde Memmer, Bibliothek des Wirtschaftswissenschaftlichen Seminars der Uni-versitat Kiel, Herr Priv. Doz. Dr. E. Weber, Landwirtschaftliche Fakultat der Universitat Kiel,Variationsstatistik, sowie die Herren Dr. J. Neumann und Dr. M. Reichel von der hiesigen Uni-versitats-Bibliothek behilich. Nicht unerwahnt lassen mochte ich die wertvolle Mitarbeit bei derAbfassung des Manuskriptes, insbesondere durch Frau W. Schroder, Kiel, durch Fraulein Christa

  • Vorwort xi

    Diercks, Kiel, und durch den medizinisch-technischen Assistenten Herrn F. Niklewicz, Kiel, demich die Anfertigung der graphischen Darstellungen verdanke.Herrn Prof. Dr. S. Koller, Direktor des Institutes fur Medizinische Statistik und Dokumentationder Universitat Mainz und besonders Herrn Prof. Dr. E. Walter, Direktor des Institutes fur Medi-zinische Statistik und Dokumentation der Universitat Freiburg i. Br. verdanke ich viele wertvolleAnregungen.Beim Lesen der Korrekturen haben mich die Herren Dipl. Math. J. Schimmler und OberstudienratDr. K. Fuchs unterstutzt. Ihnen sei herzlich gedankt!Weiter danke ich den zahlreichen Autoren, Herausgebern und Verlagen, die den Abdruck der Ta-feln und Abbildungen ohne Vorbehalt gestattet haben.Zu Dank verpichtet bin ich insbesondere dem literarischen Vollstrecker des verstorbenen SirRonald A. Fisher, F.R.S., Cambridge, Herrn Prof. Frank Yates, Rothamsted und den Herren derOliver und Boyd Ltd., Edinburgh, fur die Erlaubnis, Tafel II 1, Tafel III, Tafel IV, Tafel V undTafel VII 1 ihres Buches ,,Statistical Tables for Biological, Agricultural and Medical Research zureproduzieren; Herrn Prof. O.L. Davies, Alderley Park, und den Herren des Verlages von Oliverund Boyd Ltd., Edinburgh, fur die Erlaubnis, einen Teil der Tafel H aus dem Buch ,,The Designand Analysis of Industrial Experiments von O.L. Davies ubernehmen zu durfen; den Herren desVerlages C. Grifn and Co. Ltd., London, sowie ihren Autoren, den Herren Prof. M.G. Kendall undProf. M.H. Quenouille, fur die Erlaubnis, aus dem Buch von Kendall und Stuart ,,The AdvancedTheory of Statistics, Vol. Il, die Tafeln 4a und 4b, aus dem Buchlein von Quenouille ,,RapidStatistical Calculations, die Abbildungen auf den Seiten 28 und 29 sowie Tafel 6 reproduzierenzu durfen; den Herren Prof. E.S. Pearson und H.O. Hartley, Herausgeber der ,,Biometrika Tablesfor Statisticians, Vol. 1, 2nd ed., Cambridge 1958, fur die Erlaubnis, Kurzfassungen der Tafeln 18,24 und 31 ubernehmen zu durfen. Mein Dank gilt weiter Mrs. Marjorie Mitchell, der McGrawHillBock Company, New York, und Herrn Prof. W.J. Dixon fur die Erlaubnis, aus dem Buch vonW.J. Dixon und F.J. Massey Jr.: ,,Introduction to Statistical Analysis Tafel A-12 c und Tafel A-29 reproduzieren zu durfen (Copyright vom 13. April 1965, 1. Marz 1966 und 21. April 1966)sowie Herrn Prof. C. Eisenhart fur die Genehmigung, aus ,,Techniques of Statistical Analysis,herausgegeben von C. Eisenhart, M.W. Hastay und W.A. Wallis, die Tafel der Toleranzfaktorenfur die Normalverteilung entnehmen zu durfen. Herrn Prof. F. Wilcoxon, Lederle Laboratories, aDivision of American Cyanamid Company, Pearl River, danke ich fur die Erlaubnis, aus ,,SomeRapid Approximate Statistical Procedures von F. Wilcoxon und Roberta A. Wilcox, die Tafeln 2,3 und 5 zu reproduzieren. Herrn Prof. W. Wetzel, Berlin-Dahlem, und den Herren des de Gruyter-Verlages, Berlin W 35, danke ich fur die Erlaubnis, aus den Elementaren Statistischen Tabellenvon W. Wetzel die Tafel auf S. 31 ubernehmen zu durfen. Besonderen Dank schulde ich HerrnProf. Dr. K. Diem, Redaktion des Documenta Geigy, Basel, fur die freundliche Uberlassung einerverbesserten Tafel der oberen Signikanzschranken des studentisierten Extrembereiches, die furdie 7. Auage der ,,Wissenschaftlichen Tabellen vorgesehen ist.Den Herren des Springer-Verlages danke ich fur die sehr erfreuliche Zusammenarbeit.

    Kiel, November 1967 Lothar Sachs

  • Inhaltsverzeichnis

    1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Denition und Aufgaben der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Wissenschaftliche Arbeitstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2.1 Daten und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.2 Kreisprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.3 Modelle in der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.3 Statistik und wissenschaftliche Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.1 Wiederholbare Erfahrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.2 Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.3 Explorativer Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.4 Konrmativer Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.5 Merkmale, Grundgesamtheit, Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.6 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.7 Zufallsstichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.4 Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.1 Klassierung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.2 Skalierung von Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4.3 Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2 Grundlagen aus der Mathematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.1 Logische und relationale Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.2.1 Begriffsbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2.2 Mengenoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    2.3 (Grund-) Rechenarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3.1 Summen und Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.2 Potenzen und Wurzeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.3.3 Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.3.4 Rundungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.3.5 Rechnen mit fehlerbehafteten Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    2.4 Einfuhrung in die Matrixalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.4.1 Denition und Schreibweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.4.2 Matrixoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.4.3 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.4.4 Die Inverse Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.4.5 Lineare Abhangigkeit, Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.4.6 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

  • xiv Inhaltsverzeichnis

    2.4.7 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.5 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    2.5.1 Lineare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.5.2 Nichtlineare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.5.3 Periodische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452.5.4 Exponentialfunktion und logarithmische Funktion . . . . . . . . . . . . . . . . . . . . . 462.5.5 Flachen unter einer Funktion - Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    2.6 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.6.1 Permutationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.6.2 Kombinationen - der Binomialkoefzient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492.6.3 Kombinationen mit Wiederholungen und mit Berucksichtigung der

    Anordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.6.4 Zerlegung einer Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522.6.5 Das Pascalsche Dreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522.6.6 Der Multinomialkoefzient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    3 Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.1 Haugkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    3.1.1 Absolute und relative Haugkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.1.2 Sinnvolle Quotienten: Verhaltniszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.1.3 Prozentwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.1.4 Torten- und Balkendiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.1.5 Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.1.6 Bedingte Haugkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    3.2 Beschreibung von Ordinaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.2.1 Medianwert und andere Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.2.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.2.3 Streuung ordinal skalierter Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653.2.4 Punktdiagramm und Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.2.5 Korrelationskoefzient nach Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.3 Beschreibung von metrischen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.3.1 Arithmetischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.3.2 Standardabweichung, Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.3.3 Variationskoefzient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.3.4 Der (x s)-Bereich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.3.5 Klassierte Messwerte; Berechnung des Mittelwertes und der

    Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.3.6 Das gewogene arithmetische Mittel, die gewogene Varianz und das

    gewichtete arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.3.7 Geometrischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 763.3.8 Harmonischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    3.4 Haugkeitsverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.4.1 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.4.2 Stamm-Blatt Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    3.5 Konzentration; Gini Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.6 Mazahlen fur den Zusammenhang metrischer Daten . . . . . . . . . . . . . . . . . . . . . . . . 85

    3.6.1 Punktwolken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 853.6.2 Die empirische Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 853.6.3 Der empirische Korrelationskoefzient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.6.4 Der Rangkorrelationskoefzient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 883.6.5 Typisierung korrelativer Zusammenhange . . . . . . . . . . . . . . . . . . . . . . . . . . . 903.6.6 Die lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

  • Inhaltsverzeichnis xv

    3.6.7 Spezielle Schatzungen der Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . 933.6.8 Robuste lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    3.7 Nichtlineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 993.7.1 Einige linearisierende Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    4 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1084.1 Zufallsexperiment, Ereignis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1094.2 Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    4.2.1 Denition nach Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114.2.2 Axiome nach Kolmogoroff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

    4.3 Bedingte Wahrscheinlichkeiten, stochastische Unabhangigkeit . . . . . . . . . . . . . . . . . 1164.3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1164.3.2 Stochastische Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    4.4 Bayessches Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1284.4.1 Bayessches Theorem und Pfadregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1294.4.2 Acht Beispiele zum Bayesschen Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

    4.5 Der diagnostische Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1324.5.1 ROC - Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1364.5.2 Der Likelihoodquotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

    4.6 Mazahlen in der Epidemiologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1394.6.1 Pravalenz und Inzidenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1394.6.2 Standardisierungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

    5 Zufallsvariablen, Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1445.1 Die Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

    5.1.1 Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsdichte undVerteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

    5.2 Mazahlen zur Kennzeichnung der Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1505.2.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1515.2.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1525.2.3 Momente: Schiefe und Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

    5.3 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1615.3.1 Das Urnenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1615.3.2 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1635.3.3 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1645.3.4 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1735.3.5 Negative Binomial-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1815.3.6 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    5.4 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1905.4.1 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1905.4.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1915.4.3 Lognormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2045.4.4 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2075.4.5 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

    5.5 Testverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2105.5.1 Student-Verteilung (t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2115.5.2 Chiquadrat-Verteilung (2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2155.5.3 Fisher-Verteilung (F) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2165.5.4 Verteilungen wichtiger Stichprobenfunktionen aus normalverteilten

    Grundgesamtheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2225.6 Verteilung zweidimensionaler Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

    5.6.1 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

  • xvi Inhaltsverzeichnis

    5.6.2 Randverteilungen und Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2265.6.3 Korrelationskoefzient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2305.6.4 Zweidimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2315.6.5 Multinomialverteilung (Polynomialverteilung) . . . . . . . . . . . . . . . . . . . . . . . . 233

    6 Schatzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2356.1 Zufallsstichproben und Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

    6.1.1 Spezielle Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2386.2 Das Schatzen von Parametern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

    6.2.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2406.2.2 Wunschenswerte Eigenschaften von Schatzfunktionen . . . . . . . . . . . . . . . . . 2416.2.3 Gesetz der groen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2436.2.4 Der mittlere quadratische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

    6.3 Schatzverfahren fur Mazahlen einer Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2456.3.1 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2456.3.2 Schatzung nach der groten Erwartung (MLE) . . . . . . . . . . . . . . . . . . . . . . . 2466.3.3 Kleinster Fehler (OLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

    6.4 Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2526.5 Kondenzintervall fur einen Anteilswert aus einer dichotomen Grundgesamtheit

    () . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2546.5.1 Approximation durch die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 2566.5.2 Sonderfalle mit p = 0 bzw. p = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2586.5.3 Schnellschatzung der Vertrauensgrenzen anhand einer beobachteten

    relativen Haugkeit nach Clopper und Pearson . . . . . . . . . . . . . . . . . . . . . . . 2596.5.4 Angenahertes 95%-Kondenzintervall fur 1 2 (n1 und n2 gro) . . . . . 2616.5.5 Schatzung des Mindestumfangs einer Stichprobe bei ausgezahlten Werten 262

    6.6 Kondenzintervalle fur bei Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2636.6.1 Vertrauenswahrscheinlichkeit und Irrtumswahrscheinlichkeit . . . . . . . . . . . . 2636.6.2 Kondenzintervall fur den Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . 2656.6.3 Kondenzintervall fur die Differenz 1 2 . . . . . . . . . . . . . . . . . . . . . . . . . 2676.6.4 Das Kondenzintervall fur den Erwartungswert d der Paardifferenzen . . . 2696.6.5 Kondenzintervall fur das Verhaltnis 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . 2696.6.6 Mindestzahl von Beobachtungen zur Schatzung eines Mittelwertes . . . . . . . 271

    6.7 Kondenzintervall fur die mittlere absolute Abweichung . . . . . . . . . . . . . . . . . . . . . . 2716.8 Kondenzintervall fur den Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

    6.8.1 Angenaherte verteilungsunabhangige Kondenzintervalle fur beliebigeQuantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274

    6.9 Kondenzintervalle nach dem Bootstrap-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 2756.10 Kondenzintervall fur 2 bzw. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278

    6.10.1 Kondenzintervall fur den Variationskoefzienten . . . . . . . . . . . . . . . . . . . 2796.10.2 Kondenzintervall fur den Quotienten zweier Varianzen 21/22 . . . . . . . . . . 2796.10.3 Mindestzahl von Beobachtungen zur Schatzung einer Standardabweichung 280

    6.11 Kondenzintervall fur den Erwartungswert einer Poisson-Verteilung . . . . . . . . . . 2806.12 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

    6.12.1 Bestimmung der Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2846.12.2 Das Kondenzintervall fur die Weibull-Gerade . . . . . . . . . . . . . . . . . . . . . . . 285

    6.13 Kondenzintervalle fur die Parameter einer linearen Regression . . . . . . . . . . . . . . . . 2866.13.1 Die Schatzung einiger Standardabweichungen . . . . . . . . . . . . . . . . . . . . . . . . 2866.13.2 Kondenzintervalle fur den Regressionskoefzienten, fur den

    Achsenabschnitt und fur die Restvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2916.13.3 Kondenzintervalle und Pradiktionsintervalle fur die Regressionsgerade . . 2926.13.4 Inverse Pradiktion aus einer linearen Regression . . . . . . . . . . . . . . . . . . . . . . 296

  • Inhaltsverzeichnis xvii

    6.13.5 Das Kondenzintervall fur den Korrelationskoefzienten . . . . . . . . . . . . . 2976.14 Toleranzgrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

    6.14.1 Verteilungsunabhangige Toleranzgrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3016.15 Ubereinstimmung von Messwerten nach Bland-Altman . . . . . . . . . . . . . . . . . . . . . . 302

    7 Hypothesentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3057.1 Der statistische Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305

    7.1.1 Entscheidungsprinzipien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3067.1.2 Statistische Hypothesen und Testentscheidungen . . . . . . . . . . . . . . . . . . . . . . 3077.1.3 Statistischer Test - Schritt fur Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3107.1.4 Powerfunktion und Operationscharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . 3147.1.5 Die Operationscharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3187.1.6 Die Formulierung von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3217.1.7 Der P-Wert nach R.A. Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3227.1.8 Aquivalenztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3247.1.9 Verteilungsunabhangige Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

    7.2 Tests der Verteilung (goodness of t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3277.2.1 Der Quotient R/s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3277.2.2 Uberprufung des 3. und 4. Momentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3287.2.3 Das Wahrscheinlichkeitsnetz, QQ-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3307.2.4 Der Chiquadrat-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3337.2.5 Kolmogoroff-Smirnoff-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3377.2.6 Shapiro-Wilk Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3417.2.7 Anderson-Darling Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3427.2.8 Ausreierproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343

    7.3 Einstichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3477.3.1 Hypothesen zu Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3477.3.2 Hypothesen zu Erwartungswerten, die sich auf einen empirischen

    Mittelwert beziehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3527.3.3 Einstichproben-Median-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3587.3.4 Vergleich einer empirischen Varianz mit ihrem Parameter . . . . . . . . . . . . . . 3597.3.5 Prufung der Zufallsmaigkeit einer Folge von Alternativdaten oder von

    Messwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3607.3.6 Prufung der Erwartungswerte von Poisson-Verteilungen . . . . . . . . . . . . . . . . 366

    7.4 Zweistichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3677.4.1 Vergleich zweier Varianzen (F-Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3677.4.2 Rangdispersionstest von Siegel und Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . 3717.4.3 Ansari-Bradley-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3757.4.4 t-Test fur unabhangige Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3777.4.5 t-Test fur Paardifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3877.4.6 Wilcoxon Rangsummentest fur zwei unabhangige Stichproben . . . . . . . . . 3917.4.7 Wilcoxon-Paardifferenzentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4007.4.8 Vergleich zweier unabhangiger Stichproben nach Kolmogoroff und

    Smirnoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4057.4.9 Cramer-von Mises Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4087.4.10 Einige weitere verteilungsunabhangige Verfahren fur den Vergleich

    unabhangiger Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4107.4.11 Zweistichprobentest auf Aquivalenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414

    7.5 Mehrstichprobenverfahren, varianzanalytische Methoden . . . . . . . . . . . . . . . . . . . . . 4187.5.1 Prufung der Gleichheit mehrerer Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . 4187.5.2 Einfache Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4237.5.3 Multiple Vergleiche, Multiples Testproblem . . . . . . . . . . . . . . . . . . . . . . . . . 428

  • xviii Inhaltsverzeichnis

    7.5.4 H-Test von Kruskal und Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4427.5.5 Varianzanalyse fur Messwiederholungen (Blockvarianzanalyse) . . . . . . . . . 4547.5.6 Friedman-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4567.5.7 Zweifache Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4657.5.8 Prinzipien der Versuchsplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470

    7.6 Die Analyse von Haugkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4777.6.1 Vergleich zweier relativer Haugkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4777.6.2 Die Analyse von Vierfeldertafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4797.6.3 Odds Ratio und relatives Risiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4877.6.4 Exakter Fisher-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4967.6.5 Der von McNemar modizierte Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . 4977.6.6 Test nach Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5037.6.7 Der k2-Felder-2-Test nach Brandt und Snedecor . . . . . . . . . . . . . . . . . . . . 5077.6.8 Cochran-Armitage Test auf linearen Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . 5167.6.9 Die Analyse von Zweiwegtafeln des Typs r c . . . . . . . . . . . . . . . . . . . . . . . 5197.6.10 Bowker-Test auf Symmetrie in quadratischen Mehrfeldertafeln . . . . . . . . . 5357.6.11 Cohens Kappa-Koefzient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537

    7.7 Hypothesentests zur Korrelation und Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5437.7.1 Prufung des Vorhandenseins einer Korrelation . . . . . . . . . . . . . . . . . . . . . . . 5447.7.2 z-Transformation nach R.A. Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5487.7.3 Weitere Anwendungen der z-Transformation . . . . . . . . . . . . . . . . . . . . . . . . 5497.7.4 Der Vergleich mehrerer Korrelationskoefzienten . . . . . . . . . . . . . . . . . . . . . 5517.7.5 Prufung der Linearitat einer Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5527.7.6 Prufung der Regressionsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5537.7.7 Prufung des Rang-Korrelationskoefzienten S . . . . . . . . . . . . . . . . . . . . . . . 557

    8 Statistische Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5608.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5608.2 Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562

    8.2.1 Die einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5628.2.2 Die multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5668.2.3 Verfahren der Variablenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5738.2.4 Nominalskalierte Einussgroen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576

    8.3 Varianzanalyse im linearen Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5778.3.1 Einfaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5778.3.2 Zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581

    8.4 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5858.4.1 Hypothesentest im logistischen Regressionsmodell . . . . . . . . . . . . . . . . . . . . 5898.4.2 Multiple logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5918.4.3 Interpretation der Regressionskoefzienten (odds) . . . . . . . . . . . . . . . . . . . . . 5948.4.4 Variablenauswahl im Rahmen der Modellbildung . . . . . . . . . . . . . . . . . . . . . 5958.4.5 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597

    8.5 Log-lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5988.5.1 Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5988.5.2 Log-lineares Modell am Beispiel von 2 Faktoren . . . . . . . . . . . . . . . . . . . . . . 6028.5.3 Drei-dimensionale Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604

    8.6 Analyse von Uberlebenszeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6098.6.1 Kaplan-Meier Schatzung der Uberlebensfunktion . . . . . . . . . . . . . . . . . . . . . 6118.6.2 Der Logrank-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6168.6.3 Parametrische Modelle fur Uberlebenszeiten . . . . . . . . . . . . . . . . . . . . . . . . . 6188.6.4 Das Cox-Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621

  • Inhaltsverzeichnis xix

    9 Einfuhrung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6339.1 Das Konsolfenster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6339.2 Objekte in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6369.3 Hilfestellung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6379.4 Erzeugen von Daten in R mittels Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6389.5 Dateneingabe: ,,Daten in Rahmen (data.frame) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6399.6 Auswahl und Sortierung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6409.7 Ablaufsteuerung: logische Bedingungen und Funktionen in R . . . . . . . . . . . . . . . . . 6419.8 Einige mathematische und statistische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 643

    9.8.1 Formulierung von Modellgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6459.9 Einfache graphische Funktionen und Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646

    10 Ubungsaufgaben zu ausgewahlten Themen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650

    Losungen der Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657

    Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 667

    Namensverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 680

    Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684

  • 1Einfuhrung

    Denition und Aufgaben der Statistik Wissenschaftliche Arbeitstechnik Statistik und wissenschaftliche Methode Datenanalyse

    1.1 Denition und Aufgaben der Statistik

    Statistik ist die Lehre von derVariabilitat / Streuung in denBeobachtungen.

    Statistik ist die Kunst, Daten zu ge-winnen, darzustellen, zu analysierenund zu interpretieren, um zu neuemWissen zu gelangen.

    Jeder von uns hat es erlebt, dass er wie der eingebildete Kranke und der eingebildeteGesunde echteZusammenhange oder echte Unterschiede nicht erkennt bzw. dass er nicht existente Unterschiedeoder Zusammenhange zu erkennen glaubt.Im Alltag erfassen wir einen Zusammenhang oder einen Unterschied mit Hilfe von Sachkenntnisund nach dem sogenannten ersten ,,Eindruck. Der Wissenschaftler, der gewisse neue Erschei-nungen, Abhangigkeiten, Trends, Effekte vieler Art entdeckt und darauf eine Arbeitshypothesegrundet, sichert diese ab gegen die Hypothese: die festgestellten Effekte sind allein durch denZufall bedingt.Die Frage, ob beobachtete Erscheinungen nur als Zufallsergebnisse gelten konnen oder typischsind, beantwortet die Beurteilende Statistik. Mit Hilfe statistischer Verfahren lassen sich Fragenbeantworten und Behauptungen uberprufen. Beispielsweise: Wie viele Personen sollte man vor ei-ner Wahl befragen, um ein ungefahres Bild vom Wahlergebnis zu erhalten? Hat der zweistundigeSchulsport in der Woche einen Trainingseffekt auf Herz und Kreislauf? Welche von mehrerenZahnpasten ist fur die Kariesprophylaxe zu empfehlen? Wie hangt die Stahlqualitat von der Zu-sammensetzung des Stahles ab? Die neue Verkauferin hat den Tagesumsatz um DM 1000 erhoht.Die fur eine bestimmte Krankheit charakteristische Uberlebensrate (60%) wird durch HeilmittelA auf 90% erhoht. Die Kunstdunger K1, K2 und K3 zeigen bei Hafer keine unterschiedliche Wir-kung. Zur Beantwortung dieser und anderer Fragen und Behauptungen benotigt man Daten (aufdie wir in Abschnitt [1.4.3] naher eingehen werden). Daten sind wichtig, um Annahmen zubewerten und neues Wissen zu entdecken.Statistische Methoden befassen sich mit Daten aus unserer Umwelt, mit ihrer Gewinnung undAufbereitung: Beschreibung, Auswertung und Beurteilung; das Ziel ist die Vorbereitung vonEntscheidungen. Als Vorlaufer der Statistik gelten (1) von Herrschern benotigte Daten uberdie Bevolkerung wie die Zahl wehrfahiger Manner und (2) durch den Spieltrieb angeregteUberlegungen uber Wettchancen beim Wurfelspiel. ,,Statistik war im 18. Jahrhundert die ,,Leh-re von der Zustandsbeschreibung der Staaten, wobei auch Daten uber Bevolkerung, Heer undGewerbe gesammelt wurden. Hieraus entwickelte sich die ,,Beschreibende Statistik mit der

  • 2 1 Einfuhrung

    Aufgabe, Zustande und Vorgange zu beschreiben; hierzu dienen Tabellen, graphische Darstellun-gen, Verhaltniszahlen, Indexzahlen und typische Kenngroen, wie Lagemae (z. B. arithmetischerMittelwert) und Streuungsmae (z. B. Varianz oder Standardabweichung).Die ,,Beurteilende Statistik schliet anhand geeigneter Daten auf allgemeineGesetzmaigkeiten,die uber den Beobachtungsraum hinaus gultig sind. Sie entwickelte sich aus der ,,PolitischenArithmetik, die sich hauptsachlich mit Tauf-, Heirats- und Sterberegistern beschaftigte, um Ge-schlechtsverhaltnis, Fruchtbarkeit, Altersaufbau und Sterblichkeit der Bevolkerung abzuschatzen.Die Beurteilende Statistik basiert auf der Wahrscheinlichkeitsrechnung, die mathematische Me-thoden zur Erfassung zufallsbedingter oder stochastischer Experimente beschreibt. Beispiele furstochastische Experimente oder Zufallsexperimente sind: das Werfen eines Wurfels, Glucksspieleund Lotterien aller Art, das Geschlecht eines Neugeborenen, Tagestemperaturen, Ernteertrage,die Brenndauer einer Gluhlampe, die Zeigerstellung eines Messinstruments bei einem Versuch,kurz jede Beobachtung und jeder Versuch, bei denen die Ergebnisse durch Zufallsschwankungenoder Messfehler beeinusst sind. Fast stets interessieren hierbei weniger die Beobachtungen oderMessergebnisse selbst, sondern die ubergeordnete Gesamtheit, der die Beobachtungen oder Mes-sergebnisse entstammen. Beispielsweise die Wahrscheinlichkeit, mit einem intakten Wurfel eine4 zu werfen, oder der Anteil der Zwillingsgeburten in Deutschland. Bei vielen, Wiederholba-re Erfahrungen betreffende Fragestellungen wird man nicht die zu untersuchende Menge allermoglichen Erfahrungen oder Beobachtungen, die so genannte Grundgesamtheit, vollstandig er-fassen konnen, sondern nur einen geeignet auszuwahlenden Teil. Um einen Wein zu beurteilen,entnimmt der Kellermeister einem groen Fass mit dem Stechheber eine kleine Probe.Diese Stichprobe gibt dann Aufschluss uber die Haugkeit und Zusammensetzung der interes-sierenden Merkmale der zu beurteilenden Grundgesamtheit, die man aus nanziellen, zeitlichenoder prinzipiellen Grunden nicht als Ganzes untersuchen kann. Vorausgesetzt wird das Vorlie-gen von Zufallsstichproben, bei denen jedes Element der Grundgesamtheit die gleiche Chancehat, ausgewahlt zu werden. Enthalt die Grundgesamtheit unterschiedliche Teilgesamtheiten, dannwird man geschichtete Zufallsstichproben wahlen. Sinnvolle und reprasentative Teilmenge einerTortensendung ist weder der Tortenboden, noch die Fullung, noch die Garnierung, sondern allen-falls ein Stuck Torte. Besser noch sind mehreren Torten entnommene Proben von Boden, Fullungund Garnierung.Zufallstichproben gewinnt man im Zahlenlotto mit Hilfe einer mechanischen Vorrichtung. Im all-gemeinen bedient man sich zur Gewinnung von Zufallsstichproben einer Tabelle von Zufallszah-len: Die Elemente werden nummeriert, ein Element gilt als ausgewahlt, sobald seine Nummer inder Tabelle erscheint. Nach einem Zufallsverfahren entnommene Stichproben haben den Vorzug,da die aus ihnen ermittelten statistischen Kenngroen gegenuber denen der Grundgesamtheit imallgemeinen nur die unvermeidlichenZufallsfehler [symmetrisch und meist klein] aufweisen, die,da sie das Resultat nicht verzerren bei mehrfachen Wiederholungen gleichen sich zufallige Feh-ler im Mittel aus abgeschatzt werden konnen, wahrend bei den Verfahren ohne Zufallsauswahlnoch so genannte methodische oder systematische Fehler [vermeidbar!] hinzukommen konnen,uber deren Groe sich in der Regel keine Angaben machen lassen. Insbesondere die Abschatzungdes Zufallsfehlers und die Prufung, ob beobachtete Erscheinungen auch fur die Grundgesamt-heiten charakteristisch sind oder lediglich als Zufallsergebnisse gelten konnen, die so genanntePrufung von Hypothesen uber die Grundgesamtheit oder uber Prozesse stehen im Vordergrund.Bei der Ubertragung eines Problems in statistisch prufbare Hypothesen sollte auf die Auswahlund Denition geeigneter problemnaher und aussagekraftiger, moglichst messbarer Merkmale,auf die Prazisierung und Konstanz der Untersuchungsbedingungen sowie auf die Verwendungkostenoptimaler Stichproben- bzw. Versuchsplane Wert gelegt werden. Wir konzentrieren unserAugenmerk auf uns wesentlich erscheinende Teile des Sachverhalts und versuchen, diese starkvereinfachte Nachbildung als Modell zu formulieren, wobei einige Annahmen notwendig sind.

  • 1.2 Wissenschaftliche Arbeitstechnik 3

    [Ohne Annahmen kommt man aus, wenn lediglich eine Beschreibung geplant ist, oder wenn nurHypothesen gewonnen aber nicht gepruft werden sollen.]

    1.2 Wissenschaftliche Arbeitstechnik

    Daten und Modelle Kreisprozesse Modelle in der Statistik

    1.2.1 Daten und Modelle

    Der Wissenschaftler stellt Fragen und bemuht sich, sie zu beantworten. Hierbei helfen statistischeMethoden, indem sie Planung und Auswertung wissenschaftlicher Studien prazisieren. Dies er-fordert Sachkenntnis, Umsicht und Grundkenntnisse der Sprache der Statistik. Insbesondere istzu kontrollieren, ob die Voraussetzungen der hierbei genutzten statistischen Modelle seitens dergewonnenen Daten erfullt sind.

    Statistische Modelle sind Annahmen uber Entstehung und Strukturder zu analysierenden Daten in der Sprache des Statistikers.

    Wichtig ist der Vergleich der beobachteten Datenstruktur mit der im Modell formalisierten Daten-struktur, formuliert aufgrund des Vorwissens des Untersuchers uber den die Daten erzeugendenProzess (1) und die zu prufenden Hypothesen (2), die durch Ziel und Zweck der Untersuchungbestimmt sind.Meist wird ein Standardmodell genutzt, seine Brauchbarkeit uberpruft und gegebenenfalls einanderes statistisches Modell gewahlt, das den Daten angemessener ist und die gewunschten bzw.modizierten Hypothesen efzienter zu prufen gestattet.

    Abb. 1.1. Kreisprozesse in der wissenschaftlichen Arbeit

  • 4 1 Einfuhrung

    Modelle sind wichtige Entscheidungshilfen. Modelle beschreiben und erklaren, auerdem er-moglichen sie Voraussagen. Die wissenschaftliche Arbeitsweise ist eine Strategie, die darauf ab-zielt, allgemeine Gesetzmaigkeiten zu nden und sie mit Hilfe prufbarer und ablehnbarer (falsi-zierbarer) Aussagen zu einer logisch-mathematisch strukturierten Theorie zu entwickeln. Hier-bei resultiert eine angenaherte Beschreibung der erfassbaren Wirklichkeit. Diese angenaherte Be-schreibung ist revidierbar und komplettierbar. Typisch fur die wissenschaftliche Methodik ist derKreisprozess oder Iterationszyklus:Mutmaungen (Ideen) Plan Beobachtungen Analyse Ergebnisse Neue Mutma-ungen (Neue Ideen) . . .; hierbei werden Widerspruche und Unvertraglichkeiten ausgeschaltetsowie die Modelle und Theorien verbessert. Die bessere Theorie ist die, die uns erlaubt, mehr zuerklaren und bessere Voraussagen zu machen.

    1.2.2 Kreisprozesse

    Die Wissenschaft ist ein Kreisprozess, ein Prozess von Wechselwirkungen zwischen(Erwartung und Erfahrung) Theorienbildung UND empirischer Forschung;

    dieser Prozess unterliegt der Selbstkorrektur.Fur uns ist wichtig: Aufgrund der problemspezischen Fragestellung werdenAnnahmen gemachthinsichtlich der Struktur des zugrunde liegenden Modells und des entsprechenden statistischenModells. Nach Prufung der Vertraglichkeit von Beobachtungen und statistischem Modell werdenKenngroen zur statistischen Beschreibung einer Grundgesamtheit, so genannte Parameter, feste Zahlen, die Modelleigenschaften beschreiben , geschatzt und Hypothesen uber die Para-meter gepruft. In beiden Fallen resultieren Wahrscheinlichkeitsaussagen. Aufgabe der Statistik

    ist es somit, der Fragestellung und den Daten angemessene statistische Modelle zu nden und zuschaffen und durch sie die in den Daten steckende wesentliche Information herauszuschalen, d.h. die Statistik liefert Modelle fur die Informationsreduktion, um Zusammenhange zu erkundenund spezielle Fragen zu beantworten.

    Diese und andere Verfahren bilden den Kern einer auf die kritische Gewinnung und Beurteilungvon Messwerten und Haugkeiten ausgerichtetenDatenanalyse, wie sie fur viele Bereiche in Tech-nik, Wirtschaft, Politik und Wissenschaft notwendig ist. Datenanalyse ist die systematische Suchenach aufschlussreichen Informationen uber Erscheinungen, Strukturen und Vorgange anhand vonDaten und graphischen, mathematischen sowie insbesondere statistischen Verfahren ohne oder mitWahrscheinlichkeitskonzept. Hierbei geht es weniger darum, Daten zu Wahrscheinlichkeiten zu,,vermahlen und statistisch signikante Befunde zu erzielen, die ja bedeutungslos oder unwichtigsein konnen. Nicht die statistische Signikanz, sondern die praktische Relevanz zahlt. Eine Be-wertung von Befunden hangt von vielen Faktoren ab, etwa von der fachspezischen Bedeutung,von der Vertraglichkeit mit anderen Resultaten oder von den Voraussagen, die sie ermoglichen.Diese Evidenz kann kaum statistisch bewertet werden.Daten haben viele Wirkungen auf uns, die uber eine Entscheidung hinausgehen. Sie geben unsVerstandnis, Einsicht, Anregungen und uberraschende Ideen, um neue Aktivitaten zu planen.Planen heit uberlegen, wie, mit welchen Ressourcen und in welchem Zeitraum ein angestrebtesZiel erreicht werden kann. Dabei sollte man Alternativen und Konsequenzen aufzeigen und damitkunftige Entscheidungen rationalisieren, moglichst exibel und unter vorausschauender Begeg-nung moglicher zusatzlicher Schwierigkeiten. Unvorhersehbare Umstande konnen zur Revisiondes Gesamtplans fuhren. Ubersicht 1 gibt Details, erganzt durch Sachs [Sac06].

  • 1.2 Wissenschaftliche Arbeitstechnik 5

    Ubersicht 1. Erfahrungsbedingte Hypothesen und theoriegeleitete Erfahrungen erganzen sich

    Bemerkungen zur Behandlung wissenschaftlicher Probleme1. Formulierung der Fragestellung, der Wunsche und Ziele: Haug ist es zweckmaig, das gesamte

    Problem in Teilprobleme zu zerlegen und einige Fragen zu stellen:a) Anlass und Zweck der Studie? Nahziel(e) und Fernziel(e)?b) Skizzierung der Ausgangssituation anhand von Standardfragen: was? wie? wo? wann? wie viel?

    was ist unbekannt? was wird vorausgesetzt?c) Problemtyp: Schatzungen? Standardisierungen? Vergleiche? Aufsuchen von Optimalbedingun-

    gen? Bedeutsamkeit von Anderungen? Zusammenhange zwischen Variablen?d) Angestrebter Gultigkeitsbereich und erforderliche Genauigkeit der Aussagen?e) Konsequenzen sowie Interessenten der moglichen Resultate?

    2. Prufung aller Informationsquellen: Hauptsachlich Erkundigungen und Literatur-Recherchen undSuche im Internet: was ist mit welchen Methoden bereits erkundet worden? Sind diese Befundezuverlassig [begrundete Annahmen oder Tatsachen (,,woher wissen Sie das?)]? Welche Alternativenexistieren?

    3. Wahl der Strategie:a) Entwicklung des problemspezischen Modells. Anzahl der zu berucksichtigenden Variablen.

    Einfuhrung vereinfachender Annahmen. Prufung, ob eine Moglichkeit besteht, das Problemdurch Transformation weiter zu vereinfachen, z. B. Untersuchungen an Zellkulturen oder anisolierten Organen anstatt am Menschen.

    b) Entwicklung der Untersuchungstechnik. Die Methode sollte problemnahe Messwerte (bzw.Haugkeiten) liefern, gewonnen ohne systematische Fehler!

    c) Entwicklung des statistischen Modells. Plan der statistischen Analyse. Klare Formulierung:des Modells, der Voraussetzungen des Modells, der Parameter und Kondenzintervalle, derHypothesenpaare sowie weiterer Details, etwa Art der Randomisierung.

    4. Prufung der Strategie: Anhand von Probe-Erhebungen und Vorversuchen. Uberprufung der Unter-suchungstechnik und der Vertraglichkeit der Beobachtungswerte mit dem statistischen Modell.

    5. Festlegung und Realisierung der Strategie: Aufgrund jetzt vorliegender Erfahrungen.a) Endgultige Festlegung aller wesentlichen Punkte, z. B. der Untersuchungsmethode, der Ver-

    suchsobjekte, der Merkmalstrager, der Merkmale und Einussgroen, der Kontrollen, der Be-zugsbasis; Berucksichtigung des Nulleffektes, Ausschaltung der unkontrollierbaren Variablen;Stichprobenumfang bzw. Zahl der Wiederholungen, Berucksichtigung des Aufwandes an Ar-beitskraften, Geraten, Material, Zeit u. a.; Umfang des gesamten Programmes; endgultige For-mulierung des Modells der statistischen Analyse; Vorbereitung und Kontrolle der Datenerfas-sung, Strukturierung der geplanten Tabellen und Formulierung der zu prufenden Hypothesenmit Vorgabe des Signikanzniveaus.

    b) Durchfuhrung der Untersuchung, moglichst ohne Modikation. Datenanalyse, Angabe vonKondenzintervallen und Prufung weniger Hypothesen.

    6. Entscheidungen und Schlussfolgerungen:a) Ergebnis: Kontrolle der Berechnungen. Darlegung der Resultate (Kondenzintervalle!) in

    Form von Tabellen und/oder graphischen Darstellungen.b) Interpretation: Hinweise auf Plausibilitat, praktische Bedeutung, Uberprufbarkeit und

    Gultigkeitsbereich der Untersuchungen. Unter Berucksichtigung der vereinfachenden Annah-men wird das Ergebnis der Hypothesenprufung kritisch gewurdigt und, wenn moglich und sinn-voll, mit den Befunden anderer Autoren verglichen. Ist eine Wiederholung der Untersuchungmit weniger vereinfachenden Annahmen, mit verbesserten Modellen, neuer Untersuchungstech-nik usw. erforderlich? Ergeben sich neue, aus den Daten gewonnene Hypothesen, die durchunabhangige neue Untersuchungen uberpruft werden mussen?

    c) Bericht: Beschreibung wesentlicher Details der gesamten Untersuchung, einschlielich der ne-gativen Befunde und wunschenswerter neuer Ansatze.

  • 6 1 Einfuhrung

    1.2.3 Modelle in der Statistik

    Ein Modell, etwa eine Landkarte oder ein Globus, ist eine vereinfachte Nachbildung eines Sach-verhaltes. Es dient zur Erklarung und Voraussage. Modellvorstellungen sind unerlasslich, wennUntersuchungen geplant werden: es beginnt mit theoretischen Uberlegungen zur Identizierungund Denition des Problems: Jede Anwendung statistischer Methoden setzt ein Modell voraus, essei denn man begnugt sich mit einer einfachen Beschreibung von Daten anhand von Mazahlen.Ein statistisches Modell ist der mathematische Ausdruck fur eine durch Randbedingungeneingeschrankte Wirklichkeit; formal erfasst und analysiert wird die Struktur eines Systems oderProzesses. Bestimmte Merkmale der zu modellierenden Realitat werden als wesentlich aufgefasstund im Modell angemessen nachgebildet. Nach der empirischen Uberprufung anhand von Ex-perimenten, Beobachtungen oder Erhebungen wird das Modell korrigiert und verfeinert, bis dieModell-Rechnungen die Wirklichkeit hinreichend gut beschreiben. Der Einuss als unwesentlichaufgefasster Merkmale, die im Modell unberucksichtigt bleiben, ist die Ursache fur die Abwei-chungen des Modells von der Realitat. Diese Abweichungen oder Residuen sind naturlich umsokleiner, je detaillierter und angemessener ein Modell ist. Die Residuen durfen keine Struktur auf-weisen; sie mussen zufallig verteilt sein (vgl. im Kapitel [8] zur Modellbildung). Modelle sollteneinfach und gut interpretierbar sein. sowie eine uberzeugende Antwort auf die zugrundeliegendeFragestellung ermoglichen.Statistische Methoden geben eine unvollstandige aber aufschlussreiche Beschreibung von Pha-nomenen, die zu kompliziert sind, um vollstandig durch ein Modell erfasst zu werden. Die Wahleines Modells hangt ab von dem zu modellierenden Objekt oder Prozess und von der Aufgaben-stellung und dem Ziel der Untersuchung. Bei der Wahl des Modells wird man bestrebt sein, allewesentlichen Umstande zu berucksichtigen, damit die aufgrund dieses Modells erzielten Ergeb-nisse der Wirklichkeit entsprechen, wobei, falls moglich, ein eher einfaches Modell zu bevorzugenist.Ein statistisches oder stochastisches Modell ist ein mathematisches Modell, das neben struk-turgebenden Konstanten Zufallsvariable (ausfuhrlich im Kapitel [5] zu Zufallsvariablen) enthalt,um Erscheinungen zu beschreiben, in denen der Zufall eine wesentliche Rolle spielt. Gedanklichgehen wir hierbei von Zufallsexperimenten aus. Die Konstanten heien Parameter; sie charak-terisieren als Kennzahlen einer Grundgesamtheit, etwa einer normalverteilten Grundgesamtheit,das Modell, die den Zufallsvariablen zugrundeliegende Wahrscheinlichkeitsverteilung: das istdie Gesetzmaigkeit, nach der die betrachtete Zufallsvariable ihre Werte annimmt.Modelle sind um so exibler, je mehr Parameter sie haben. Einen Parameter enthalt z. B. diePoisson-Verteilung, zwei Parameter, Erwartungswert und Standardabweichung, charakterisiereneine Normalverteilung. Parameter sind meist unbekannt.Man schatzt sie aus den Beobachtungen,die als Realisierungen von Zufallsvariablen angesehen werden (die einer konkreten Zufalls-stichprobe entstammen). Mehrere Parameter zugleich aus dem vorliegenden Datenkorper richtigzu schatzen, ist jedoch schwierig. Aus diesem Grunde beschrankt man sich oft lieber auf einfa-che, ubersichtliche Modelle, auch wenn man wei, dass es sich um eine Approximation handelt.In manchen Fallen lasst sich durch Transformation der Realisierungen von Zufallsvariablen eineder bekannten Verteilungen annahern, z. B. eine Normalverteilung. Dann ist es moglich, die furdieses Modell entwickelten Standardverfahren der Beurteilenden Statistik auf die vorliegendenBeobachtungen anzuwenden. Dieses erfordert:

  • 1.3 Statistik und wissenschaftliche Methode 7

    1. Umsicht und Beherrschung des Fachgebiets,2. Vertrautheit mit der statistischen Terminologie, mit den wichtigen Modellen und

    Methoden, einschlielich ihrer Voraussetzungen sowie3. eine grundliche Uberprufung, ob im Anwendungsfalle die gewonnenenDaten die-

    se Voraussetzungen, auch bei voraussetzungsarmen sogenannten verteilungsunab-hangigen statistischen Verfahren, erfullen (zumindest teilweise) bzw.

    4. inwieweit Abweichungen noch toleriert werden durfen und wie sich diese auf dieResultate auswirken werden.

    1.3 Statistik und wissenschaftliche Methode

    Wiederholbare Erfahrungen Deskriptive Statistik Explorativer Ansatz Konrmativer Ansatz Merkmale, Grundgesamtheit Stichproben Zufallsstichproben

    1.3.1 Wiederholbare Erfahrungen

    Die Wissenschaft lehrt uns: wie etwas erkannt wurde, was, genau, bisher bekannt ist und was noch unbekannt ist sowie den Umgang mit Empirie, Unsicherheit und Wahrheit.

    Den Gegenstand empirischer Wissenschaften bilden nicht einmalige isolierte, ein einzelnes Indi-viduum oder Element betreffende Ereignisse oder Merkmale, sondern wiederholbare Erfahrun-gen, eine Gesamtheit von als gleichartig betrachteter Erfahrungen, uber die Aussagen gefordertwerden.Als Semmelweis im Jahre 1847 in der Geburtshilfe-Klinik in Wien gegen den Widerstand seinerKollegen hygienische Manahmen durchsetzte, wusste er nichts uber die bakteriologischen Erre-ger des Kindbettebers. Auch konnte er den Erfolg seines Experimentes nicht direkt beweisen,denn auch nach der Einfuhrung der Hygiene starben noch Frauen in seiner Klinik am Kindbette-ber. Die Muttersterblichkeit aber war von 10,7% (18401846) uber 5,2% (1847) auf 1,3% (1848)zuruckgegangen, und da Semmelweis diese Prozentsatze an einer groen Zahl von Wochnerinnen(21 120; 3375; 3556) errechnet hatte, ergab sich die Schlussfolgerung, die Hygiene beizubehalten.Statistische Methoden sind uberall da erforderlich, wo Ergebnisse nicht beliebig oft und exakt re-produzierbar sind. Die Ursachen dieser Nichtreproduzierbarkeit liegen in unkontrollierten undunkontrollierbaren Einussen, in der Ungleichartigkeit der Versuchsobjekte, der Variabilitat desBeobachtungsmaterials und in den Versuchs- und Beobachtungsbedingungen. Diese Ursachenfuhren in den Beobachtungsreihen zu der Streuung quantitativ erfasster Merkmale. Da infolgedieser Streuung ein gefundener Einzelwert die Variabilitat einzelner Merkmale ist bei natur-wissenschaftlichen Untersuchungen meist kleiner als bei sozialwissenschaftlichen kaum exakt

  • 8 1 Einfuhrung

    reproduzierbar sein wird, mussen sichere und eindeutige Schlussfolgerungen zuruckgestellt wer-den. Die Streuung fuhrt damit zu einer Ungewissheit, die haug nur Entscheidungen ermoglicht.Dieses ist der Ansatzpunkt einer modernen Denition der Statistik als Entscheidungshilfe, die aufAbraham Wald (19021950) zuruckgeht: Statistik ist eine Zusammenfassung von Methoden,die uns erlauben, vernunftige optimale Entscheidungen im Falle von Ungewissheit zu treffen.Die Beschreibende (Deskriptive) Statistik befasst sich mit der Untersuchung und Beschreibungmoglichst der ganzen Grundgesamtheit. Sie ist einfach und verstandlich; graphische Methoden,die auch gut zur Darstellung der Resultate dienen, zeigen Unerwartetes deutlich. Auerdem ist sieunerlasslich, wenn fur die Daten (noch) kein Modell vorliegt.Die Beurteilende (Schlieende) Statistik untersucht demgegenuber nur einen Teil, der fur dieGrundgesamtheit, deren Eigenschaften uns interessieren, charakteristisch oder reprasentativ seinsoll. Es wird also von einem Teil der Beobachtungen auf die Grundgesamtheit aller geschlossen(schlieende Statistik). Entscheidend ist hierbei, dass der zu prufende Teil der Grundgesamtheit die Stichprobe zufallig, sagen wir nach einen Lotterieverfahren, ausgewahlt wird. Wir be-zeichnen eine Stichprobenentnahme als zufallig, wenn jede mogliche Kombination von Stichpro-benelementen der Grundgesamtheit dieselbe Chance der Entnahme besitzt. Zufallsstichprobensind wichtig, da nur sie Ruckschlusse auf die Grundgesamtheit zulassen. Totalerhebungen sindhaug kaum oder nur mit groem Kosten- und Zeitaufwand moglich!

    1.3.2 Deskriptive Statistik

    Die wissenschaftliche Arbeitsweise ist eine Strategie, die darauf abzielt, allgemeine Gesetz-maigkeiten zu nden und sie zu einer moglichst logisch-mathematisch strukturierten Theoriezu entwickeln. Hierbei resultiert eine angenaherte Beschreibung der Wirklichkeit, eine Rekon-struktion der erfassbarenWirklichkeit. Diese Approximation ist revidierbar und komplettierbar.Typisch fur die Wissenschaft ist daher ein Iterationszyklus (Abbildung 1.1) der Art: Ideen, Beob-achtungen, Ergebnisse, neue Ideen. Die Ideen sind Bausteine fur Modelle und Theorien. Durch dieIterationen werden Unvertraglichkeiten und Widerspruche eliminiert und die Modelle und Theo-rien verbessert. Hierfur mussen Beobachtungen gemacht und Daten gewonnen werden, die dannanalysiert werden, um das Ausgangskonzept zu modizieren und zu prazisieren.Dass zu viele Daten nicht angemessen analysiert werden, hat meist mehrere Ursachen:

    1. Die Fakten sind komplizierter als ursprunglich erwartet.2. Mit zunehmender Anhaufung der Daten legt sich die ursprungliche Begeisterung.3. Man strebt nach immer neueren und besseren Daten und schiebt so die Analyse

    vor sich her.Fur medizinische Daten kommt neben der biologischen Variabilitat und ihrer Problematik nochhinzu, dass fast stets viele Variablen eine Rolle spielen, mehr als in Physik und Chemie. Vondiesen Variablen werden in der Regel die ublichen Voraussetzungen statistischer Verfahren kaumerfullt. Daher spielen gerade hier datenanalytische Konzepte wie z. B.graphische Darstellungeneine groe Rolle.Ein wesentlicher Teil der Statistik ist die Datenbeschreibung einschlielich einer systematischenSuche nach aufschlussreichen Informationen uber die Struktur eines Datenkorpers. Strukturen inden Daten und bedeutsame Abweichungen von diesen Strukturen sollen aufgedeckt werden. DieBewertung derartiger Befunde hangt von mehreren Faktoren ab, etwa von ihrer Reprasentativitat,von der medizinischen Bedeutung, von der Vertraglichkeit mit anderen Resultaten oder von denVoraussagen, die sie ermoglichen. Diese Evidenz gilt es, angemessen abzuschatzen. Daten ha-ben zudem viele Wirkungen auf uns, die uber eine Entscheidung hinausgehen. Sie geben unsVerstandnis, Einsicht, Anregungen und uberraschende Ideen.

  • 1.3 Statistik und wissenschaftliche Methode 9

    1.3.2.1 Dimensionalitat

    Daten sind stets mehrdimensional oder multivariat, wenn die Bedingungen beobachtet und pro-tokolliert werden, unter denen sie entstehen. Wie gro soll diese Liste aussagekraftiger Einuss-groen und damit die Dimensionalitat p sein? Um dies zu entscheiden, bedarf es der Kombi-nation von Vorinformation und experimenteller Einsicht. Bei der Verringerung oder Reduktionder Dimensionalitat multivariater Daten muss ein Optimum in bezug auf Einfachheit, Klarheitund Detaillierungsgrad angestrebt werden. Ist der Verdichtungsgrad zu niedrig, so lassen sich dieDaten nicht uberschauen, ist er zu hoch, so ist die Aussage durftig. Welche Variablen solltenvernachlassigt werden? Welche Variablen konnen zu einem neuen Ma mit stabilen statistischenEigenschaften zusammengefasst werden? Zur Ubersicht und zur Beantwortung mancher Fragedienen hier graphische Darstellungen. Zu viele gewonnene Daten werden eher oberachlich aus-gewertet und, wenn uberhaupt, unubersichtlich dargestellt. Wenigen Daten misstraut der Leser,viele Daten uberblattert er. Es ist keineswegs trivial, die geeignete Informationsdichte fur Datenund Resultate zu nden, zumal sie auch vommutmalichen Leser und seinen Kenntnissen abhangt.Besonders instruktiv sind Tabellen mit 3 x 4 oder hochstens 4 x 5 Fachern.

    1.3.2.2 Data Editing

    Nach der Datengewinnung erfolgt die Entfernung oder Modizierung von Daten, die mit der Mas-se der Daten nicht harmonieren. Hierfur gibt es statistische Verfahren, ohne dass zu subjektiventschieden wird. Entsprechende Verfahren und Regeln sind vor der Datengewinnung festzule-gen. Dieses Data Editing (Data Cleaning) ist ein Teil der statistischen Analyse, der besondersviel Umsicht erfordert, da sonst wertvo