Statistik mit R - Philipps-Universität Marburggruener/lehre/r.w05/folien/r... · faraway...

28
Statistik mit R Erwin Grüner Veranstaltungs- beschreibung Einführung Entw.umgebung Erste Schritte Hilfen Statistik mit R Erwin Grüner FB Psychologie Uni Marburg 27.10.2005

Transcript of Statistik mit R - Philipps-Universität Marburggruener/lehre/r.w05/folien/r... · faraway...

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste Schritte

Hilfen

Statistik mit R

Erwin Grüner

FB Psychologie Uni Marburg

27.10.2005

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste Schritte

Hilfen

ThemenübersichtVeranstaltungsbeschreibung

Inhalte der LehrveranstaltungLernzielAblaufOrganisatorische Hinweise

EinführungWas ist R?Eigenschaften von RNachteile von REinige PackagesWeb-AdressenLiteratur zu S/S-Plus und R

Die EntwicklungsumgebungArbeitsweise von RFenster und MenüsTastatureingaben

Erste SchritteAufruf von DemoprogrammenEingabe von AusdrückenVerwendung eines eingebauten DatensatzesZugriff auf die Variablen eines DatensatzesAufruf von Hypothesentests

Hilfen

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibungInhalte

Lernziel

Ablauf

Hinweise

Einführung

Entw.umgebung

Erste Schritte

Hilfen

Inhalte der Lehrveranstaltung

Einführung in die Möglichkeiten und Konzepte von RPraxisorientierte Einführung in die Arbeit mit R

Verwendung von GUIsArbeiten im Kommandofenster

Anwendungen aus verschiedenen Bereichen der Statistik(z. B. EDA, lineare Modelle)Entwicklung eigener Funktionen

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibungInhalte

Lernziel

Ablauf

Hinweise

Einführung

Entw.umgebung

Erste Schritte

Hilfen

Lernziel

Anwendung von Standardverfahren zur Statistik undGraphikErstellung maßgeschneiderter, spezieller Lösungen beikomplexeren AuswertungsproblemenZielgruppe: Mitarbeiter von Forschungsprojekten,Diplomanden

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibungInhalte

Lernziel

Ablauf

Hinweise

Einführung

Entw.umgebung

Erste Schritte

Hilfen

Ablauf

Die Veranstaltung besteht aus zwei gleich gewichtigenTeilen:

VorlesungVermittlung der neuen InhalteAnwendungsbeispieleDemonstrationen am PC

Praktische Übung im PC-Saal

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibungInhalte

Lernziel

Ablauf

Hinweise

Einführung

Entw.umgebung

Erste Schritte

Hilfen

Organisatorische Hinweise

Benutzung der Rechner im PC-SaalWebseite (Folien, Übungsaufgaben, . . . )Schein. . .

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Was ist R?

R ist eine umfassende Software für die Analyse undVisualisierung von Daten.R ist “GNU S”, d.h. eine unter der GNU-Lizenzstehende Implementierung von S. Damit ist R freieSoftware, d.h. auch kostenlos.S wurde bei AT&T Bell Laboratories von JohnChambers und Mitarbeitern entwickelt1.S-Plus ist eine kommerzielle Implementierung von S.R ist ein Dialekt von S: äußerlich weitgehend identisch,aber innere Unterschiede sind vorhanden.Die meisten S- bzw. S-Plus-Programme laufen auchunter R.

1Titel des “Blue Book” (Becker, Chambers & Wilks): “The New SLanguage. A Programming Environment for Data Analysis andGraphics”

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Eigenschaften von R

FunktionsvielfaltDifferenzierte Datentypen und -strukturen, vieleeingebaute Funktionen, Funktionsbibliotheken für vieleAnwendungenErweiterbarkeitEntwicklungsumgebung und ProgrammierspracheObjektorientiertheitAlle Größen (auch die Ausgaben von Funktionen) sindObjekte, auf die man Zugriff hat.OffenheitDatenschnittstelle zu SPSS, SAS u.a.Statistikdatenformaten

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Eigenschaften von R (Forts.)

Open SourceFreie Software, Quelltext verfügbar, kostenfreiQualitätWeltweite renommierte EntwicklergemeindeAktualitätNeue Algorithmen sind im allgemeinen implementiertUniversalitätLäuft unter allen gängigen BetriebssystemenUmfangreiche Dokumentation, SupportBücher und Artikel, pdf-Dateien, Online-Hilfen,Mailinglisten

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Nachteile von R

R ist komplex und sehr mächtig.R ist weniger benutzerfreundlich als beispielsweiseSPSS.Die graphische Benutzungsoberfläche “Rgui.exe” bietetnur rudimentäre Unterstützung2.Die volle Leistungsfähigkeit wird nur durch Verwendungvon Kommandos erreicht: man muss die Funktionenkennen und die Syntax von R beachten.

2Die Entwicklung von GUIs zu R schreitet aber voran, siehe z.B. “RCommander”.

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Packages zu Büchern

MASS Funktionen/Daten zu “Modern AppliedStatistics with S” (Venables & Ripley)

DAAG Funktionen/Daten zu “Data Analysis AndGraphics” (Maindonald & Braun)

ISwR Funktionen/Daten zu “Introductory Statisticswith R” (Dalgaard)

UsingR Funktionen/Daten zu “Using R forIntroductory Statistics” (Verzani)

car Funktionen/Daten zu “An R and S-PLUSCompanion to Applied Regression” (J. Fox)

faraway Funktionen/Daten zu “Linear Models with R”u.a. (Faraway)

. . . . . .

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Sonstige Packages

foreign Prozeduren zum Lesen von Fremdformatennlme hierarchische Regressionsmodelle

nortest Normalverteilungstestspsy verschiedene Psychometrie-Prozedurensem Strukturgleichungsmodelle

survival Survival-Analysetseries Zeitreihenanalyselattice Trellis Graphikenrimage Bildbearbeitungsprozeduren

R2HTML HTML-AusgabeRcmdr R Commander (GUI)

. . . . . .

. . . . . .

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Web-Adressen

http://www.r-project.org/Homepage des R-Projekts

http://cran.r-project.org/Comprehensive R Archive Network

http://cran.r-project.org/binBinaries zum Installieren von R

http://cran.r-project.org/manuals.htmlManuale zu R

http://lib.stat.cmu.edu/R/CRAN/other-docs.htmlWeitere Dokumentation

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Web-Adressen (Forts.)

http://cran.r-project.org/src/contrib/PACKAGES.htmlPackages

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/R Commander

http://www.math.montana.edu/Rweb/Statistical Analysis On The Web

http://lib.stat.cmu.edu/SStatlib S Archive

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

EinführungWas ist R

Eigenschaften

Nachteile

Packages

Web-Adressen

Literatur

Entw.umgebung

Erste Schritte

Hilfen

Literatur zu S/S-Plus und R

Venables, W. N., & Ripley, B. D. (2002). ModernApplied Statistics with S. (4th Ed.). Springer-Verlag.Venables, W. N., & Ripley, B. D. (2000). SProgramming. Springer-Verlag.Dalgaard, P. (2002). Introductory Statistics with R.Springer-Verlag.Venables, W. N., & Smith, D. M. () An Introduction toR. Network Theory Ltd.Fox, J. (). An R and S-Plus Companion to AppliedRegression. Sage Publications.Pinheiro, J. C., & Bates, D. M. (2001). Mixed-EffectsModels in S and S-PLUS. Springer-Verlag.

Weitere Dokumentation in Form von PDF-Dateien findetman im Internet, vor allem auch auf der CRAN-Seite.

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebungArbeitsweise

Fenster und Menüs

Tastatureingaben

Erste Schritte

Hilfen

Arbeitsweise von R

R ist ein Interpreter.Im interaktiven Modus arbeitet R in einer sog.’Read-Eval-Print’-Loop:

1 Eingabe: der Benutzer gibt einen Ausdruck ein2 Evaluierung: das System wertet den Ausdruck aus3 Ausgabe: das System gibt das Ergebnis (oder eine

Fehlermeldung) auf dem Bildschirm aus. . . (weiter mit 1.)

R kann auch im ’Batch-Modus’ betrieben werden.

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebungArbeitsweise

Fenster und Menüs

Tastatureingaben

Erste Schritte

Hilfen

Fenster und Menüs

Rgui.exe startet den interaktiven Modus unter Windows.Die graphische Benutzungsoberfläche enthält:

Hauptfenster mit einer Menüleiste und evtl. einerSymbolleiste sowie weiteren Fenstern . . .Konsolfenster für Benutzereingaben undSystemausgaben

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebungArbeitsweise

Fenster und Menüs

Tastatureingaben

Erste Schritte

Hilfen

Tastatureingaben

Eingaben werden mit der RETURN -Tasteabgeschlossen.Sollen mehrere Kommandos bzw. Ausdrücke auf einmaleingegeben werden, so sind sie mit Semikolon zutrennen.Der Eingabeprompt ist>

Bei syntaktisch unvollständigen Eingaben erscheint alsFortsetzungprompt+

Das Kommando für das Beendigen von R istq()

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste SchritteDemoprogramme

Ausdrücke

Eingebaute Datensätze

Variablenzugriff

Hypothesentests

Hilfen

Einige Demoprogramme

Aufruf von Demo-Programmen> demo() Übersicht über die Demos> demo(graphics) Graphik-Demos> demo(image) Höhenlinien u.ähnl.> demo(persp) 3D-Graphik

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste SchritteDemoprogramme

Ausdrücke

Eingebaute Datensätze

Variablenzugriff

Hypothesentests

Hilfen

Eingabe von Ausdrücken

R kann als Tischrechner verwendet werden:Zahlen> 1> 1.57> .2356> -1305.234> -1.23456e8

Arithmetische Ausdrücke> 1 + 2> 3 / 7 * 2 - 5.7> 3/0 → Inf (Infinity)> 0/0 → NaN (Not a Number)Verwendung numerischer Funktionen> sqrt(2*3.14159ˆ3)> log(10)> exp(sin(pi/6))

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste SchritteDemoprogramme

Ausdrücke

Eingebaute Datensätze

Variablenzugriff

Hypothesentests

Hilfen

Verwendung eines eingebauten Datensatzes

Informationen über verfügbare Datensätze:> data()

Aufruf des Datensatzes ’women’:> data(women)

Infos zum Datensatz ’women’> help(women)

Auflisten der Daten:> women

Aufruf statistischer Funktionen:> mean(women) Mittelwerte> sd(women) Standardabweichungen> cov(women) Kovarianzmatrix> cor(women) KorrelationsmatrixErstellung einer Graphik:> plot(women) Streuungsdiagramm

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste SchritteDemoprogramme

Ausdrücke

Eingebaute Datensätze

Variablenzugriff

Hypothesentests

Hilfen

Zugriff auf die Variablen eines Datensatzes

Aufruf des Datensatzes ’women’3:> data(women)

Zugriff auf Variablen (Auflisten der Variable ’height’):> women$height

Aufruf einer Funktion (Korrelation):> cor(women$height,women$weight)

3Neuerdings sind manche Datensätze standardmäßig verfügbar, d.h.dieser Aufruf ist dann nicht notwendig.

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste SchritteDemoprogramme

Ausdrücke

Eingebaute Datensätze

Variablenzugriff

Hypothesentests

Hilfen

Komfortabler Zugriff auf einen Datensatz

DieVariablen eines Datensatzes in den Suchpfad aufnehmen:> attach(women) Datensatz ’women’Auflisten der einzelnen Variablen:> height> weight

Aufruf statistischer Funktionen:> mean(height)> sd(height)> cov(height,weight)> cor(height,weight)

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste SchritteDemoprogramme

Ausdrücke

Eingebaute Datensätze

Variablenzugriff

Hypothesentests

Hilfen

Komfortabler Zugriff auf einen Datensatz (Forts.)

Erstellung von Graphiken (Streuungsdiagramm,Histogramm, Boxplot):> plot(height,weight)> hist(height)> boxplot(height)

Die Variablen eines Datensatzes aus dem Suchpfadentfernen:> detach(women)

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste SchritteDemoprogramme

Ausdrücke

Eingebaute Datensätze

Variablenzugriff

Hypothesentests

Hilfen

Durchführung von Hypothesentests,Modellanpassung

Daten verfügbar machen:> data(sleep)> attach(sleep)

t-Test:> t.test(extra~group)

Anpassung eines linearen Regressionsmodells:> lm(extra~group)

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste Schritte

Hilfen

Hilfen

Hilfe zu einem Objekt (z.B. einer Funktion) erhält manmit der Eingabe> help(objekt) oder kürzer mit> ?objekt

Informationen zu einem Paket:> help(package=packagename) oder> library(,packagename)

Auflistung aller Funktionen, deren Namen einengegebenen String enthalten:> apropos(string)

Beispiel zu einem angegebenen Thema:> example(topic)

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste Schritte

Hilfen

Hilfen (Forts.)

Aufruf der HTML-Hilfe:> help.start()Über das Help-Menü können darüber hinaus nochweitere Hilfen aufgerufen werden:

Frequently Asked Questions (FAQ)HTML-HilfenDie Handbücher zu R als PDF-Dateien

Statistikmit R

Erwin Grüner

Veranstaltungs-beschreibung

Einführung

Entw.umgebung

Erste Schritte

Hilfen