Datenhandling und Einstieg in die Analyse mit R - fom.de · Aus SPSS (Wenn Daten im SPSS Format...

41
Datenhandling und Einstieg in die Analyse mit R Prof. Dr. Oliver Gansser Unterlagen zum Selbststudium ifes Institut für Empirie & Statistik FOM Hochschule für Oekonomie & Management

Transcript of Datenhandling und Einstieg in die Analyse mit R - fom.de · Aus SPSS (Wenn Daten im SPSS Format...

Datenhandling und Einstieg in die Analyse

mit R

Prof. Dr. Oliver Gansser

Unterlagen zum Selbststudium

ifes Institut für Empirie & Statistik

FOM Hochschule für Oekonomie & Management

2 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R ist eine freie Programmiersprache für statistisches Rechnen und

statistische Grafiken.

Der Funktionsumfang von R kann durch eine Vielzahl von Paketen

erweitert und an spezifische statistische Problemstellungen angepasst

werden.

Als grafische Benutzeroberfläche wird in R das Paket R-Commander

(Paketname: Rcmdr) bereitgestellt.

Der R-Commander erleichtert das Datenmanagement und hilft beim

Schreiben von Auswertskripten.

Was ist R?

3 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Download der FOMPortable-Version unter

fom.de/Meine Hochschule/Tools & Services/Software

Download & Entpacken

4 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Download der FOMPortable-Version für Windows User in einen

Ordner mit Schreibrechten.

Download & Entpacken

Linux User können die

Software Rcmdr direkt

aus den Paketen des

Distributors installieren

(total simpel, ein Klick)

Mac User beachten bitte

die genaue Anleitung, da

hier einige Schritte mehr

notwendig sind, als auf

den anderen Systemen

Windows user

5 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Nachdem Sie die FOMPortable-Version von R aus dem Online-

Campus heruntergeladen haben, entpacken Sie die .zip-Datei.

Download & Entpacken für die FOMPortable-Version

Im Hauptverzeichnis

befindet sich die Datei R-

Start.bat mit der Sie die

R-Umgebung öffnen.

Idealerweise verknüpfen

Sie diese Datei mit Ihrem

Desktop.

Im Ordner „user“ wurden

Datensätze, Skripte und

der Fragebogen für Modul

Wissenschaftliche

Methodik hinterlegt

(Master of Science).

6 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Es öffnen sich die R-Console und der R-Commander

Beide Fenster müssen immer geöffnet bleiben.

Alle Befehle die in der R Console eingegeben werden können,

funktionieren auch im Rcmdr.

Im Rcmdr: Befehl mit Cursor markieren oder hinter den Befehl

setzten und auf

„Befehl ausführen“ klicken.

Benutzeroberflächen

7 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R Commander (Rcmdr)

…zeigt die hinter den

jeweiligen Menüpunkten

hinterlegten Funktionen

sowie die verwendeten

Argumente und

Parameter an.

…werden die

Skriptbefehle und die

Ergebnisse von z.B.

Berechnungen

ausgegeben.

…gibt Statusnachrichten

und Fehlermeldungen

aus.

8 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R kann zwischen Groß- und Kleinschreibung unterscheiden.

Ein Kommentar in Skripten wird mit # eingeleitet.

Fehlende Werte sind mit NA gekennzeichnet.

Das Dezimaltrennzeichen ,(„Komma“) ist . („Punkt“)

Das ist wichtig, wenn Sie aus anderen Formaten Daten importieren.

Sie müssen in diesem Fall folgendes wissen (s. Folie 19):

Wie sind die Felder der zu importierenden Datei getrennt.

Welches Format haben die Daten beim Dezimaltrennzeichen.

Eine Zuweisung erfolgt über „<-“

Die Daten (und alle Eingaben) werden mit dem Beenden von R (einem

der beiden Fenster) gelöscht.

R-Konventionen

9 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

R ist eine objektorientierte Sprache, d. h. eine Funktion kann je nach

Typ des Funktionsarguments unterschiedliche Ergebnisse liefern.

Für viele Argumente und Parameter existieren Voreinstellungen die

nicht explizit angegeben werden müssen.

Funktionen werden direkt angewendet.

Häufig werden die Ergebnisse von Funktionen Objekten zugewiesen,

so dass mit den Ergebnissen weitergearbeitet werden kann.

Die Ergebnisse werden im Workspace gespeichert. Der Inhalt kann mittels ls() angezeigt werden.

Mit rm()werden Objekte aus dem Workspace entfernt.

Funktionen

10 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Vielen Verfahren in R muss das Datenmodell über eine formula

übergeben werden.

Zum Verständnis hier die wichtigsten formula Zeichen (z. B. für die

Regressionanalyse):

~ trennt abhängig von unabhängig: y~x

+ fügt erklärende Variablen hinzu: y~u+v

* fügt erklärende Variablen und Interaktion hinzu: y~u*v

: fügt Interaktion direkt hinzu y~u+v+u:v

. fügt alle Variablen hinzu y~.

R-Modellspezifikation

11 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Unzählige Bücher und Internetquellen, auch auf Deutsch, eine

Auswahl:

Hatzinger, Hornig & Nagel (2011). R: Einführung durch angewandte Statistik,

Wien: Pearson Studium Statistik Einführung, sehr gutes Buch, an allen FOM

Standorten in der Bibliothek vorhanden.

Ligges, U. (2008). Programmieren mit R. Springer. eher technisch

Luhmann, M. (2010): R für Einsteiger, Weiheim. gutes Einstiegsbuch

Springer Reihe useR! für Spezialgebiete

Im Internet (Auswahl):

http://cran.r-project.org/manuals.html

http://www.r-project.org/other-docs.html

R-Literatur

12 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Es gibt viele Hilfsquellen (Befehle über R Console oder Rcmdr):

R Hilfe Startseite: help.start()

Direkte Hilfe zu einer Funktion: ?lm

Suchfunktion: help.search("lm")

FAQ: http://cran.r-project.org/doc/FAQ/R-FAQ.html

Mailinglisten, z.B. https://stat.ethz.ch/mailman/listinfo/r-help

Häufig hilft schon eine Internetsuche „R lm“

Oder Sie klicken den Hilfebutton im Rcmdr Menü:

R-Hilfe

13 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Viele (spezielle) Methoden sind in Paketen enthalten, die teilweise

zunächst installiert (über R Console) und dann geladen werden müssen:

Installieren von Paketen

per Direkteingabe > Install.packages(„Hier der Paketname“)

per Menüführung

Installierte Pakete müssen zur Nutzung geladen werden. Auch hier gibt

es verschiedene Möglichkeiten:

14 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Laden von Paketen

per Direkteingabe > Library(Hier der Paketname)

per Menüführung

Per Menüführung im

Rcmdr:

Extras/Lade Pakete

Vor dem Laden muss das

Pakt ein mal installiert

werden.

15 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Folgende Zusatzpakete (contributed) gehören zur (portablen) FOM R-

Standard Installation: Rcmdr (GUI)

conjoint (Conjointanalyse)

CTT (Testtheorie)

linprog (lineare Programmierung)

rela (Relabiliäten, Cronbach‘s alpha etc.)

Matching (Propensity Score Matching)

mvpart (Entscheidungsbäume)

nortest (Normalverteilungstests)

plm (Panelregression)

psych (Psychometrische Methoden, Hauptkomponentenrotation etc.)

pwr (Powerberechnungen)

randomForest (Random Forests)

sampleSelection (Tobit/Heckit Verfahren)

sem (Strukturgleichungen) => wird evtl. durch lavaan ersetzt

tseries (Zeitreihenmethoden, (G)Arch etc.)

Ab SoSe 14 arules und arulesViz (Assoziationsanalyse (Modul (E)CRM))

Ausgewählte Pakete

16 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Grafische Möglichkeit über den R-Commander (nächste Folien).

Textdateien (ASCII) über read.table().

Diverse Binärformate (z.B. SPSS über read.spss() im Paket

foreign).

Wenn Daten in Excel vorliegen sollte folgendes beachtet werden:

In der ersten Zeile befinden sich normalerweise die Variablennamen. Darunter die

Daten. Diese Daten sollten möglichst ohne Formatierungen vorliegen. Die

Datentabelle muss nicht hübsch sein, sondern zweckmäßig.

Pro Zeile liegen Daten je Auskunftsperson vor (Merkmalsträger, Beobachtung).

Legen Sie, wenn noch nicht geschehen, eine erste Spalte an, die Sie als Variable

Apn.Nr. o. ä. bezeichnen. Diese Nummer sollte auch auf dem Fragebogen stehen.

Alle Spalten die für die Auswertung nicht benötigt werden, können gelöscht

werden.

Daten einlesen und praktische Tipps

17 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Sie können jetzt entscheiden, ob Sie die Variablennamen nun umbenennen

(Var1=>Geschlecht, Var2=>Alter) oder in einem fortlaufenden Format

behalten.

Wenn Sie eine Datei ohne Variablennamen importieren, vergibt R beim

importieren fortlaufende Variablennamen. Z. B. V1, V2, V3, usw.

Daten einlesen aus Excel

Daten in Excel:

Spalten = Variablen

Zeilen = Auskunftspersonen

18 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Daten einlesen aus Excel

Hier kann ein Matrixname

eingegeben werden, auf den

sich die Skriptbefehle

beziehen. Dies ist wichtig bei

zu öffnenden Skriptdateien.

Da in Excel meist mehrere

Tabellen gespeichert sind, ist

die Tabelle mit den Rohdaten

einzulesen.

Sollte die Exceldatei im

Ordner nicht angezeigt

werden klicken Sie auf „All

Files(*.*).

Datenhandling und Einstieg in die Analyse mit R

Aus SPSS (Wenn Daten im SPSS Format

vorliegen):

Wertelabels können als Werteetiketten

übernommen werden.

Variablenlabels werden nicht übernommen.

Aus Textdateien (Wenn Daten im MAC

Format oder Linux Format vorliegen):

Datenfeldtrennzeichen und

Dezimaltrennzeichen beachten.

Wertelabels werden nicht übernommen.

Fehlende Werte werden von R durch NA

(not available) ersetzt.

Wie müssen die Daten vorher

gespeichert werden?

Mac: Speichern unter Windows-

kommagetrennt (.csv)

Linux: Speichern unter CSV (Trennzeichen-

getrennt)

Daten einlesen aus anderen Formaten

19 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Achtung: Das Trennzeichen

beim Import (Mac und Linux)

ist „;“

20 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Datenhandling

Datenmatrix auswählen, falls

mehrere geladen sind.

Achtung, dies ist beim

Speichern zu berücksichtigen!

(Folie 22 und 25) Datenmatrix bearbeiten (Wie

Excel)

Daten nur betrachten

21 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Datenmatrix bearbeiten

Variablen oder

Matrixinhalte können

geändert/ergänzt werden

R erkennt mit dem Einlesen,

um was für einen Datentyp

es sich handelt:

• Felder mit Buchstaben

werden als Charakter-

Variablen eingelesen.

• Felder mit Zahlen werden

als Numerische Variablen

eingelesen.

22 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

• Skripte aus dem

Skriptfenster, die

später noch benötigt

werden, können

gespeichert werden.

• Gespeicherte Skripte

können geöffnet

werden.

• Bsp: Skript zur PCS

im Ordner „user“.

Ergebnisse im

Ausgabefenster können

gespeichert werden.

• Daten können im R-Format gespeichert werden (*.Rdata).

• Eine Datendatei kann mehrere Datenmatrizen enthalten.

• Eine einzelne Datenmatrix wird besser unter Datenmanagement

gespeichert (s. Folie 25).

23 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Grundsätzlich können alle drei Fenster des Rcmdr wie mit jedem Editor

bearbeitet werden. Alle üblichen Strg-Funktionen sind möglich.

24 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Eine Datenmatrix im *RData Format

kann neu erstellt oder eine bereits

gespeicherte Datei (mit mehreren

Matrizen) oder Matrix kann geladen

werden.

Merge data sets aggregiert mehrere

Matrizen zu einer Matrix. Dieses Feld

ist nur aktiv, wenn auch mehrere

Matrizen geladen sind.

Hier befinden sich alle Operationen,

die mit der gesamten Datenmatrix

durchgeführt werden können.

Hier befinden sich alle Operationen,

die mit einzelnen Variablen

durchgeführt werden können.

25 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Für bestimmte Verfahren

(z. B. die PCA) ist es

notwendig, Teilmengen

zu bilden.

Teilmengen können mit oder ohne Anweisung erfolgen.

Nützliche Operatoren sind: >, <, ==, etc, (siehe nächste Folie!)

Speichern oder

exportieren einer

einzelnen Matrix (vgl.

Folie 22)

26 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Operatoren in R

Quelle:http://www.statmethods.net/

Quelle:http://www.statmethods.net/

27 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Aktive Datenmatrix/Teilmenge der aktiven Datenmatrix

28 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Merge data set

Über das Skript können so sehr viele

Datenmatrizen sehr schnell aggregiert werden,

Bspw:.

MergedDataset <- mergeRows(Datenmatrix1,

Datenmatrix2, common.only=FALSE)

MergedDataset <- mergeRows(MergedDataset,

Datenmatrix3, common.only=FALSE)

MergedDataset <- mergeRows(MergedDataset,

Datenmatrix4, common.only=FALSE)

usw.

Zwei oder mehrere

Matrizen zu einer

Matrix

zusammenführen

29 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Aktive Datenmatrix/Aggregate variables in aktive data set

Die Aggregationsregeln

können mittels der

Operatoren individuell

festgelegt werden.

30 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Aktive Datenmatrix/Variablen übereinander platzieren

• Variablen können so

transponiert werden.

• Variablennamen werden

so zu Faktoren.

31 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Menüführung im Rcmdr

Auf den nachfolgende Folien sind die wichtigsten Befehle erläutert. Auswahl des

entsprechenden Menüpunktes ist im Folientitel sichtbar.

32 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Rekodiere Variable

Achtung, mit diesem Haken

entscheiden Sie, ob die

Variable metrisch bleibt, oder

zum Faktor wird.

Wenn Items bei einer

Stapelskalierung im

Fragebogen negativ und

positiv formuliert sind, ist

eine Recodierung

erforderlich, da sonst z. B.

eine Mittelwertbildung keinen

Sinn macht.

33 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Erzeuge neue Variable

Hier wird deutlich, welche

Vorteile eine fortlaufende

Nummerierung der

Variablen hat.

Skriptbefehle können

einfach kopiert und für

andere Operationen

abgeändert werden.

34 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Konvertiere numerische Variablen in Faktoren

Liegen nominale

Daten in metrischer

(numerischer) Form

vor, dann sind diese

Daten in Faktoren zu

konvertieren.

35 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Konvertiere numerische Variablen in Faktoren

• Sollten die Daten in

numerischer Form

nicht mehr benötigen

werden, kann die

Variable

überschreiben

werden.

• Alternativ wird die

Variable neu benannt.

Datenmatrix$Geschlecht <- factor(Datenmatrix$Geschlecht, labels=c('männlich','weiblich'))

Dazugehöriger Skriptbefehl im

Skriptfenster.

36 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Gruppiere nummerische Variable

Datenhandling und Einstieg in die Analyse mit R

Skripbefehl in R:

cut(x, breaks, labels = NULL, include.lowest = FALSE,

right = TRUE, dig.lab = 3, ordered_results = FALSE)

x - Umzuwandelnder numerischer Wert

breaks - Entweder einzelner Integer mit Anzahl der gewünschten Intervalle oder

ein numerischer Vektor mit den gewünschten Intervallgrenzen

labels - Labels für die Ausprägungen des Ergebnisvektors

include.lowest - Logischer Wert der steuert, ob ein Wert auf einer offenen

Intervallgrenze mit hinzugezählt werden soll oder nicht

right - Logischer Wert, der steuert, ob Intervalle rechts geschlossen und links

offen sein sollen

dig.lab - Anzahl Dezimalstellen für berechnete Faktorlabels (wenn labels nicht

gesetzt wird)

ordered_results - Logischer Wert der steuert, ob das Ergebnis ordinaler Faktor ist

(Danke an Joachim Schwarz für die Recherche des Befehls)

Festlegung individueller Intervallgrenzen über das Skriptfenster

37 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Beispiel:

Datenmatrix$Altergruppe2 <- cut(Datenmatrix$Var2,

breaks=c(0,20,30,40,50,60), ordered_results = TRUE)

Festlegung individueller Intervallgrenzen über das Skriptfenster

38 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

39 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Variablen bearbeiten/Variablen umbenennen und löschen

• Es können beliebig viele

Variablen umbenannt

werden.

• Alternativ kann die

Variable auch über den

Button „Datenmatrix

bearbeiten“ umbenannt

werden (s. Folie 21).

40 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014

Datenhandling und Einstieg in die Analyse mit R

Deskriptive Statistik

Deskriptive Statistik

aller Variablen der

aktiven Datenmatrix.

Gute

Kontrollmöglichkeit, ob

Daten im richtigen Typ

und ohne Eingabefehler

vorhanden sind.

Kontakt

3. Februar 2014

Stellvertretender Direktor

Prof. Dr. Oliver Gansser

[email protected]

Kontakt

ifes Institut für Empirie & Statistik

Standort München

FOM Hochschule für Oekonomie & Management

Hopfenstraße 4 | 80335 München

Telefon 089 202452-23 | Fax 089 202452-29 | Web www.fom-ifes.de

Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 41