Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF...

21
Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel Hinweise zur korrekten Dateneingabe Johannes Hain Studentische Statistische Beratung Universit¨ at W¨ urzburg 1 / 21

Transcript of Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF...

Page 1: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Leitfaden zur Datenerfassung in Excel

Hinweise zur korrekten Dateneingabe

Johannes Hain

Studentische Statistische BeratungUniversitat Wurzburg

1 / 21

Page 2: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Inhaltsverzeichnis

1 Allgemeines

2 Variableneingabe

3 Werteeingabe

4 Eingabe von Mehrfachmessungen

2 / 21

Page 3: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Einleitung

Die Erfahrungen in der Praxis zeigen, dass zur Dokumentation vonempirisch erhobenem Datenmaterial in aller Regel das ProgrammExcel benutzt wird.

Aufgrund der guten Datenerfassungs-Eigenschaften von Excel,bietet diese Art der Datenspeicherung viele Vorteile – die erstelltenTabellen konnen von den allermeisten Statistik-Softwarepaketengelesen werden.

Ein Vorteil von Excel ist die große Freiheit bei der Dateneingabe,da es hier so gut wie keine Vorschriften gibt. Beispielsweise sind beiExcel Zeilen und Spalten prinzipiell gleichwertig – im Gegensatz zuden meisten Statistikprogrammen, in denen die Spalten den Zeilenubergeordnet sind.

3 / 21

Page 4: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Einleitung

Dieser scheinbare Vorteil erweist sich in der Praxis aber sehr haufigals ein Problem: beim Einlesen von Excel-Tabellen inStatistik-Softwarepakete konnen auf diese Weise vieleUbertragungsfehler entstehen.

Kann man bei verhaltnismaßig kleinen und ubersichtlichenDatensatzen diese Fehler noch manuell korrigieren, erweist sichdies bei Datensatzen mit mehreren hundert Variablen undmehreren tausend Fallen als außerst zeitaufwendig und ineffizient.

4 / 21

Page 5: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Einleitung

Im Folgenden soll nun ein kurzer Leitfaden fur eine einheitlicheVorgehensweise der Dateneingabe in Excel prasentiert werden mitdem Ziel, Ubertragungsfehler beim Einlesen der Daten in einStatistikprogramm zu minimieren. Bei korrekter Vorgehensweiselasst sich so die Auswertungen der erhobenen Daten außersteffizient gestalten.

Dieser Leitfaden beschrankt sich auf die Dateneingabe mit Excel,da dies die haufigste Form der Rohdatensicherung in der Praxisdarstellt.

Bei Problemen mit der Dateneingabe in anderen Formaten wie z.B.txt, csv oder dat, wende man sich bitte direkt [email protected].

5 / 21

Page 6: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Anordnung der Daten

Zum Einlesen in ein Statistikprogramm, mussen die Daten in einer

”rechteckigen“ Struktur vorliegen:

Struktur der Datenmatrix

Eine Spalte steht fur eine Variable (Merkmal)(z.B. Geschlecht oder Schuhgroße)

Eine Zeile steht fur eine Beobachtunseinheit(z.B. Patient oder Tier)

=⇒ In einer so strukturierten Datei enthalt eine Zeile allegemessenen Werte einer Beobachtungseinheit.

=⇒ In einer Spalte stehen dann alle fur das entsprechendeMerkmal aufgezeichneten Werte.

6 / 21

Page 7: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Anordnung der Daten

Grundsatzlich gilt weiterhin:

Die fur die Auswertung relevanten Daten mussen in einerTabelle vorliegen und nicht in verschiedenen Arbeitsmappenoder Dateien.

Zwischenraume zwischen Zeilen oder Spalten aus Grunden derUbersichtlichkeit sollen vermieden werden.⇒ Je einfacher die Struktur der Tabelle desto besser.

Formatanderungen wie Farben oder Rahmen, bzw. Zellenverbinden sind uberflussig, da diese nicht exportierbar sind,bzw. beim Einlesen Probleme verursachen.

In Excel berechnete Variablen besser unterlassen – dies kannauch im Statistikprogramm berechnet werden.

Kommentare in Excel zu einzelnen Werten sollten vermiedenwerden.

7 / 21

Page 8: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Anordnung der Daten

Eine haufiger Fehler passiert, wenn mehrere Gruppen vonbeobachteten Personen vorliegen (z.B.

”Raucher“ und

”Nichtraucher“ oder

”verheiratet“,

”ledig“ und

”geschieden“).

In jedem Fall sollen die Werte in einer Tabelle angeordnet werdenund nicht fur jede Gruppe eine eigene Tabelle angelegt werden.

Dies erreicht man, indem man sich eine Variable anlegt, in der dieGruppenzugehorigkeit festgelegt wird.

Zur Codierung von Variablen siehe Abschnitt 4.

8 / 21

Page 9: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

VariableneingabeKonventionen

In der ersten Zeile der Datenmatrix steht immer der Name derjeweiligen Variablen. Ab der zweiten Zeile sollten in jeder Spalte imIdealfall nur noch Zahlen stehen.

Bei der Namensgebung der Variablen sollte man gewissen Regelnim Hinterkopf behalten:

Konventionen bei der Benennung von Variablen

Die Variable sollte mit einem Buchstaben beginnen.

Es durfen nur Buchstaben, Ziffern sowie Underscores ( )verwendet werden.

Sonderzeichen, Leerzeichen und Umlaute mussen vermeidenwerden.

Jeder Variablenname darf nur einmal vergeben werden.

9 / 21

Page 10: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

VariableneingabeHinweise

Bei großeren Datensatzen mit vielen Variablen kann man schnellden Uberblick uber die Daten verlieren. Hierbei ist es wichtig, dassman bei der Variablenbenennung systematisch vorgeht:

Konventionen bei der Variablenbenennung

Verwende”talking names“, also Variablennamen, die eine

gewisse Verwandschaft zu ihrem Inhalt Erkennen lassen.⇒ Beispielsweise machen die Variablennamen

”VAR01–VAR12“ wenig Sinn.

Insbesondere bei Mehrfachmessungen ist es aber ratsamNummerierungen vorzunehmen.⇒ Bei funf Messungen empfiehlt sich etwa

”Messung1–Messung5“.

Variablennamen sollten nicht zu lange sein.

10 / 21

Page 11: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

VariableneingabeDatenschutz

Besonders medizinische Datensatze sind oftmals sehr sensibel, dadiese vertrauliche Patientendaten beinhalten. Doch auch andereDaten wie beispielsweise Fragebogen mussen anonymisiert werdenund durfen aus Datenschutzgrunden auf keinen Fall(Patienten-)Namen enthalten!

Diese Anonymisierung erreicht man durch die (eindeutige) Vergabevon Identifikationsnummern (z.B. Patientennummern oderFragebogennummern). Auf diese Weise sind die Falle im Datensatzeindeutig den Rohdaten zuzuordnen, bleiben aber bei derAuswertung anonym.

In der Regel ist in einem Datensatz die erste Spalte die

”id-Variable“ (

”id“ steht fur identification) mit der Nummerierung

der Untersuchungseinheiten.

11 / 21

Page 12: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Werteeingabe

Bei der Eingabe von Werten ist folgendes zu beachten:

Das Format innerhalb einer Variablen ist einheitlich zuhalten, d.h. entweder nur Zahlen (und somit keineSonderzeichen) oder nur Text oder nur Datumsangaben.

Bei Textvariablen ist darauf zu achten, dass diese nur dieStandard-ASCII-Zeichen enthalten, also keine Umlaute undkein ß (Generell empfiehlt es sich aber auf Textvariablen zuverzichten, Details zu

”Codierungen“ auf Folie 15).

Es durfen auch keine Maßeinheiten in der Variable stehen(z.B. nicht Große: 182 cm, sondern besser Große: 182).

12 / 21

Page 13: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Werteeingabe

Außerdem noch:

Keine Kommentare vor oder nach den Werten schreiben,sondern ggfs. eine eigene Variable fur Kommentare anlegen.

Datumswerte immer in einem einheitlichen Format angeben,wenn moglich immer in der Form DD.MM.YYYY, also z.B.15.03.1950 fur den 15. Marz 1950.

Es sollte unbedingt darauf geachtet werden, dass eineinheitliches Dezimaltrennzeichen verwendet wird, am bestenmit

”,“ (es geht aber auch

”.“). Anderenfalls bekommt man

beim Einlesen der Daten große Probleme.

Die Zahlen am besten ohne”1000er-Trennzeichen“ eingeben,

z.B. nicht 987.654.321 sondern besser 987654321.

13 / 21

Page 14: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

WerteeingabeFehlende Werte

Die Behandlung von sogenannten”missings“ also von nicht

vorliegenden Werten verdient besondere Betrachtung. Missingssind namlich in Datensatzen oft keine Seltenheit. Hierbei ist zubeachten:

Missing values in Datensatzen

Die Zelle mit einem fehlenden Wert am besten in derExcel-Tabelle leer lassen!

Man vermeide Zeichen wie”.“ oder ein Leerzeichen.

Auf gar keinen Fall sollte bei missings der Wert”0“

eingetragen werden und noch viel weniger ein”?“.

14 / 21

Page 15: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

WerteeingabeWertekodierung

Generell gilt, dass man versuchen sollte Textvariablen zuvermeiden. Dies wird dadurch erreicht, indem man die Wertekodiert, d.h. einer bestimmten Auspragung (z.B.

”mannlich“) einen

bestimmten Wert zuordnet.

Regeln bei der Wertekodierung

Kodierungen sind immer numerische Werte.

Es empfiehlt sich die Merkmale aufsteigend zu kodieren (z.B.Stimmung: 1 fur

”schlecht“, 2 fur

”mittel“ und 3 fur

”gut“)

Kodierungen fur die gleichen Antwortkategorien sollten fur alleVariablen gleich sein (z.B. 0 fur

”nein“, 1 fur

”ja“).

15 / 21

Page 16: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

WerteeingabeErstellung eines Code-Books

Hat man die Kodierungen vorgenommen, empfiehlt es sich einCode-Book anzulegen, in dem die Erklarung fur die jeweiligeKodierung dokumentiert wird. Am besten geschieht dies in einemextra Tabellenblatt und nicht unterhalb oder rechts von den Daten.

Struktur des Code-Books in einer extra Tabelle

1. Spalte: Variablenname unter Beachtung der Konventionennach Folie 10

2. Spalte: Erklarung der Variable ( = Variablenlabel)

3. Spalte: Auflistung aller moglichen Kodierungen innerhalbeiner Variablen

4. Spalte: Erklarung der Kodierungen ( = Wertelabel)

⇒ Eine”akzeptable“ Excel-Tabelle mit Daten und separatem

Code-Book findet man auf der Homepage.16 / 21

Page 17: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Design mit Messwiederholungen

Werden im Rahmen einer Studie an den Beobachtungen zuverschiedenen Zeitpunkten Messungen erhoben, spricht man vonsog. Messwiederholungen. Dies ist z.B. bei Langzeitstudien derFall, oder auch wenn von Patienten vor und nach einerMedikamenteinnahme eine Messung erfolgt.

Grundsatzlich gibt es zwei verschiedene Moglichkeiten dieerhobenen Daten in eine Tabelle einzufugen:

1 Jeder Messzeitpunkt wird als eigene Variable betrachtet.Dadurch bleibt die gewohnte Struktur der Datenmatrixerhalten: jede Zeile steht fur eine Beobachtungseinheit.

2 Es gibt eine Variable, die die wiederholten Messungen fur jedeBeobachtungseinheit benennt. Auf diese Weise andert sich diegewohnte Struktur: man erhalt pro Beobachtungseinheit undwiederholter Messung eine separate Zeile.

17 / 21

Page 18: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Design mit Messwiederholungen

Beispiel fur einen Datensatz nach Methode 1:

ID Alter Geschlecht Temperatur1 Temperatur2

1 49 0 39,1 38,2

2 53 1 37,5 37,6...

......

......

18 / 21

Page 19: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Design mit Messwiederholungen

Beispiel fur einen Datensatz nach Methode 2:

ID Alter Geschlecht Zeitpunkt Temperatur

1 49 0 1 39,1

1 49 0 2 38,2

2 53 1 1 37,5

2 53 1 2 37,6...

......

......

19 / 21

Page 20: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Design mit Messwiederholungen

Da die meisten statistischen Auswertungsverfahren eine Anordnungder Daten nach Methode 1 erfordern, wird diese auch beimEinlesen der Daten in Excel empfohlen.

Die Anordnung nach Methode 2 bietet lediglich Vorteile bei dergrafischen Darstellung der Daten. Die grafische Veranschaulichungder Daten kann aber auch direkt in Excel vorgenommen werden -die dort vorhandenen grafischen Darstellungsmittel sind fur diemeisten Zwecke absolut ausreichend.

20 / 21

Page 21: Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF fileEinleitungAllgemeinesVariableneingabeWerteeingabeEingabe von Mehrfachmessungen Leitfaden zur Datenerfassung in Excel

Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

Literaturhinweise

Brosius, F. (2008). SPSS-Programmierung – EffizientesDatenmanagement und Automatisierung mit SPSS-Syntax.Redline-Verlag. Heidelberg.

Duller, C. (2007). Einfuhrung in die Statistik mit SPSS und Excel.Physica-Verlag. Heidelberg.

21 / 21