Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF...

Click here to load reader

  • date post

    06-Feb-2018
  • Category

    Documents

  • view

    221
  • download

    3

Embed Size (px)

Transcript of Leitfaden zur Datenerfassung in Excel - Hinweise zur ... · PDF...

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Leitfaden zur Datenerfassung in Excel

    Hinweise zur korrekten Dateneingabe

    Johannes Hain

    Studentische Statistische BeratungUniversitat Wurzburg

    1 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Inhaltsverzeichnis

    1 Allgemeines

    2 Variableneingabe

    3 Werteeingabe

    4 Eingabe von Mehrfachmessungen

    2 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Einleitung

    Die Erfahrungen in der Praxis zeigen, dass zur Dokumentation vonempirisch erhobenem Datenmaterial in aller Regel das ProgrammExcel benutzt wird.

    Aufgrund der guten Datenerfassungs-Eigenschaften von Excel,bietet diese Art der Datenspeicherung viele Vorteile die erstelltenTabellen konnen von den allermeisten Statistik-Softwarepaketengelesen werden.

    Ein Vorteil von Excel ist die groe Freiheit bei der Dateneingabe,da es hier so gut wie keine Vorschriften gibt. Beispielsweise sind beiExcel Zeilen und Spalten prinzipiell gleichwertig im Gegensatz zuden meisten Statistikprogrammen, in denen die Spalten den Zeilenubergeordnet sind.

    3 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Einleitung

    Dieser scheinbare Vorteil erweist sich in der Praxis aber sehr haufigals ein Problem: beim Einlesen von Excel-Tabellen inStatistik-Softwarepakete konnen auf diese Weise vieleUbertragungsfehler entstehen.

    Kann man bei verhaltnismaig kleinen und ubersichtlichenDatensatzen diese Fehler noch manuell korrigieren, erweist sichdies bei Datensatzen mit mehreren hundert Variablen undmehreren tausend Fallen als auerst zeitaufwendig und ineffizient.

    4 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Einleitung

    Im Folgenden soll nun ein kurzer Leitfaden fur eine einheitlicheVorgehensweise der Dateneingabe in Excel prasentiert werden mitdem Ziel, Ubertragungsfehler beim Einlesen der Daten in einStatistikprogramm zu minimieren. Bei korrekter Vorgehensweiselasst sich so die Auswertungen der erhobenen Daten auersteffizient gestalten.

    Dieser Leitfaden beschrankt sich auf die Dateneingabe mit Excel,da dies die haufigste Form der Rohdatensicherung in der Praxisdarstellt.

    Bei Problemen mit der Dateneingabe in anderen Formaten wie z.B.txt, csv oder dat, wende man sich bitte direkt [email protected]

    5 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Anordnung der Daten

    Zum Einlesen in ein Statistikprogramm, mussen die Daten in einer

    rechteckigen Struktur vorliegen:

    Struktur der Datenmatrix

    Eine Spalte steht fur eine Variable (Merkmal)(z.B. Geschlecht oder Schuhgroe)

    Eine Zeile steht fur eine Beobachtunseinheit(z.B. Patient oder Tier)

    = In einer so strukturierten Datei enthalt eine Zeile allegemessenen Werte einer Beobachtungseinheit.

    = In einer Spalte stehen dann alle fur das entsprechendeMerkmal aufgezeichneten Werte.

    6 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Anordnung der Daten

    Grundsatzlich gilt weiterhin:

    Die fur die Auswertung relevanten Daten mussen in einerTabelle vorliegen und nicht in verschiedenen Arbeitsmappenoder Dateien.

    Zwischenraume zwischen Zeilen oder Spalten aus Grunden derUbersichtlichkeit sollen vermieden werden. Je einfacher die Struktur der Tabelle desto besser.Formatanderungen wie Farben oder Rahmen, bzw. Zellenverbinden sind uberflussig, da diese nicht exportierbar sind,bzw. beim Einlesen Probleme verursachen.

    In Excel berechnete Variablen besser unterlassen dies kannauch im Statistikprogramm berechnet werden.

    Kommentare in Excel zu einzelnen Werten sollten vermiedenwerden.

    7 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Anordnung der Daten

    Eine haufiger Fehler passiert, wenn mehrere Gruppen vonbeobachteten Personen vorliegen (z.B.

    Raucher und

    Nichtraucher oder

    verheiratet,

    ledig und

    geschieden).

    In jedem Fall sollen die Werte in einer Tabelle angeordnet werdenund nicht fur jede Gruppe eine eigene Tabelle angelegt werden.

    Dies erreicht man, indem man sich eine Variable anlegt, in der dieGruppenzugehorigkeit festgelegt wird.

    Zur Codierung von Variablen siehe Abschnitt 4.

    8 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    VariableneingabeKonventionen

    In der ersten Zeile der Datenmatrix steht immer der Name derjeweiligen Variablen. Ab der zweiten Zeile sollten in jeder Spalte imIdealfall nur noch Zahlen stehen.

    Bei der Namensgebung der Variablen sollte man gewissen Regelnim Hinterkopf behalten:

    Konventionen bei der Benennung von Variablen

    Die Variable sollte mit einem Buchstaben beginnen.

    Es durfen nur Buchstaben, Ziffern sowie Underscores ( )verwendet werden.

    Sonderzeichen, Leerzeichen und Umlaute mussen vermeidenwerden.

    Jeder Variablenname darf nur einmal vergeben werden.

    9 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    VariableneingabeHinweise

    Bei groeren Datensatzen mit vielen Variablen kann man schnellden Uberblick uber die Daten verlieren. Hierbei ist es wichtig, dassman bei der Variablenbenennung systematisch vorgeht:

    Konventionen bei der Variablenbenennung

    Verwendetalking names, also Variablennamen, die eine

    gewisse Verwandschaft zu ihrem Inhalt Erkennen lassen. Beispielsweise machen die Variablennamen

    VAR01VAR12 wenig Sinn.

    Insbesondere bei Mehrfachmessungen ist es aber ratsamNummerierungen vorzunehmen. Bei funf Messungen empfiehlt sich etwa

    Messung1Messung5.

    Variablennamen sollten nicht zu lange sein.

    10 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    VariableneingabeDatenschutz

    Besonders medizinische Datensatze sind oftmals sehr sensibel, dadiese vertrauliche Patientendaten beinhalten. Doch auch andereDaten wie beispielsweise Fragebogen mussen anonymisiert werdenund durfen aus Datenschutzgrunden auf keinen Fall(Patienten-)Namen enthalten!

    Diese Anonymisierung erreicht man durch die (eindeutige) Vergabevon Identifikationsnummern (z.B. Patientennummern oderFragebogennummern). Auf diese Weise sind die Falle im Datensatzeindeutig den Rohdaten zuzuordnen, bleiben aber bei derAuswertung anonym.

    In der Regel ist in einem Datensatz die erste Spalte die

    id-Variable (

    id steht fur identification) mit der Nummerierung

    der Untersuchungseinheiten.

    11 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Werteeingabe

    Bei der Eingabe von Werten ist folgendes zu beachten:

    Das Format innerhalb einer Variablen ist einheitlich zuhalten, d.h. entweder nur Zahlen (und somit keineSonderzeichen) oder nur Text oder nur Datumsangaben.

    Bei Textvariablen ist darauf zu achten, dass diese nur dieStandard-ASCII-Zeichen enthalten, also keine Umlaute undkein (Generell empfiehlt es sich aber auf Textvariablen zuverzichten, Details zu

    Codierungen auf Folie 15).

    Es durfen auch keine Maeinheiten in der Variable stehen(z.B. nicht Groe: 182 cm, sondern besser Groe: 182).

    12 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    Werteeingabe

    Auerdem noch:

    Keine Kommentare vor oder nach den Werten schreiben,sondern ggfs. eine eigene Variable fur Kommentare anlegen.

    Datumswerte immer in einem einheitlichen Format angeben,wenn moglich immer in der Form DD.MM.YYYY, also z.B.15.03.1950 fur den 15. Marz 1950.

    Es sollte unbedingt darauf geachtet werden, dass eineinheitliches Dezimaltrennzeichen verwendet wird, am bestenmit

    , (es geht aber auch

    .). Anderenfalls bekommt man

    beim Einlesen der Daten groe Probleme.

    Die Zahlen am besten ohne1000er-Trennzeichen eingeben,

    z.B. nicht 987.654.321 sondern besser 987654321.

    13 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    WerteeingabeFehlende Werte

    Die Behandlung von sogenanntenmissings also von nicht

    vorliegenden Werten verdient besondere Betrachtung. Missingssind namlich in Datensatzen oft keine Seltenheit. Hierbei ist zubeachten:

    Missing values in Datensatzen

    Die Zelle mit einem fehlenden Wert am besten in derExcel-Tabelle leer lassen!

    Man vermeide Zeichen wie. oder ein Leerzeichen.

    Auf gar keinen Fall sollte bei missings der Wert0

    eingetragen werden und noch viel weniger ein?.

    14 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    WerteeingabeWertekodierung

    Generell gilt, dass man versuchen sollte Textvariablen zuvermeiden. Dies wird dadurch erreicht, indem man die Wertekodiert, d.h. einer bestimmten Auspragung (z.B.

    mannlich) einen

    bestimmten Wert zuordnet.

    Regeln bei der Wertekodierung

    Kodierungen sind immer numerische Werte.

    Es empfiehlt sich die Merkmale aufsteigend zu kodieren (z.B.Stimmung: 1 fur

    schlecht, 2 fur

    mittel und 3 fur

    gut)

    Kodierungen fur die gleichen Antwortkategorien sollten fur alleVariablen gleich sein (z.B. 0 fur

    nein, 1 fur

    ja).

    15 / 21

  • Einleitung Allgemeines Variableneingabe Werteeingabe Eingabe von Mehrfachmessungen

    WerteeingabeErstellung eines C