Umgang mit fehlenden Werten in SPSS

Fehlende Werte kommen in fast allen Datensätzen vor und ein korrekter Umgang damit ist eine Grundvoraussetzung für korrekte Ergebnisse. SPSS bietet hierfür zwei verschiedene Möglichkeiten:

  • System-Missings
  • User-Missings

In diesem Beitrag erkläre ich den korrekten Umgang mit fehlenden Werten und weise auf mögliche Probleme und Fehler hin, so dass die gewünschten fehlerfrei Analysen durchgeführt werden können.

System-definied-Missings als fehlender Wert in SPSS

Alle numerischen Zellen, in denen kein Wert steht, werden von SPSS als System-Missing betrachtet. In der Datenansicht wird hier einfach ein Punkt angezeigt. Da dieses Verfahren am einfachsten ist, wird es wahrscheinlich auch am häufigsten genutzt. Jedoch hat dieses Vorgehen eine Reihe von Nachteilen:

  • Sie können nicht zwischen unterschiedlichen Gründen für den fehlenden Wert differenzieren. Beispielsweise kann bei einer Person kein gültiger Wert vorliegen, weil sie zum Messzeitpunkt nicht anwesend war, die Person auf eine einzelne Frage keine Antwort gegeben hat oder die Frage bei der Person keinen Sinn machte. Beispielsweise ist es sinnlos nach dem Alter von Geschwistern zu fragen, wenn jemand bereits angab, dass er/sie keine Geschwister hat.
  • Beim Erfassen von Daten können Sie nicht zwischen einem Wert unterscheiden, der wirklich fehlt und einem Wert, den Sie einfach vergessen haben einzutippen.
  • Einige SPSS-Kommandos entfernen alle Fälle mit System-Missings. Dies ist bei Auswertungen wie Regressionen oder T-Tests sinnvoll, bei anderen, beispielsweise Kreuztabellen können jedoch fehlende Werte wichtige Informationen enthalten.

Alle diese Nachteile können durch den Einsatz von User-Definied-Missings vermieden werden.

User-Defined-Missings als fehlender Wert in SPSS

Die Grundidee hinter User-Defined-Missings ist, dass einzelnen Zahlenwerten die Bedeutung, dass dieser Wert fehlt, zugewiesen wird. Typischerweise werden dafür Zahlenwerte die nicht im Datensatz vorkommen, wie -999, -99 gewählt. Bei Berechnungen behandelt SPSS Zellen, in denen dieser Wert steht, als Zellen mit einem fehlenden Wert.

Vorstellung des Beispiels

Um den Umgang mit den User-Definied-Missing zu erklären, benutze ich ein kleines Beispiel, in dem Daten des Beispielfragebogens für die Auswertung vorbereitet werden. In dem Fragebogen werden zuerst kurz ein paar Fragen zur Demographie (Geschlecht und Alter) gestellt und danach wird gefragt, ob die befragte Person Geschwister hat. Wenn er/sie keine hat, soll sie an dieser Stelle den Fragebogen beenden, sonst noch kurz das Geburtsjahr des Geschwisterkindes angeben, und ob die Person immer mit ihrem Bruder, bzw. Schwester zusammengelebt hat.
In diesem Fall können fehlende Werte aus drei verschiedenen Gründen auftreten:

  1. Jemand hat eine Frage übersprungen
  2. Es gab eine ungültige Antwort (beispielsweise wurde gleichzeitig Ja und Nein angekreuzt)
  3. Die Frage war in diesem Fall nicht zutreffend, da die Person ein Einzelkind ist.

Um das Beispiel nachzuvollziehen, können Sie sich die dazugehörige SPSS-Datenmaske mit den Beispieldaten herunterladen.

Definition der User-Defined-Missings in SPSS

Zuerst muss festgelegt werden, welche Werte SPSS als User-Definied-Missings behandeln soll. Dafür sind folgende Schritte nötig:

  1. In die Variablenansicht wechseln, indem Sie auf den Reiter Variablenansicht mit der linken Maustaste klicken.
    Button um zur Datenansicht zu Wechseln
  2. Nun müssen Sie in die oberste Zelle in der Spalte Fehlend klicken. Dabei sollte ein Button mit drei Punkten erscheinen in dieser Zelle erscheinen. Klicken Sie auf diesen Button.
    Button zur Definition der fehlenden Werte
  3. Nun sollte ein Dialogfeld erscheinen, in dem die Werte, die SPSS als Kodierung für fehlend betrachten soll, eingetragen werden müssen. Die Wahl dieser Werte ist prinzipiell beliebig, jedoch darf dieses Werts kein zulässiger Wert in der Variable sein. Das heißt, in der Variable sex können theoretisch alle Werte außer 0 und 1 stehen, da diese beiden Werte für die Codierung des Geschlechts verwendet werden.
    Tipp: Aus Erfahrung empfehle ich, für alle Felder im Datensatz dieselben Zahlenwerte als benutzerdefinierte Missing zu verwenden und Zahlenwerte zu wählen, die in keinen Variablen als reguläre Zahlenwerte vorkommen können. Dies vereinfacht den späteren Umgang mit den Daten. Bei mir haben sich die Werte wie beispielsweise -99 bewährt, da bei negativen Zahlen keine Gefahr besteht, dass diese Werte in Variablen wie Versuchspersonenidentifikationsnummern auftauchen.
    Da unterschiedliche Gründe für die fehlenden Werte in diesem Beispiel differenziert werden sollen, wird mehr als ein Zahlenwert als Indikator für fehlende Werte verwendet. Die Beispielzuordnung ist in der folgenden Tabelle zu finden:

    Wert Ursache für fehlenden Werte
    -99 Feld nicht ausgefüllt
    -98 Feld mit ungültigen Werten ausgefüllt
    -97 Feld trifft nicht zu

    In diesem Beispiel sollen daher die Werte -99, -98 und -97 verwendet werden. Dafür ist es nötig, diese Werte in das Dialogfeld einzutragen und dann mit OK zu bestätigen.
    SPSS Dialogfeld zur Definition von fehlenden Werten

  4. Theoretisch müsste dies nun für alle Variablen wiederholt werden, man kann dieses aber einfach kopieren. Dafür müssen Sie die folgenden Schritte durchführen:
    1. Zelle mit den korrekt definierten Missings markieren.
    2. Im Menü Bearbeiten → Kopieren auswählen.
    3. Die Zellen, in die Missings eingefügt werden sollen, markieren.
    4. Im Menü Bearbeiten → Einfügen auswählen.

    Wenn nun die Datenmaske folgendermaßen aussieht und in der Spalte Missings überall die Werte -99, -98 und -97 auftauchen, sind die Missings korrekt definiert.
    SPSS_Missings_Fehlende_Werte_3

  5. Theoretisch ist man nun fertig, jedoch ist es immer noch nötig, sich zu merken, welche Missingwerte welche Bedeutung haben. Es ist daher sinnvoll die Bedeutung auch in den Labels der Variablen zu speichern. Hierfür sind die folgenden Schritte nötig:
    1. In das Feld Werte klicken
    2. Auf den erscheinenden Butten mit den Punkten klicken
    3. Im nun erscheinenden Dialogfeld im Eingabebox Wert: -99 und in der Eingabebox
    4. Beschriftung: Feld nicht ausgefühlt eintragen. Dann im Anschluss auf den Button Hinzufügen klicken. Dieses Vorgehen dann einfach analog für die beiden anderen Missingwerte -98 und -97 wiederholen. Das Dialogfeld sollte dann folgendermaßen aussehen und man kann auf OK klicken.
      Definition von Labels für Missing

    In diesem Fall ist es leider nicht möglich, diese Werte einfach in andere Zellen zu kopieren, da dann auch die anderen Labels, bzw. Beschriftungen überschrieben worden wären. Die einfachste Art und Weise, diese Zuordnung auf den gesamten Datensatz zu übertragen ist, mit Hilfe einer Syntax, welche die Variablenlabels ergänzt. Falls Sie weitere Fragen hierzu haben, können Sie gerne einen Kommentar verfassen oder mir eine Mail schreiben.

Nun ist die Definition der Missingwerte abgeschlossen. Das konkrete weitere Vorgehen hängt nun davon ab, ob Sie die Daten erst eingebeben müssen, oder die Daten bereits erfasst vorliegen. Wenn Sie die Daten eingeben

Nutzen der Missings in der Auswertung

Wenn die fehlenden Werte korrekt definiert sind, muss bei der Auswertung häufig nichts Besonderes beachtet werden. In den analytischen Verfahren werden Fälle mit fehlenden Werten fast immer ignoriert, während fehlende Werte in anderen Verfahren getrennt von den zulässigen Werten ausgegeben werden. Dieses soll exemplarisch für Häufigkeiten (Frequencies) und Kreuztabellen (Crosstabs) durchgeführt werden.

Anzeige von Häufigkeiten von Variablen mit fehlenden Werten

(beispielweise Häufigkeiten, im Menü unter Analysieren → Deskriptive Statistiken → Häufigkeiten zu finden) Für die Variable sex im Beispieldatensatzes ist dies die Ausgabe:
Anzeige von Häufigkeiten mit fehlenden Werten
Wie hier zu sehen ist, nahmen in diesem Beispiel 18 männliche und 34 weibliche TeilnehmerInnen teil. Bei insgesamt 12 TeilnehmerInnen fehlt die Angabe über ihr Geschlecht. Fünf Personen haben die Frage nicht beantwortet und fünf anderen ist die Antwort mit ungültigen Werten ausgefüllt. Außerdem fällt auf, dass hier auch bei zwei TeilnehmerInnen System-Missings vorliegen. Dies deutet auf einen Fehler bei der Dateneingabe hin und bei den entsprechenden Fragebögen sollte erneut geprüft werden, welche Angabe auf der Variable sex bei diesen TeilnehmerInnen vorliegen.

Umgang mit fehlenden Werten bei Kreuztabellen

Ihre Stärke spielen User-Defined-Missings bei Kreuztabellen aus. So sollte in diesem Beispiel für alle Personen, die angeben keine Geschwister zu haben, auch ein als fehlender Wert der Missingcode -97 verwendet worden sein. Ein Weg um dieses zu prüfen, sind Kreuztabellen. Leider gibt es meines Wissens nach keine Möglichkeit dies in SPSS-Dialogfeldern umzusetzen und daher ist es erforderlich dieses Kommando per Syntax-Befehlen auszuführen. Dafür ist sind die folgenden Schritte nötig:

  1. Zuerst öffnen Sie bitte eine neue Syntax. Dafür gehen Sie bitte in das Menü Datei → Neu → Syntax .
    SPSS-Menü Neue Syntax aufrufen
  2. Nun öffnet sich das leere Syntaxfenster. In diesem Feld geben Sie bitte den folgenden Code ein um eine Kreuztabelle der Variablen Geschwister und GeschZusam anzuzeigen.
    cross geschwister by GeschZusam
    /missing = include.
    

    Nachdem Sie den eingegebenen Text markiert haben, sollte das Syntaxfenster nun folgendermaßen aussehen:
    Syntax zur Ausgabe einer Kreuztabelle mit fehlenden Werten
    Bitte drücken Sie nun auf den grünen Pfeil in der oberen der beiden Symbolleisten.

  3. Nun sollte im Ausgabefenster das folgende Ergebnis angezeigt werden:
    Ausgabe einer Kreuztabelle mit SPSS einschließlich fehlender Werte
    In der mit Verarbeitete Fälle überschriebenen ersten Tabelle wird nicht angegeben, wie viele Missings wirklich vorliegen, sondern nur, wie viele Systemmissings vorliegen. Es werden weiterhin alle Fälle mit einem Systemmissing ausgeschlossen. Da bei den hier betrachteten Variablen Geschwister und GeschZusam keine Systemmissings vorhanden sind, werden alle Fälle in die Kreuztabelle miteinbezogen.
    Aus der Kreuztabelle wird nun ersichtlich, dass zwei TeilnehmerInnen sich widersprochen haben. Sie haben angegeben, keine Geschwister zu besitzen, aber dennoch mit Ihnen zusammengelebt zu haben. Es wäre daher sinnvoll, hier im nächsten Schritt anhand der Orginaldaten zu prüfen, ob die Person sich wirklich widersprochen hat, oder nur ein Tippfehler vorliegt.
    Tipp: Falls gleichzeitig auch noch ein Inferenztest wie beispielweise der Chi²-Test angefordert wird, bezieht er die fehlenden Werte in die Berechnung ein. Das Ergebnis bezieht sich fast immer nie auf die Aussagen, die getroffen werden sollen.

    It's only fair to share...Share on Facebook
    Facebook
    Tweet about this on Twitter
    Twitter
    Share on LinkedIn
    Linkedin
    Email this to someone
    email

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.