Konfirmatorische Faktorenanalyse mit SPSS

Mit einer konfirmatorischen Faktorenanalyse kann der Aufbau und die Funtionsweise von Messinstrumten geprüft werden. Dazu gehört beispielsweise, ob die Struktur eines Fragebogens den vorherigen Erwartungen entspricht, wie die Verteilung der einzelnen Fragen auf die Teilskalen des Fragebogen oder die Analyse, ob Männer und Frauen den Fragebogen mit unterschiedlichen Mustern beantworten, da sie diesen unterschiedlich verstehen.
SPSS selber beherrscht jedoch keine konfirmatorische Faktorenanalyse sondern nur explorative Faktorenanalyse. Daher werden für konfirmatorische Faktorenanalysen externe Programme wie Mplus, Amos oder R in Verbindung mit Lavaan verwendet. Eine Möglichkeit auch mit SPSS konfirmatorische Faktorenanalysen durchzuführen, ist der Einsatz des Paketes SPSS2LAVAAN, welches Sie sich von dieser Seite herunterladen können. Während mit diesem Paket auf fast alle Funktionen von Lavaan zugegriffen werden kann, soll in diesem Beitrag die Benutzung des Paketes zur Durchführung einer einfachen konfirmatorischen Faktorenanalyse beschrieben werden.

Theoretische Grundlagen und Erklärung von Kernbegriffen bei konfirmatorischen Faktorenanalysen

Die zentrale theoretische Annahme von konfirmatorischen Faktorenanalysen ist, dass es ein prinzipiell unbeobachtbares (latentes) Merkmal oder eine Eigenschaft einer Person existierte, welche untersucht werden soll. Während dieses Merkmal nicht beobachtbar ist, sind die Folgen bzw. Konsequenzen dieses Merkmals beobachtbar und messbar. Beispielsweise ist Intelligenz per se nicht beobachtbar, jedoch die Leistung in Intelligenztests durchaus messbar. Auch Kundenzufriedenheit ist nicht direkt zu beobachten, jedoch sind die die Antworten in einem Fragebogen zur Kundenzufriedenheit zu beobachten, so dass hierüber auf die allgemeine Kundenzufriedenheit geschlossen werden kann. Im Rahmen von konfirmatorischen Faktorenanalysenwerden gemessene, bzw. beobachtete Verhalten wie Angaben im Fragebogen werden als manifeste Variablen bezeichnet, während das nichtbeobachtete Merkmal, auf das zurückgeschlossen werden soll, als latente Variable bezeichnet wird. Dies bedeutet, dass die konkreten Fragen zur Kundenzufriedenheit als manifeste Variablen bezeichnet werden, während das dahinter liegende Konzept als latentes Konstrukt bezeichnet wird.
Ein Vorteil der Unterscheidung zwischen dem eigentlichen interessierenden unbeobachtbaren Merkmal einerseits und anderseits den manifesten Konsequenzen, die sich aus dem Merkmal ergeben, ist, dass den Verzerrungen, die durch fehlerhafte Erfassung entstehen, Rechnung getragen werden kann: Es ist naheliegend, dass die Leistung in Intelligenztests unter anderem durch Schulbildung verzerrt werden kann. Mit Hilfe von konfirmatorischen Faktorenanalysen kann dies kontrolliert werden. Ebenfalls kann ein und dieselbe latente Variable sehr unterschiedliche manifeste Formen haben. Beispielsweise kann das nichtbeobachtbare, latente Merkmal Kundenzufriedenheit sowohl das Verhalten einer Person in einem Fragebogen bestimmen, als auch was diese Person auf Twitter über dieses Produkt mitteilt.

Vorteile einer konfirmatorischen Faktorenanalyse in SPSS gegenüber einer explorativen Faktorenanalyse

In SPSS sind die Funktionen für explorative Faktorenanalysen im Menü Analysieren → Dimensionsreduzierung → Faktorenanalyse zu finden und können dann auch unmittelbar durchgeführt werden. Verglichen mit einer explorativen Faktorenanalyse ist eine konfirmatorische, unabhängig von dem gewählten Programm, immer mehr Aufwand. Jedoch hat eine konfirmatorische Faktorenanalyse eine Reihe von Vorteilen:

  • Das Ergebnis einer konfirmatorische Faktorenanalyse ist häufig eindeutiger. So gehört bei einer konfirmatorischen Faktorenanalyse in der Regel jede Frage immer nur zu einer erhobenen Teilskala, während bei einer explorativen Faktorenanalyse prinzipiell jede erhobene Frage zu allen Teilskalen gehört, und die Zuordnung häufig nicht eindeutig ist. Daher sind konfirmatorischen Faktorenanalysen häufig eindeutiger.
  • Bei einer konfirmatorischen Faktorenanalyse kann eine theoretische Struktur gezielt überprüft werden. Dies ist beispielsweise besonders wichtig, wenn untersucht werden soll, ob sich beispielweise die Struktur des Fragebogens im Vergleich zu einer vorherigen Studie verändert hat.
  • Mit einer konfirmatorischen Faktorenanalyse können zusätzliche Eigenschaften eines Fragebogens untersucht werden. So kann beispielsweise geprüft werden, ob sich die Struktur eines Fragebogens zwischen den Geschlechtern unterscheidet.
  • Eine konfirmatorische Faktorenanalyse ist häufig die Basis weiterer komplexer Analysen wie latenten Strukturgleichungsmodellen. Durch ihren Einsatz kann der Messfehler gezielt in die Analyse miteinbezogen werden und damit klarere Ergebnisse für die zentrale Fragestellung erzielt werden.

Durchführen einer konfirmatorischen Faktorenanalyse mit SPSS

SPSS besitzt nicht ohne weitere Hilfsmittel die Fähigkeit, konfirmatorische Faktorenanalysen zu berechnen. Eine Möglichkeit in SPSS solche Analysen zu berechnen, ist die Verwendung des von mir erstellten Paketes SPSS2LAVAAN . Damit steht die Funktionalität der Software Lavaan unter SPSS zur Verfügung und es können unter anderem konfirmatorische Faktorenanalysen gerechnet werden. Die Beschreibung der Installation finden Sie direkt hier, falls Sie aber Fragen hierzu haben, können Sie diese mir im Kommentarfeld direkt unter diesen Beitrag oder per Mail stellen. Für die weitere Beschreibung gehe ich davon aus, dass Sie erfolgreich das Paket installiert haben.

Beschreibung des Beispiels

In diesem Beitrag soll beispielhaft dieser Beispielfragebogen aus der Aggressionsforschung analysiert werden. In diesem Fragebogen werden drei Fragen gestellt, die sich eher auf physische Aggression und drei Fragen, die sich eher auf relationale Aggression beziehen. Wir nehmen daher an, dass es einen Faktor physische Aggression gibt, und einen Faktor relationale Aggression. Die postulierten Zusammenhänge der einzelnen Fragen zu den latenten Variablen sind in dieser Tabelle zu finden.

Frage bzw. manifeste Variable Latente Variablen SPSS-Variablenname
Ich habe Gerüchte über jemanden verbreitet. Relationale Aggression aq1
Ich habe andere gegeneinander ausgespielt. Relationale Aggression aq2
Ich habe andere aus der Gruppe ausgeschlossen. Relationale Aggression aq3
Ich habe jemanden geschubst. Physische Aggression aq4
Ich habe jemanden getreten. Physische Aggression aq5
Ich habe jemanden geschlagen. Physische Aggression aq6

Einen computergenerierten Beispieldatensatz um die nächsten Schritte nachzuvollziehen können Sie hier herunterladen.

Schrittweise Anleitung für eine konfirmatorische Faktorenanalyse ins SPSS

In dem nächsten Abschnitt wird Schrittweise das Vorgehen für eine konfirmatorische Faktorenanalyse vorgestellt.

  1. Bitte öffnen Sie zuerst den Beispieldatensatz. Das SPSS Fenster sollte nun so oder so ähnlich aussehen, je nachdem ob Sie in der Variablen- oder der Datenansicht sind.
    CFA_SPSS_Einführung_1
  2. Nun öffnen Sie bitte ein neues Syntax-Fenster. Mit einer SPSS-Syntax ist es möglich, bei SPSS direkt Befehle einzutippen und sie auch für die spätere Verwendung zu speichern. Das machen Sie im Menü Datei → Syntax
    Anlegen einer neuen Syntax mit SPSS
  3. Im nun erscheinenden Syntax-Fenster können Sie nun den Befehl SPSS2LAVAAN für die Durchführung der konfirmatorischen Faktorenanalyse eingeben und dann durch das Drücken auf den grünen Pfeil ausführen. Vor dem Ausführen ist es jedoch nötig, die zu prüfende Faktorenstruktur zu definieren. Dies geschieht mit dem Subkommando MODELSPEC=. In diesem Subkommando stehen alle Optionen zur Modellspezifikation zur Verfügung, die Lavaan bietet. Für eine konfirmatorische Faktorenanalyse ist nur aber der Befehl =~ nötig. Damit wird definiert, zu welcher Teilskala (latente Variable) welche manifesten Variablen (in SPSS die Variablen) gehören. Um beispielsweise für den latenten Faktor aqr mit den Variablen aq1, aq2, aq3 zu definieren, wäre bei Modelspec ‘aqr =~ aq1 + aq2 + aq3‘ einzugeben. Damit SPSS diesen Befehl korrekt an Lavaan weitergibt, ist es nötig, diesen Text in Anführungszeichen zu setzen. Bei umfangreicheren Modellen können Sie beliebig viele Zeile nutzen, jedoch muss jede Zeile einzeln in Anführungszeichen stehen. Für das oben aufgeführte Beispiel mit beiden Faktoren gleichzeitig sieht der komplette SPSS2LAVAAN Befehl so aus:
    SPSS2LAVAAN modelspec = 
    'aqr =~ aq1 + aq2 + aq3' 
    'aqp =~ aq4 + aq5 + aq6'
    /output FIT.MEASURES = TRUE.
    

    Zusätzlich zur Modellspezifikation wird mit /output FIT.MEASURES = TRUE Informationen angefordert um zu prüfen, ob das verwendete Model zu den vorliegenden Daten passt.
    Syntax zur Durchführung einer CFA mit SPSS
    Das Fenster sollte nun so aussehen und der Befehl kann durch das Drücken auf den grünen Pfeil in der Symbolleiste ausgeführt werden.

  4. Nun erscheint im SPSS Output das Ergebnis der konfirmatorischen Faktorenanalyse. Die Ergebnisse werde ich nun im Einzelnen erklären.
    SPSS2LAVAAN modelspec =
    'aqr =~ aq1 + aq2 + aq3'
    'aqp =~ aq4 + aq5 + aq6'
    /output FIT.MEASURES = TRUE.
    [1] "lavaan is loaded correctly"
    lavaan (0.5-20) converged normally after  24 iterations
    
      Number of observations                           652
    

    Im ersten Teil werden nochmal Informationen zur Modelspezifikation wiederholt. Wichtig ist hier der Satz lavaan (0.5-20) converged normally …. Dieser Satz heißt, dass lavaan zu einer zulässigen Lösung gekommen ist. Wenn dieser fehlt, sind alle weiteren Ergebnisse häufig falsch und sollten nicht interpretiert werden. Falls Sie hier an ein Problem kommen, können Sie gerne eine Frage im Kommentarfeld stellen, oder mir eine Mail schreiben.
    Im folgenden Abschnitt wird eine Reihe von Prüfgrößen ausgegeben, die beschreiben, ob das Modell zu den vorliegenden Daten passt. Bei diesen Prüfgrößen gibt es unterschiedliche Auffassungen, welche die wichtigsten sind und wo die Grenzen sind, ab welcher ein Modell als akzeptabel zu bewerten ist. Sehr häufig wird dabei auf die die Empfehlungen von Hu und Bentler (1999) zurückgegriffen, die ich auch verwende.

      Estimator                                         ML
      Minimum Function Test Statistic               13.633
      Degrees of freedom                                 8
      P-value (Chi-square)                           0.092
    

    Beim Chi-square Test wird geprüft ob sich die Kovarianzmatrix, welche auf Grundlage der errechneten Modelparameter errechnet wurde, signifikant von der Kovarianzmatrix unterscheidet, die auf Basis der Daten berechnet wurde. Theoretetisch sollten sich diese beiden Matrizen nicht unterscheiden. Von einem guten Modell wird gesprochen wenn der Wert in der Zeile P-value (Chi-square) größer als 0.05 ist. In dem hier vorgestellten Beispiel wäre dies der Fall.

    Model test baseline model:
    
      Minimum Function Test Statistic             2424.559
      Degrees of freedom                                15
      P-value                                        0.000
    

    Dieser Wert wird selten berichtet, da hier die Annahme geprüft wird, ob die untersuchten Variablen überhaupt korrelieren. Dies ist fast immer der Fall. Die Werte werden jedoch für die nachfolgenden Prüfgrößen benötigt.

    User model versus baseline model:
    
      Comparative Fit Index (CFI)                    0.998
      Tucker-Lewis Index (TLI)                       0.996
    

    Sowohl beim CFI als auch beim TLI wird verglichen, inwieweit das untersuchte Modell besser ist als die Annahme, dass alle Variablen nicht miteinander korreliert sind. Hu und Bentler (1999) empfehlen, dass beide Werte über .95 liegen, was in dem Beispiel der Fall ist.

    Loglikelihood and Information Criteria:
    
      Loglikelihood user model (H0)              -4502.848
      Loglikelihood unrestricted model (H1)      -4496.032
    
      Number of free parameters                         13
      Akaike (AIC)                                9031.697
      Bayesian (BIC)                              9089.937
      Sample-size adjusted Bayesian (BIC)         9048.662
    

    Diese Fit-Indizes sind nur im Vergleich zu anderen Analysen, die auf denselben Daten basieren zu interpretieren. Daher existieren hierfür auch keine Richtwerte. Wie mit diesen umgegangen wird, werde ich später in eigenen Beitrag erklären.

    Root Mean Square Error of Approximation:
    
      RMSEA                                          0.033
      90 Percent Confidence Interval          0.000  0.062
      P-value RMSEA <= 0.05                          0.812
    
    Standardized Root Mean Square Residual:
    
      SRMR                                           0.017
    

    Dies sind die beiden letzten Fit-Indizes. Sie beschreiben, wie stark die vom Modell implizierte Korrelationsmatrix mit der in den Daten gefundenen Korrelationsmatrix übereinstimmt. Je kleiner die Werte RMSEA und SRMR sind, desto besser stimmen die berechneten Werte mit den tatsächlich vorgefundenen überein. Hu und Bentler empfehlen, dass der Wert für RMSEA unter .05 liegt und SRMR kleiner als .06 ist. Beides ist hier der Fall.
    Nach den Informationen wie gut, das Modell zu den Daten passt werden nun die eigentlichen Parameter ausgegeben, welche die Faktorenanalyse beschreiben.

    Parameter Estimates:
    
      Information                                 Expected
      Standard Errors                             Standard
    
    Latent Variables:
                       Estimate  Std.Err  Z-value  P(>|z|)
      aqr =~
        aq1               1.000
        aq2               1.016    0.038   26.709    0.000
        aq3               0.978    0.038   26.026    0.000
      aqp =~
        aq4               1.000
        aq5               1.008    0.039   26.029    0.000
        aq6               0.981    0.039   24.972    0.000
    

    Hier werden die Faktorladungen ausgegeben, mit denen geprüft werden kann, inwieweit das untersuchte Konstrukt durch die Variablen repräsentiert wird. Der Wert in der ersten Spalte (Estimate) bedeuetet, wie stark der latente Faktor steigt, wenn die Variable einen Wert hat, der sich um eins erhöht. In einem guten Fragenbogen haben alle Variablen einen ähnlichen Wert in der Spalte Estimate. In den drei folgenden Spalten wird angegeben, ob der Zusammenhang zwischen dem latenten Konstrukt und der beobachteten Variable zufallskritisch abgesichert ist. Dabei sind die Werte in den Spalten Std.Err und Z-value nötige Zwischenergebebnisse, um den P-Value in der Spalte P(>|z|) zu berechnen. Wenn der Wert kleiner als .05 ist, dann wird in der Regel angenommen, dass diese Variable geeignet ist Aspekte der latenten Variable abzubilden.

    Covariances:
                       Estimate  Std.Err  Z-value  P(>|z|)
      aqr ~~
        aqp               0.384    0.040    9.582    0.000
    

    Falls nicht anders spezifiziert, geht LAVAAN davon aus, dass die latenten Variablen miteinander zusammenhängen. Daher wird nun hier angegeben, wie groß die Kovarianz zwischen den beiden latenten Variablen ist.
    Tipp: Die Kovarianz bei latenten Variablen ist häufig schwer zu interpretieren, da die Skala der latenten Konstrukte unter Umständen nur schwer greifbar ist. Mit dem Befehl STANDARDIZED=TRUE im Output-Teil werden zusätzlich die standardisierten Werte ausgegeben. Dann ist der Zusammenhang genauso wie eine Korrelation zu interpretieren.

    Variances:
                       Estimate  Std.Err  Z-value  P(>|z|)
        aq1               0.281    0.024   11.585    0.000
        aq2               0.270    0.024   11.114    0.000
        aq3               0.301    0.024   12.320    0.000
        aq4               0.319    0.026   12.215    0.000
        aq5               0.241    0.024   10.267    0.000
        aq6               0.320    0.026   12.479    0.000
        aqr               0.804    0.061   13.195    0.000
        aqp               0.796    0.062   12.793    0.000
      
    

    Im letzten Teil wird die Varianz, respektive Residualvarianz, sowohl für die manifesten als auch für die latenten Variablen ausgegeben. Je größer die Werte sind, desto stärker streuen die Variablen. Dabei sollten die Varianzen der latenten Variablen möglichst groß sein, da konfirmatorische Faktorenanalysen annehmen, dass dies die eigentlich interessante Varianz ist. Bei den manifesten Variablen sollte der Wert möglichst klein sein, da hier die Annahme ist, dass diese Varianz Messfehler ist und für die weitere Betrachtung nicht von weiteren Interesse ist. Häufig werden diese Werte jedoch nicht berichtet.

    It's only fair to share...Share on Facebook
    Facebook
    Tweet about this on Twitter
    Twitter
    Share on LinkedIn
    Linkedin
    Email this to someone
    email

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.