Mit einer konfirmatorischen Faktorenanalyse kann der Aufbau und die Funtionsweise von Messinstrumten geprüft werden. Dazu gehört beispielsweise, ob die Struktur eines Fragebogens den vorherigen Erwartungen entspricht, wie die Verteilung der einzelnen Fragen auf die Teilskalen des Fragebogen oder die Analyse, ob Männer und Frauen den Fragebogen mit unterschiedlichen Mustern beantworten, da sie diesen unterschiedlich verstehen.
SPSS selber beherrscht jedoch keine konfirmatorische Faktorenanalyse sondern nur explorative Faktorenanalyse. Daher werden für konfirmatorische Faktorenanalysen externe Programme wie Mplus, Amos oder R in Verbindung mit Lavaan verwendet. Eine Möglichkeit auch mit SPSS konfirmatorische Faktorenanalysen durchzuführen, ist der Einsatz des Paketes SPSS2LAVAAN, welches Sie sich von dieser Seite herunterladen können. Während mit diesem Paket auf fast alle Funktionen von Lavaan zugegriffen werden kann, soll in diesem Beitrag die Benutzung des Paketes zur Durchführung einer einfachen konfirmatorischen Faktorenanalyse beschrieben werden.
Theoretische Grundlagen und Erklärung von Kernbegriffen bei konfirmatorischen Faktorenanalysen
Die zentrale theoretische Annahme von konfirmatorischen Faktorenanalysen ist, dass es ein prinzipiell unbeobachtbares (latentes) Merkmal oder eine Eigenschaft einer Person existierte, welche untersucht werden soll. Während dieses Merkmal nicht beobachtbar ist, sind die Folgen bzw. Konsequenzen dieses Merkmals beobachtbar und messbar. Beispielsweise ist Intelligenz per se nicht beobachtbar, jedoch die Leistung in Intelligenztests durchaus messbar. Auch Kundenzufriedenheit ist nicht direkt zu beobachten, jedoch sind die die Antworten in einem Fragebogen zur Kundenzufriedenheit zu beobachten, so dass hierüber auf die allgemeine Kundenzufriedenheit geschlossen werden kann. Im Rahmen von konfirmatorischen Faktorenanalysenwerden gemessene, bzw. beobachtete Verhalten wie Angaben im Fragebogen werden als manifeste Variablen bezeichnet, während das nichtbeobachtete Merkmal, auf das zurückgeschlossen werden soll, als latente Variable bezeichnet wird. Dies bedeutet, dass die konkreten Fragen zur Kundenzufriedenheit als manifeste Variablen bezeichnet werden, während das dahinter liegende Konzept als latentes Konstrukt bezeichnet wird.
Ein Vorteil der Unterscheidung zwischen dem eigentlichen interessierenden unbeobachtbaren Merkmal einerseits und anderseits den manifesten Konsequenzen, die sich aus dem Merkmal ergeben, ist, dass den Verzerrungen, die durch fehlerhafte Erfassung entstehen, Rechnung getragen werden kann: Es ist naheliegend, dass die Leistung in Intelligenztests unter anderem durch Schulbildung verzerrt werden kann. Mit Hilfe von konfirmatorischen Faktorenanalysen kann dies kontrolliert werden. Ebenfalls kann ein und dieselbe latente Variable sehr unterschiedliche manifeste Formen haben. Beispielsweise kann das nichtbeobachtbare, latente Merkmal Kundenzufriedenheit sowohl das Verhalten einer Person in einem Fragebogen bestimmen, als auch was diese Person auf Twitter über dieses Produkt mitteilt.
Vorteile einer konfirmatorischen Faktorenanalyse in SPSS gegenüber einer explorativen Faktorenanalyse
In SPSS sind die Funktionen für explorative Faktorenanalysen im Menü Analysieren → Dimensionsreduzierung → Faktorenanalyse zu finden und können dann auch unmittelbar durchgeführt werden. Verglichen mit einer explorativen Faktorenanalyse ist eine konfirmatorische, unabhängig von dem gewählten Programm, immer mehr Aufwand. Jedoch hat eine konfirmatorische Faktorenanalyse eine Reihe von Vorteilen:
- Das Ergebnis einer konfirmatorische Faktorenanalyse ist häufig eindeutiger. So gehört bei einer konfirmatorischen Faktorenanalyse in der Regel jede Frage immer nur zu einer erhobenen Teilskala, während bei einer explorativen Faktorenanalyse prinzipiell jede erhobene Frage zu allen Teilskalen gehört, und die Zuordnung häufig nicht eindeutig ist. Daher sind konfirmatorischen Faktorenanalysen häufig eindeutiger.
- Bei einer konfirmatorischen Faktorenanalyse kann eine theoretische Struktur gezielt überprüft werden. Dies ist beispielsweise besonders wichtig, wenn untersucht werden soll, ob sich beispielweise die Struktur des Fragebogens im Vergleich zu einer vorherigen Studie verändert hat.
- Mit einer konfirmatorischen Faktorenanalyse können zusätzliche Eigenschaften eines Fragebogens untersucht werden. So kann beispielsweise geprüft werden, ob sich die Struktur eines Fragebogens zwischen den Geschlechtern unterscheidet.
- Eine konfirmatorische Faktorenanalyse ist häufig die Basis weiterer komplexer Analysen wie latenten Strukturgleichungsmodellen. Durch ihren Einsatz kann der Messfehler gezielt in die Analyse miteinbezogen werden und damit klarere Ergebnisse für die zentrale Fragestellung erzielt werden.
Durchführen einer konfirmatorischen Faktorenanalyse mit SPSS
SPSS besitzt nicht ohne weitere Hilfsmittel die Fähigkeit, konfirmatorische Faktorenanalysen zu berechnen. Eine Möglichkeit in SPSS solche Analysen zu berechnen, ist die Verwendung des von mir erstellten Paketes SPSS2LAVAAN . Damit steht die Funktionalität der Software Lavaan unter SPSS zur Verfügung und es können unter anderem konfirmatorische Faktorenanalysen gerechnet werden. Die Beschreibung der Installation finden Sie direkt hier, falls Sie aber Fragen hierzu haben, können Sie diese mir im Kommentarfeld direkt unter diesen Beitrag oder per Mail stellen. Für die weitere Beschreibung gehe ich davon aus, dass Sie erfolgreich das Paket installiert haben.
Beschreibung des Beispiels
In diesem Beitrag soll beispielhaft dieser Beispielfragebogen aus der Aggressionsforschung analysiert werden. In diesem Fragebogen werden drei Fragen gestellt, die sich eher auf physische Aggression und drei Fragen, die sich eher auf relationale Aggression beziehen. Wir nehmen daher an, dass es einen Faktor physische Aggression gibt, und einen Faktor relationale Aggression. Die postulierten Zusammenhänge der einzelnen Fragen zu den latenten Variablen sind in dieser Tabelle zu finden.
Frage bzw. manifeste Variable | Latente Variablen | SPSS-Variablenname |
---|---|---|
Ich habe Gerüchte über jemanden verbreitet. | Relationale Aggression | aq1 |
Ich habe andere gegeneinander ausgespielt. | Relationale Aggression | aq2 |
Ich habe andere aus der Gruppe ausgeschlossen. | Relationale Aggression | aq3 |
Ich habe jemanden geschubst. | Physische Aggression | aq4 |
Ich habe jemanden getreten. | Physische Aggression | aq5 |
Ich habe jemanden geschlagen. | Physische Aggression | aq6 |
Einen computergenerierten Beispieldatensatz um die nächsten Schritte nachzuvollziehen können Sie hier herunterladen.
Schrittweise Anleitung für eine konfirmatorische Faktorenanalyse ins SPSS
In dem nächsten Abschnitt wird Schrittweise das Vorgehen für eine konfirmatorische Faktorenanalyse vorgestellt.
- Bitte öffnen Sie zuerst den Beispieldatensatz. Das SPSS Fenster sollte nun so oder so ähnlich aussehen, je nachdem ob Sie in der Variablen- oder der Datenansicht sind.
- Nun öffnen Sie bitte ein neues Syntax-Fenster. Mit einer SPSS-Syntax ist es möglich, bei SPSS direkt Befehle einzutippen und sie auch für die spätere Verwendung zu speichern. Das machen Sie im Menü Datei → Syntax
- Im nun erscheinenden Syntax-Fenster können Sie nun den Befehl
SPSS2LAVAAN
für die Durchführung der konfirmatorischen Faktorenanalyse eingeben und dann durch das Drücken auf den grünen Pfeil ausführen. Vor dem Ausführen ist es jedoch nötig, die zu prüfende Faktorenstruktur zu definieren. Dies geschieht mit dem SubkommandoMODELSPEC=
. In diesem Subkommando stehen alle Optionen zur Modellspezifikation zur Verfügung, die Lavaan bietet. Für eine konfirmatorische Faktorenanalyse ist nur aber der Befehl=~
nötig. Damit wird definiert, zu welcher Teilskala (latente Variable) welche manifesten Variablen (in SPSS die Variablen) gehören. Um beispielsweise für den latenten Faktoraqr
mit den Variablenaq1
,aq2
,aq3
zu definieren, wäre bei Modelspec‘aqr =~ aq1 + aq2 + aq3‘
einzugeben. Damit SPSS diesen Befehl korrekt an Lavaan weitergibt, ist es nötig, diesen Text in Anführungszeichen zu setzen. Bei umfangreicheren Modellen können Sie beliebig viele Zeile nutzen, jedoch muss jede Zeile einzeln in Anführungszeichen stehen. Für das oben aufgeführte Beispiel mit beiden Faktoren gleichzeitig sieht der kompletteSPSS2LAVAAN
Befehl so aus:SPSS2LAVAAN modelspec = 'aqr =~ aq1 + aq2 + aq3' 'aqp =~ aq4 + aq5 + aq6' /output FIT.MEASURES = TRUE.
Zusätzlich zur Modellspezifikation wird mit
/output FIT.MEASURES = TRUE
Informationen angefordert um zu prüfen, ob das verwendete Model zu den vorliegenden Daten passt.
Das Fenster sollte nun so aussehen und der Befehl kann durch das Drücken auf den grünen Pfeil in der Symbolleiste ausgeführt werden. - Nun erscheint im SPSS Output das Ergebnis der konfirmatorischen Faktorenanalyse. Die Ergebnisse werde ich nun im Einzelnen erklären.
SPSS2LAVAAN modelspec = 'aqr =~ aq1 + aq2 + aq3' 'aqp =~ aq4 + aq5 + aq6' /output FIT.MEASURES = TRUE. [1] "lavaan is loaded correctly" lavaan (0.5-20) converged normally after 24 iterations Number of observations 652
Im ersten Teil werden nochmal Informationen zur Modelspezifikation wiederholt. Wichtig ist hier der Satz
lavaan (0.5-20) converged normally …
. Dieser Satz heißt, dass lavaan zu einer zulässigen Lösung gekommen ist. Wenn dieser fehlt, sind alle weiteren Ergebnisse häufig falsch und sollten nicht interpretiert werden. Falls Sie hier an ein Problem kommen, können Sie gerne eine Frage im Kommentarfeld stellen, oder mir eine Mail schreiben.
Im folgenden Abschnitt wird eine Reihe von Prüfgrößen ausgegeben, die beschreiben, ob das Modell zu den vorliegenden Daten passt. Bei diesen Prüfgrößen gibt es unterschiedliche Auffassungen, welche die wichtigsten sind und wo die Grenzen sind, ab welcher ein Modell als akzeptabel zu bewerten ist. Sehr häufig wird dabei auf die die Empfehlungen von Hu und Bentler (1999) zurückgegriffen, die ich auch verwende.Estimator ML Minimum Function Test Statistic 13.633 Degrees of freedom 8 P-value (Chi-square) 0.092
Beim Chi-square Test wird geprüft ob sich die Kovarianzmatrix, welche auf Grundlage der errechneten Modelparameter errechnet wurde, signifikant von der Kovarianzmatrix unterscheidet, die auf Basis der Daten berechnet wurde. Theoretetisch sollten sich diese beiden Matrizen nicht unterscheiden. Von einem guten Modell wird gesprochen wenn der Wert in der Zeile
P-value (Chi-square)
größer als 0.05 ist. In dem hier vorgestellten Beispiel wäre dies der Fall.Model test baseline model: Minimum Function Test Statistic 2424.559 Degrees of freedom 15 P-value 0.000
Dieser Wert wird selten berichtet, da hier die Annahme geprüft wird, ob die untersuchten Variablen überhaupt korrelieren. Dies ist fast immer der Fall. Die Werte werden jedoch für die nachfolgenden Prüfgrößen benötigt.
User model versus baseline model: Comparative Fit Index (CFI) 0.998 Tucker-Lewis Index (TLI) 0.996
Sowohl beim CFI als auch beim TLI wird verglichen, inwieweit das untersuchte Modell besser ist als die Annahme, dass alle Variablen nicht miteinander korreliert sind. Hu und Bentler (1999) empfehlen, dass beide Werte über .95 liegen, was in dem Beispiel der Fall ist.
Loglikelihood and Information Criteria: Loglikelihood user model (H0) -4502.848 Loglikelihood unrestricted model (H1) -4496.032 Number of free parameters 13 Akaike (AIC) 9031.697 Bayesian (BIC) 9089.937 Sample-size adjusted Bayesian (BIC) 9048.662
Diese Fit-Indizes sind nur im Vergleich zu anderen Analysen, die auf denselben Daten basieren zu interpretieren. Daher existieren hierfür auch keine Richtwerte. Wie mit diesen umgegangen wird, werde ich später in eigenen Beitrag erklären.
Root Mean Square Error of Approximation: RMSEA 0.033 90 Percent Confidence Interval 0.000 0.062 P-value RMSEA <= 0.05 0.812 Standardized Root Mean Square Residual: SRMR 0.017
Dies sind die beiden letzten Fit-Indizes. Sie beschreiben, wie stark die vom Modell implizierte Korrelationsmatrix mit der in den Daten gefundenen Korrelationsmatrix übereinstimmt. Je kleiner die Werte RMSEA und SRMR sind, desto besser stimmen die berechneten Werte mit den tatsächlich vorgefundenen überein. Hu und Bentler empfehlen, dass der Wert für RMSEA unter .05 liegt und SRMR kleiner als .06 ist. Beides ist hier der Fall.
Nach den Informationen wie gut, das Modell zu den Daten passt werden nun die eigentlichen Parameter ausgegeben, welche die Faktorenanalyse beschreiben.Parameter Estimates: Information Expected Standard Errors Standard Latent Variables: Estimate Std.Err Z-value P(>|z|) aqr =~ aq1 1.000 aq2 1.016 0.038 26.709 0.000 aq3 0.978 0.038 26.026 0.000 aqp =~ aq4 1.000 aq5 1.008 0.039 26.029 0.000 aq6 0.981 0.039 24.972 0.000
Hier werden die Faktorladungen ausgegeben, mit denen geprüft werden kann, inwieweit das untersuchte Konstrukt durch die Variablen repräsentiert wird. Der Wert in der ersten Spalte (
Estimate
) bedeuetet, wie stark der latente Faktor steigt, wenn die Variable einen Wert hat, der sich um eins erhöht. In einem guten Fragenbogen haben alle Variablen einen ähnlichen Wert in der SpalteEstimate
. In den drei folgenden Spalten wird angegeben, ob der Zusammenhang zwischen dem latenten Konstrukt und der beobachteten Variable zufallskritisch abgesichert ist. Dabei sind die Werte in den SpaltenStd.Err
undZ-value
nötige Zwischenergebebnisse, um den P-Value in der SpalteP(>|z|)
zu berechnen. Wenn der Wert kleiner als .05 ist, dann wird in der Regel angenommen, dass diese Variable geeignet ist Aspekte der latenten Variable abzubilden.Covariances: Estimate Std.Err Z-value P(>|z|) aqr ~~ aqp 0.384 0.040 9.582 0.000
Falls nicht anders spezifiziert, geht LAVAAN davon aus, dass die latenten Variablen miteinander zusammenhängen. Daher wird nun hier angegeben, wie groß die Kovarianz zwischen den beiden latenten Variablen ist.
Tipp: Die Kovarianz bei latenten Variablen ist häufig schwer zu interpretieren, da die Skala der latenten Konstrukte unter Umständen nur schwer greifbar ist. Mit dem BefehlSTANDARDIZED=TRUE
im Output-Teil werden zusätzlich die standardisierten Werte ausgegeben. Dann ist der Zusammenhang genauso wie eine Korrelation zu interpretieren.Variances: Estimate Std.Err Z-value P(>|z|) aq1 0.281 0.024 11.585 0.000 aq2 0.270 0.024 11.114 0.000 aq3 0.301 0.024 12.320 0.000 aq4 0.319 0.026 12.215 0.000 aq5 0.241 0.024 10.267 0.000 aq6 0.320 0.026 12.479 0.000 aqr 0.804 0.061 13.195 0.000 aqp 0.796 0.062 12.793 0.000
Im letzten Teil wird die Varianz, respektive Residualvarianz, sowohl für die manifesten als auch für die latenten Variablen ausgegeben. Je größer die Werte sind, desto stärker streuen die Variablen. Dabei sollten die Varianzen der latenten Variablen möglichst groß sein, da konfirmatorische Faktorenanalysen annehmen, dass dies die eigentlich interessante Varianz ist. Bei den manifesten Variablen sollte der Wert möglichst klein sein, da hier die Annahme ist, dass diese Varianz Messfehler ist und für die weitere Betrachtung nicht von weiteren Interesse ist. Häufig werden diese Werte jedoch nicht berichtet.