Latent Class Analysis mit unabhängiger und abhängier Variable

Kovariaten bei einer Latent Class Analysis

Nach der Identifikation der latenten Klassen mit einer Latent Class Analysis in Mplus ist im nächsten Schritt, zu untersuchen, wie die latenten Klassen mit anderen Variablen zusammenhängen. Dabei können latente Klassen sowohl durch andere Variablen vorhergesagt werden, als auch selbst Prädiktoren für andere Variablen sein.
Ein Beispiel aus dem medizinischen Umfeld ist die Studie von Dunn, Jordan und Croft (2006). Sie nutzten eine Latent Class Analyse, um den Schmerzverlauf von PatientInnen mit Rückenschmerzen zu untersuchen. Zunächst identifizierten sie fünf verschiedene prototypische Verläufe, unter anderem eine Gruppe, die sich unmittelbar nach Beginn der Behandlung schnell erholte, während eine andere Teilgruppe keine Sympotmverbesserung berichtete. Im nächsten Schritt zeigten sie dann, dass bereits zum Behandlungsbeginn jene PatientInnen, bei denen es zu einer Chronifizierung der Symptome gekommen war, über mehr Ängste und Depressionsymptome berichteten, als PatientInnen, die sich von den Symptomen erholten. Das weitere Ergebnis, dass insbesondere chronische Rückenschmerzen am Ende des Zeitraumes von 12 Monaten zu häufigen Fehltagen am Arbeitsplatz führten, entspricht den Erwartungen.
Der vorliegende Beitrag stellt die verfügbaren Methoden zur Vorhersage von Klassenzugehörigkeiten (im Sinne vor Gruppenzugehörigkeiten vor. Mit der Klassenzugehörigkeit lassen sich zudem auch andere Variablen vorhersagen. Die Durchführung soll mit Hilfe eines Beispieldatensatzes in Mplus veranschaulicht werden. Die Beispiele finden sich in einer Zip-Datei und können auch mit der Demoversion von Mplus analysiert werden.

Beispieldatensatz für Latent Class Analysis

Um die unterschiedlichen methodischen Ansätze zu demonstrieren, soll die folgende Latent Class Analysis als Beispiel analysiert werden:

In diesem Beispiel sollen zwei latenten Klassen auf Basis der beiden Indikatoren (U1 und U2) gebildet werden. Gleichzeitig soll geprüft werden, ob die latenten Klassen durch die Variable X1 (der Prädiktor) vorhergesagt werden und darüberhinaus auch die Variable Y (das Kriterium) vorhersagen läßt. Die Syntax der Latent Class Analysis um ausschließlich die beiden latenten Klassen zu identifizieren ohne Betrachtung der Kovariaten oder zusätzliche abhängige Variablen ist hier zu finden.

1-Step-Verfahren

Das 1-Step-Verfahren ist eine Möglichkeit, um die zusätzlichen Variablen in die Latent Class Analysis zu integrieren, wie in dem Beispiel-Input dargestellt:

MODEL:
    %overall%
    c on x1;
    %c#1%
    [y1];

Prädiktoren werden direkt mit dem Befehl on (siehe Zeile 2) eingebunden, während bei abhängigen Variablen der Mittelwert zwischen den Gruppen freigesetzt wird (siehe Zeile 5). Dieses Verfahren hat 2 große Vorteile:

  • Aufgrund fehlender Werte auf den Indikatorvariablen oder den abhängigen Variablen müssen keine Fälle ausgeschlossen werden. Hierdurch erhöht sich die Power für die statistische Analyse.
  • Die Unsicherheit in der Zuordnung zur latenten Klasse wird in der Berechnung berücksichtigt, und zwar sowohl in der Berechnung des Zusammenhanges zwischen X und C als auch zwischen dem von C und Y.

Gleichzeitig hat dieses Verfahren aber den Nachteil, dass sowohl der Prädiktor als auch das Kriterium in die Schätzung der Gruppen einbezogen wird. Dadurch kann beispielsweise Folgendes passieren:

  • Die Gruppen können sich in ihrer Größe verändern.
  • Die Mittelwerte der Indikatoren in den jeweiligen Gruppen können sich verändern.

Im hier gewählten Beispiel zeigt sich sehr deutlich der erste der beiden Effekte. Während sich ohne die beiden zusätzlichen Variablen in der großen Gruppe 784 Teilnehmer befinden, sind unter Einschluss der beiden Variablen nur noch 731 Teilnehmer in der großen Gruppe.

Pseudo-Class-Ansatz: Exportieren der Clusterzuordnungen in ein anderes Statistikprogramm

Ein häufig verwendetes Verfahren ist das Speichern der Zuordnung, welcheR TeilnehmerIn in welche latente Klasse gehört, in einer neue Datendatei. Im nächsten Schritt kann diese Datei dann in Mplus, SPSS oder einem anderen Statistikprogramm eingelesen und weiterverarbeitet werden. Die dafür benötigten Befehle in Mplus sind:

 VARIABLE:
Auxillary = VP;

SAVEDATA:
FILE IS outdata.dat;
SAVE = CPROBABILITIES;

 

Durch diese zusätzlichen Befehle im Rahmen einer Latent Class Analysis wird eine Datei „outdata.dat“ erstellt, in der sich die folgende Variablen befinden:

  • Die Rohwerte der Variablen, die zur Bildung der latenten Klassen genutzt wurden
  • Die Wahrscheinlichkeit, dass ein Fall in eine bestimmte Klasse gehört
  • Die wahrscheinlichste Klasse, in die jeder Fall einkategorisiert wurde
  • Alle im Auxillary Kommando aufgezählten Variablen

Diese neu entstandene Datei muss dann mit der Ausgangsdatendatei zusammengeführt werden. Mit dieser neu entstandenen Datendatei kann dann im jeweiligen Programm sowohl die Klassenzugehörigkeit mit anderen Variablen vorhergesagt werden, als auch die Klassenzugehörigkeit selbst zur Vorhersage genutzt werden. Beispielhaft habe ich hier sowohl eine SPSS-Datei als auch ein R-Skript bereitgestellt, mit Hilfe derer sich Beispielanalysen durchführen lassen.
Tipp: Wenn Sie alle Variablen, die Sie nicht zur Bildung der Gruppen innerhalb der Latent Class Analysis herangezogen haben, im Auxillary-Kommando aufführen, können Sie mit dem neu entstandenen Datensatz direkt weiterarbeiten. Sie müssen nur den Namen der Datendatei ändern und im Variables:-Teil die neu entstandenen Variablen ergänzen.

Dieses Verfahren hat 2 große Vorteile:

  • Durch die freie Wahl des Statistikprogramms erhalten Sie die maximale Flexibilität. Es sind alle denkbaren Auswertungen möglich.
  • Dieser Ansatz ist sehr einfach zu kommunizieren und auch für den/die LeserIn ohne statistisches Hintergrundwissen leicht nachzuvollziehen, da Sie die Bildung der Klassen klar von den Analysen, welche Konsequenzen die Klassenzugehörigkeit hat, trennen.

Gleichzeitig hat dieser Ansatz aber auch Nachteile:

  • Bei der nachfolgenden Analyse wird die Unsicherheit, mit der die Zuordnung der TeilnehmerInnen zu den einzelnen Klassen erfolgt, nicht betrachtet. Damit wird ein wesentlicher Vorteil der latenten Klassenanalyse gegenüber anderen Klassifikationsverfahren nicht genutzt und es können potentiell falsche Ergebnisse resultieren.
  • Das Zusammenführen der Originaldaten mit den herausgeschriebenen Daten kostet Zeit und ist fehleranfällig. Dies fällt besonders beim explorativen Vorgehen ins Gewicht, wo diese Schritte mehrfach durchgeführt werden.

Nutzung des auxillary-Kommandos von Mplus

Eine sehr nützliche Option ist die Prüfung des Zusammenhanges zwischen den latenten Klassen und anderen Verfahren mithilfe des Auxillary-Kommandos. Mplus bietet dafür eine Reihe unterschiedlicher Methoden an. Da Mplus bei einer Latent Class Analysis die gleichzeitige Betrachtung der latenten Klasse als abhängige und unabhängige Variable nicht unterstützt, werden hier zuerst die Kommandos für die latenten Klassen als abhängige und, dann anschließend, die Kommandos für die latenten Klassen als unabhängige Variable vorgestellt. Wenn bei einer Latent Class Analysis die latenten Klassen sowohl unabhängige als auch abhängige Variablen sind, müssen diese Berechnungen dann auch getrennt durchgeführt werden.

Die Latente Klasse ist die abhängige Variable

Pseudo-class (PC) method mit der Klassenzugehörigkeit als Outcome

In manchen Lehrbüchern wird empfohlen, das Kommando auxillary = x1 (r) zu verwenden. Wenn man dies tut, wird in aktuellen Versionen von Mplus jedoch folgender Warnhinweis ausgegeben.

AUXILIARY (R) CAN GIVE BIASED RESULTS AND IS SUPERSEDED BY THE R3STEP OPTION.
USE AUXILIARY (R) ONLY FOR METHODS RESEARCH PURPOSES.

Montecarlo-Simulationen von Vermunt (2010) sowie Muthen und Aspharouv (2015) zeigen, dass diese Methode bei einer Latent Class Analysis nicht mehr als zeitgemäß zu betrachten ist, da die Zusammenhänge zwischen dem Prädiktor und dem Kriterium bei geringer Entropie falsch berechnet werden. Gleichzeitig hat sie auch verglichen mit anderen verfügbaren Ansätzen keine wirklichen Vorteile.
Falls Sie trotz dieser Vorbehalte diese Berechnungsmethode verwenden wollen, finden Sie eine Dokumentation des Ansatzes bei Wang et al. (2005).

Classification-error corrected Aproach mit der latenten Klasse als abhängige Variable

In aktuellen Simulationsstudien wird für diese Fragestellung das 3-Step-Verfahren bzw. der Classication-error corrected, basierend auf Vermunt (2010), empfohlen. Bei diesem Ansatz werden im ersten Schritt die latenten Klassen bestimmt und im zweiten Schritt, darauf aufbauend, mit einer multinominalen logistischen Regression, welche auch die mit der Zuordnung verbundene Unsicherheit betrachtet, die Klassenzugehörigkeit vorhergesagt:
Diese Verfahren wird mit dem Befehl auxillary = x1 (r3step) umgesetzt. Nachdem das Modell berechnet wurde, erscheint hinter der vertrauten Model Results Section der folgende zusätzliche Output, in dem die Ergebnisse der multinominalen logistischen Regression ausgegeben werden:

TESTS OF CATEGORICAL LATENT VARIABLE MULTINOMIAL LOGISTIC REGRESSIONS USING
THE 3-STEP PROCEDURE

                                                    Two-Tailed
                    Estimate       S.E.  Est./S.E.    P-Value

 C#1      ON
    X1                 4.256      2.628      1.619      0.105

 Intercepts
    C#1               -0.356      0.739     -0.482      0.630

Parameterization using Reference Class 1

 C#2      ON
    X1                -4.256      2.628     -1.619      0.105

 Intercepts
    C#2                0.356      0.739      0.482      0.630

In den Zeilen 7 bis 11 sind die Ergebnisse der multinominalen logistischen Regression aufgeführt. Der wichtigste Parameter ist dabei in Zeile 8 der Zusammenhang zwischen dem Prädiktor X1 und der Wahrscheinlichkeit, dass ein Fall in die erste latente Klasse (C#1) eingeordnet wird – und zwar verglichen mit der Wahrscheinlichkeit, dass der Fall in die letzte latente Klasse eingeordnet wird. In dem Beispiel hier ist die letzte latente Klasse die zweite Klasse. Bei positiven Werten, wie im Beispiel hier der Fall ist, führt ein höherer Wert auf X1 zur höheren Wahrscheinlichkeit, dass sich eine Person in der ersten latenten Klasse (C#1) befindet – verglichen mit der Wahrscheinlichkeit, in der letzten Klasse zu sein.
In diesem Beispiel ist jedoch der Zusammenhang nicht signifikant, da der Alphafehler größer als .05 ist (siehe Zeile 8, Spalte Two-Tailed P-Value). D. h., dieser Zusammenhang ist nicht zu interpretieren, da er nicht zufallskritisch abgesichert ist.
Im darauffolgenden Abschnitt wird dasselbe Modell noch einmal mit einer anderen Referenzklasse ausgegeben. D. h. hier wird geprüft, ob sich die anderen Klassen von der ersten latenten Klasse unterscheiden. Hier ist der in Zeile 16 angegebene Zusammenhang dahingehend zu interpretieren, dass Personen mit einem höheren Wert auf X1 weniger wahrscheinlich in die Klasse C#2 als in die erste Klasse (C#1) fallen. Bei nur zwei latenten Klassen ist diese Information redundant; bei mehr als zwei latenten Klassen ist diese jedoch sehr hilfreich, da hierdurch die latenten Klassen untereinander verglichen werden können.

Die latente Klasse ist der Prädiktor und eine andere abhängige Variable soll vorhergesagt werden

Hier kehrt sich die Frage gegenüber dem vorherigen Absatz um und es wird nun geprüft, ob die latenten Klassen andere Variablen vorhersagen. Dafür gibt es folgende Methoden:

Pseudo-class (PC) method mit der Klassenzugehörigkeit als Prädiktor

Die erste Option ist auxillary = y1 (e); . Diese Methode wird ebenfalls in einigen Lehrbüchern empfohlen. Mplus 7.4 gibt dann jedoch die folgende Warnung aus:

WARNING:  AUXILIARY (E) CAN GIVE BIASED RESULTS AND IS SUPERSEDED BY THE BCH AND DU3STEP OPTION
USE AUXILIARY (E) ONLY FOR METHODS RESEARCH PURPOSES.

Wie aus der Warnung ersichtlich, ist diese Methode nicht mehr zeitgemäß. Es gibt meiner Meinung nach auch keine Vorteile, bei diesem Ansatz zu bleiben, und auch Asparouhov und Muthén (2014) raten davon ab, diese Methode zu nutzen. Falls Sie dennoch diesen Ansatz verwenden wollen, finden sie eine Dokumentation bei Wang et al. (2005).

Measurement-error weighted Ansätze

Als state of the art wird im Moment der von Bakk und Vermunt (2016) entwickelte Measurement-Error-Weighted-Ansatz erachtete. Einzige Voraussetzung für diesen Ansatz ist, dass die abhängige Variable kontinuierlich ist. Der Ansatz wird mit dem Befehl AUXILIARY y1 (bch); angefordert. Im Output erscheint dann unter den Model Results der folgende zusätzliche Output:

EQUALITY TESTS OF MEANS ACROSS CLASSES USING THE BCH PROCEDURE
WITH 1 DEGREE(S) OF FREEDOM FOR THE OVERALL TEST

Y1
                          Mean       S.E.

  Class 1               -2.788      0.191
  Class 2                2.389      0.090

                    Chi-Square     P-Value

  Overall test         584.790      0.000

Im oberen Teil des Outputs (siehe Zeilen 7 und 8) werden die Mittelwerte der abhängigen Variablen aufgeschlüsselt nach Klassen angezeigt. Im hier dargestellten Beispiel hat die Variable Y1 einen Mittelwert von -2.788 in Klasse 1 und einen Mittelwert von 2.389 in Klasse 2. Direkt darunter in – Zeile 12 – finden sich die Ergebnisse des Signifikanztests bezüglich der Frage, ob sich die Mittelwerte von Y1 sich zwischen den beiden latenten Klassen unterscheiden. Im hier besprochenen Beispiel unterscheiden sich die Mittelwerte signifikant voneinander, da der Wert 0.000 in der Spalte P-Value kleiner als der fast immer verwendete Wert 0.05 ist. Wenn mehr als zwei latente Klassen extrahiert werden, werden zusätzlich noch alle Post-Hoc-Tests ausgegeben, sodass die Mittelwerte aller Klassen direkt verglichen werden können.
Tipp: Mit diesem Ansatz können Sie durchaus auch komplexere Modelle untersuchen. Dafür ist es aber erforderlich, zunächst eine Datei zu erstellen, in der für jede Versuchsperson die Wahrscheinlichkeit, zu einer bestimmten Klasse zu gehören, als Gewicht gespeichert ist. Auf Basis dieser Datendatei findet dann die eigentliche Auswertung statt. Eine Beschreibung dieses Vorgehens findet sich im Abschnitt „Regression auxiliary model combined with latent class regression“ der Webnote 21 .
Fall es Probleme bei der Berechnung gibt und Mplus keine Ergebnisse mit diesem Schätzer ausgibt, können Sie alternativ auch die Optionen AUXILIARY y1 (DU3STEP); oder ggf. AUXILIARY y1 (DE3STEP); verwenden. Die Interpretation des Ergebnisses erfolgt dann analog zu dem bereits Dargestellten. Falls Sie Fragen zu diesen beiden Optionen oder allgemein haben, können Sie diese gerne im Kommentarfeld formulieren oder mir eine Mail diesbezüglich schicken.

Vorhersage einer weiteren kategorialen Variable

Oftmals will man mit der latenten Klassenzugehörigkeit eine kategoriale abhängige Variable vorhersagen. Dies kann eine zweifach gestufte Variable, wie beispielsweise Gesund vs. Krank, aber auch eine vielfach gestufte Variable, wie etwa das Interesse an einem bestimmten Produkt, sein. Für diesen Fall bietet Mplus die Option AUXILIARY Y1KAT (CAT); an. Dieses Verfahren basiert auf Arbeiten von Lanza et al. (2013). Auch in diesem Fall fügt Mplus neue Informationen in den Output unmittelbar hinter den Model Results ein. Im Beispiel sieht der Output dann folgendermaßen aus:

EQUALITY TESTS OF MEANS/PROBABILITIES ACROSS CLASSES

Y1KAT
                          Prob       S.E.  Odds Ratio      S.E.   2.5% C.I.  97.5% C.I.

  Class 1
    Category 1           0.328      0.037      1.000      0.000      1.000      1.000
    Category 2           0.672      0.037      0.283      0.064      0.181      0.441
  Class 2
    Category 1           0.121      0.014      1.000      0.000      1.000      1.000
    Category 2           0.879      0.014      1.000      0.000      1.000      1.000

                    Chi-Square     P-Value   Degrees of Freedom

  Overall test          25.082      0.000        1

 

Im ersten Block (siehe Zeile 6 bis Zeile 12) ist die Wahrscheinlichkeit angegeben, dass die abhängige Variable in Abhängigkeit von den latenten Klassen eine bestimmte Ausprägung hat. In der ersten latenten Klasse liegt beispielsweise die Wahrscheinlichkeit, auf der abhängigen Variable in der unteren Kategorie zu sein, bei .328; die Wahrscheinlichkeit, in der oberen Kategorie zu sein, liegt hingegen bei .672.
Weiterhin werden Odds-Ratios angegeben. Das hier ausgegebene Odds-Ratio gibt an, um wie viel wahrscheinlicher es ist, in die spezifische Kategorie zu fallen und zwar gegenüber der ersten Kategorie einer latenten Klasse im Verhältnis zu den Kategorien innerhalb der letzten Klasse. Bei diesem Ansatz ist definitionsgemäß das Odds-Ratio der ersten Kategorie einer latenten Klasse immer 1 und das Odds-Ratio für die letzte Klasse ebenfalls immer eins. Wenn Odds-Ratios berichtet werden sollen, empfehle ich immer, diese von Hand zu berechnen, da dann die Vergleiche beliebig gewählt werden können.
Hier wird wieder, wie bei den kontinuierlichen Outcomes, als letztes das Ergebnis der Prüfung ausgegeben, ob sich die Verteilung der Kategorien zwischen den beiden latenten Gruppen unterscheidet. Der Wert .000 in der Spalte P-Value liegt im vorliegenden Beispiel unter .05. Das bedeutet, dass sich die Verteilung der Variable Y1-Kat signifikant zwischen den beiden latenten Klassen unterscheidet.

It's only fair to share...Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin
Email this to someone
email

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.