Longitudinale Gewichte für Multilevel Modelling

Liebes NEPS-Team,

ich arbeite mit Daten der SC3 (Selbsteinschätzungen und Elterneinschätzungen) aus den Wellen 1 - 6 und habe ein Multilevel-modelling-Design mit Schülerdaten/Elterndaten auf Individualebene (Level 1, N = 6086) und Kursdaten auf Clusterebene (Level 2).
Ich verwende Prädiktoren in Welle 1 aus den Kompetenzdatensätzen (Individualwerte auf Level1 und am Klassenmittelwert zentrierte Gruppenwerte auf Level 2) und mehrere Kriterien aus Welle 2 - 6 (darunter auch Elterneinschätzungen). Als Clustervariable verwende ich die NEPS-Kurse (erste Teilnahme in Welle 1).

Ich würde gerne die Repräsentativität der Daten bestmöglich gewährleisten und dachte, dass ich dafür Gewichte anwenden muss.
Ich habe bisher nur Erfahrung mit Querschnittsgewichten ohne Mehrebenenanalysen, weshalb ich mich etwas in die Anwendung von Gewichten bei Multilevel Modelling einlesen muss. Ich muss die survey weights skalieren und darf nicht einfach die „raw weights“ verwenden (z.B. Asparouhov, 2006; Carle, 2009). Außerdem wird davon abgeraten, Level-1-Gewichte für die Clusterebene zu verwenden.

Ich fürchte, meine Frage an das NEPS-Team ist etwas breit gestellt und ich bin nicht sicher, welche Informationen noch nötig sind, um mir weiterzuhelfen (die ich natürlich gern nachträglich schreibe). Aber welche Gewichte müsste ich auf Level 1 und auf Level 2 verwenden? Ich habe gesehen, dass es die „total number of classes in grade 8“ (tx80113_R) gibt (Schnapp, 2020), ist das eine Gewichtungsvariable für die Klassenebene / Kursebene?

Ich freue mich über jede Hilfe,
vielen herzlichen Dank Euch!
Viele Grüße,
Sarah S.

Liebe Sarah,

Danke für deine Fragen zur SC3.

Durch die Betrachtung mehrerer Wellen und der Nutzung von Eltern- und Kind-Information wäre auf Individualebene prinzipiell das Längsschnittgewicht w_tp12346 von Nöten, wenn nicht plausibel angenommen werden kann, dass die Variablen zeitunveränderlich sind. Dieses Längsschnittgewicht gewichtet dabei die gemeinsame kontinuierliche Teilnahme der Eltern und Kinder der Wellen 1, 2, 3, 4 und 6. Es wäre auch skaliert und getrimmt, ergibt also im Mittel 1, und ist somit kein „raw weight“ (vgl. u.a. Steinhauer & Zinn 2016, Abschnitt 6, https://www.neps-data.de/Portals/0/Working%20Papers/WP_LXIII.pdf). Allerdings hängt dessen Nutzung von ein paar Details ab.

In deinem Beitrag wird von Informationen aus Welle 1 bis 6 gesprochen, allerdings fand in Welle 5 keine Elternbefragung statt. Wenn (Schülerinnen- und Schüler-)Information aus Welle 5 ebenso Verwendung findet, ist die Nutzung von w_tp12346 eher hinfällig.
Ferner hat die SC3 eine Besonderheit in Form der Aufstockung in Klasse 7 (Welle 3). Wenn Personen der Aufstockung ebenso berücksichtigt werden, sind diese allerdings mit w_tp12346 nicht erfasst, sondern erst durch w_tp346 (und ab Welle 3) gewichtbar. Auch hier wäre Information aus Welle 5 ausgespart. Daher ist es neben dem Wer, ein wichtiges Detail, ob Information aus Welle 5 zum Tragen kommt.
Jedoch entsteht eine nächste Schwierigkeit bzgl. des Level-2-Gewichts, das für NEPS-Kurse separat nicht verfügbar ist, um einen, sofern vorhandenen, kurs-spezifischen Komplettausfall zu berücksichtigen.

Bei mangelnden verfügbaren oder nicht anwendbaren Gewichten existiert daher eine zur Gewichtung nächste und alternative, modellbasierte Strategie. Sie ist unter anderem in Snijders & Bosker (2012, Multilevel analysis: An Introduction to Basic and Advanced Multilevel Modeling, Kapitel 14, insb. 14.3 aber auch 14.5 und ggf. 14.2) beschrieben. Kurz angerissen: Hierbei ist die Idee alle Designinformation und Personencharakteristika, die für die Gewichtung relevant sind (aus den entsprechenden SC3-Gewichtungsreports der Wellen 1 bis 6 zu entnehmen) als Variablen in das vorhandene Mehrebenen-Analysemodell mit aufzunehmen und so die zusätzliche individuenspezifische bzw. Cluster-Heterogenität durch Modellierung statt Gewichtung aufzugreifen. Sofern alle notwendige Information berücksichtigt wird, sollte es keinen Unterschied zwischen einer gewichteten und dieser ungewichteten Schätzung geben. Ferner erlaubt ein Vergleich des Modells mit diesen neu hinzugefügten Variablen mit dem Modell ohne diese Variablen einen Einblick, ob das Hinzufügen überhaupt von Nöten ist.

Ergänzende Randbemerkung: Bei tx80113_R handelt es sich um zusätzliche Orientierungsinformation aus der amtlichen Statistik, die mit dem SUF-Release 6.0.0 hinzugenommen wurde. tx80113_R ist selbst kein Gewicht.

Ich hoffe, es konnten einige Ideen vermittelt werden, was an Informationen zunächst zu sammeln und wie das nächste Vorgehen zu steuern ist.

Herzliche Grüße
Thorsten (Schnapp)

Lieber Herr Schnapp,

vielen herzlichen Dank für die ausführliche Antwort und die vielen Hilfestellungen!

Wir verwenden in der Tat auch Variablen aus Welle 5 als Outcomes, jedoch nur self-reports der SchülerInnen und keine Elternreports.

Ich werde die modellbasierte Lösung ausprobieren, nochmal vielen herzlichen Dank für den Hinweis und die detaillierte Beschreibung, wo alle Informationen zu finden sind (und auch für die Erklärung zu den skalierten Gewichten im NEPS), das hat sehr weitergeholfen.

Viele Grüße,
Sarah Schneider