Liebes NEPS-Team,
im Rahmen meiner Masterarbeit möchte ich für eine FE-Regression die Spelldaten der SC4 an die Paneldaten anspielen. Da ich den Übergang in eine Ausbildung untersuchen möchte, brauche ich eine Variable, die mir in jeder Welle den aktuellen Status anzeigt (Schüler, schulische Ausbildung, duale Ausbildung, Berufsvorbereitung, Studium).
Ich habe kein konkretes Problem mehr, würde aber gerne mein Vorgehen kurz beschreiben, um sicherzugehen, dass ich keine groben Fehler gemacht habe:
- Alle relevanten Spelldatensätze (spVocTrain, spVocPrep, spSchool) auf vollständige Spells eingrenzen (keep if subspell == 0) und an die Biography-Daten anspielen.
- Start- und Enddatum der Spells generieren
- Eliminieren von Überschneidungen und innenliegenden Spells
a) drop von Spells mit negativer Dauer oder extrem kurzer Dauer (max. 2 Monate)
b) Eliminieren von Spells mit identischem Startdatum: Es wird der längste Spell bevorzugt. Wenn beide Spells gleich lang sind wird der noch anhaltende Spell bevorzugt. Wenn beide Spells noch anhalten, wird der zuletzt aufgenommene Spell behalten
c) Eliminieren von Spells mit identischem Enddatum: genau wie beim Startdatum
d) Eliminieren von Episoden, die vollständig innerhalb einer anderen Episode liegen
e) Eliminieren von Überlappungen von Start- und Enddatum: Bei kurzen Überlappungen kürze ich das Enddatum des ersten Spells so, dass die Spells direkt aneinander anschließen. Bei Überlappungen von mehr als 4 Monaten behalte ich den längeren der beiden sich überlappenden Spells
f) Manche dieser Schritte musste ich wiederholt durchführen, bis wirklich alle Spells überschneidungsfrei waren. - Berechnen der Dauer jedes Spells (in Monaten) und vervielfachen der Zeilen mit expand. Pro Monat wird in den Spelldaten also eine Datenzeile erstellt. Mithilfe dieses fortlaufenden Monatsindikators und der ID sind alle Zeilen eindeutig identifizierbar (isid ID_t month liefert keine Fehlermeldung)
- Erstellen einer Variable zum Interviewmonat im CohortProfile-Datensatz (Testdatum Welle 1 und 2) mithilfe des Methoden-Datensazes (Interviewdatum ab Welle 3).
- Merge der „aufgeblähten“ Spelldaten an das Cohortprofile mithilfe eines 1:1 merge mit ID_t und month. Dabei werden nur erfolgreich zusammengefügte Zeilen behalten (keep if _merge == 3) . So behalte ich alle Zeilen des CohortProfiles, bei denen der aktuelle Status durch die Spelldaten bestimmt werden kann. Insgesamt verbleiben von 99 198 Zeilen des CohortProfiles 79 182 Zeilen, bei denen eine Info aus den Spelldaten angefügt wurde.
Ich hoffe, man kann mein Vorgehen mithilfe dieser Beschreibung gut nachvollziehen. Ich würde mich über Feedback freuen, ob mein Vorgehen richtig und auch sinnvoll ist, um die Informationen der Spelldaten korrekt an die Panelstruktur anzufügen.
Vielen Dank!
Lisa