SC4 Spelldaten an Paneldaten

Lisa_Schwarz · 17. Juli 2020 um 14:26

Liebes NEPS-Team,

im Rahmen meiner Masterarbeit möchte ich für eine FE-Regression die Spelldaten der SC4 an die Paneldaten anspielen. Da ich den Übergang in eine Ausbildung untersuchen möchte, brauche ich eine Variable, die mir in jeder Welle den aktuellen Status anzeigt (Schüler, schulische Ausbildung, duale Ausbildung, Berufsvorbereitung, Studium).

Ich habe kein konkretes Problem mehr, würde aber gerne mein Vorgehen kurz beschreiben, um sicherzugehen, dass ich keine groben Fehler gemacht habe:

Alle relevanten Spelldatensätze (spVocTrain, spVocPrep, spSchool) auf vollständige Spells eingrenzen (keep if subspell == 0) und an die Biography-Daten anspielen.
Start- und Enddatum der Spells generieren
Eliminieren von Überschneidungen und innenliegenden Spells
a) drop von Spells mit negativer Dauer oder extrem kurzer Dauer (max. 2 Monate)
b) Eliminieren von Spells mit identischem Startdatum: Es wird der längste Spell bevorzugt. Wenn beide Spells gleich lang sind wird der noch anhaltende Spell bevorzugt. Wenn beide Spells noch anhalten, wird der zuletzt aufgenommene Spell behalten
c) Eliminieren von Spells mit identischem Enddatum: genau wie beim Startdatum
d) Eliminieren von Episoden, die vollständig innerhalb einer anderen Episode liegen
e) Eliminieren von Überlappungen von Start- und Enddatum: Bei kurzen Überlappungen kürze ich das Enddatum des ersten Spells so, dass die Spells direkt aneinander anschließen. Bei Überlappungen von mehr als 4 Monaten behalte ich den längeren der beiden sich überlappenden Spells
f) Manche dieser Schritte musste ich wiederholt durchführen, bis wirklich alle Spells überschneidungsfrei waren.
Berechnen der Dauer jedes Spells (in Monaten) und vervielfachen der Zeilen mit expand. Pro Monat wird in den Spelldaten also eine Datenzeile erstellt. Mithilfe dieses fortlaufenden Monatsindikators und der ID sind alle Zeilen eindeutig identifizierbar (isid ID_t month liefert keine Fehlermeldung)
Erstellen einer Variable zum Interviewmonat im CohortProfile-Datensatz (Testdatum Welle 1 und 2) mithilfe des Methoden-Datensazes (Interviewdatum ab Welle 3).
Merge der „aufgeblähten“ Spelldaten an das Cohortprofile mithilfe eines 1:1 merge mit ID_t und month. Dabei werden nur erfolgreich zusammengefügte Zeilen behalten (keep if _merge == 3) . So behalte ich alle Zeilen des CohortProfiles, bei denen der aktuelle Status durch die Spelldaten bestimmt werden kann. Insgesamt verbleiben von 99 198 Zeilen des CohortProfiles 79 182 Zeilen, bei denen eine Info aus den Spelldaten angefügt wurde.

Ich hoffe, man kann mein Vorgehen mithilfe dieser Beschreibung gut nachvollziehen. Ich würde mich über Feedback freuen, ob mein Vorgehen richtig und auch sinnvoll ist, um die Informationen der Spelldaten korrekt an die Panelstruktur anzufügen.

Vielen Dank!
Lisa

dietmar.angerer · 20. Juli 2020 um 08:36

Hallo Lisa!

Ich finde deinen Ansatz wirklich gut. Du solltest aber darlegen, warum du die entsprechenden Spells auf diese Weise eliminierst - das kann nur auf inhaltlicher Basis geschehen. Ohne diese Erklärung stellt dieses Vorgehen nur eine/n Heurisitk/Algorithmus dar.

Viel Glück noch mit deiner Masterarbeit
Dietmar

Lisa_Schwarz · 22. Juli 2020 um 10:22

Hallo Dietmar!

vielen Dank für die Antwort. Es freut mich, dass das Vorgehen an sich keine groben Fehler enthält, und ich erfoglreich eine Variable zum aktuellen Status aus den Spelldaten an die Paneldaten gemerged habe.

Inhaltlich untersuche ich die Veränderung der Lebenszufriedenheit beim Übergang von der Schule in eine Ausbildung/Berufsvorbereitung/Studium anhand einer Fixed Effects Regression.

In einer Nutzerschulung zur Aufbereitung von lückenlosen Episodendaten hatten wir von Dir ein Do-File bekommen, in dem mithilfe einer „Prioritäts“-Variable entscheiden wird, welcher Spell bei Überschneidungen behalten wird. Das hatte ich zuerst auch ausprobiert. Allerdings war es für mich schwierig, bei der großen Anzahl an verschiedenen Spells (alle Typen aus spSchool, spVocPrep und spVocTrain) eine sinnvolle Rangfolge zu erstellen.

Ich habe aber alle Spells, die definitiv nicht von Interesse sind, schon im vorhinein gelöscht (z.B. Grundschulspells).

Ich denke für meine Forschungsfrage ist es sinnvoll, die Spells bei Überschneidungen nach Länge zu priorisieren, da mich die „Hauptbeschäftigung“ der Jugendlichen interessiert. Zum Beispiel bin ich eher an einer längeren Berufsausbildung interessiert, und nicht an einem kurzen Kurs, der nicht zu einem vollqualifizierenden Abschluss führt (z.B. Trainerlizenzen, Gabelstaplerschein,…)

Dass ich bei kurzen Überlappungen den vorherigen Spell kürze habe ich entschieden, weil ich erwarte, dass die Angaben zum Beginn eines Spells verlässlicher sind, als die Angaben zum Ende eines Spells. Vor allem das genaue Ende der allgemeinbildenden Schulzeit ist glaube ich oft nicht so eindeutig (Ende des Unterrichts/Abschlussprüfungen/Zeugnisvergabe/Ende des Schuljahres). Im Vergleich erwarte ich, dass die Angaben zum genauen Beginn verlässlicher sind.

Alle anderen Entscheidungen sind tatsächlich eher „zufällig“, da ich mich für ein Vorgehen entscheiden musste, um die Überschneidungen zu eliminieren.

Nochmal vielen Dank!
Lisa