Merge von Longitudinal Daten

Fiona1212 · 10. September 2025 um 13:29

Liebes SOEP Team

Für meine Masterarbeit untersuche ich die Einführung des Mindestlohns in Deutschland im Jahr 2015. Im Fokus steht dabei, welchen Effekt diese Reform auf den Haushalt (Mutter, Vater, Kinder) hatte.

Dafür habe ich mir die relevanten Variablen aus den Surveys Household, Individual, Biography, Childhood und Youth zusammengestellt. Ich beschränke mich aktuell auf den Zeitraum 2013–2017 und habe hierfür zunächst die Datei ppathl.rds auf diese Jahre gefiltert. Anschließend habe ich die gewünschten Variablen aus den longitudinalen Datensätzen (pl.rds, hl.rds, childl.rds etc.) über ppathl gemerged (mit syear und pid/hid). Nach meinem Verständnis handelt es sich dabei um die harmonisierten Daten über alle Jahre hinweg (seit 1984).

Nun tritt folgendes Problem auf: In vielen Fällen erscheinen bei meinen Variablen die Angaben NA. Mir ist bewusst, dass bestimmte Fragen in manchen Jahren (z. B. 2013) noch nicht erhoben wurden. Da ich jedoch ausschließlich die harmonisierten Variablen verwendet habe, hätte ich erwartet, dass in solchen Fällen die bekannten Codes (z. B. -8) erscheinen und nicht NA. Ebenso tritt dieses Problem bei einigen Variablen fast konstant auf, sodass ich das Gefühl bekomme, dass etwas nicht stimmen kann.

Daher meine Frage: Könnte es an meiner Vorgehensweise beim Mergen in R liegen, oder werden fehlende Werte in den .rds-Dateien generell als NA dargestellt? Ich mache mir Sorgen, dass ich an dieser Stelle etwas grundsätzlich falsch mache.

Vielen Dank im Voraus!

j.goebel · 10. September 2025 um 14:07

Hallo,

schwierig zu beantworten, wenn man nicht genau weiß wie gemerged wurde. Aber ich vermute mal, dass die Auswahl der Population in ppathl einfach per (syear %in% 2013:2017) erfolgt ist. Oder so ähnlich. Dann sind dort aller Personen unabhängig vom Befragungsstatus ausgewählt. D.h. aber auch, dass z.B. Kinder in der Auswahl sind, die aber nicht im Datensatz pl enthalten sind (nur Informationen aus dem Personenfragebogen sind dort enthalten). Ähnlich ist es mit childl, dort sind nur die Kinder enthalten und daher werden diese Zeilen nicht an die Eltern angespielt.

Wie sehen die “pl-Variablen” aus, wenn nur Fälle mit (netto == 10) ausgewählt sind? Sollte dann schon besser passen.

Grüße,

Jan

Miriam_Gohl_05 · 21. November 2025 um 13:30

Hey,

ich vermute, dass R die original missing codes (zB -8) durch NA ersetzt hat.

Daher gehe ich davon aus, dass die Lösung zu deinem Problem darin liegt, wie du in R die missings einliest und kodierst. Ich mache longitudinal data preparation immer nur in Stata, hatte allerdings in anderen Analysen Probleme darin, wie in R missings kodiert werden.

Good luck!!