Liebes SOEP Team
Für meine Masterarbeit untersuche ich die Einführung des Mindestlohns in Deutschland im Jahr 2015. Im Fokus steht dabei, welchen Effekt diese Reform auf den Haushalt (Mutter, Vater, Kinder) hatte.
Dafür habe ich mir die relevanten Variablen aus den Surveys Household, Individual, Biography, Childhood und Youth zusammengestellt. Ich beschränke mich aktuell auf den Zeitraum 2013–2017 und habe hierfür zunächst die Datei ppathl.rds auf diese Jahre gefiltert. Anschließend habe ich die gewünschten Variablen aus den longitudinalen Datensätzen (pl.rds, hl.rds, childl.rds etc.) über ppathl gemerged (mit syear und pid/hid). Nach meinem Verständnis handelt es sich dabei um die harmonisierten Daten über alle Jahre hinweg (seit 1984).
Nun tritt folgendes Problem auf: In vielen Fällen erscheinen bei meinen Variablen die Angaben NA. Mir ist bewusst, dass bestimmte Fragen in manchen Jahren (z. B. 2013) noch nicht erhoben wurden. Da ich jedoch ausschließlich die harmonisierten Variablen verwendet habe, hätte ich erwartet, dass in solchen Fällen die bekannten Codes (z. B. -8) erscheinen und nicht NA. Ebenso tritt dieses Problem bei einigen Variablen fast konstant auf, sodass ich das Gefühl bekomme, dass etwas nicht stimmen kann.
Daher meine Frage: Könnte es an meiner Vorgehensweise beim Mergen in R liegen, oder werden fehlende Werte in den .rds-Dateien generell als NA dargestellt? Ich mache mir Sorgen, dass ich an dieser Stelle etwas grundsätzlich falsch mache.
Vielen Dank im Voraus!