Nachdem die Variablen für Umzug (resmove) und Umzugsdistanz (distance) im movedist-Datensatz in v39 ab 2021 als missings (-3 → „Implausible value“) deklariert wurden habe ich gesehen dass sie in v40 korrigiert wurden (und nun auch non-missing Werte eingetragen wurden) - freue mich sehr damit nun arbeiten zu können!
Jetzt die Nachfrage: Gibt es weitere Informationen darüber wie mit dem den Missings in v39 zugrundeliegenden Problem (m.W. nach ein Problem beim GPS-Tracking der Haushalte das mit dem Umstieg des Befragungsinstituts einhergegangen ist) umgegangen wurde? Bzw. wie wurden die Missings die für v39 in „resmove“ und „distance“ (in movedist) deklariert wurden korrigiert? Ich finde leider auf der Webseite nur einen Verweis darauf dass da etwas korrigiert wurde (https://git.soep.de/kwenzig/publicecoredoku/-/blob/master/meta/WhatsNew.md?ref_type=heads#dataset-movedist), nicht aber was. Sollte ich etwas übersehen haben tut es mir leid.
der Umzugsindikator (bzw. die Distanzen) im movedist Datensatz werden im ersten Schritt auf Basis der Hauskoordinaten berechnet. Diese Umzüge auf Basis der „reinen“ Geo-Kodierung werden dann abgeglichen mit der Variable „wein“ im hbrutto Datensatz. Diese Variable gibt an, seit wann genau diese Adresse dem Befragungsinstitut bereits bekannt ist, also wie lange der Haushalt schon an dieser Adresse am SOEP teilnimmt. Bei der Umstellung des Befragungsinstitut wurde die Erstellungsregel für diese Variable leicht anders interpretiert. Insbesondere bei Haushaltsaufspaltungen wurde hier nicht der erwartete Wert eingetragen. Die Erstellungslogik für diese Variable wurde mit dem Erhebungsinstitut neu spezifiziert und die Variable wurde neu erstellt und an das SOEP als update übermittelt.
Auf Basis diesen Updates wurden dann die Umzugsindikatoren für die Personen neu erstellt ab 2021.
Hi Jan,
Danke für die Antwort und die Infos! Nur nochmal eine Nachfrage zur Erstellungslogik dieser „wein“-Variable: Sind dann die Umzüge und Umzugsdistanzen ab 2021 vergleichbar mit jenen in und vor 2021?
Bei der Berechnung der Distanzen würde ich sagen, dass man von einer Vergleichbarkeit ausgehen kann. Bei der Gruppe wer als Umzieher identifiziert wird, kann es auf Grund der Umstellung zu Unterschieden kommen. Durch die updates haben wir versucht diese so gering wie möglich zu halten, aber bestimmte Prozesse im Feldmanagment führen teilweise dazu, dass Veränderungen in der Adresse einzelner Befragter etwas früher oder später erfasst werden. Ob sich das in den Ergebnissen auch auswirkt ist abhängig von der konkreten Analyse. Ich würde diesem Umstiegsjahr immer ein besonderes Augenmerk schenken bei der Interpretation von Ergebnissen.