Inkonsistenz Variablen

Hallo zusammen,

mir sind bei der Arbeit mit dem SOEP Inkonsistenzen bei mehreren Variablen aufgefallen.

Laut der Website paneldata.org sind zu der Variable plb0095_v1 und
plb0722 die Jahre 1997, 199, 2002, 2009, 2010, 2011, 2014, 2020 und
2022 aufgelistet. Fügt man nun alle Wellen der Variablen dem Basket hinzu und lässt sich ein Skript generieren, so ergibt sich für jedes Jahr genau die Anzahl an Personen, die der Website nach in dem Jahr interviewt wurden.

Anders verhält es sich jedoch wenn man mit der pl.dta, dem long-Panel, arbeitet und die Variablen sucht. Für die Variable plb0095_v1 fehlt hier das Jahr 2022, es gibt jedoch Erhebungen aus dem Jahr 2012 und 2013. Diese Jahre sind nicht auf der Website gelistet. In der Variable
plb0095_v2 gibt es in der pl.dta zudem das Jahr 2021 welches ebenfalls nicht auf der Website steht.

Die Variable plb0722 ist lediglich für das Jahr 2021 vorhanden, fehlt allerdings in den allen anderen Jahren die auf der Website angegeben sind. In der Variable plb0732_v2 lässt sich ebenfalls nur das Jahr
2022 finden.

Leider bin ich nun verunsichert wie ich meinen Datensatz korrekt aufbauen kann. Ursprünglich war meine Herangehensweise die Variablen aus den long-Panels zu ziehen. Nun scheint es jedoch so, dass sowohl die Herangehensweise über den Skript Generator als auch die Herangehensweise über die Long-Panels keinen vollständigen Datensatz erzeugen. Liegt hier ein Problem in meiner Anwendung vor und können Sie mir hier weiterhelfen oder mich an den passenden Ansprechpartner weiterleiten? Tritt das Problem auch bei anderen Variablen auf oder lediglich bei diesen?

Viele Grüße
Theresa

Hallo Theresa,

Wir haben deine Frage gesehen und bitten Dich wegen des anstehenden Wochenendes noch um etwas Geduld. Wir werden Dir sobald wie möglich antworten.

Liebe Grüße
Philipp

Hallo Theresa,
Vielen Dank für Ihre Frage und die detaillierte Beschreibung. Ich gehe davon aus, dass Sie die v39 nutzt.
Die Herangehensweise ist korrekt. Die aufbereiteten Paneldatensätze sind grundsätzlich sehr zuverlässig. Ich würde denken, dies sind Fehler und bisher sind uns keine anderen Fehler dieser Art bekannt. Wir freuen uns über Hinweise. Zu dem konkreten Problem mit den Variablen plb0095_v1 und plb0722.
Im Datensatz pl ist plb0095_v1 besetzt für die Jahre: 1997 1999 2002 2009-2014 und 2020. Keine der Variablen mit dem Stamm plb0095* ist besetzt für 2022. Unsere Dokumentation auf paneldata stimmt für die Inputvariablen mit dem Datensatz überein pl/plb0095_v1 (siehe input_variables). Der Reiter „related variables“ zeigt weitere Variablen an, die irgendwie zu den Variablen passen. Wir prüfen eine Korrektur für v40. Ich würde empfehlen die related variables anzuschauen und die entsprechenden output_variables in pl heranzuziehen. In dem Fall z.B. die plb0731 pl/plb0721.
Für die Variable plb0722 gilt dies ebenso, der Reiter inputvariables zeigt welche Variable in die pl Variable eingeflossen sind. Auch hier zeigen die related variables welche weiteren Variablen ähnlich zu der gesuchten sind. Ein genauerer Blick auf die related variables offenbart weitere Variablen, die von Interesse sein könnten, hier z.B. die plb0096_h.

Viele Grüße Jana Nebelin

1 Like

Hallo Jana,

vielen Dank für die schnelle Antwort. Wenn ich mir auf paneldataorg ein Skript für die plb0095_v1 erzeugen lasse, ergibt sich der Datensatz aus den related variables. Wenn ich das long panel pl.dta verwende sind in der Variable allerdings die input variablen. Welchen Ansatz würdest du empfehlen um die korrekten Informationen zu erhalten?

Viele Grüße
Theresa