Erstellung des Datensatzes mit spEmp

benno.schoenberger · 7. Juni 2024 um 12:36

Liebe Simge,

vielen Dank für dein Interesse an den NEPS Daten und natürlich auch, dass du deine Fragen hier im Forum teilst. Damit du bessere und zielgerichtetere Antworten bekommst, denke in Zukunft darüber nach, einzelne Fragen gerne auch spezifisch in einzelnen Beiträgen zu teilen und nicht mehrere thematisch eher weniger oder nicht zusammenhängende Fragen in einem Beitrag zusammenzufassen. Ich werde dennoch versuchen, deine beiden Fragen (spEmp UND BigFive) zu beantworten.

(zu BigFive):

Grundsätzlich habe ich den Eindruck, dass Nutzer eher mit den *_g Variablen arbeiten, da hier die verschiedenen Dimensionen der BigFive schon korrekt rekodiert wurden, aber es steht dir natürlich frei, für deine Analysen auch die Einzelitems zu verwenden. Vielleicht wirfst du mal einen Blick auf einen anderen Beitrag hier im Forum (Big Five - Interpretation). Dort wird zB auch auf die Konstruktion der Dimensionen eingegangen und ich vermute, das könnte dir weiterhelfen.

(zu spEmp):

Das Zusammenstellen des entsprechenden Analysedatensatzes ist hier nicht ganz trivial, wenn ich deine Forschungsfrage richtig verstehe und du wirst Informationen aus einer Vielzahl unterschiedlicher Datensätze brauchen, die du jeweils einzeln teilweise recht aufwändig aufbereiten musst. Dazu wünsche ich dir schonmal viel Erfolg. Ich würde dazu wahrscheinlich pTarget als Basis verwenden. Dann musst du identifizieren, in welchen Datensätzen du die entsprechenden Infos findest, die dein Analysesample weiter eingrenzen und wie du diese Infos dann an pTarget bekommst.

Bezüglich deiner zahlreichen Fragen zu spEmp muss ich dir zunächst einmal die Lektüre des entsprechenden DataManuals ans Herz legen (https://www.neps-data.de/Portals/0/NEPS/Datenzentrum/Forschungsdaten/SC6/14-0-0/SC6_14-0-0_DataManual.pdf; insbesondere Kap 4.4 und 4.5.17!).

Grundsätzlich kann eine Person natürlich in ihrem Lebenslauf mehrere parallele Ereignisse haben und zB auch während einer Ausbildung oder eines Studiums erwerbstätig oder in mehreren parallelen Erwerbstätigkeiten sein. Als Erwerbstätigkeit wird im NEPS generell die irgendwie geartete Generierung von Einkommen verstanden. Wenn du also deinen Analysedatensatz zusammenbaust, wirst du vielleicht auch in zusätzliche Datensätze wie spVocTrain etc schauen müssen, um zB Personen in Ausbildung oder Studium korrekt ausschließen zu können. Beachte allerdings hierbei, dass „Nicht-Erwerbspersonen“ nicht zwingend als arbeitslos gemeldet sein müssen. Insofern würde ich eher von der Nutzung von spUnEmp abraten und zur Nutzung der tatsächlichen (oder vertraglich vereinbarten) Wochenarbeitszeiten raten. Im Endeffekt ist jede Person in pTarget, die nicht in der entsprechenden Welle zusätzlich auch einen Erwerbstätigkeitsspell hat, als nicht erwerbstätig zu verstehen, schätze ich.

Das Mergen der Spelldatensätze mit Paneldatensätzen wie CohortProfile oder pTarget birgt immer einige Risiken und ich möchte dir hierzu noch ein paar Tipps geben:

Ich hoffe, dass du zum Merge der Episodendaten (spEmp) mit den Paneldaten (CohortProfile) nicht die Variable wave verwendet hast. Aufgrund der retrospektiven Abfrage dieser Informationen erhält man hier irreführende zeitliche Bezüge. In der Tat zeigt in den Episodendaten die Variable wave nur an, wann eine Information erhoben wurde, nicht jedoch wann die zugrunde liegende Episode stattgefunden hat.

Gerade wenn man an Informationen zu bestimmten MZP interessiert ist, macht es Sinn, den Spelldatendatz auch nur auf diejenigen Informationen zu beschränken, die zum jeweiligen MZB aktuell waren. Man kann das zum Beispiel umsetzen, indem man sich die Datumsangaben, wann die entsprechenden Interviews stattgefunden haben, aus CohortProfile anspielt und dann nur diejenigen Episoden aus spEmp behält, deren Anfangs- und Enddaten diese Zeitpunkte umfassen. Datenseitig gibt es hier zahlreiche Möglichkeiten, wie man das umsetzen kann. Zudem musst du wohl oder übel darüber nachdenken, wie du mit parallelen Erwerbsepisoden umgehen möchtest, denn viele Personen haben mehrere Jobs parallel. In den allermeisten Analyseszenarien macht es Sinn, die Episodendatensätze VOR dem Merge mit Paneldatensätzen auf nur eine Zeile pro Person zu beschränken, um nur mit genau diesen Episoden zu arbeiten, die man auch tatsächlich untersuchen möchte.

Um Fragen wie zB deine letzte zu beantworten, bietet sich in vielen Fällen auch ein Blick in die entsprechenden Befragungsinstrumente (https://www.neps-data.de/Datenzentrum/Daten-und-Dokumentation/Startkohorte-Erwachsene/Dokumentation) an. ts23901 (h_akt) gibt jeweils an, ob eine berichtete Erwerbsepisode zum Zeitpunkt des Interviews noch ausgeübt wurde. Wenn nun also eine Person eine Erwerbstätigkeit (retrospektiv) mit allen entsprechenden Fragen nach Dauer, Arbeitszeit, Vergütung etc beantwortet, die allerdings zum Interviewzeitpunkt nicht mehr aktuell war, dann hat die Person gültige Werte bei Arbeitszeit ts23223_g1, aber in ts23901 steht „aktuell nicht erwerbstätig“.

Freundliche Grüße und viel Erfolg,

Benno Schönberger