Erstellung des Datensatzes mit spEmp

Hallo zusammen,

für die Erstellung meines Datensatzes habe ich ein 1:m Merge von dem Datensatz SC6_CohortProfile_D_14-0-0.dta und SC6_spEmp_D_14-0-0.dta durchgeführt. Ich möchte für meine Forschungsarbeit untersuchen, ob die Erwerbstätigkeit einen Einfluss auf die Persönlichkeitsentwicklung hat (Big five). Dafür benötige ich für meinen MZP 1 (Welle 5) und MZP 2 (Welle 8) Personen, die höchstens 8 h/W arbeiten oder auch arbeitslos sind. Sie sollten jedoch nicht in einer Ausbildung sein oder Student sein. Für den zweiten MZP (Welle 8) benötige ich zusätzlich für meine Experimentalgruppe Probanden, die nun mindestens 35 h/W arbeiten.

Ich habe meinen Datensatz lediglich über die Variable ts23223_g1 (tatsächliche Wochenarbeitszeit) erstellt. Jedoch habe ich zu wenige Probanden in der Experimentalgruppe über diese Variable erhalten. Es wäre auch möglich über die Variable ts23901 (Hilfsvariable aktuelle Erwerbstätigkeit) Personen in meine Stichprobe mit aufzunehmen, jedoch verstehe ich hier nicht, was unter Erwerbstätigkeit in dem Kontext verstanden wird und ob darunter auch Personen in einer Ausbildung oder Studierende fallen. Könnten Sie mir dazu weitere Infos geben?

Eine weitere Frage ist, ob ich lediglich durch den Datensatz spEmp zu den für mich erforderlichen Daten komme. In der Variable ts23223_g1 werden für die tatsächliche Arbeitszeit auch 0 h/W angegeben. Dadurch wären Probanden die auch gar nicht arbeiten durch diese Variable zu identifizieren, oder? Oder muss ich den spEmp Datensatz mit dem Datensatz spUnemp mergen, um herauszufinden, ob eine Person zu einem bestimmten Zeitpunkt (Welle 5 oder Welle 8) gar nicht, nicht einmal 8 h/W gearbeitet hat?

Eine weitere Frage habe ich für die Big five. Diese werden durch insgesamt fünf Variablen repräsentiert mit der Endung _g1 und durch elf Variablen die alphabetisch gekennzeichnet sind von a- k. Es wäre methodisch sinnvoll nur mit den alphabetisch sortierten zu arbeiten, oder? Ich finde die mit der Endung _g1 würden in der Analyse nicht sonderlich viel Aufschluss geben, da es nur fünf Variablen sind. Wann würde es denn überhaupt einen Sinn machen mit denen, die die Endung _g1 haben, zu arbeiten?

Ich freue mich sehr über eine möglichst schnelle Hilfe oder auch über einen Lösungsvorschlag. Ich setze mich schon seit zwei Wochen mit den Datensätzen auseinander und komme leider nicht wirklich weiter. Ich freue mich ebenfalls auch über genauere Informationen zum Datensatz spEmp, da ich vieles sehr verwirrend finde, wie, dass Personen, die nach Variable ts23901 nicht erwerbstätig sind, trotzdem eine hohe Anzahl an Wochenstunden nach ts23223_g1 haben.

Vielen Dank schonmal.

Viele Grüße

Simge

Liebe Simge,

vielen Dank für dein Interesse an den NEPS Daten und natürlich auch, dass du deine Fragen hier im Forum teilst. Damit du bessere und zielgerichtetere Antworten bekommst, denke in Zukunft darüber nach, einzelne Fragen gerne auch spezifisch in einzelnen Beiträgen zu teilen und nicht mehrere thematisch eher weniger oder nicht zusammenhängende Fragen in einem Beitrag zusammenzufassen. Ich werde dennoch versuchen, deine beiden Fragen (spEmp UND BigFive) zu beantworten.

(zu BigFive):

Grundsätzlich habe ich den Eindruck, dass Nutzer eher mit den *_g Variablen arbeiten, da hier die verschiedenen Dimensionen der BigFive schon korrekt rekodiert wurden, aber es steht dir natürlich frei, für deine Analysen auch die Einzelitems zu verwenden. Vielleicht wirfst du mal einen Blick auf einen anderen Beitrag hier im Forum (Big Five - Interpretation). Dort wird zB auch auf die Konstruktion der Dimensionen eingegangen und ich vermute, das könnte dir weiterhelfen.

(zu spEmp):

Das Zusammenstellen des entsprechenden Analysedatensatzes ist hier nicht ganz trivial, wenn ich deine Forschungsfrage richtig verstehe und du wirst Informationen aus einer Vielzahl unterschiedlicher Datensätze brauchen, die du jeweils einzeln teilweise recht aufwändig aufbereiten musst. Dazu wünsche ich dir schonmal viel Erfolg. Ich würde dazu wahrscheinlich pTarget als Basis verwenden. Dann musst du identifizieren, in welchen Datensätzen du die entsprechenden Infos findest, die dein Analysesample weiter eingrenzen und wie du diese Infos dann an pTarget bekommst.

Bezüglich deiner zahlreichen Fragen zu spEmp muss ich dir zunächst einmal die Lektüre des entsprechenden DataManuals ans Herz legen (https://www.neps-data.de/Portals/0/NEPS/Datenzentrum/Forschungsdaten/SC6/14-0-0/SC6_14-0-0_DataManual.pdf; insbesondere Kap 4.4 und 4.5.17!).

Grundsätzlich kann eine Person natürlich in ihrem Lebenslauf mehrere parallele Ereignisse haben und zB auch während einer Ausbildung oder eines Studiums erwerbstätig oder in mehreren parallelen Erwerbstätigkeiten sein. Als Erwerbstätigkeit wird im NEPS generell die irgendwie geartete Generierung von Einkommen verstanden. Wenn du also deinen Analysedatensatz zusammenbaust, wirst du vielleicht auch in zusätzliche Datensätze wie spVocTrain etc schauen müssen, um zB Personen in Ausbildung oder Studium korrekt ausschließen zu können. Beachte allerdings hierbei, dass „Nicht-Erwerbspersonen“ nicht zwingend als arbeitslos gemeldet sein müssen. Insofern würde ich eher von der Nutzung von spUnEmp abraten und zur Nutzung der tatsächlichen (oder vertraglich vereinbarten) Wochenarbeitszeiten raten. Im Endeffekt ist jede Person in pTarget, die nicht in der entsprechenden Welle zusätzlich auch einen Erwerbstätigkeitsspell hat, als nicht erwerbstätig zu verstehen, schätze ich.

Das Mergen der Spelldatensätze mit Paneldatensätzen wie CohortProfile oder pTarget birgt immer einige Risiken und ich möchte dir hierzu noch ein paar Tipps geben:

Ich hoffe, dass du zum Merge der Episodendaten (spEmp) mit den Paneldaten (CohortProfile) nicht die Variable wave verwendet hast. Aufgrund der retrospektiven Abfrage dieser Informationen erhält man hier irreführende zeitliche Bezüge. In der Tat zeigt in den Episodendaten die Variable wave nur an, wann eine Information erhoben wurde, nicht jedoch wann die zugrunde liegende Episode stattgefunden hat.

Gerade wenn man an Informationen zu bestimmten MZP interessiert ist, macht es Sinn, den Spelldatendatz auch nur auf diejenigen Informationen zu beschränken, die zum jeweiligen MZB aktuell waren. Man kann das zum Beispiel umsetzen, indem man sich die Datumsangaben, wann die entsprechenden Interviews stattgefunden haben, aus CohortProfile anspielt und dann nur diejenigen Episoden aus spEmp behält, deren Anfangs- und Enddaten diese Zeitpunkte umfassen. Datenseitig gibt es hier zahlreiche Möglichkeiten, wie man das umsetzen kann. Zudem musst du wohl oder übel darüber nachdenken, wie du mit parallelen Erwerbsepisoden umgehen möchtest, denn viele Personen haben mehrere Jobs parallel. In den allermeisten Analyseszenarien macht es Sinn, die Episodendatensätze VOR dem Merge mit Paneldatensätzen auf nur eine Zeile pro Person zu beschränken, um nur mit genau diesen Episoden zu arbeiten, die man auch tatsächlich untersuchen möchte.

Um Fragen wie zB deine letzte zu beantworten, bietet sich in vielen Fällen auch ein Blick in die entsprechenden Befragungsinstrumente (https://www.neps-data.de/Datenzentrum/Daten-und-Dokumentation/Startkohorte-Erwachsene/Dokumentation) an. ts23901 (h_akt) gibt jeweils an, ob eine berichtete Erwerbsepisode zum Zeitpunkt des Interviews noch ausgeübt wurde. Wenn nun also eine Person eine Erwerbstätigkeit (retrospektiv) mit allen entsprechenden Fragen nach Dauer, Arbeitszeit, Vergütung etc beantwortet, die allerdings zum Interviewzeitpunkt nicht mehr aktuell war, dann hat die Person gültige Werte bei Arbeitszeit ts23223_g1, aber in ts23901 steht „aktuell nicht erwerbstätig“.

Freundliche Grüße und viel Erfolg,

Benno Schönberger