Episodendatensatz spParLeave

Liebes NEPS-Team,

ich arbeite zurzeit in R mit NEPS-Daten der Erwachsenenkohorte. Ich möchte gern Variablen aus dem Teildatensatz „spParLeave“ nutzen, um mir ein Maß für die Elternzeit als Kontrollvariable in meinen Analysen zu erstellen.
Ich fürchte, ich bin unsicher, welche Variablen ich in mein Dataset zur „Weiterverarbeitung“ aufnehmen muss, wenn ich die Elternzeit für alle Personen, die in Welle 7 teilgenommen haben, erstellen möchte.

Ich hätte folgende Vermutung, was zu tun ist und würde mich sehr über eine Rückmeldung bzw. Unterstützung freuen!

  • Datensatz nach Welle 7 filtern
  • spms == 1, um nur Hauptereignisse zu erhalten
  • spgen == 0, um generierte Zeilen zu entfernen
  • Differenz aus Beginn und Ende Erziehungsurlaub (Monat und Jahr)
  1. Brauche ich noch Variablen wie splink, spell, etc.?
  2. Was sind die „Prüfmodule“ bei den Variablen für Erziehungsurlaub?
  3. Ist die Variable „child Kindnummer“ die Anzahl der Kinder der Person (ID_t)?

Vielen herzlichen Dank für Eure Hilfe und das tolle Panel und das tolle Forum!

Hallo Sarah,

konkrete Antworten auf deine sehr spezifischen Fragen fallen mir leider etwas schwer, ohne zu wissen, was dein Analyseziel ist; genauer: Was ist denn das Maß über Elternzeiten, das dich interessiert?

  • Der Umstand, ob (ja/nein) jemand zum Befragungszeitpunkt in Welle 7 in Elternzeit ist?
  • Der Umstand, ob (ja/nein) jemand bis zum Befragungszeitpunkt in Welle 7 jemals in Elternzeit war?
  • Die Dauer insgesamt, die eine Person bis zum Interviewzeitpunkt in Welle 7 in Elternzeit verbracht hat?
  • Die Dauer, die eine Person bereits in einer bis zum Interviewzeitpunkt in Welle 7 andauernden Elternzeit verbringt?

Es gibt noch ein paar andere Szenarien, die mir einfallen würden. Abhängig davon ist natürlich die Aufbereitungsweise, mit der die Daten am klügsten zusammenzubauen sind.

Bis dahin kann ich nur ein paar allgemeine Tipps geben, die hoffentlich schon helfen:

  1. Die Variable child ist eine fortlaufend durchgezählte Nummer der Kinder einer Person, beginnend mit dem ältesten Kind. Ein Elternzeit bezieht sich naturgemäß auf ein Kind, deshalb ist die Kindernummer zum Bezugskind auch in spParLeave enthalten.
  2. Du solltest in deinem Analysedatensatz zumindest die Variablen splink und child halten, sie ermöglichen die, inhaltlich weitere Variablen aus spParLeave oder spChild anzuspielen.
  3. In NEPS-Interviews gibt es ein so genanntes Prüfmodul, das dem Interviewpersonal nach Ende der Erfassung biografischer Episoden ermöglicht, in Absprache mit den Befragten Korrekturen vorzunehmen, um bspw. Unregelmäßigkeiten durch Erinnerungslücken korrigieren zu können. Dieses Prüfmodul produziert eines von drei möglichen Ergebnissen:
    a. Begin- oder Enddatumsangaben zu einzelnen Episoden werden korrigiert; die korrigierten Zeiten finden sich in den jeweiligen Variablen mit dem Namenssuffix _g1
    b. ganze Episoden werden annuliert, also ex post für falsch berichtet erklärt; sie sind identifizierbar, indem in den aus dem Prüfmodul stammende Variablen (bspw. spms oder die Datumsangaben mit dem Variablennamenssuffix _g1 den Wert -21 „im Prüfmodul annuliert“) gefiltert wird.
    c. neue Episoden werden zum Schließen von Lücken ergänzt; sie fügen sich „normal“ in den Episodendatensatz ein, sind aber durch den Wert 4 „im X-Modul ergänzt“ in der jeweiligen Variable „Episodenmodus“ (bspw. ts23550 in spEmp) erkennbar.

Ich hoffe, das hilft zunächst etwas weiter; melde dich gerne mit noch ein paar Details wieder, wenn wir dir versuchen sollen, noch etwas weiter zu helfen.

Beste Grüße
Bela

Hallo noch einmal Sarah,

nach unserem Telefonat vorhin ist das Anliegen etwas klarer geworden. Die Zielvariable soll messen, wie lange die jeweilige Befragungsperson insgesamt in Elternzeit verbracht hat.

Das lässt sich vglw. einfach ermitteln; einzig etwas komplizierter ist es, einzubeziehen, dass es unter Umständen mehrere Elternzeiten parallel geben kann, deren Monate man dann natürlich nicht doppelt zählen möchte. Entsprechend würde ich empfehlen, den Datensatz auf eine Zeile pro Person pro Elternzeit pro Kalendermonat aufzublähen, und dann um Duplikate zu bereinigen. Die gesuchte Variable ist im Anschluss einfach zu berechnen als „Anzahl der Zeilen einer Person im Datensatz“.

In Stata ginge das so:

// open dataset
neps set study SC6
neps set version 11.0.0
neps : use ID_t splink subspell ts2711m ts2711y ts2712m ts2712y ts2711m_g1 ts2711y_g1 ts2712m_g1 ts2712y_g1 using spParLeave , clear

// case selection and cleaning
* remove observation fragments from different waves per episode -- we're only interested in start and end dates
keep if subspell==0

* remove episodes that lateron have been revoked by interviewees
drop if ts2711m_g1==-20

* remove episodes where a person could not state an exact date (we can't calcuate durations from them)
drop if inlist(-98,ts2711m,ts2711y,ts2712m,ts2712y) | inlist(-97,ts2711m,ts2711y,ts2712m,ts2712y)

* encode missing values (-55, -21) in date variables
nepsmiss ts2711m_g1 ts2711y_g1 ts2712m_g1 ts2712y_g1

// calculate date variables and duration, expand to one observation per person per month
* end date
generate enddate=ym(ts2712y_g1,ts2712m_g1)
format enddate %tm // set appropriate display format

* begin date
generate begindate=ym(ts2711y_g1,ts2711m_g1)
format begindate %tm // set appropriate display format

* calculate duration
generate duration=enddate-begindate+1

* -expand- each episode to its number of months
expand duration

* generate a variable indicating the month in the expanded dataset
bysort ID_t splink : generate month=begindate+_n-1
format month %tm // set appropriate display format
label variable month `"calendar month"'

// calculate target variable: months remaining in parental leave, in total, per person
* remove duplicates (in terms of: several parental leaves episodes in the same month in parallel)
keep ID_t month
duplicates drop

* count the number of months per person
by ID_t : generate sum_ParLeave_remain=_N
label variable sum_ParLeave_remain `"months a person stayed in parental leave, in total"'

// reduce data to one observation per ID_t
* keep focus variables only
keep ID_t sum_ParLeave_remain
* remove perfect duplicates
duplicates drop
* now, ID_t is unique!
isid ID_t

Ich hoffe, das hilft weiter!

Beste Grüße
Bela