ich bin auf eine Unstimmigkeit in splink in SC6 gestoßen, die zumindest für mich große Auswirkungen hatte: Im Biography-Datensatz korrespondiert die Ordnung der Variable, zumindest für die Erwerbstätigkeit, nicht mit der Ordnung, die sie entsprechend der Datumsvariable hätte. Ein eindrucksvolles Beispiel ist die ID_t 8004313: Wenn man nach starty ordnet, ist die erste Ordnungsnummer innerhalb sptype Emp die 15, also splink 260015, übrigens ein Hauptereignis (HE) - gefolgt von 2 (HE), 3 (HE), 16 (HE), 1 (NE), 17 (HE)... also wirklich ein wildes Durcheinander.
Ist da was schief gelaufen oder liege ich mit meiner Annahme falsch, dass splink einer Ordnung folgt?
Hallo Uta,
deine Frage ist verwandt (wenn auch nicht genau identisch) zu dieser Anfrage aus der Vergangenheit; deine Irritation beruht auf einer (ganz offensichtlich nicht ausreichend prominent dokumentierten) Eigenschaft der Episodendaten. Denn für alle Episodendatensätze des NEPS gilt: Die Reihenfolge der Episodennummerierung (und damit: der Sortierung im Datensatz) entspricht der Berichtsreihenfolge im Interview. Das ist für viele Episodenarten (einzeln betrachtet) identisch zur chronologischen Reihenfolge, aber schon da nicht für alle Episoden; denn in einer Prüfschleife am Ende der Episodenerfassung (dem sogenannten Prüfmodul) gibt es die Möglichkeit, im berichteten Lebenslauf verbliebene Lücken nachträglich zu schließen (bspw. wenn eine Erwerbstätigkeit vergessen wurde zu berichten). Diese nachträglich eingefügten Episoden erhalten ggf. eine höhere Nummer als die ursprünglich direkt erfassten, weil sie ja später im Interviewverlauf ermittelt werden.
Dazu kommt, dass die einzelnen Episodenarten thematisch zusammenhängend erhoben werden, also zuerst alle Schul-, später alle Ausbildungs-, dann alle Erwerbstätigkeitsepisoden etc. Das führt zwangsweise dazu, dass (Episodentyp-übergreifend) keine chronologische Berichtsreihenfolge zustande kommt.
Das heißt: wenn eine chronologische Sortierung der Episoden vorgenommen werden soll, muss das im Analysedatensatz geschehen. Alle notwendigen Informationen liegen ja vor. Eine Vereinfachung zum Weiterarbeiten ist es, direkt Stata-Zeitvariablen zu erzeugen. Wir empfehlen grundsätzlich, die generierten und um kurze Lücken bzw. Überlappungen bereinigten Zeiten aus dem Biography-Datensatz zu verwenden. Eine entsprechende Sortierungssyntax sähe so aus:
* open Biography, encode missing values in date variables
nepsuse Biography , cohort(SC6) version(8.0.0) clear
nepsmiss starty startm endy endm
* generate SIF-date variables
generate start=ym(starty,startm)
generate end=ym(endy,endm)
format start end %tm
* sort chronologically
sort ID_t start end sptype