Arbeiten mit Episodensplits

Martin_Blume · 11. Dezember 2017 um 14:40

Hallo Forum,

Ich habe Probleme mit der Arbeit mit Episodensplits.

Gemäß der Anleitung:

https://www.nepsdata.de/Portals/0/Survey%20Papers/Episodensplit_SP_XXII.do.

verlinkt im Manual zum Episodensplitting (SP_XXII.pdf) zur Startkohorte 6 (Erwachsene) habe ich einen Episodensplit durchgeführt.
Alles hat bestens funktioniert doch jetzt verstehe ich nicht, wie in diesem Format die unterschiedlichen Spells identifizieren werden können.

Auszug aus describe

------------------------------------------------------------------------------------------------------------------------------------------------------
              storage   display    value
variable name   type    format     label      variable label
------------------------------------------------------------------------------------------------------------------------------------------------------
ID_t            long    %12.0f                Target-ID
epinr           byte    %12.0f                Episodennummer
start           int     %12.0f                Startmonat CM1960
end             int     %12.0f                Endmonat CM1960
dur             int     %12.0f                Dauer (in Monaten)
epicount        byte    %12.0f                Anzahl Aktivitaeten
maincount       byte    %8.0g                 Anzahl Hauptaktivitaeten
sptype1         byte    %12.0f     de1870     Spelltyp1
sptype2         byte    %12.0f     de1870     Spelltyp2

Auszug aus list

     +-------------------------------------------------------------------------------------------------------+
     ,    ID_t   epinr   start   end   dur   epicount        sptype1   sptype2       emptype1       emptype2 ,
     ,-------------------------------------------------------------------------------------------------------,
1. , 8000215       1      78   113    36          1         School         .              .              . ,
2. , 8000215       2     114   137    24          1         School         .              .              . ,
3. , 8000215       3     138   209    72          1         School         .              .              . ,
4. , 8000215       4     210   221    12          1         School         .              .              . ,
5. , 8000215       5     222   224     3          1         School         .              .              . ,
     ,-------------------------------------------------------------------------------------------------------,
6. , 8000215       6     225   230     6          2         School   VocPrep              .              . ,
7. , 8000215       7     231   236     6          1        VocPrep         .              .              . ,
8. , 8000215       8     237   242     6          2       VocTrain   VocPrep              .              . ,
9. , 8000215       9     243   255    13          1       VocTrain         .              .              . ,
10. , 8000215      10     256   263     8          1   Datenedition         .              .              . ,
     ,-------------------------------------------------------------------------------------------------------,
11. , 8000215      11     264   311    48          1            Emp         .   Angestellte/              . ,
12. , 8000215      12     312   314     3          1   Datenedition         .              .              . ,
13. , 8000215      13     315   386    72          1            Emp         .   Selbstaendig              . ,
14. , 8000215      14     387   476    90          2       ParLeave     Unemp              .              . ,
15. , 8000215      15     477   494    18          1            Emp         .   Ausbildungsb              . ,
     ,-------------------------------------------------------------------------------------------------------,
16. , 8000215      16     495   573    79          1            Emp         .   Angestellte/              . ,
17. , 8000215      17     574   576     3          2        VocPrep       Emp              .   Angestellte/ ,
18. , 8000215      18     577   578     2          1            Emp         .   Angestellte/              . ,
19. , 8000215      19     579   600    22          1          Unemp         .              .              . ,
20. , 8000215      20     601   669    69          1            Gap         .              .              . ,
     +-------------------------------------------------------------------------------------------------------+

Beim Episodensplit verliere ich die Information über die Spellnummer (spell)
Wenn ich nun Beginn- und Enddatum des 1. oder 2. Berufsepisode auslesen möchte (für alle ID's), sehe ich dazu keine Möglichkeit.

Genauer:
-------
ID_t = 8000215 hat in Zeile 11 die erste Arbeitsepisode. Ich sehe keine Möglichkeit per Script diese 1. Arbeitsepisode auszulesen.

Beispiel:
gen Empfirst_start = 0
replace Empfirst_start = 1 if sptype1 == 26 [und weiter???] // 26 enspricht sptype1 = "Emp"

Ein weiteres Problem stellen die tatsächlich gesplitteten Episoden dar, falls sich Spells überschneiden.
ID_t = 8000215 hat in Zeile 17 zwei Aktivitäten in einer Episode.
Laut Zeile 16 weiß ich wann eine Arbeitsepisode begonnen und geendet hat.
Zwei Dinge sind nun möglich: Die Angabe in Zeile 16 entspricht einem Spell oder die Angabe entspricht einem Teilspell, der in Zeile 17 weitergeführt wird.
Nehme ich Zeile 18 hinzu könnte der Spell auch in Zeile 17 parallel zu VocTrain gestartet sein und endet erst in Zeile 18.
Wie kann man hier noch eine Unterscheidung zwischen den Spells treffen?

Zur Erstellung von Episodensplits finden sich sehr viele Materialien im Netz. Doch leider nicht zur Arbeit mit ihnen. Falls ihr Dokumente oder Lehrbücher kennt, lasst es mich wissen.

Vielen Dank

daniel.bela · 12. Dezember 2017 um 11:23

Hallo Martin Blume,

im gesplitteten Episodendatensatz findet sich – wie auch im Ausgangsdatensatz Biography – die Variable splink (durch das wide-Format des gesplitteten Datensatzes mit dem Sufix _#). Sie enthält den modulübergreifenden Episodenzähler einer Person und ist zum Zusammenfügen mit den Inhalts-Episodendaten mit dem Episoden-Gerüst aus Biography vorgesehen, das haben die Autoren auch entsprechend im Survey Paper dokumentiert, es finden im zugehörigen Stata do-file auch diverse merge-Prozeduren mit den Episodendaten statt, um inhaltliche Informationen an den gesplitteten Datensatz anzuspielen.

Anhand der Episodennummern in splink lässt sich auch ablesen, ob es sich bei einer Splittung um eine Fortführung der gleichen Episode handelt, oder nicht. Sinn und Zweck des Episodensplittings ist ja, neue eindeutige Episoden nicht aus dem Blickwinkel der Dauer, sondern aus der Idee sich verändernder Lebensumstände zu bilden; eine neue (gesplittete) Episode wird immer dann erzeugt, wenn sich etwas an den Lebensumständen der Befragungsperson ändert, also bspw. beim Wechsel vom Status "erwerbstätig" hin zu "erwerbstätig und in Aus-/Weiterbildung".

Die Teilfrage zur ersten Erwerbstätigkeit ist mir leider noch etwas unklar; was ist gewünscht? Die Markierung der ersten Erwerbsepisode jeder Person? Falls ja:

* Biography öffnen [benötigt -nepsuse-, Installation mit . net install nepstools, from(http://nocrypt.neps-data.de/stata)]
nepsuse Biography , cohort(SC6) version(8.0.0)

* alle Erwerbsepisoden markieren
generate allemps=(sptype==26)

* echte Stata Datums-Variablen erzeugen
generate enddate=ym(endy,endm)
generate startdate=ym(starty,startm)
format enddate startdate %tm

* chronologisch (!) erste Erwerbsepisode markieren
bysort ID_t (startdate enddate) : generate firstemp=(sum(allemps)==1) if (sptype==26)

Dafür ist allerdings kein Splitting der Episoden notwendig, wie das Beispiel illustriert.

Beste Grüße
Daniel Bela

Martin_Blume · 13. Dezember 2017 um 11:29

Danke für die Antwort,

Ich habe splink* schlichtweg übersehen.

Beide Fragen beziehen sich auf den Episodensplit. Ich versuche mit dem von Euch bereitgestellten Episodensplit eine Ereignisanalyse durchzuführen, mit dem Startzeitpunkt "Beginn 1. Arbeit" bis zum Ereignis "Ende der 1. Arbeit". So kann ich den Umgang mit Episodensplits erlernen. Dank splink* ist die Identifizierung der entsprechenden Zeilen möglich (Teilfrage). Ebenso kann ich damit Anfang und Ende der Spells identifizieren, falls sich Spells überschneiden.

Meine Erfahrungen in der Identifikation / Auswahl von Daten in STATA liegen vorwiegend im wide-Format, wobei jede Zeile auch nur eine Person beschreibt. Dein Code, der sich auf die Datenstruktur vor dem Episodensplit bezieht, ist somit dennoch hilfreich, da ich wenig Erfahrung mit der Arbeit im long-Format habe.

Beste Grüße

Martin Blume