SC6: Enddaten von Spells in Biographie versus spVocTrain

Mir ist aufgefallen, dass die Abschluss-Daten von VocTrain-Spells, wie ich sie in SC6_Biography_D_10-0-1 finde, nicht immer (konkret in 848 Fällen) mit denen aus SC6_spVocTrain_D_10-0-1 übereinstimmen. (Dabei habe ich schon die editierten Daten mit dem Suffic „_g1“ genommen, sonst wären es 1,934 Fälle). Welche sind die richtigen Enddaten - die aus Biogrphie oder die aus spVocTrain?

Ich bin wie folgt vorgegangen (über die Bildung von Jahrhundertmonate, weil ich damit vertrauter bin):

use "${orgdataDir}/SC6_Biography_D_10-0-1.dta",clear


// erzeugen der "jahrhundertmonate": endzeitpunkt der episode

 //jahre seit 1900
gen end1 = abs(endy-1900) if endy < .
 //jahre in monate umwandeln
gen end2 = end1*12 if end1 < .
//monate zusammen, dabei für fehlende monatsangabe in endm die "jahre" aus end2 übernehmen
gen end = endm+end2 if endm < . & end2 <.
replace end = end2 if endm <. | endm < .
lab var end "ende jahhundertmonat"
drop   end1 end2

keep if sptype == 24
merge 1:m ID_t splink using "${orgdataDir}/SC6_spVocTrain_D_10-0-1", keep(1 3) keepusing(subspell  ts1512m_g1  ts1512y_g1 ) nogen


***Jarhundertmonatdatum des Ende des subspelles
 //jahre seit 1900
gen end1 = abs(ts1512y_g1-1900) if ts1512y_g1 <.
 //jahre in monate umwandeln
gen end2 = end1*12 if end1 <.
//monate zusammen, dabei für fehlende monatsangabe in endm die "jahre" aus end2 übernehmen
gen ende = ts1512m_g1+end2 if ts1512m_g1 <. & end2 < .
replace ende = end2 if ts1512m_g1 < .
lab var ende "ende jahhundertmonat, Subspells"
drop   end1 end2
sort ID_t splink subspell
br ID_t end splink end subspell ende

gen m = 1 if subspell == 0 & end != ende

Hi Janina,

und vielen Dank, dass du dir die Zeit genommen hast, deine Frage hier erneut zu stellen, sodass meine Antwort nicht in unserer E-Mail-Konversation versteckt bleiben muss. Ich habe mir die Freiheit genommen, deinem um deinen Stata-Code herum [code] und [/code] zu schreiben, sodass er hübsch bunt und als Syntax erkennbar formatiert wird.

Zur Sache: Der Biography-Datensatz ist, wie du weißt, ein generierter Datensatz, der als Einstiegpunkt in die Arbeit mit den Episodendaten dienen soll. Er versucht, eine möglichst glatte (soll heißen: wenig widersprüchliche) Darstellung des Lebenslaufs der Befragungspersonen abzubilden. Die Aufbereitungsschritte dafür sind folgende:

  1. Alle einschlägigen Episodenmodule werden auf ihre (ggf. in der _g1-Variable korrigierten) Datumsangaben und die Spelllnummer splink reduziert und untereinander geschrieben.
  2. ein- und zweimonatige Lücken im Lebenslauf werden geschlossen:
    1. bei einer einmonatigen Lücke innerhalb oder am Ende des Lebenslaufs wird das Enddatum der vorhergehenden Episode um einen Monat nach hinten verlegt
    2. bei einer Lücke zu Beginn eines Lebenslaufs wird das Startdatum der folgenden Episode um einen Monat vorverlegt
    3. bei einer zweimonatigen Lücke innerhalb des Lebenslaufs werden das Endatum der vorhergehenden und das Startdatum der folgenden Episode um jeweils einen Monat nach hinten bzw. vorverlegt.
  3. verbleibende Lücken im Lebenslauf werden durch künstliche Episoden (sptype==99 „Dateneditionslücke“) aufgefüllt.
  4. Im Fall von Episoden, die sich um exakt einen Monat überlappen, wird das Enddatum der Episode, die endet, um einen Monat vorverlegt.

Was du beobachtest, ist ein Ergebnis der Schritte 2 und 4. Ohne diesen Vorgang stünden vergleichsweise viele „Dateneditionslücken“ an der Stelle, an der du nun Abweichungen zu den ursprünglich berichteten feststellst.

Langer Rede kurzer Sinn: Die Datumsangaben weichen ab, weil wir sie für die Erzeugung des Biography-Datensatzes nach einer Heuristik „glätten“. Was die „richtigen“ Angaben sind, darüber kann man trefflich streiten. Es existieren denke ich drei Möglichlkeiten:

  • Die Angaben, die eine Befragungsperson als erstes abgibt ist „richtig“; sie findet sich in den ursprünglichen Datumsvariablen (ohne Suffix).
  • Die Angaben, die die Befragungsperson auf Nachfrage des Interviewpersonals im Falle von scheinbaren Unplausibilitäten abgeben, ist richtig; sie findet sich in den Datumsvariablen aus der Prüfschleife (mit dem Suffix _g1)
  • Die „geglättete“ (also ggf. um einen Monat verschobene) Angabe ist richtig; sie findet sich in Biography.

Die Wahrheit liegt vermutlich – wie so oft – irgendwo dazwischen. Die monatsgenaue Erfassung von Lebensläufen bringt naturgemäß ein wenig Unschärfe mit sich, die zu der üblichen Erfassung retrospektiver Informationen (Erinnerungsschwierigkeiten u.ä.) hinzukommt.

Ich hoffe, diese Antwort ist nicht zu ausufernd geworden. Uns ist klar, dass die kurz gefasste Beschreibung im Datenmanual nicht völlig aufklären kann, welche Modifikationen die Aufbereitung an der Episodenstruktur vornimmt. Hoffentlich hilft dieser Beitrag etwas weiter.

Beste Grüße, und melde dich gerne wieder, falls es Anschluss- oder Nachfragen gibt
Bela