SC6 - Fallzahlen und Analysestrategien

Simone_B · 6. Juni 2018 um 13:24

Liebes Team,

vielen Dank für das hilfreiche Forum (und die netten und hilfreichen Antworten, die ich bis jetzt gelesen habe).

Ich habe ein paar kleine Fragen. Und zwar möchte ich den Arbeitsmarkterfolg (EGP) u.a. auf die Sprachkompetenzen von Befragten zurückführen. Um Argumenten zu "Umgekehrter Kausalität" vorzubeugen, habe ich mir nun überlegt, den Arbeitsmarkterfolg aus der Welle nach der Sprachkompetenzerhebung zu nehmen.

Bei der Umsetzung haben sich mir dabei nun ein paar Fragen gestellt.

1.) Mein erster Gedanke war die Werte des Hauptsamples (w3) und des refreshment samples (w5) in einer variable zusammenzuführen (reading competence) und dann den Arbeitsmarkterfolg aus welle 6 zu berücksichtigen. Jetzt habe ich mich gefragt, ob die jeweiligen Variablen (rea3_sc1, rea5_sc1) an ihrem jeweiligen sample genormt wurden (sprich Haupterhebung, refreshment sample) und damit lieber nicht zusammengeführt werden sollten, oder ob eine Zusammenfürhung (auch aus anderen Gründen) als unproblematisch zu betrachten ist.

2.) Falls beide Variablen zusammengeführt werden können, wäre es inhaltlich zu empfehlen den Arbeitsmarkterfolg aus Welle 6 zu berücksichtigen, da dieser ja vom Hauptsample weiter entfernt ist, als vom refreshment sample?

3.) Habe ich mir die Fallzahlen für den Arbeitsmarkterfolg (in meinem Fall EGP) angesehen (und nur harmonisierte spells behalten, keep if subspell==0). Für Welle 6 hätte ich "nur" 2,047 Angaben, bei Welle 4 wären es zB 19,058. Als erstes habe ich mich gefragt, woher diese Unterschiede denn stammen (habe mich etwas in der Dokumentation verloren) und ob es vor diesem Hintergrund sinnvoller wäre das refreshment sample nicht zu berücksichtigen und den Arbeitsmarkterfolg (EGP) aus welle 4 auf die Sprachkompetenzen des Hauptsamples (W3) zurückzuführen.

Entschuldigen Sie bitte die überlange Frage,

Simone

daniel.bela · 8. Juni 2018 um 16:31

Hallo Simone,
zum ersten Teil deiner Frage: Es spricht meines Erachtens nichts Grundlegendes dagegen, die beiden Maße aus den unterschiedlichen Messzeitpunkten der Lesekompetenz gemeinsam zu verwenden, solange du in einer multivariaten Analyse einen Dummy für den jeweiligen Messzeitpunkt als Kontrollvariable berücksichtigst.

In der zweiten Frage bin ich etwas skeptischer; eine klare Kausalaussage kannst du auf Basis der abhängigen Variable „Berufsprestige in Welle 6“ nicht treffen. Relevant für eine Aussage, wie du sie vorhast zu treffen, ist viel mehr die Übergangswahrscheinlichkeit in ein höheres Prestige-Niveau zeitlich nach der Messung des Lesekompetenz. Denn ein hohes Berufsprestige in Welle 6 kann ja bereits seit langem (auch vor dem Messzeitpunkt der Lesekompetenz) bestanden haben. Ich denke, die Operationalisierung der abhängigen Variable ist der Kernpunkt, um eine Aussage, wie sie dir vorschwebt, sinnvoll treffen zu können.

Zum Punkt 3: Ich vermute, du hast bei der schnellen Auswertung der Daten nicht die Episodenstruktur der Erwerbs-Biographiedaten in spEmp berücksichtigt.Die Zahlen, die du nennst, spiegeln die Anzahl der Erwerbsepisoden, die in Welle X berichtet wurden wieder. Das ist nicht zu verwechseln mit Episoden, zu zum Interviewzeitpunkt in Welle X andauern. Gerade im Erstinterview mit neuen (aufgefrischten) NEPS-Befragten werden ja alle bisherigen Erwerbserfahrungen retrospektiv abgefragt; naturgemäß entstehen dabei deutlich mehr berichtete Episoden, als nur bei der Abfrage von neuen Ereignissen seit dem letzten Interview (das im Normalfall ja nur etwa 12 Monate zurückliegt).

Die folgende Stata-Syntax illustriert die Reduktion der Episodendaten auf eine Zeile pro Interviewzeitpunkt, und spielt dieser „normalen“ Panelstruktur den zum Interviewzeitpunkt gültigen höchsten EGP-Code an. Ich hoffe, damit wird etwas klarer, wie die Episodendaten sinnvoll zu reduzieren sind, um sie mit Panel- oder Querschnittsdaten zu verbinden und entsprechend eine Analyse zu fahren. Der Schlüssel liegt, wie gesagt, in der Reduktion der Daten, und einem Zuspielen über den Interviewmonat, nicht die Wellenvariable.

// This do-file requires -nepsuse-, a helper package to seamlessly open NEPS SUF datasets in Stata;
// obtain -nepsuse- (and a few other supporting packages) via 
// . net install nepstools , from(http://nocrypt.neps-data.de/stata)

* set up information for -nepsuse-
* adjust file path to your setup
*global NEPSuse_directory "path/to/NEPS/SUFS"
global NEPSuse_cohort SC6
global NEPSuse_version 8.0.0
global NEPSuse_level D
global NEPSuse_language en

* we will need some temporary variables and datasets, so tell Stata
tempfile spEmp_infos biography
tempvar expandmarker

* open up Biography dataset
nepsuse `"Biography"' , clear

* restrict episodes to employment episodes
keep if sptype==26

* bloat up dataset to one observation per month
generate startdate=ym(starty,startm)
generate enddate=ym(endy,endm)
drop if (missing(enddate) , missing(startdate)) // we can't use episodes without date information
generate duration=enddate-startdate+1
expand=duration , generate(`expandmarker')
generate month=.
generate monthnum=.
bysort ID_t splink (`expandmarker') : replace monthnum=_n-1
replace month=startdate+monthnum
format startdate enddate month %tm

* double check and drop temporary variable
assert startdate==month if (!`expandmarker')
assert enddate==month if (!`expandmarker'[_n+1] , missing(`expandmarker'[_n+1]))
drop `expandmarker'

* temporarily save, and merge via date variable [sic!] to panel dataset
save `"`biography'"'
nepsuse `"pTarget"' , clear
keep ID_t wave intm inty
/* 'splink' may already exist in the dataset; we want to recreate it linking to not only spEmp episodes */
capture : confirm variable splink , exact
if (_rc==0) drop splink
generate month=ym(inty,intm)
label variable month `"month of interview date"'
format month %tm
* workaround: there are a few inconsistent interview dates from wave 7 in SC6 8.0.0
replace month=ym(2014,12) if month==ym(2015,12) &amp; wave==7
* merge with biography, and keep matching episodes
merge 1:m ID_t month using `"`biography'"' , nogenerate keepusing(splink sptype) keep(match) // we don't need observations without a single spell information

* result: a panel dataset with one observation per censored episode per wave
isid ID_t splink wave

/*
from now on, several observations per wave are contained in the dataset,
one for each episode that is ongoing (=censored) during the interview;
before an analysis can start, these should be reduced to one observation per wave,
depending in the interest of the analysis, possibly taking into account
information from the episodes' spell files
*/

/* =========================== STOP ===========================
	HERE BEGINS THE PART WHERE A DECISION FOR
	DE-DUPLICATION HAS TO BE MADE, DEPENDING
	ON THE RESEARCH INTEREST!
   =========================== STOP =========================== */

* merge focal variables from any content spell file, and reduce sample
/* this of course has to be customized depending on interest */
preserve
nepsuse ID_t splink subspell spms ts23201_g8 using `"spEmp"' , clear
keep if subspell==0 // only use harmonized and complete episodes
save `"`spEmp_infos'"'
restore
keep if sptype==26 // only keep observations with ongoing employment episodes
merge m:1 ID_t splink using `"`spEmp_infos'"' , nogenerate keepusing(ts23201_g8) keep(match) // we don't need Employment spells not matching the interview date or from unwanted EGP classes
duplicates report ID_t wave // still several employment episodes for some persons
* --&gt; reduce to 'highest' EGP class inside wave for each person (careful, EGP is cross-coded!)
nepsmiss ts23201_g8
bysort ID_t wave : egen egpclass=min(ts23201_g8)
drop if missing(egpclass)
label values egpclass `: value label ts23201_g8'
label variable egpclass "highest EGP class at interview date"
* --&gt; remove duplicates afterwards
drop splink ts23201_g8 sptype
duplicates drop
* --&gt; no we're in a 'regular' panel structure again: one observation per id per wave 
isid ID_t wave
/* ^^ this checks that the data format is truly in panel form ^^ */

exit
// EOF

Beste Grüße
Bela