Datennutzung verschiedener Datensätze

Anna · 5. Juli 2018 um 14:05

Guten Tag,

ich beginne soeben erst mit dem Neps Datensatz SC5 zu arbeiten. Hierbei habe ich einige Fragen. Ich arbeite mit SPSS, primär momentan mit pTargetCATI, da hier die meisten Infos erhoben wurden, die uns momentan interessieren. Ich möchte nun aber auch wissen, welche der Personen in Deutschland zur Schule gegangen sind, einen MINT Studiengang studieren. Kann ich die Variable Schulbesuch einfach in den anderen Datensatz ziehen oder wie gehe ich vor, um einige Variablen aus z.B. spSchool mit pTARGETCATI zu verknüpfen?

Ich würde mich freuen, wenn Sie mir diesbezüglich weiterhelfen könnten.

tobias.koberg · 5. Juli 2018 um 16:59

Hallo,

so einfach geht das leider nicht; bei spSchool handelt es sich um einen Episodendatensatz. Eine Zeile in diesem Datensatz ist ein Spell, eine Episode; im Datensatz spSchool eben eine Schulepisode. Der Datensatz pTargetCATI ist ein Paneldatensatz, eine Zeile hier entspricht einer Welle (bzw. den zu einer Welle erfassten Informationen).

Um jetzt Informationen aus spSchool an pTargetCATI anzuspielen, musst du dir erst überlegen, in welcher Struktur die Daten genutzt werden sollen. Soll weiter mit Episodendaten gearbeitet werden? Dann wäre es eher sinnvoll, Variablen aus pTargetCATI an spSchool ranzuspielen. Wird eine Querschnittsinformation gewünscht (z.B., "ist eine Person jemals in D zur Schule gegangen?", oder "ist eine Person mindestens einmal in D zur Schule gegangen?"), müssen die Daten in spSchool zunächst aggregiert werden, d.h. ein Wert aus allen verfügbaren Episoden erzeugt werden. Im Idealfall so, dass nur noch eine Zeile pro Zielperson übrig bleibt, so lassen sich die Daten am einfachsten an pTargetCATI anspielen.

Ist das verständlich?

Hier mal ein Syntaxvorschlag, der die Hilfsvariable zum Schulabschluss verwendet. Bitte nur als Idee verstehen:

* Datensatz spSchool laden.
GET FILE "Z:\SUF\Download\SC5\SC5_D_10-0-0\SPSS\de\SC5_spSchool_D_10-0-0.sav".
SORT CASES BY ID_t.

* Subspells entfernen.
SELECT IF subspell=0.

* Dummy-Variable schoolD_episode erzeugen (1=Schule in D, 0=Schule im Ausland).
FRE h_abiland.
COMPUTE schoolD_episode= (h_abiland=1, h_abiland=4).
EXEC.

* Maximum von schoolD_episode über alle Episoden erzeugen,.
* d.h. ist die Person JEMALS in D zur Schule gegangen?.
AGGREGATE
  /OUTFILE=* MODE=ADDVARIABLES
  /PRESORTED
  /BREAK=ID_t
  /schoolD=MAX(schoolD_episode).
FRE schoolD.

* Wir brauchen nur eine Zeile pro Person, in schoolD steht.
* ohnehin für jede Person der gleiche Wert.
SORT CASES BY ID_t(A).
IF(lag(ID_t)=ID_t) duplicate=1.
EXEC.
SELECT IF sysmis(duplicate).
EXEC.

* Ergebnis abspeichern.
SAVE OUTFILE = 'Y:\SC5_schoolD.sav'
    /KEEP ID_t schoolD.

* Daten an pTargetCATI anspielen.
MATCH FILES 
    FILE= "Z:\SUF\Download\SC5\SC5_D_10-0-0\SPSS\de\SC5_pTargetCATI_D_10-0-0.sav" 
    TABLE='Y:\SC5_schoolD.sav' 
    /BY ID_t.
EXEC.

* Ergebnis: pTargetCATI inkl. einer neuen Variable schoolD.

Alles Gute!

Anna · 11. Juli 2018 um 11:23

Vielen Dank! Ich habe eine variable im PTARGETCATI datensatz gefunden, der bereits die Information bereit hält, nach der ich suche, und zwar in D zur Schule gegangen oder Bildungsausländer. Daher muss ich diese Datensätze gar nicht mergen. Wie sähe es aus, wenn ich pTargetCATI und pTargetCAWI mergen wolle in SPSS? Das sind doch beides Paneldaten?

Anna · 11. Juli 2018 um 11:56

Verstehe. Und wie mache ich das am besten? Diese beiden Datensätze mit CohortProfile zu matchen?

tobias.koberg · 11. Juli 2018 um 12:15

Nach der gleichen Logik wie oben im Beispiel via MATCH FILES:

MATCH FILES
   FILE= "CohortProfile.sav" 
   FILE="pTargetCATI.sav" 
   FILE="pTargetCAWI.sav" 
   /BY ID_t wave.

Wahrscheinlich ist es aber sinnvoll, hier zusätzlich mit dem KEEP-Statement zu arbeiten.