Merge der SpellDaten

Steffi · 9. Juni 2020 um 14:26

Liebes NEPS-Team,

gerne würde ich die Datensätz pTargetCATI, pTargetCAWI und spVocTrain mergen. Aus dem spVocTrain interessieren mich die Variablen tg24203 und tg01003_ha.

Der Merge des CohortProfile und den CATI und CAWI funktioniert soweit mit einem 1:1 merge über ID und wave.
Den spell-Datensatz habe ich soweit aufbereitet dass ich nur eine Zeile pro Person habe. Allerdings gelingt mir kein Merge mit dem vorbereiteten Cohort Datensatz. Es entstehen keine Zeilen, in dem alle Informationen von allen Datensätzen beinhaltet sind. Z.B. sind Daten der Variablen des Spell-Datensatz vorhanden, die Felder jedoch der CATI und CAWI Variablen bleiben in den gleichen Zeilen leer.

Wie erfolgt der Merge? Oder liegt der Fehler wo anders?

Eine weitere Frage: Macht es Sinn auch in dem gemergten Datensatz eine Zeile pro Person zu haben, wenn nur Querschnittsinformationen benötigt werden?

Viele Grüße und Danke schon mal!

tobias.koberg · 10. Juni 2020 um 09:44

Liebe Steffi,

du schreibst leider nicht, wie du versuchst, spVocTrain anzuspielen. Ich vermute folgendes:
CohortProfile und pTarget bringst du über einen 1:1-Merge (ID_t und wave) zusammen, da in beiden Datensätzen die Struktur gleich ist (eine Zeile pro Person und Welle). In spVocTrain ist das ja nicht der Fall, dort beinhaltet eine Zeile eine Episode einer Person. Wenn du diese jetzt aggregierst auf eine Zeile pro Person, ist die Struktur eine andere als oben. Du hast ja dann keine Welle, also müsstest du die gleiche Information an jede Welle anspielen. Das würde über einen m:1-Merge funktionieren.
Pseudo-Stata-Beispiel:

use CohortProfile, clear
merge 1:1 ID_t wave using pTargetCAWI
merge m:1 ID_t using AggrspVocTrain

Um auf die zweite Frage einzugehen: Wenn du nur Querschnittsinformationen brauchst, ist es vermutlich einfacher, auf die Wellen zu verzichten und Datensätze soweit zu reduzieren, dass du nur eine Identifikatorvariable (nämlich ID_t) brauchst.

Kommst du so weiter? Falls nicht, zeig doch mal deine Syntax!
Tobias

Steffi · 17. Juni 2020 um 09:02

Hallo,

vielen Dank für die Antwort. Habe es tatsächlich mit einem 1:1 Merge versucht, was ich nun auch verstehe, dass das nicht klappt.
Leider arbeite ich mit SPSS und ein many-to-one merge ist dort nicht direkt möglich bzw. nur über Umwege (soweit ich weiß).
Habe daher meine gemergte Cohort/CATI/CAWI Datei in eine Wide-Format umgewandelt sodass eine Zeile pro Person vorhanden ist. Da ich Variablen brauche, die in mehreren Wellen erhoben werden, macht es für mich Sinn alle Infos in einer Zeile zu haben, falls ich z.B. fehlende Werte bei einer Person aus Welle 2 mit Informationen aus Welle 4 dann ersetzen kann.
Da ich in diesem Datensatz dann ja eine Zeile pro Person habe kann ich doch meinen aggregierten spVocTrain Datensatz mit einem 1:1 ID_t Merge zusammenfügen? Oder ist das der komplett falsche Weg?

Steffi

tobias.koberg · 17. Juni 2020 um 10:42

Hi Steffi!

Wenn du in beiden Datensätzen nur eine Zeile pro Person hast, kannst du einfach über 1:1 ID_t mergen, klar. Letztlich kannst du die Frage, welche Struktur die Daten haben sollen, nur beantworten, wenn du weißt, welche Struktur die von dir verwendeten Analyseprozeduren dann im Anschluss benötigen. Ob es Sinn macht, die ursprünglich untereinander abgelegten Welleninformationen nebeneinander in mehreren Variablen abzulegen, kann ich so pauschal auch nicht sagen.

Übrigens: Many-to-one in SPSS geht schon. Du kannst mal in unser Datenmanual zur Baden-Württemberg-Studie reinschauen (hier, Kapitel 7, ab Seite 18), da haben wir auch SPSS-Varianten mit drin. Vielleicht hilft es dir.

Gutes Gelingen,
Tobias