Splitting in wellen-spezifische Unterdatensätze im Querschnittsformat oder Ergänzen fehlender Werte in Zeilen?

Sarah241086 · 21. April 2022 um 10:06

Guten Tag zusammen,

ich möchte gerne Daten der SC2 Variablen untersuchen, deren Werte in unterschiedlichen Wellen bzw. Jahren erhoben wurden. Mein Datensatz kann aktuell nicht analysiert werden, weil die Werte unterschiedlicher Variablen in verschiedenen Zeilen des Datensatzes gespeichert sind. So wurde die Variable t514020 Zufriedenheit mit Leben (7‐stufig) in den Wellen 5 und 6 erhoben. Wenn ich aber jetzt in meiner Analyse kontrollieren will für die Variable „h228001 Schule: Strukturdaten: Gemeindegröße wichtigster Einzugsbereich“, dann stehen diese Werte nicht in derselben Zeile im Paneldatensatz, denn sie wurden in Welle 3 erhoben. Somit fällt eine Variable in die Missingkategorie der anderen und umgekehrt.

Welche Vorgehensweise empfehlen Sie mir?

Den Datensatz splitten in wellen-spezifische Unter-Datensätze, in welchen jeder Datensatz nur die Info einer Welle enthält. Die Vorgehensweise ist mit einigen umfangreichen Schritten verbunden und mir geht die Paneldatenstruktur verloren. Das ist ungünstig, da ich gerne zwar auf Querschnittsebene analysieren möchte, in einer Spezifikation aber für die Zufriedenheit der vierten klasse auch für die Zufriedenheit der 3. Klasse kontrollieren möchte (lagged value-added Ansatz).
Ich belasse es bei der Paneldatenstruktur und kopiere die beobachteten Werte in die freien Zeilen. Wenn also zum Beispiel eine Variable, deren Werte in 2013 (und bestenfalls zusätzlich 2015) erhoben wurden, sich nicht verändert (Geburtsort oder Muttersprache), dann passt das Vorgehen gut. Ich habe aber auch einige Kontrollvariablen, die nur in 2013 erhoben wurden (z.B. Gemeindegröße, h451020 Anteil von Schülern mit Migrationshintergrund, h227000 Anzahl Lehrkräfte gesamte Schule,…), die aber nicht konstant sind. Das bedeutet, dass mir einmal eine Beobachtung vorliegt, innerhalb des Beobachtungszeitraumes könnte sich der Wert verändert haben, ich habe aber keine Angabe dazu und unterstelle einfach den Wert, der von 2013 vorliegt. Das ist ja im grunde „Äpfel mit Birnen“ verglichen und bei dieser Vorgehensweise unterstelle ich ja aktiv eventuell Werte, die nicht mehr richtig sind. Aber gilt das im Grunde für die Vorgehensweise 1.) nicht auch?

Außerdem habe ich eine weitere Frage: Wie kommt es dazu, dass die Variablen bezüglich der Zufriedenheit so unterschiedlich erhoben wurden? t514020 Zufriedenheit mit Leben (7‐stufig) hat auch eine unterschiedliche Anzahl an Beobachtungen im Vergleich zu der Zufriedenheit, die ab der 5. Klasse erhoben wurden: t514001 Zufriedenheit mit Leben ist 10-stufig. Wo kann ich Informationen zu diesem Sachverhalt finden?

Ich danke Ihnen vielmals für Ihre Hilfe.

Herzliche Grüße
Sarah Middelberg

tobias.koberg · 26. April 2022 um 11:07

Liebe Sarah,

deine Vorschläge sind beide richtig und auch durchführbar. Welchen Weg du wählst, hängt ein bisschen davon ab, wie es danach weitergehen soll.

Da du schreibst, du würdest ohnehin auf Querschnittsebene analysieren, würde ich der Einfachheit wegen eher zu Variante 1. tendieren. Dem Problem des lagged values kannst du begegnen, indem du aus der (einen) Panelvariable einfach zwei machst, eine mit der Zufriedenheit aus Klasse 3, die andere aus Klasse 4:

use SC2_pTarget, clear
keep if ex20100==1
keep ID_t wave t514022
reshape wide t514022, i(ID_t) j(wave)

Auch deine Überlegungen in 2. sind richtig. Nur: Du hast ja gar keine anderen Informationen als die, die in der vorherigen Welle erhoben wurden. Was bleibt dir also übrig, als diese zu nehmen oder aufwändig zu imputieren? Eigentlich ja nur, die Information gar nicht zu nutzen. Es bleibt aber ein Trade-off.

Sarah241086 · 30. April 2022 um 09:45

Hallo Tobias,

vielen lieben Dank für die hilfreiche Antwort, die mich sehr weiter gebracht hat.
Ich habe mich dafür entschieden, die Paneldatenstruktur beizubehalten und jedes Missing durch einen Wert zu ersetzen.
Ich bin mir nur noch nicht sicher, wie ich mit den verschiedenen Erhebungen der für mich relevanten Variable „Lebenszufriedenheit“, „Zufriedenheit mit der Gesundheit“ weiter verfahre. Diese Variablen wurden in der 3. und 4. Klasse mittels einer 7-stufigen Skala erhoben und dann ab der 5. Klasse mittels einer 10-stufigen Skala.

Ich schätze jeweils die 3. Klasse, die 4. Klasse und die 5. Klasse mit Hilfe zweier Modelle, dem OLS Schätzer und der ordinalen logistischen Regressionsanalyse. Für den OLS Ansatz standardisiere ich die Zufriedenheitsvariablen, daher sind die unterschiedlichen Skalen kein Thema.
Für den ologit Schätzer sieht das anders aus. Wie kann ich hier die 3. 4. Klasse mit der 5. Klasse vergleichbar machen? Würde es vielleicht Sinn machen, eine neue Indexvariable zu erstellen für alle Klassen, z.B „Lebenszufriedenheit 3. Klasse“ dividiert durch die jeweilige stufe der Skala? Somit hätte ich einen prozentualen Anteil und könnte mit der fünften Klasse vergleichen.
Oder gibt es zu der Problematik schon Diskussionen, nähere Hinweise oder irgendwelche Lösungsvorschläge? Ich habe leider in der gesamten Datendokumentation nichts dazu gefunden, auch in den Releasenotes nicht.

Wie kommt es dazu, dass die Variablen bezüglich der Zufriedenheit so unterschiedlich erhoben wurden? t514020 Zufriedenheit mit Leben (7‐stufig) hat auch eine unterschiedliche Anzahl an Beobachtungen im Vergleich zu der Zufriedenheit, die ab der 5. Klasse erhoben wurden: t514001 Zufriedenheit mit Leben ist 10-stufig.

Herzliche Grüße
Sarah Middelberg