SC2: Imputation Missings mit dem mean

Sarah241086 · 30. April 2022 um 09:34

Guten Tag zusammen,

ich untersuche die Lebenszufriedenheit von Kindern der vierten Klasse und den Einfluss einer bindenden Grundschulempfehlung auf das Wohlbefinden von Schülerinnen und Schülern.

Ich habe mich dafür entschieden, es bei der Paneldatenstruktur zu belassen und das Imputationsverfahen anzuwenden, d.h. für Personen, die in nur einem Jahr eine Angabe haben, nutze ich den Befehl:

bysort ID_t (wave): replace e451010=e451010[_n-1] if e451010==-54 | missing(e451010)

Jetzt gibt es zusätzlich auch Personen, die keine einzige Angabe zu manchen meiner Kontrollvariablen gemacht haben, zu meiner abhängigen Variable „Zufriedenheit mit dem Leben“ aber schon. Die Personen möchte ich gerne behalten für mein sample und auch für die Kontrollvariablen kontrollieren.
Somit möchte ich gerne meine Samplegröße vergrößern und für die Kontrollvariablen die Missings einer eigenen Missingkategorie zuweisen, damit die Antworten der abhängigen Variable „Lebenszufriedenheit“ erhalten bleiben.

Nun frage ich mich, mit welchem Wert ich am besten die Missings ersetze. Abhängig von der jeweiligen Kontrollvariable würde ich auf den ersten Blick zum Beispiel Missings der Variablen wie „Anzahl der Kinder mit Förderbedarf in einer Klasse“ mit einer „0“ ersetzen und somit unterstellen, dass kein Förderbedarf besteht, wenn keine Angabe gemacht wurde.

Anderenfalls habe ich noch Variablen, wie „Gemeindegröße“ oder „Gemeindestruktur“, deren Missings (Damit meine ich Personen ID_t, für die keine einzige Angabe gemacht wurde) ich mit dem jeweiligen school-level Durchschnitt ersetzen möchte. Dafür würde ich die Identifier Variable ID_i benötigen, die selbst nur in maximal zwei Zeilen pro Person steht, wenn ich es bei der Paneldatenstruktur belasse. ID_t hat pro Person also in einigen Wellen selbst Missings und bei manchen Personen hat ID_i keine Angabe.

Intuitiv hätte ich den Befehl genutzt:

by ID_i, sort: egen mean_community_size =mean (h228001)
replace h228001=mean_community_size if h228001==.

Das liefert aber für sehr viele Beobachtungen nur den mean des gesamten Samples, und zwar für diejenigen Beobachtungen, für die ID_i auch mit -54 Missing definiert sind. Ich habe das Gefühl, aufgrund dessen ist die Vorgehensweise nicht ideal und spätere Schätzungen könnten dadurch verzerrt sein.
Davon abgesehen steht ja dieses Verfahren des Ersatzes von Missings durch den mean einer Variable (wenn auch auf school-level Ebene oder (class-level-Ebene) sehr in der Kritik, weil man dadurch die Variation zusammendampft.
Empfehlen Sie mir eher das Ersetzen aller Missings mit dem Wert Null oder eher mit einem Mean-Wert? Wenn sie mir letzteres empfehlen, wie löse ich das Problem mit der school-level-Ebene (ID_i), dass sehr viele Beobachtungen dann nur mit ein und demselben Wert ersetzt werden (Mit dem mean des gesamten Samples)?

Ich habe beispielhaft noch folgende Kontrollvariablen: Frühzeitige Einschulung, Schulwettbewerb, Schulen im Umkreis von 10km, Zusammensetzung Schule niedrige und hohe Schicht, Anzahl Schüler m. Migrationshintergrund, Anzahl Lehrkräfte gesamte Schule, Trägerschaft Schule, Anzahl Migrantionshinterfrund in der Klasse, high und low SES in der Klasse, Unterrichtsstunden Mathe/Deutsch pro Woche, Durchführung Unterricht Doppelbesetzungen, …
Ich freue mich sehr über eine Antwort und wünsche allen ein schönes Wochenende
Viele Grüße
Sarah Middelberg

daniel_klein · 1. Juni 2022 um 08:28

Meine Antwort bzw. mein Kommentar kommt spät und greift nur spezifische Aspekte der komplexen Frage(n) auf.

Die Frage danach, ob der Mittelwert oder eine andere Konstante fehlende Werte ersetzen sollte, stellt sich im einfachen linearen Regressionsmodell nicht. Sofern zusätzlich ein entsprechender Indikator für die ersetzen Werte im Modell aufgenommen wird, ist der interessierende Koeffizient von der gewählten Konstante (z. B. Mittelwert, Null, 42) unabhängig. Ob dies uneingeschränkt für Mehrebenen-Modellierungen zutrifft, kann ich nicht sagen. Allgemeiner wäre aber die Frage zu stellen, ob dieses Vorgehen zu „besseren“ Ergebnissen führt, als alternative Verfahren (inkl. Listenweiser Ausschluss fehlender Werte).

Grundlegender würde ich mir die Frage stellen, welchen Zweck die zahlreichen genannten „Kontrollvariablen“ eigentlich erfüllen sollen. Dass viele der genannten Variablen mit der Lebenszufriedenheit assoziiert sein dürften, scheint mir plausibel. Aber, ein Zusammenhang der frühzeitigen Einschulung oder der Unterrichtsstunden pro Woche mit der Verbindlichkeit der Grundschulempfehlung scheint mir nicht zwingend. Insofern sehe ich für viele der genannten Variablen keine „Kontrollfunktion“; im schlechtesten Falle werden hier Mediatoren „kontrolliert“ und der interessierende Zusammenhang als Effekt unterschätzt.

Hoffe, das ist zumindest gedankenanregend
Daniel