SC2 Gewichte und Stratifikation

Liebes NEPS-Team,

ich arbeite derzeit mit den Daten von SC2, Welle 3-4 (1.-2. Klasse). Hier möchte ich für meine Analysen die in Stata mit svyset die Sampling-Struktur entsprechend berücksichtigen. Da ich die Daten für Klasse 1 &2 von Kindern und Eltern benötige, nutze ich als Gewicht w_tp34.
Für die Definition des Stratums aber bin ich mir unsicher welche der gegebenen Variablen, stratum_imp2_R stratum_imp3_R stratum_imp4_R ich verwenden sollte. Im example-code im NEPS-Remote-Bereich ist leider keine Stratifikation im svyset verwendet.

Vielen Dank und viele Grüße nach Bamberg,

Johanna

Liebe Johanna,

vielen Dank für dein Interesse an den NEPS-Daten!

Aus deiner Anfrage geht nicht hervor was du egtl. vorhast, ob es um dekriptive Analysen geht oder um Modelle, z.B. Regressionen. Deskriptive Analysen sind zu gewichten wenn repräsentative Aussagen getätigt werden sollen, für Regressionen hingegen ist zunächst zu prüfen, ob das Design informativ ist für die jeweilige Forschungsfrage, siehe Pfeffermann (1993). Ein Design ist informativ, wenn die abhängige Variable auch vom Design abhängt. Ist ein Design nicht‐informativ führt die fälschliche Verwendung von Gewichten oder Gewichtungsvariablen zur Inflation der Standardfehler.

Es gibt vier Methoden, um den Einfluss des Designs abzuschätzen:

  1. Untersuchung der Variabilität der Gewichte mittels Design Effekten (Pfeffermann, 1998; Snijders & Bosker, 2012).

  2. Vergleich der Parameterschätzer aus gewichteten und ungewichteten Analysen unter Verwendung eines modifizierten Hausman-Tests (Asparouhov, 2006; Pfeffermann, 1993).

  3. Durchführen der Analyse unter Verwendung von Teildatensätzen, die sich bezüglich der Verteilung der Surveygewichte unterscheiden (Snijders & Bosker, 2012). Teile das Sample in verschiedene Teile, z.B. anhand der Quantile des betrachteten Gewichts, und vergeiche die Parameterschätzer aus den unterschiedlichen Modellen.

  4. Aufnahme der Surveygewichte als Kovariaten in das Analysemodell und Testung beider Modelle gegeneinander (DuMouchel & Duncan, 1983).

Große Abweichungen und Signifikanzen indizieren eine Abhängigkeit der Fragestellung vom Stichprobendesign und legen die Berücksichtigung von Gewichten oder Gewichtungsvariablen nahe.

Wenn sich nachweisen lässt, dass das Design informativ ist, sind alle signifikanten Designinformationen einzubeziehen. Das kann nicht pauschal vorgegeben werden, sondern ist von der jeweiligen Forschungsfrage abhängig.

Die Variablen Bundesland (stratum_imp2_R), Regionalklassifikation (stratum_imp3_R), und Trägerschaft (stratum_imp4_R) sind Designinformationen auf dem Schullevel, d.h. in der Spezifikation des Surveyobjektes an selbiger Stelle anzugeben (insofern sie sich als signifikant erweisen).

Literatur:
Asparouhov, T. (2006). General multi‐level modeling with sampling weights. Communications in Statistics – Theory and Methods, 35(3), 439–460.

DuMouchel, W. H. & Duncan, G. J. (1983). Using sample survey weights in multiple regression analyses of stratified samples. Journal of the American Statistical Association, 78(383), 535–543.

Pfeffermann, D. (1993). The role of sampling weights when modeling survey data. International
Statistical Review, 61(2), 317–337, https://doi.org/https://doi.org/10.2307/1403631.

Pfeffermann, D. (1998). Weighting for unequal selection probabilities in multilevel models. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 60(1), 23–40, https://www.jstor.org/stable/2985969.

Snijders, T. A. B. & Bosker, R. J. (2012). Multilevel analysis : an introduction to basic and advanced multilevel modeling (2nd), SAGE.

Frohes Schaffen
Ariane