Primary sampling unit bei svy

Liebes NEPS Team,

ich arbeite mit der Startkohorte SC5 und habe eine allgemeine Frage zur Anwendung der Gewichte.

Im Juli 2017 besuchten Einführungsworkshop wurde die folgende Syntax thematisiert:

  • Definiere Surveydesign
    svyset ID_t [pweight=w_t1ext], strata(stratum) fpc(f_h)
    // Beachte: Stratifizierte Klumpenstichprobe: Primary sampling unit: ID_cl
    // Allerdings: nonresponse-adjustierte und kalibrierte Gewichte auf Personen-
    // ebene (w_t1ext), daher Sampling Unit: ID_t

In Zinn et al (2017) wurde die folgende Gewichtung empfohlen:
gen f_h = w_h^{-1}
svyset ID_cl [pweight=w_t1], strata(stratum) fpc(f_h)

Angenommen, ich arbeite lediglich mit Daten der Welle 1. Wenn ich es richtig verstehe, ist die Unterscheidung dieser Gewichtungsarten, dass zweitere Verzerrungen durch Nichtteilnahme und Surveydesign (strat. Clustering) ausgleicht und erstere zusätzlich extrapoliert. Während In dem obigen Gewichtungsverfahren der einzelne Studierende als primary sampling unit definiert wird, wird i.d.R., wie im zweiten Beispiel, der Klumpen als primary sampling unit definiert.
Dazu meine Rückfragen: Verstehe ich das richtig? Wenn ich keine extrapolierten Ergebnisse, sondern lediglich Verzerrungen ausgleichen möchte, verwende ich also grundsätzlich die in Zinn et al. (2017) vorgesehene Gewichtung?
Vielen Dank im Voraus und beste Grüße,
Christina Haas

Zinn, S., Steinhauer, H.W. & Aßmann, C. (2017). Samples, Weights, and Nonresponse: the Student Sample of the (Wave 1 to 8) (NEPS Survey Paper No. 18). Bamberg, Germany: Leibniz Institute for Educational Trajectories, National Educational Panel Study

Liebe Frau Haas,

vielen Dank für Ihr Interesse an unseren Daten der NEPS Startkohorte 5 (Studierende).

Die Unterschiede zwischen den beiden Vorgehen haben Sie richtig erkannt. Im ersten Fall geht es darum, ausgehend von der gewonnenen Stichprobe auf die Populationsverteilung der Studienanfänger des Wintersemesters 2010/2011 zu extrapolieren (anhand verschiedener Merkmale). Auf dieser Personenebene dienen die Personenidentifikatoren (ID_t) als PSU. Im zweiten Fall erfolgt keine Extrapolation, lediglich eine Korrektur für das Design und Verzerrungen aufgrund von Nichtteilnahme.
Dem stratifizierten Clustering wird nun durch die Klumpenidentifikatoren (ID_cl) Rechnung getragen. Erkennen können Sie dies schnell an der Summe der betreffenden Gewichte: einmal summieren sich diese auf die Populationsgröße und zum anderen auf die Gesamtzahl unserer Teilnehmenden in Welle 1.

Noch eine allgemeine Anmerkung: In deskriptiven Analysen müssen Sie für das Design und den Ausfall korrigieren. Im Querschnitt bedeutet dies das zweite Vorgehen mit dem jeweiligen Querschnittsgewicht. In modellbasierten Analysen empfiehlt es sich zunächst zu testen, ob das Design informativ ist, d.h. ob Ihre abhängige Variable in direkter Beziehung zu dem Design steht. Ist das Design informativ kann dessen Nichtberücksichtigung zu verzerrten Schätzern führen. Ist das Design jedoch nicht-informativ kann die Berücksichtigung von Gewichten zu inflationierten Standardfehlern führen. Ein typisches Vorgehen ist z.B. die Gewichte als Kovariate in das Modell aufzunehmen und dieses mit dem Originalmodell zu vergleichen. Ob die Gewichte signifikante Effekte aufweisen, können sie mittels eines LR-Test-basierten Modellvergleiches eruieren.

Beste Grüße
Ariane Würbach

Liebe Frau Würbach,

herzlichen Dank für diese ausführlichen Informationen, das hilft mir sehr weiter.

Viele Grüsse,
Christina Haas