Gewichtung für Subsample (SC6)

Madlain_H · 18. März 2019 um 14:59

Hallo,

ich möchte für eine Stichprobe, die aus Personen der Erwachsenenkohorte mit der Teilnahme an Wellen 4 und 5 und einem Alter zw. 25 und 64 Jahren zusammengesetzt ist, und anschließenden deskriptiven Auswertungen und einer logistischen Regression gewichten.

Dafür bin ich dem Beispiel für SPSS im Handbuch (Version 3-0-1) gefolgt, bin mir aber nicht sicher, ob das zum einen notwendig und zum anderen so korrekt ausgeführt ist.

Grundsätzlich: Ist das Gewicht "w_t5_cal" korrekt gewählt?

Der folgende SPSS-Code scheint aber nicht korrekt zu sein, da keine Gewichtung erfolgt (oder habe ich eine entsprechende "Aktivierung" vergessen?):

CSPLAN ANALYSIS

    /PLAN FILE=!temp+'SC6.csplan'

    /PLANVARS ANALYSISWEIGHT=w_t5_cal

    /DESIGN STRATA=stratum CLUSTER=psu

    /ESTIMATOR TYPE=WR.
    
    CSPLAN  VIEW
    /PLAN FILE=!temp+'SC6.csplan'.

Oder reicht für mein Vorhaben lediglich der folgende SPSS-Befehl:

weight by w_t5_cal.

Ich danke euch, Grüße

Madlain

Uta_L · 11. Oktober 2021 um 17:14

Wir haben diese Anfrage bereits im April 2019 per Mail beantwortet, möchten aber die relevanten Punkte auch hier im Forum posten:

Ein erster Punkt ist, dass hier nicht alle Teilnehmenden der SC6 in die Analysen einbezogen werden, sondern dass lediglich ein Teil des Samples in einer bestimmten Altersspanne betrachtet wird. Sobald Einschränkungen vorgenommen und Subsamples analysiert werden, können die bereitgestellten Gewichte nicht mehr verwendet werden, denn es wird immer der gesamte Bestand der Teilnehmenden pro Welle gewichtet. Bei den Querschnittsgewichten der SC6 ist zusätzlich zu beachten, dass diese immer auch am Mikrozensus unter Berücksichtigung aller Geburtsjahrgänge der SC6 kalibriert sind.

Zu beachten ist auch, dass eine Gewichtung in Modellen nicht zwangsläufig notwendig ist und nur durchgeführt werden sollte, wenn die Gewichte überhaupt einen Einfluss auf die Analyse haben. Daher empfiehlt es sich zunächst zu testen, ob das Design informativ ist, d.h. ob die abhängige Variable in direkter Beziehung zu dem Design steht. Ein typisches Vorgehen ist z.B. die Gewichte als Kovariate in das Modell aufzunehmen und dieses mit dem Originalmodell zu vergleichen. Ob die Gewichte signifikante Effekte aufweisen, kann mittels eines LR-Test-basierten Modellvergleiches eruiert werden (Nachgelesen werden kann das in: 1) Snijders & Bosker (2012): „Multilevel Analysis“, Kapitel 14 Survey Weights. 2) Pfeffermann, D. (1998): „Weighting for unequal selection probabilities in multilevel models“, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 60 (1), 23-40. 3) Rubin, D. (1985): „The use of propensity scores in applied Bayesian inference“, In: J. Bernardo, M. Degroot, D. Lindley, & A. Smith (Eds.), Bayesian statistics (Vol. 2,p. 463-472). Elsevier Science Publishers B.V.).

In vielen Fällen, so auch hier, empfiehlt sich ein modellbasiertes Vorgehen: Sämtliche Designvariablen und die Personenmerkmale, die in die Gewichtung einfließen (siehe Gewichtungsreports), werden als unabhängige Variablen in das Analysemodell aufgenommen. Wenn man so vorgeht, sollten sich keine Unterschiede mehr zwischen den gewichteten und den ungewichteten Analysen ergeben.

Eine Anmerkung noch zu der Mischung verschiedener Wellen im Falle von Querschnittsbetrachtungen: Wenn sich die Analysen nicht ausschließlich auf Daten einer Welle beschränken, muss plausibel angenommen werden können, dass die Daten aus der anderen Welle zeitunveränderlich sind.

Mit den besten Grüßen,
Uta Landrock vom Team Methoden der Survey-Statistik

TheMa · 21. Februar 2023 um 18:06

Liebe Uta,

ich möchte gerne den von dir erwähnten modellbasierten Ansatz nutzen, um meine Analysen der SC6 durchzuführen. Ich bin nicht ganz sicher, welche von den Designvariablen hierfür relevant sind. Ist die Information der Variable „stratum“ zum Beispiel redundant, da die Stichprobe nach Bundesland, Regierungsbezirk und Größenklassifikation stratifiziert wird?

Über eine Antwort würde ich mich freuen.
Viele Grüße,
Theresa

Uta_L · 2. März 2023 um 10:44

Liebe Theresa,

beim modellbasierten Ansatz sollten alle Variablen, die die Stichprobenziehung sowie das Antwortverhalten beeinflussen, als unabhängige Variablen in das Modell aufgenommen werden. Die Variablen „stratum“ und auch „psu“ gehören zu den Designvariablen und sollten somit auch berücksichtigt werden. Dafür gibt es die Möglichkeit, das Stichprobendesign mithilfe eines Surveyobjektes abzubilden. In Stata z.B. lautet der Befehl generell svyset psu [weight], strata(stratum).

Wir hoffen, das hilft weiter.

Viele Grüße,
Uta