Longitudinal oder Cross-Sectional Weights?

Hallo,

ich bin gerade dabei mich mit den Daten des SOEP vertraut zu machen und beschäftige mich gerade mit dem Weighting Prozess. In meiner Arbeit, möchte ich anhand einer Difference-in-Differences (DiD) Analyse herausfinden, ob die 2007 bzw. 2008 eingeführten Rauchverbote in Deutschland Auswirkungen auf verschiedene Gesundheitsoutcomes hatten.

Bezüglich des Weighting habe ich mir 3 Seiten im SOEP Companion genauer angeschaut: „Generating a Longitudinal Dataset“, „Longitudinal Data Analysis“ und „Fixed Effects Estimation“. Ich bin R Nutzer und deshalb kein STATA Experte, aber soweit ich die Seiten verstanden habe, wird bei allen drei Seiten im Zuge der Analyse ein longitudinal dataset erstellt, aber bei den ersten Zwei (Generating a Longitudinal Dataset" und „Longitudinal Data Analysis“) wird mit cross-sectional weights gearbeitet und nur bei der letzten Seite („Fixed Effects Estimation“) mit longitudinal weights, die anhand der Berechnung $PHRF*$PBLEIB entstehen. Ich bin jetzt ein wenig verwirrt, welche weights ich bei meiner Analyse verwenden soll. Kann es sein, dass man die cross-sectional weights verwendet um ein unbalanced panel zu bekommen und die longitudinal-weights für ein balanced panel? Oder worin liegt der Unterschied?

Ich wäre für jede Hilfe dankbar und hoffe ich habe mein Problem ausführlich genug dargelegt.

Vielen Dank!
Andreas

Danke, dass du erst versucht hast, unsere Doku zu verstehen!

Die Gewichte phrf und hhrf sind, wie du richtig bemerkst, cross-sectional-weights und immer für die entsprechende Jahresscheibe. Diese Gewichte sind immer dann größer Null, wenn der Haushalt (HH) oder die Person (P) erfolgreich teilgenommen haben (es gibt auch noch ein paar Ausnahmen).

Daneben stellen wir für jedes Jahr auch sogenannte „Bleibefaktoren“ bereit. Diese findest du in hbleiboder pbleib und sind ein Gewicht, für die Wahrscheinlichkeit erfolgreich teilzunehmen in Welle t.

Bei einem longitudinalen Gewicht, nimmst du, wie du richtig beschrieben hast, ein Ausgangsgewicht aus dem Jahr wo deine Analyse anfangen soll. In deinem Fall vielleicht 2006. Anschließend multiplizierst du dieses Ausgangsgewicht mit den Bleibe-Gewichten ($hbleib) nach 2006 bis zum Ende deiner Analyse-Stichprobe. Wenn eine Person oder ein Haushalt in einer der Wellen temporär oder final ausgefallen ist, wird er ein Gewicht von null bekommen (da hbleib dann in oder ab dem Jahr Null ist). So entsteht ein balanciertes Panel. Beachte aber, dass du dann immer an dem Ausgangsjahr hochrechnest!

Um dir einen Rat zu geben, brauche ich mehr Informationen zu deinem genauen Analyse-Design. Wenn du zum Beispiel ein simples DiD Design machst, bei dem du nur Mitaltwerte vergleichen möchtest, kannst du diese erst mit den Cross-Sectional-Weights berechnen und dann im DiD vergleichen.

Hallo,

vielen Dank für die Antwort!

Ein bisschen unklar ist mir die Berechnung der longitudinal weights leider immer noch. Nur um sicherzugehen, dass ich es richtig verstanden habe: Wenn ich longitudinal weights für z.b. den Zeitraum 2006 bis 2008 berechne indem ich phrf(2006) mit pbleib(2007) und pbleib(2008) multipliziere, dann bekommt doch jede Person ein Gewicht, das über die Jahre gleich bleibt, oder? Also Person mit z.B. ID=1 hat das gleiche Gewicht in den Jahren 2006, 2007 und 2008. Stimmt das? Oder berechne ich die longitudinal weights so: für das Jahr 2006 wird einfach phrf(2006) genommen, für das Jahr 2007 multipliziere ich phrf(2006) mit pbleib(2007) und für das Jahr 2008 multipliziere ich phrf(2006) mit pbleib(2007) und pbleib(2008).

Jetzt zu meinem Analyse Design: Die Idee ist das Sample in eine Treatment Group (Menschen, die in einem Bundesland leben, wo bereits 2007 ein Rauchverbot in Kraft trat) und eine Control Group (Menschen, die in einem Bundesland leben, wo erst 2008 ein Rauchverbot in Kraft trat) zu unterteilen und dann mithilfe einer DiD Regression zu untersuchen ob es Auswirkungen auf die Subjektive Gesundheit zu beobachten gibt (Umsetzen würde ich das Ganze dann mit dem fixest package in R, ein panel data package, wo auch DiD Analysen möglich sind). Ich glaube ich brauche bei meiner Analyse nicht zwingend ein balanced panel, denn fixed effects zum beispiel sind ja auch in einem unbalanced panel möglich.

Ich hoffe ich habe mein Design ausreichend erklärt. Welche weights sollte ich also eher verwenden?

Vielen Dank und liebe Grüße,
Andreas

Das Gewicht ist dann über alle Jahre gleich, ja. Der Grund ist recht simpel: Ob Person oder Haushalt i in der Stichprobe, die du analysierst, bleibt, wird durch die erfolgreiche Teilnahme in all den Wellen bestimmt. Da das Gewicht sonst null ist.

Dieses longitudinal weight funktioniert für ein balanced panel. Wenn du ein unbalanced panel möchtest, muss du dir selber Gewichte erstellen oder eine model based correction machen. Da gibt es dann viel zu beachten. (Dazu müsstest du dich eigenständig informieren. Bei Fragen können wir dir natürlich versuchen zu helfen, aber wir sind nicht für dein Analyse-Design im Detail zuständig. )

Super, vielen Dank für die große Hilfe!