Anwendung der Gewichtungsvariablen in Stata

Liebe NEPSler,

ich arbeite mit der SC5 mit allen verfügbaren Erhebungswellen. Nun habe ich mir das Paper von Zinn et al. (2017) "Samples, weights and nonrespone..." durchgelesen und bin den Anweisungen dort gefolgt. Folgenden Befehl habe ich in Stata eingegeben:

gen f_h= w_h^[-1]
svyset ID_cl [pweight=w_t12345678], strata(stratum) fpc(f_h)

Nun möchte ich die Gewichtung bei meinen Analysen anwenden, beispielsweise bei der deskripitven Darstellung der Variablen "Geschlecht":

tab sex

Output:

Geschlecht    Freq.   Percent    Cum.
            
männlich      4,837   37.90      37.90
weiblich      7,926   62.10      100.00
            
Total         12,763  100.00

wenn ich jetzt die Gewichtungvariable einfüge, erhalte ich folgendes Output:

tab sex [aw=w_t12345678]

 

Geschlecht    Freq.        Percent   Cum.
            
männlich      1,342.0068   48.94     48.94
weiblich      1,399.9932   51.06     100.00
            
Total         2,742        100.00

Es fällt auf: Mit Gewichtung ist der Anteil der Männer deutlich höher. Das heißt, ohne Gewichtung würde ich den Anteil der Männer unterschätzen. Was ich aber nicht ganz verstehe: Wieso ist mein N bei der Gewichtungs-version plötzlich so niedrig (2.742)? In der Originalvariable hatte ich doch 12.763 Beobachtungen. Habe ich die Gewichtung richtig angewendet? Oder hätte ich vielleicht ein anderes Gewichtungspräfix verwenden sollen (nicht aweight)?

Für Ihre/Eure Hilfe bedankt sich,

die Anne.


Edit: Codeschnipsel eingefügt.

 Liebe Anne,

In den NEPS Daten werden standardisierte Gewichte zur Verfügung gestellt, d.h. die Gewichte ergeben im Mittelwert 1. Dies hat numerische Gründe (häufig funktionen die Schätzroutinen für gewichtete Regression mit standardisierten Gewichten fehlerfreier). Die Verteilung gewichteter Daten verändert sich durch die Standardisierung eines Surveygewichts nicht. Allerdings können Variablen (wie z.B. das Geschlecht) mit standardisierten Gewichten nicht mehr auf Populationsebene hochgerechnet werden. Hierfür benötigen Sie die Größe der Zielpopulation. Für die SC5 ist diese Größe N=330889 (Anzahl aller Erstsemester im WS 2010/11 an staatlich anerkannten Hochschulen, die genaue Definition entnehmen Sie bitte der Stichprobenbeschreibung der SC5.) Das heißt für deskriptive Auszählungen erstellen Sie sich ein extrapoliertes Populationsgewicht für die Welle 1 Teilnehmer wie folgt:

gen w_pop = w_t1/e(N)*330889

An dieser Stelle nur eine kleine Warnung: Die gewichtete Stichprobe der SC5 ist nur repräsentativ bzgl. der Merkmale nach denen gezogen wurde und bzgl. deren kalibriert wurde. Diese Merkmale beziehen sich immer auf Querschnittsinformationen.

Außerdem: (1) Ja, ohne Gewichte unterschätzen Sie den Anteil der männlichen Studierenden. (2) pweight ist vollkommen richtig (aweight dient der Varianzkorrektur).

 

Hallo Sabine,

vielen Dank für die Rückmeldung. Ich habe noch zwei Fragen diesbezüglich.

1.) Was mache ich denn mit diesem extrapolierten Populationsgewicht, wenn ich es "geschaffen" habe? Wie wende ich es in der Stata-Syntax an? Was kann das? Kannst du mir da ein Beispiel nennen?

 

2.) Nur nochmal zur Verifizierung: Ich hatte aweight verwendet. Du schreibst, dass ich pweight verwenden sollte, aber da kommt bei mir eine Fehlermeldung  (pweights not allowed). In diesem Sinne gehe ich davon aus, dass aweight richtig ist, richtig?

Liebe Grüße,

die Anne.

Ach, und ich bin passend dazu auf noch eine Frage gestoßen, die du vielleicht beantworten kannst. ich frage mich, was der Unterschied zwischen pweight und svy ist. Als Beispiel: Ich kann meine Regressione auf zwei verschiedene Arten durchführen:

svy: ologit Variablex i.Variabley

oder

ologit Variablex i.Variabley [pweight=w_t2]

 

svy habe ich ebenfalls auf w_t2 programmiert.

Interessanterweise kommen da aber unterschiedliche Sachen raus, was mir schonmal sagt, dass beides nicht das gleiche ist. Aber wie unterscheiden sich die beiden Verfahren denn? (ich frage deshalb, weil ich eigentlich keine Lust habe, für jede Befragungswelle immer extra einen Datensatz abzuspeichern und für meine Analysen zu öffnen, was ich aber scheinbar  tun müsste, wenn ich svy richtig nutzen will)

Vielen Dank für die Hilfe,

die Anne.

 

 

 

 

Liebe Anne,

-aweight-s sind nur dann korrekt, wenn Du Daten auswerten möchtest, die selbst Mittelwerte darsetellen; die Korrektur der Varianzschätzung folgt einer anderen Logik, als die bei -pweight-s. Für die Punktschätzer ist es allerdings irrelevant, ob Du -aweight- oder -pweight- spezifizierst, beide führen zu gleichen Ergebnissen. 

Nicht alle commands erlauben -pweight-s: teilweise, weil diese technisch und/oder statistisch schwierig zu implementieren sind, teilweise, weil die commands nicht als Schätzer für Populationsparaemter aufgefasst werden, sondern nur der Beschreibung der Stichprobe dienen (etwa -summarize- oder -tabulate-). 

-tabulate- kannst Du übrigens mit -svy- koppeln und das würde ich für Deine Zwecke auch empfehlen.

Zum Unterscheid zwischen -svy- und -pweight-s: -svy- berücksichtigt neben der Gewichtung die Klumpung und Stratifikation der Stichprobenziehung (sofern korrekt spezifiziert, was wie in Deinem ersten Beispiel). Sofern nur -pweight- beim -svyset- angegeben wird, sollten die Ergebnisse aber identisch zur Spezifikation der -pweight-s direkt mit -ologit- (oder einem beliebigen anderen command) sein.

Beste Grüße

Daniel