(keine) Gewichtung in SC6: Teilstichprobe, Erstbefragte, retrospektive Daten

somsara · 7. Februar 2023 um 12:45

Liebes FDZ,

ich hoffe, dieser neue Beitrag ist ok. Ich kenne die anderen Forenbeiträge zum Thema Gewichtung in der SC6, meine Anfrage geht aber darüber hinaus.
Ich habe mich bisher (und werde das weiterhin) gegen eine Gewichtung der SC6-Daten in meinen Analysen entschieden. Ich habe in meiner Arbeit auch ein eigenes Kapitel, in dem die Gründe hierfür dargelegt werden. Da ich aber immer mal wieder auf Gegenwind stoße („Wieso gewichtets du nicht?“ „Sind die Daten gewichtet?“ „Hier muss man aber gewichten!“), wollte ich die Hauptargumente gerne noch einmal mit euch (und gerne auch mit anderen) im Forum diskutieren.

Vorab:

Ich analysiere nur eine Teilstichprobe (z.B. nur Personen, die vor der Wende die alten BL in der Sekundarstufe (ab 5. Klasse) besucht haben oder die 5. Klasse nach der Wende ODER nur Personen, die ausbildungslos sind (bzw. zum Zeitpunkt ihres 25. Lebensjahres keine Ausbildung hatten etc…)
meine abhängige Variable basiert auf retrospektiven Informationen von Personen (z.B. 1=Personen, die mit 25 Jahren keine Berufsausbildung hatten; 0=Personen, die mit 25 Jahren eine Berufsausbildung hatten)
ich nehme nur Erstbefragte (u.a. um eine Verzerrung aufgrund von Panelsterblichkeit zu vermeiden - diese hängt nämlich eng mit meinem Forschungsinteresse (Bildungshintergrund) zusammen)

Meine Argumentation, keine Gewichte zu verwenden, sieht folgendermaßen aus:

a) In meinen Analysen ziehe ich keine Schlüsse von deskriptiven Statistiken auf die Grundgesamtheit
b) Für meine Analysen wichtige Variablen basieren auf retrospektiven Angaben der Befragten (Bildungsabschluss zum 25. Lebensjahr) - eine retrospektive Kalibrierung an den Mikrozensus ist aber gar nicht möglich, hierfür müsste der Mikrozensus ja die gleichen Informationen liefern (nicht den Bildungsabschluss einer Person im Erhebungsjahr, sondern den Bildungsabschluss, den die person mit 25 Jahren hatte). Die SC6 Kalibrierungsgewichte beziehen sich auf den (höchsten) Bildungsabschluss einer Person (in etwa) in den jeweiligen Erhebungsjahren.
c) Ich analysiere nur eine Teilstichprobe - eine Anwendung von Gewichten, die auf die gesamte Stichprobe ausgelegt sind, würde eine weitere Fehlerquelle mit sich bringen.
d) Eine Verwendung von Designgewichten ist für die SC6 nicht zwingend (bzw. notwendig), da sie in einem Design angelegt ist, das (nahezu) selbstgewichtend ist (Hammon et al., 2016).
e) Weitere Fehlerquellen wie eine selektive Panelteilnahme „umgehe“ ich, da ich nur die Angaben von Erstbefragten verwende.

Soweit, so gut…An dieser Stelle würde mich eure Meinung zu dieser Argumentationslinie interessieren. Und vielleicht noch ein Tipp: insbesondere für c) fehlt mir eine zitierfähige Quelle. Ich habe zwar in einem Gewichtungsworkshop der GESIS vor ein paar Jahren einiges zu Gewichtung gelernt und auch, dass man Teilstichproben (generell) nicht mit Gewichten versehen soll, die auf die Gesamtstichprobe ausgelegt sind. Ist ja auch einleuchtend. Aber ich habe tatsächlich noch nichts dergleichen in einem veröffentlichten Artikel finden können. Bitte seid nicht böse, falls ich hierzu einen Artikel von euch übersehen habe.

Ein weiteres Argument für meine multivariaten Analysen ist, dass es hierfür keine eindeutigen Empfehlungen für die Anwendung von Gewichten gibt - nicht zuletzt deshalb, da ihre Verwendung weitere potenzielle Fehlerquellen nach sich zieht sowie zu einem Verlust statistischer Aussagekraft führt (Bollen et al., 2016). Was ich versuche ist, stattdessen möglichst die Variablen in die Analysen einzubeziehen, die mit der Teilnahmewahrscheinlichkeit (Nonresponse Erstbefragung) zusammenhängen. In der NEPS Erwachsenenbefragung sind dies v.a. das Alter, der Migrationshintergrund und das Bildungsniveau (Hammon et al., 2016; Hoch, 2013; Kleinert, Ruland & Trahms, 2013).
Bei diesem Argument hakt es aber an einer Stelle meiner Analysen. Bei einer Fragestellung möchte ich wissen, inwiefern sich der Einfluss von Geschlecht, sozialer Herkunft und ihrer Wechselwirkung auf eine abhängige Variable (Ausbildungslosigkeit) mit der Zeit verändert haben (Kohortenvergleich). Da ich aber davon ausgehe, dass sich der Zusammenhang von Geschlecht x soziale Herkunft mit der Zeit aufgelöst hat, da insbesondere Frauen zunehmend höhere Schulabschlüsse gemacht haben, kann ich nicht auf Schulbildung kontrollieren in dem Modell. Das würde mir meinen Effekt „wegerklären“. Somit entfällt dieses Argument für die multivariaten Analysen zu dieser Fragestellung.
Hier hätte ich gerne eure Meinung. Ist das nachvollziehbar?

Ich hoffe, ich konnte mich an allen Stellen klar genug ausdrücken und ihr versteht, worum es mir geht. Falls nicht, bitte einfach fragen

Lieben Dank im Voraus,
Sara

AnneKonrad · 2. März 2023 um 07:38

Liebe Sara,

vielen Dank für deine umfassende Anfrage bzgl. der Verwendung von Gewichten. Das Thema ist sehr komplex. Wir möchten daher deinen Diskussionsaufruf als Gelegenheit nutzen und dir und der Community ausführlich darauf antworten.

Gewichtung ist ein zentrales Thema bei der Analyse von Stichprobendaten. Die Diskussion umfasst mehrere komplexe Fragestellungen wie unter anderem: allgemeine Notwendigkeit von Gewichten, Gewichtung in deskriptiven Analysen, Gewichtung in Modellen und Gewichtung von Subgruppen. Daher folgt zunächst ein allgemeiner Teil zur Notwendigkeit und Motivation von Gewichtung bei der Analyse von Stichprobendaten. Anschließend wird auf die einzelnen Punkte eingegangen. Die Gründe für die Verwendung von Gewichten sind vielfältig:

Berücksichtigung des Zufallsprozesses und ungleicher Ziehungswahrscheinlichkeiten durch das Ziehungsdesign.
Verringerung von möglichen Verzerrungen durch Nonresponse oder Noncoverage.
Erhöhung der Effizienz (Verminderung der Varianz des Schätzers) durch die Einbindung von Hilfsinformationen.

Der Gewichtungsprozess für Querschnittsgewichte umfasst im Allgemeinen die folgenden drei Schritte:

Berechnung von Designgewichten: Resultiert das Ziehungsdesign in unterschiedlichen Ziehungswahrscheinlichkeiten, liefern ungewichtete Analyse verzerrte Schätzungen, wenn das interessierende Merkmal mit der Ziehungswahrscheinlichkeit variiert.
Durch unterschiedliche Ziehungswahrscheinlichkeiten unterscheiden sich die Zusammensetzung der Stichprobe und der Population. Wurde beispielsweise eine Stichprobe von Schulen mit einem proportional-to-size Design gezogen, sind große Schulen in der Stichprobe im Vergleich zur Population überrepräsentiert. Designgewichte werden als Inverse der Inklusionswahrscheinlichkeiten berechnet.
Durch unterschiedliche Ziehungswahrscheinlichkeiten ist die Stichprobe bezüglich des interessierenden Merkmals verzerrt sein, wenn dieses interessierende Merkmal mit der Ziehungswahrscheinlichkeit variiert. Diese Verzerrung wird auch oft als Selection bias bezeichnet. Als Beispiel kann man sich vorstellen, dass Förderschulen mit Hilfe von einem Oversampling zu einem bestimmten Anteil in die Stichprobe gelangen sollen. Die Förderschulen erhalten damit höhere Ziehungswahrscheinlichkeiten. Im Ergebnis unterscheidet sich der Anteil der Schüler an Förderschulen in der Stichprobe und in der Population. Werden nun beispielsweise die Kompetenzen analysiert, kommt es ohne eine entsprechende Berücksichtigung der Designgewichte zu Verzerrungen. Außerdem wird erst mit der Verwendung von Designgewichten der Nachweis statistischer Eigenschaften von Schätzern wie Design-Unverzerrtheit und Design-Konsistenz möglich (Lavallée, Beaumont, 2015; Särndal et al., 1992).
Anpassung der Gewichte aus Schritt 1) um Nonresponse zu kompensieren: Nonresponse hat zwei Folgen: a) die effektive Stichprobengröße verringert sich, b) Nonresponse resultiert in verzerrten Schätzungen, wenn sich die Antwortenden systematisch von Nicht-Antwortenden unterscheiden. Der Nonresponse Anteil in der NEPS1 Auffrischungs- und Aufstockungsstichprobe der SC6 betrug beispielsweise etwa 72% (Landrock, 2022, S. 4). Dieser Anteil ist nicht unerheblich und es ist nicht davon auszugehen, dass das Antwortverhalten rein zufällig über die Stichprobe verteilt ist. Daher müssen die Designgewichte aus Schritt 1 weiter angepasst werden um Verzerrungen durch Nonresponse zu kompensieren. Die Qualität dieser Anpassungen hängt stark von der Qualität der Informationen ab, die man über die Nicht-Antwortenden zur Verfügung hat.
Einbindung von externer Hilfsinformation durch Kalibrierung: Häufig liegen aus externen Quellen Informationen über die Population vor. Zum Beispiel ist die Anzahl an Schülerinnen und Schülern in der Population aus einem Register bekannt. Dann werden die Gewichte aus Schritt 2) weiter angepasst, so dass die gewichtete Schätzung der Anzahl der Schülerinnen und Schüler basierend auf der Stichprobe mit den bekannten Werten aus dem Register übereinstimmen. Die Varianz dieser Schätzungen ist dementsprechend Null. Für Merkmale, welche mit den Kalibrierungsvariablen (hier Anzahl der Schülerinnen und Schüler) korreliert sind, können Effizienzgewinne realisiert werden. In diesem Gewichtungsschritt steht die Effizienzsteigerung der Schätzer im Vordergrund. Ebenso können aber durch die Einbindung von Hilfsinformationen auch Verzerrungen durch Nonresponse und Noncoverage verringert werden.

Im Längsschnitt muss zusätzlich zu den drei Gewichtungsschritten noch auf Verzerrungen durch Panelattrition korrigiert werden. In einer selbstgewichtenden Stichprobe, d.h. wenn alle Einheiten in der Population die gleichen Inklusionswahrscheinlichkeiten haben, resultieren gewichtete und ungewichtete Analysen in den gleichen Ergebnissen, vorausgesetzt es gibt keine Verzerrungen durch Nonresponse oder Noncoverage. In der Praxis gibt es solche Stichproben jedoch kaum, da es selbst in verpflichtenden Stichproben wie dem Mikrozensus zu Nonresponse kommt.

Gewichte in der deskriptiven Analyse und inferentiellen Statistik

Unumstritten in der Literatur ist die Notwendigkeit von Gewichten bei deskriptiven Analysen wie beispielsweise Mittelwertvergleichen und der statistischen Inferenz. Selbst Vertreter der model-basierten Inferenz und der Bayessche Statistik wie Pfeffermann (1993, p. 317) und Gelman (2016, p.157) bestätigen diese Notwendigkeit von Gewichten. Andernfalls sind die Ergebnisse durch unterschiedliche Ziehungswahrscheinlichkeiten (Selection Bias), Nonresponse, Noncoverage und Panelattrition verzerrt. Erst durch die Verwendung von Gewichten werden Schlüssen von der Stichprobe auf die Grundgesamtheit möglich.

Gewichte in Modellen

Mehr Diskussion in der Literatur gibt es bei der Verwendung von Gewichten in Modellen wie beispielsweise linearen Regressionen. Anhänger des design-basierten Ansatzes plädieren für die Verwendung von Gewichten in allen Analysen. Die Gründe decken sich mit den bereits oben angeführten Argumenten. Ein weiteres Argument ist, dass die Verwendung von Gewichten im Regressionsmodell gegen Verzerrungen durch potenziell fehlende Regressoren helfen kann (Kott, 1991; Kish, 1990). Weiter begründen Lavallée and Beaumont (2015), dass die Verwendung von Gewichten in nicht-informativen Designs zu sehr ähnlichen Punktschätzungen führt wie ungewichtete Analysen, wenn die Stichprobengröße nicht zu klein ist. Wenn das Design hingegen informativ ist, liefern nur gewichtete Schätzer (asymptotisch) design-unverzerrte und design-konsistente Schätzungen.

Ein im model-basierten Ansatz bekanntes Konzept ist das des informativen Ziehungsdesigns. Ein Ziehungsdesign ist informativ, wenn die Ziehungswahrscheinlichkeiten weiterhin von dem interessierenden Merkmal abhängen nachdem auf die Designvariablen kontrolliert wurde (Pfeffermann, 1996). In anderen Worten, in informativen Designs unterscheiden sich das Model in der Stichprobe und der Population (Pfeﬀermann, Sverchkov, 2009, p. 455). Jedoch kann auch ein nicht-informatives Design zu falschen Rückschlüssen führen, wenn der Responsemechanismus informativ ist (Vaillant et al. 2000, Section 2.6.2). Daher wird häufig im modell-basierten Ansatz angenommen, dass die Antwortwahrscheinlichkeiten bekannt sind (Pfeffermann, 1993). Es gibt verschiedene Tests zur Überprüfung, ob ein Design informativ ist (u.a. Hausmann, 1978; Pfeffermann, 1993; Skinner, 1994; Asparouhov ,2006; DuMochel and Ducan, 1983; Fuller, 2009; Wu und Fuller, 2005; Pfeffermann und Sverchkov, 1999, 2007, Chambers et al. 2003). Hierbei ist anzumerken, dass diese Test meistens nur auf die Ziehungswahrscheinlichkeit testen.

Ist das Ziehungsdesign informativ, so ist ein Vorgehen im modell-basierten Ansatz alle Variablen, welche den Ziehungsprozess oder das Antwortverhalten beeinflussen, als erklärenden Variablen in das Regressionsmodell aufzunehmen (Gelman, 2016). Dieser Ansatz stellt damit ein alternatives Vorgehen zu einer gewichteten Regression im design-basierten Ansatz dar. Beide Ansätze haben ihre Berechtigung sowie verschiedene Vor- und Nachteile. Eine ausführliche Gegenüberstellung sprengt den Rahmen dieser Antwort. Wir wollen aber kurz auf die Hauptkritikpunkte beider Ansätze eingehen.

Ein Kritikpunkt bei der Verwendung von Gewichten ist, dass die erhöhte Variabilität der Gewichte mit einem Effizienzverlust verbunden wäre (Kish, 1992, Pfeffermann, 1996). Bei dieser Argumentation wird aber Gewichtungsschritt 3) nicht beachtet. Jener Gewichtungsschritt verringert gerade die Varianz von allen interessierenden Merkmalen, welche mit den Hilfsmerkmalen korreliert sind. Die Varianz der Hilfsmerkmale selbst ist sogar Null. Weiter argumentieren Chen et al. (2017), dass variable Gewichte nicht unbedingt zu einer Erhöhung der Varianz des Punktschätzers führen. Sie argumentieren, dass für interessierende Merkmale, welche perfekt korreliert sind mit den Ziehungswahrscheinlichkeiten die gewichtete Schätzung eine Varianz von Null auf aufweist und zwar unabhängig von der Variation der Ziehungswahrscheinlichkeiten. Das ist insbesondere der Falle für proportional-to-size Ziehungsdesigns.

Effizienzverluste können jedoch sehr wohl entstehen, wenn einige Gewichte Ausreißer darstellen. Die Gründe für extreme Gewichte können kleine Stichproben, viele Kalibrierungsvariablen (Schritt 3) oder komplexe Nonresponsemodelle (Schritt 2) sein. Werden extrem hohe Gewichte auf sehr kleine Teilgruppen angewendet, können unrealistische Schätzungen resultieren (Deville und Särndal, 1992, S. 378).

Zusammenfassend lässt sich daher nicht pauschal sagen, ob die Varianz für ein bestimmtes Merkmal (in Regressionen) durch variable Gewichte steigt oder sinkt. Das hängt u.a. von dem interessierenden Merkmalen, dem Ziehungsdesign und der Verteilung der Gewichte ab.

Ein Kritikpunkt am modell-basierten Ansatz der Regression ist, dass die Modelle durch die Aufnahme aller Design- und Responsevariablen schnell sehr komplex werden und aufgrund der vielen Ausprägungen mitunter schwierig zu schätzen sind. Gelman (2016) schlägt hier als Abhilfe die Verwendung von multi-level Modellen. Darüber hinaus gibt es generell die Möglichkeit das Stichprobendesign mithilfe eines Surveyobjektes abzubilden.

Explizite Fragen:
a) In meinen Analysen ziehe ich keine Schlüsse von deskriptiven Statistiken auf die Grundgesamtheit.

Antwort: Bei diesem Argument gegen eine Gewichtung ist zu beachten, dass stets bei allen Ergebnissen der Vermerk unbedingt notwendig ist, dass sich die Ergebnisse nur auf diese eine bestimmte Stichprobe beziehen. Schlüsse auf die Grundgesamtheit, wie beispielsweise alle Personen, die vor der Wende die 5. Klassestufe besucht haben oder Arbeitslose unter 25, sind nicht zulässig. Die Gründe dafür wurden oben ausführlich dargelegt und umfassen Verzerrungen durch unterschiedliche Ziehungswahrscheinlichkeiten, Nonresponse, Noncoverage und Panelattrition. Die Aussagekraft von Analysen mit verzerrten Schätzern ist fraglich und eine Generalisierbarkeit der Analysen ist ebenso nicht gegeben. Auch gilt dieses Argument nicht mehr für Methoden der statistischen Inferenz sowie Regressionen. Das heißt, du schränkst deine Arbeit und Analysen womöglich unnötig stark ein, wenn du gänzlich auf Gewichte verzichtest.

b) Für meine Analysen wichtige Variablen basieren auf retrospektiven Angaben der Befragten (Bildungsabschluss zum 25. Lebensjahr) - eine retrospektive Kalibrierung an den Mikrozensus ist aber gar nicht möglich, hierfür müsste der Mikrozensus ja die gleichen Informationen liefern (nicht den Bildungsabschluss einer Person im Erhebungsjahr, sondern den Bildungsabschluss, den die Person mit 25 Jahren hatte). Die SC6 Kalibrierungsgewichte beziehen sich auf den (höchsten) Bildungsabschluss einer Person (in etwa) in den jeweiligen Erhebungsjahren.

Antwort: Dieser Punkt bezieht sich auf den dritten Gewichtungsschritt und damit auf die Kalibrierung. Es ist richtig, dass in der SC6 unter anderem auf den höchsten Bildungsabschluss (neben Geburtsjahr, Geschlecht, Bundesland, Gemeindegrößenklassen) kalibriert wird. Wie oben beschrieben, erhofft man sich durch diesen Gewichtungsschritt Effizienzgewinne für alle Variablen, die mit dem höchsten Bildungsabschluss korreliert sind. Es liegt hier die Vermutung nahe, dass auch für die Analyse des Bildungsabschlusses, den eine Person mit 25 Jahren erreicht hat, Effizienzgewinne realisierbar sind. Es ist damit gar nicht notwendig, dass auf alle interessierenden Merkmale kalibriert wird. Wichtig ist hierbei, dass alle Kalibrierungsschätzer asymptotisch design-unverzerrt sind. Das heißt auch für Variablen, die nicht mit den Kalibrierungsvariablen korreliert sind, entstehen durch die Verwendung der Kalibrierungsgewichte keine Verzerrungen.

c) Ich analysiere nur eine Teilstichprobe - eine Anwendung von Gewichten, die auf die gesamte Stichprobe ausgelegt sind, würde eine weitere Fehlerquelle mit sich bringen.

Antwort: Das entspricht in der Tat auch den bisherigen Empfehlungen, die von uns in Bezug auf die Analyse von Subgruppen herausgegeben wurden. Das würden wir an dieser Stelle gern etwas differenzierter betrachten, denn allgemein lässt sich das so nicht feststellen. Generell sind Gewichte auch für Subgruppen gültig. Insbesondere wenn auf diese Subgruppen in der Kalibrierung kontrolliert wurde oder die interessierenden Merkmalen mit den Kalibrierungsmerkmalen korreliert sind, sind die gewichteten Schätzungen sehr effizient. Wenn beispielsweise in der Kalibrierung auf Bildungsstand x Geschlecht x Bundesland kontrolliert wurde, sind Schätzungen für die Anzahl von Mädchen mit einem bestimmten Bildungsstand in einem bestimmten Bundesland (als Subgruppe) perfekt. Für alle interessierenden Merkmale, welche mit den Kalibrierungsvariablen korreliert sind, sind Effizienzgewinne im Vergleich zu einer ungewichteten Schätzung zu erwarten. Die Analyse von Subgruppen ohne Gewichtung hingegen führt zu verzerrten Ergebnissen.

Ein Problem kann hingegen auftreten, wenn die Subgruppe sehr klein ist und einige Einheiten in dieser Subgruppe sehr extreme Gewichte haben.
Ebenfalls sollte darauf hingewiesen werden, dass aufgrund der Standardisierung der Gewichte, die sich stets auf alle Teilnehmenden einer Welle bezieht (im Längsschnitt die aller Wellen), bei einer Subgruppenbetrachtung der Mittelwert der Gewichte womöglich nicht mehr 1 beträgt und die Summe der Gewichte auch nicht mehr der betrachteten (selektiven) Teilnehmendenzahl entsprechen muss. Bei einer Subgruppe mit großen Gewichten liegt die Summe über deren egtl. Zahl und bei niedrigen Gewichten entsprechend darunter. Das ist relevant für die Modelloutputs und das ausgewiesene (gewichtete) N. Wir empfehlen daher, insbesondere bei großen Abweichungen, die Verteilung der Gewichte aller Teilnehmenden der Verteilung der Gewichte der Subgruppe gegenüber zu stellen und fallspezifisch sowie inhaltlich geleitet zu entscheiden, ob die Gewichtung der Subgruppe plausibel erscheint, oder gegebenenfalls ein modell-basierter Schätzansatz verfolgt oder eigene Gewichte berechnet werden sollten. Werden Design und Nonresponse auch in der Analyse der Subgruppe nicht berücksichtigt, können die Ergebnisse verzerrt sein und Aussagen über die zugrundeliegende Grundgesamtheit sind dann nicht zulässig.

Hierbei kommt der klassische Varianz-Bias trade-off zum Tragen. Stark variierende Gewichte können bei der Analyse von sehr kleinen Subgruppen zu Effizienzverlusten führen, während ein Weglassen der Gewichte zu Verzerrungen führen kann.

d) Eine Verwendung von Designgewichten ist für die SC6 nicht zwingend (bzw. notwendig), da sie in einem Design angelegt ist, das (nahezu) selbstgewichtend ist (Hammon et al., 2016).

Antwort: Nein, die (nicht veröffentlichten) Designgewichte der SC6 unterscheiden sich, damit ist die SC6 nicht selbstgewichtend.
Zu beachten ist weiter, dass sich dieses Argument nur auf Gewichtungsschritt 1 bezieht. Selbst wenn das Ziehungsdesign selbstgewichtend wäre, würde keine Anpassung auf Verzerrung durch Nonreponse oder Noncoverage stattfinden.

e) Weitere Fehlerquellen wie eine selektive Panelteilnahme „umgehe“ ich, da ich nur die Angaben von Erstbefragten verwende.

Antwort: Dieses Argument bezieht sich nur auf mögliche Verzerrungen durch Panelattrition. Verzerrungen durch Nonresponse in der ersten Welle bleiben unkorrigiert (sofern diese nicht modell-basiert korrigiert werden). Verzerrungen durch Panelattrition sind im Allgemeinen als geringer einzustufen als Verzerrungen durch anfänglichen Nonresponse. Der anfängliche Nonresponse im NEPS (wie auch in anderen freiwilligen Surveys) ist nicht unerheblich und hängt insbesondere mit dem Bildungshintergrund zusammen.

f) Ein weiteres Argument für meine multivariaten Analysen ist, dass es hierfür keine eindeutigen Empfehlungen für die Anwendung von Gewichten gibt - nicht zuletzt deshalb, da ihre Verwendung weitere potenzielle Fehlerquellen nach sich zieht sowie zu einem Verlust statistischer Aussagekraft führt (Bollen et al., 2016). Was ich versuche ist, stattdessen möglichst die Variablen in die Analysen einzubeziehen, die mit der Teilnahmewahrscheinlichkeit (Nonresponse Erstbefragung) zusammenhängen. In der NEPS Erwachsenenbefragung sind dies v.a. das Alter, der Migrationshintergrund und das Bildungsniveau (Hammon et al., 2016; Hoch, 2013; Kleinert, Ruland & Trahms, 2013). Bei diesem Argument hakt es aber an einer Stelle meiner Analysen. Bei einer Fragestellung möchte ich wissen, inwiefern sich der Einfluss von Geschlecht, sozialer Herkunft und ihrer Wechselwirkung auf eine abhängige Variable (Ausbildungslosigkeit) mit der Zeit verändert haben (Kohortenvergleich). Da ich aber davon ausgehe, dass sich der Zusammenhang von Geschlecht x soziale Herkunft mit der Zeit aufgelöst hat, da insbesondere Frauen zunehmend höhere Schulabschlüsse gemacht haben, kann ich nicht auf Schulbildung kontrollieren in dem Modell. Das würde mir meinen Effekt „wegerklären“. Somit entfällt dieses Argument für die multivariaten Analysen zu dieser Fragestellung. Hier hätte ich gerne eure Meinung. Ist das nachvollziehbar?

Antwort: Dem ersten Satz können wir so nicht zustimmen, da sich die Literatur über die Anwendung von Gewichten in der deskriptiven Inferenz einig ist. Diskussion gibt es lediglich bei der Verwendung von Gewichten in Modellen. Hierbei sieht aber auch der modell-basierte Ansatz bei Vorliegen eines informativen Ziehungsdesigns die Berücksichtigung von Design- und Responsevariablen vor. Allgemeine Aussagen über den „Verlust statistischer Signifikanz“ sind wie oben dargelegt nicht möglich.
Wenn der modell-basierte Ansatz gewählt wird, sollten alle relevanten Design- und Responsevariablen in das Modell aufgenommen werden. Andernfalls sind Verzerrungen die Folge.

Viele Grüße
Anne vom Team Methoden der Survey Statistik am LIfBi

Literatur

Chambers, R., Dorfman, A., Sverchkov, M. (2003). Nonparametric regression with complex survey data. In R. L. Chambers & C. J. Skinner (Eds.), Analysis of survey data (pp. 151–174). John Wiley & Sons, Ltd.

Chen, Q., Elliott, M. R., Haziza, D., Yang, Y., Ghosh, M., Little, R. J., Sedransk, J., and Thompson, M. (2017). Approaches to improving survey-weighted estimates. Statistical Science, 32(2):227–248.

Deville, J.-C.,Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Association, 87(418):376–382.

DuMouchel WH , Duncan GJ. (1983). Using sample survey weights in multiple regression a nalysis. J. Am. Stat. Assoc. 78(383):535–43

Fuller, W. A. (2009). Sampling statistics. John Wiley & Sons.

Gelman, A. (2007). Struggles with survey weighting and regression modeling. Statistical Science, 22, 153-164.

Hausman JA . (1978). Specification tests in econometrics. Econometrica 46(6):1251–71

Kish, L. (1992). Weighting for unequal Pi. Journal of Official Statistics, 8(2), 183.

Kott, P. S. (1991). A model-based look at linear regression with survey data. The American Statistician, 45(2), 107-112.

Landrock, U. (2020): Samples, Weights and Nonresponse: the Adult Cohort of the National Educational Panel Study (Wave 13), Technical report, Leibniz Institute for Educational Trajectories, DOI:10.5157/NEPS:SC6:13.0.0.

Lavallée, P.,Beaumont, J.-F. (2015), Why We Should Put Some Weight on Weights. Survey Insights: Methods from the Field, Weighting: Practical Issues and ‘How to’ Approach, Invited article, Retrieved from https://surveyinsights.org/?p=6255

Pfeﬀermann, D. (1993). The role of sampling weights when modeling survey data. International Statistical Review, 61 (2), 317-337.

Pfeffermann, D. (1996). The use of sampling weights for survey data analysis. Statistical methods in medical research, 5(3), 239-261

Pfeffermann, D., Sverchkov, M. (2007). Small-area estimation under informative probability sampling of areas and within the selected areas. Journal of the American Statistical Association, 102(480), 1427-1439.

Pfeﬀermann, D., Sverchkov, M. (2009). Inference under informative sampling. In D. Pfeﬀermann & C. R. Rao (Eds.), Handbook of statistics (Vol. 29 B, p. 455-487). New York: Elsevier.

Särndal, C.-E., Swensson, B., Wretman, J. (1992). Model assisted survey sampling. Springer Science & Business Media.

Skinner, C. (1994). Sample models and weights. In Proceedings of the Section on Survey Research Methods (pp. 133–142).

Valliant, R., Dorfman, A. H., Royall, R. M. (2000). Finite population sampling and inference: a prediction approach. John Wiley.

Wu Y , Fuller W. (2005). Preliminary testing procedures for regression with survey samples. Proc. Jt. Stat. Meet., Surv. Res. Methods Sect., Minneapolis, MN, Aug. 7–11, pp. 3683–88. Alexandria, VA: Am. Stat. Assoc. http://www.amstat.org/sections/srms/Proceedings/y2005/Files/JSM2005-000099.pdf