ich bin gerade dabei mit der Gendervariable in der SC3 zu arbeiten und stelle fest, dass es Missings und Inkonsistenzen gibt. Ich habe daher folgende Datensätze gemerged:
CohortProfile (tx80501)
pTarget (t700031)
spChild (ts33203)
pParent (p700010)
Meinem Kenntnisstand nach enthalten alle diese Datensätze Infos über das Geschlecht der Zielperson. Da in manchen Datensätzen Missings sind, versuche ich diese über die Infos aus den jeweils anderen Variablen zu ergänzen. Ich stoße aber konkret auf drei Probleme:
Es kommt an einigen Stellen vor, dass sich die Info über das Geschlecht aus CohortProfile und pTarget widersprechen und die anderen Variablen aus den anderen Datensätzen nur missings haben. Ich habe mir immer sagen lassen es seien die Infos aus dem CohortProfile, die hochwertiger sind, aber nach meiner Arbeit über Schultypen, habe ich festgestellt, dass im Cohortprofile manchmal noch Sampleschulen stehen, während im pTarget (oder spSchool, etc.) andere, vermeintlich stimmigere Infos zu finden waren, die nicht mit dem CohortProfile übereinstimmten. Welche Information ist nunverlässlicher/höherwertiger?
Manchmal ändert sich das Geschlecht über die Zeit und auch da sind alle mir zur Verfügung stehenden Infos im Widerspruch miteinander. Wie wird generell mit solchen Fällen umgegangen?
Ich wundere mich, dass ich keine kohärente Aufbereitung für die Gendervariable finden konnte. Gibt es denn sowas überhaupt?
Hallo Timon,
ich habe vor einiger Zeit für meine Forschung selbst an dem Problem gesessen. Ich habe auch keine Musterlösung dafür und finde einen Austausch dazu hilfreich.
Es ist richtig, dass …
pTarget (t700031) - Im PAPI selbst ausgefüllt / im CATI bei Schulabgänger*innen durch Zuordnung durch Interviewer*innen anhand von Name & Stimme
pParent (p700010) - Angabe der Eltern im CATI
… Angaben zum Geschlecht der ZP enthalten. Sie werden aber jeweils unterschiedlich erhoben, was sicherlich einen Großteil der Inkonsistenzen erklärt, welche Angabe für dich am besten geeignet ist, kannst wahrscheinlich du am besten entsprechend deiner Fragestellung entscheiden.
Der spChild-Datensatz (ts33203) enthält jedoch die Angaben zu den Kindern der Zielperson.
Inwiefern bei der Angabe aus der Klassenliste ggf. Angaben aus früheren Wellen übertragen werden, weiß ich nicht genau, da können die Kolleg*innen vom FDZ mehr zu sagen.
Da ich eine Cross-Sectional Fragestellung untersuche, kann ich mit sich Ändernden Geschlechtsangaben wenig anfangen. Ich habe bei der Aufbereitung bisher noch verschiedene Ansätze:
Erste nicht-missing Angabe
Modalwert
Angabe zum Zeitpunkt, in dem meine abhängige Variable gemessen wurde (evtl. missing durch in vorwelle beobachtetes Geschlecht ersetzen)
Ich hänge dir mal meine Aufbereitung zu first-non-missing bzw. Modalwert an. Die Angaben sind so konsistent, dass ich wenig Unterschiede zwischen den verschiedenen Operatinalisierungen erwarten würde: [Nachtrag: sorry, hab den file irgendwie nicht richtig abgespeichert und mache jetzt feierabend] [Noch ein Nachtrag: hab den file noch gefunden] SC3_Basics.do (2.6 KB)
Ich schaue mir Berufsaspirationen an: Da spricht m.E. am meisten für die Selbstangabe.
vielen Dank für deine schnelle und ausführliche Antwort und dein Dofile! Das ist sehr freundlich von dir!
Wenn ich missings habe, überschreibe ich die, indem ich den alten Wert fortschreibe. Wenn innerhalb einer Variable gemischte Infos auftreten, nehme ich auch schon den Modus. Deine Tipps sind daher schon ganz gut!
Forschungsvorhaben: Ich möchte mir Bildungsentscheidungen ansehen und zwar wie Jungs und Mädchen unterschiedlich in (MINT)-Ausbildungen gehen.
Trotzdem bin ich ratlos, welche Info ich im Zweifelsfall nehmen sollte: CohortProfile oder pTarget, wenn es Aussage gegen Aussage steht.
Ist nicht der CohortProfile eher bezogen auf die Stichprobenzusammensetzung und wie diese ursprünglich sein sollte, während pTarget eher die reale Befragung widerstpiegelt? Schließlich gibt es im CohortProfile auch Fälle, die kein einziges Mal teilgenommen haben. Warum sind diese also eigentlich noch drin? Wahrscheinlich weil sie gezogen wurden, aber nicht mitgemacht haben und man dem Nutzer dies transparent machen möchte. Würde aber dafür sprechen, dass CohortProfile eher förmlich zu sehen ist und pTarget als tatsächliche Info…
Würde mich über weitere Stellungnahmen dazu noch freuen.