SC3 Schulform konstruiert ab Welle 5/7: t723080_g1

Liebes NEPS-Team,

wir arbeiten mit den SC3-Daten und interessieren uns für die Schulkarrieren. Die zentrale uns interessierende Variable ist die konstruierte Schulform t723080_g1. Diese ist bekanntlich die beste verfügbare Information über die Schulform, leidet jedoch unter einem großen Anteil fehlender Werte. Wir versuchen aktuell, diese fehlenden Werte möglichst genau zu differenzieren, da es inhaltlich zentral für unsere Fragestellung ist, ob Kinder die Schule verlassen oder nur das Survey. Für die ersten Wellen haben wir uns ausführlicher mit der verfügbaren Dokumentation beschäftigt (Bayer/Goßmann/Bela 2014), hier basiert die Variable t723080_g1 ja ausschließlich auf Angaben der Eltern bzw. Elternangaben der Klassenkamerad*innen.

Nun zu den Fragen:

Hauptfrage:

  • Wie genau wird die Variable in den spätere Wellen (5, 7-10) generiert? In diesen Wellen werden ja gar keine Elterninformationen mehr erhoben.

Spezifischer:

  • Offenbar kommt die Information ja über die Kinder zustande. Wie werden die Daten harmonisiert? Werden die Kinderspells (Datensatz spSchool) nur für spätere Wellen verwendet oder auch ggf. zur Ergänzung der Wellen 1-4?

  • Was ist mit Welle 5, wird dort rückwirkend die Elternangabe aus Welle 6 verwendet oder die Spell-Angaben der Kinder? Wenn bei Welle 5 die Elternangaben aus Welle 6 verwendet werden, welcher Monat wird dann als Stichtag für Welle 5 (anstelle des aktuellsten Spells) verwendet?

  • Ab Welle 7: Welcher Monat wird bei der Umwandlung der Spelldaten in Querschnittangaben als Stichmonat der Welle verwendet?

Haben wir eine aktualisierte Dokumentation zu der Variable übersehen? Besonders hilfreich wäre für uns natürlich ein Zugang zum Code, aber vielleicht könnten Sie/ihr uns auch mit einer schriftlichen Antwort weiterhelfen.

Freundliche Grüße und eine schöne Woche

Leo Röhlke

Hallo Leo,

viele dank dafür, dass du dir die Zeit genommen hast, deine Frage hier im Forum zu platzieren. Das ist sehr hilfreich, auch für alle anderen NEPS-Interessierten, die ggf. am gleichen oder einem ähnlichen Thema interessiert sind.

Deine Irritation ist nachvollziehbar, du bist hier sozusagen das Opfer einer Aufbereitungslogik geworden, die wir mit den besten Absichten implementiert haben; aber nicht zu Ende gedacht, denn sie führt ja offensichtlich zu nicht selbsterklärenden Informationen.

Wie du weißt, wurden in der Startkohorte 3 Eltern-Interviews (in denen auch biografische Informationen über den Schulbesuch der NEPS-Kinder erhoben wurden - die finden sich in spParentSchool) in den Wellen 1 bis 4 und 6 durchgeführt. Diese Informationen ist die einzige Quelle für die generierte Schuformvariable in der bis heute verfügbaren Form. Es werden für die Generierung, anders als du vermutest, keine Informationen der späteren CATI-/CAPI-Befragungen mit den NEPS-Fokuspersonen, die das Schulsystem bereits verlassen haben, verwendet.

Die, vereinfacht ausgedrückte, Erzeugungslogik ist dabei wie folgt:

  1. Wir ermitteln die Schulform jedes Kindes zum Zeitpunkt der Schuilbefragung aus der Elternangabe, falls vorhanden.
  2. Wir verallgemeinern die so gesammelten Angaben auf die gesamte NEPS-Klasse, die gemeinsam befragt/getestet wurde (bei wiedersprüchlichen Angaben sticht die Modalausprägung).
  3. Den so ermittelten Wert erhalten alle Kinder der NEPS-Klasse.
  4. Kann für eine Folgewelle eine solche Ermittlung nicht stattfinden, und es ist aber auch nicht klar, dass eine Person die NEPS-Schule bereits verlassen hat, wir der Wert aus der vorherigen Welle eingesetzt.

Es ist der letzte Punkt, der (so glaube ich) Verwirrung stiftet. Das (zum Zeitpunkt der Erzeugung der Variable) Zukunftsszenario, dass es einmal systematisch keine Elternbefragungen mehr geben würde, haben wir dabei nicht ausreichend gewürdigt.

Oder anders gesprochen:

Nein, das stimmt so nicht. Und genau da steckt auch die Ursache, weshalb es bisher nach wie vor „nur“ die bestehende generierte Variable gibt: Im Zweifel braucht es einen plausiblen Umgang mit den dann vorliegenden Parallel-Informationen aus Eltern- und Fokuspersonenbefragung - insbesondere dort, wo es widersprüchliche Angaben gibt… Eine erweiterte, die auch auf die Informationen aus den späteren Fokuspersonenbefragungen zurückgreift, haben wir zwar versucht zu entwickeln, das ist aber aus Kapazitätsgründen vorerst auf Eis gelegt worden. Ich hoffe, wir können Arbeiten daran bald wieder aufnehmen, kann aber nichts versprechen.

Exakt so ist es. Es werden Informationen aus der Retrospektivbefragung der Eltern verwendet; Stichtag ist (wie in den anderen Wellen auch) der Befragungstag der Kinder in der Schule.

Gar nicht. Hier wurden nur für einige Personen Informationen auch in Wellen nach der letzten Elternbefragung fortgeschrieben; sie sind nicht nach Welle 6 nochmals aktualisiert worden. Das ist irreführend, und ich kann nur empfehlen, diese Angaben eher nicht zu verwenden. Sie können korrekt sein, wenn es tatsächlich so ist, dass die betreffenden Personen nach wie vor auf der NEPS-Schule sind; es ist aber durchaus möglich, dass das für einen Teil dieser Gruppe nicht mehr zutrifft, und uns diese Information aber bisher nicht erreichen konnte.

Beste Grüße
Bela

2 „Gefällt mir“

Hallo Bela,

lieben Dank für die ausführliche Antwort, das hilft uns sehr. Wir konstruieren uns dementsprechend eine eigene, erweiterte Schulformvariable, insbesondere für die späteren Wellen, mit einer individuellen Hierarchie bei der Kombination der unterschiedlichen verfügbaren Informationsquellen. Tatsächlich scheinen sich für die meisten Personenjahre genauere Informationen ohne starke Annahmen rekonstruieren zu lassen.

Viele Grüße
Leo