Codierung ts15291_g4 und tf00260_g4 SC3

Liebes Forum4Mica,

ich möchte gerne untersuchen, wie sich der Berufswunsch des Kindes darauf auswirkt, dass es diesen im Verlauf der Klassenstufe 9 bis 12 oder nach dem Schulabgang in einer handwerklichen Ausbildung realisiert/ bzw. in eine handwerkliche Ausbildung einmünden. Dafür möchte ich meine AV in 0 Andere Berufe und 1 Handwerksberufe codieren. Bei ts15291_g4 startet es leider erst in Klasse 11, bei tf00260_g4 schon ab Klasse 9, was für meine Analyse super wäre.

Woher kommen die hohen systembedingten Missings bei beiden Variablen? Mir ist auch aufgefallen, dass bei ts15291_g4, also der Berufsbezeichnung des Kindes, die Angabe bei der Variable nicht immer mit ID_t und wave übereinstimmen. Beide Variablen haben einen hohen Missing-Anteil von über 90%. Wie gehe ich damit um?

Viele Grüße,

Johannes

Lieber Johannes,

ich hoffe, die Antwort kommt nicht zu spät und versuche mal zu ordnen, auch wenn mir dein Vorgehen noch nicht ganz klar ist.

a) ts15291_g4 fragt im spVocTrain nach den Ausbildungsepisoden. D.h. hier findest du alle Ausbildungen der Befragten, unabhängig von der erhobenen Welle. Mit Hilfe der harmonisierten Spells (subspell==0) und den Start- und Endzeitpunkten der jeweiligen Episode, könntest du die Ausbildungsphasen also an jedes Datum z. B. ans Interviewdatum anspielen. (Hilfe hierzu findest du hier im Forum unter dem Stichwort “Episodensplitting” oder im Video-Tutorial “merging Checkliste” [1]. D.h. auch wenn eine Ausbildung vor der erhobenen Welle gestartet ist, wird diese entgegen der Wellenlogik abgebildet.

b) Berufswünsche findest du auch in den Berufsaspirationen t31060a_g und t31160a_g*, falls diese auch für dich relevant sein könnten. Oder auch die Frage nach dem gewünschten Ausbildungsberuf te08010_g* „In welchem Ausbildungsberuf würden Sie am liebsten eine Ausbildung aufnehmen?“. [2]

c) Die Systemmissings kommen durch vorgeschaltete Filter zustande, die in tf00260 ab Welle 8 im Modul “Berufsvorbereitung” genutzt werden und in ts15291 durch den Start ins Ausbildungsmodul [3].

Wenn du näheres zu deinem Zielformat erzählst, könnte ich versuchen genauer zu antworten. Ich bin ab dem 6. Oktober wieder online.

Viele Grüße

Gregor

[1] NEPS Tutorials

[2] https://variablesearch.lifbi.de/

[3] https://www.neps-data.de/Portals/0/NEPS/Datenzentrum/Forschungsdaten/SC3/Feldversionen/NEPS_SC3_SurveyInstruments_Field_w8_de.pdf

1 „Gefällt mir“

Hallo Gregor, vielen Dank für deine Antwort. Das hilft mir weiter.
Für die Analyse wurden Daten der NEPS Starting Cohort 3 verwendet, konkret die Wellen 6 bis 12, die SchülerInnen ab Klassenstufe 9 sowie Schulabgänger umfassen. Die Datensätze CohortProfile, pParent und pTarget wurden mittels 1:1-Merge zusammengeführt, um sowohl Angaben der Kinder als auch ihrer Eltern zu berücksichtigen.

Fehlende Werte wurden durch Multiple Imputation by Chained Equations (MICE) behandelt. Es wurden 20 Imputationen nach einem Burn-In von 20 Iterationen durchgeführt, um Informationsverluste zu minimieren, auch darunter meine AV tf0021b_g4 Ausbildung (ISCO‐08), da der hohe Anteil an MV.

Die zentralen unabhängigen Variablen sind die persönlichen Interessen der Jugendlichen (erfasst über RIASEC/IILS, dreistufig kodiert) sowie ihr Berufswunsch (ISCO-08, kategorisiert in fünf Berufsgruppen). Kontrollvariablen umfassen den sozioökonomischen Status des Elternhauses (ISEI in drei Quantilen), die Informiertheit über die berufliche Zukunft, den Bewerbungsberuf, die Schulform und das Geschlecht.

Die Analysestrategie kombiniert binär logistische Regressionen mit sukzessiver Modellaufnahme sowie Ereignisdatenanalysen (Kaplan-Meier-Schätzungen und Piecewise-Constant-Exponentialmodelle), um den zeitlichen Verlauf des Übergangs in handwerkliche Ausbildung abzubilden.

Ich hoffe, du kannst nun meinem Vorgehen besser folgen.

Viele Grüße,
Johannes

Mich interessiert, ob ich korrekt mit den fehlenden Werten und dem Imputieren umgegangen bin. Es ist wahrscheinlich ein Trade-Off. Anders jedenfalls hätte ich m.E. die Analysen nicht durchführen können. Tf0021b_g4 hat durchgehend hohe MV-Anteile, ist aber zentral und unverzichtbar für meine Fragestellung.