SC4: Migrationsbezogene Bildungsungleichheiten

Ann-Kathrin · 27. Februar 2023 um 16:01

Liebes NEPS-Team,

ich habe 2 Fragen:

Meine erste Frage lautet: Wie kann ich verschiedene Ausprägungen einer Variable zusammenfassen? Konkret geht es um die Variable t400500_g1. Hier möchte ich den Migrationshintergrund kodieren und verwende hierfür die gängige Definition, dass ein Jugendlicher Migrationserfahrung aufweist, wenn mindestens ein Elternteil im Ausland geboren ist. Also maximal die 2,5. Generation. Aus diesem Grund möchte ich gerne die Ausprägungen 6-10 dieser Variable mit der Auspärgung 0 zusammenfassen und diese dann als kein Zuwanderungshintergrund bezeichnen.
Meine zweite Frage wäre, wie man am Besten den Übergang von der Schule in eine betriebliche Ausbildung abbilden kann. Ich möchte gerne die Einmündungschancen für Jugendlichen mit Migartionshintergrund in eine Ausbildung verglichen zu Jugendlichen ohne Migrationshintergrund untersuchen und habe hierfür keine passende Variable gefunden. Meine Idee wäre anhand der Vorstellungsgespräche (tf0028a) eine mögliche ungleiche Behandlung zu analysieren. Ich denke aber nicht, dass diese Lösung optimal ist. Evtl. habt ihr noch andere Vorschläge?

Vielen Dank
Ann-Kathrin

tobias.koberg · 28. Februar 2023 um 20:27

Hi Ann-Kathrin!

zur ersten Frage:

// Stata
recode t400500_g1 (0 6/10=1) (else=0), gen(t400500_g1N)
tab t400500_g1 t400500_g1N

#R
library(dplyr)
pTarget$t400500_g1N <- case_when(pTarget$t400500_g1 %in% c(0,6:10) ~ 1, .default =0)
table(pTarget$t400500_g1, pTarget$t400500_g1N)

/* SPSS */
RECODE  t400500_g1 (0 6 thru 10=1) (else=0) INTO t400500_g1N.
CROSSTABS
/TABLES=t400500_g1 BY t400500_g1N.

Deine zweite Frage wird dir sicher auch noch beantwortet werden

Ann-Kathrin · 1. März 2023 um 10:25

Hi Tobias,

vielen Dank für deine Nachricht! Das Umkodieren hat sehr gut geklappt. Ich hätte noch eine weitere Frage und zwar würde ich gerne die Datensätze von pCourseClass, pTarget und pTargetCATI in einen Datensatz zusammenfassen. Ich habe hierfür die Datensätze schon aufbereitet, da ich jeweils nur eine handvoll Variablen benötige (ich schreibe nur eine Masterarbeit:)). Die Datensätze pTarget und pTargetCATI konnte ich gut zusammenführen mit der Variable ID_t und wave, aber bei dem Datensatz mit pCourseClass ist das für mich nicht möglich, da ich keine übereinstimmende Variable gefunden habe. Gibt es hier eine Möglichkeit auch noch diesen Datensatz in den bereits gemergten Datensatz mit aufzunehmen?

Vielen Dank
Ann-Kathrin

tobias.koberg · 1. März 2023 um 17:21

Du warst schon auf dem richtigen Weg, du müsstest nur noch den Umweg über CohortProfile gehen, damit du alle relevanten Variablen an einer Stelle zusammen hast:

global path "Z:\SUF\Download\SC4\SC4_D_12-0-0\Stata14"

use "${path}\SC4_pCourseClass_D_12-0-0.dta", clear
// Duplikate entfernen, so dass jede Klasse nur einmal vorhanden ist
keep if ex20100==1 
tempfile pCourseClass
save `pCourseClass'

use	"${path}\SC4_CohortProfile_D_12-0-0.dta", clear

merge m:1 ID_t wave using "${path}\SC4_pTargetCATI_D_12-0-0.dta", ///
	nogen keep(master match) keepusing(t31253a th10025 tf11209 t323080)

merge m:1 ID_t wave using "${path}\SC4_pTarget_D_12-0-0.dta", ///
	nogen keep(master match) keepusing(t400500_g1 tf00040 tf0035b ///
                        tf0035c t412010 t412020 t731320 t731370)
	
merge m:1 ID_cc wave using `pCourseClass', ///
	nogen keep(master match) keepusing(ID_e e451010 e22740f ef0001c)

Ann-Kathrin · 3. März 2023 um 11:05

Hi Tobias,

vielen Dank für deine Hilfe! Das mergen hat gut funktioniert. Ich habe mittlerweile meine benötigten Variabeln definiert und wollte eine erste Regression versuchen. Hier ist das Problem aufgetreten, dass die Regression nur mit 2 Variablen funktioniert und mit der dritten Variable zeigt es die Fehlermeldung „no observations“ an. Weißt du woran das liegen könnte?

Vielen Dank
Ann-Kathrin

tobias.koberg · 3. März 2023 um 15:40

„no obsevations“ → Du hast keine Fälle mehr in der durch die Variablen definierten Subpopulation.

Ohne mir das im Detail angeschaut zu haben, liegt es vermutlich daran, dass du Variablen verwendest, die in unterschiedlichen Wellen erhoben wurden. Du kannst das überprüfen, indem du alle Variablen miteinander (und/oder mit der Variable „wave“) kreuztabellierst.

An den Stellen, wo das dann nicht der Fall ist, musst du dir überlegen, nach welcher Logik du die Information weitertransportierst. Zum Beispiel könntest du fehlende Werte durch den Wert aus der Vorwelle ersetzen oder du arbeitest nur im Querschnitt und reduzierst vorher die Struktur der Datensätze von einer Panelstruktur (Zeile definiert durch ID_t und wave) in eine Querschnittsstruktur (Zeile definiert durch ID_t).

hans.gerhardt · 7. März 2023 um 10:58

Liebe Ann-Kathrin,
der Übergang von der Schule in die Ausbildung wird im NEPS sehr detailliert erhoben. Das NEPS ermöglicht es dadurch beispielsweise, den Übergang im Längschnitt von Berufswunsch über Bewerbungsverhalten bis hin zur realisierten Ausbildung nachzuzeichnen wie das beispielsweise Schels, Kleinert und Kolleginnen machen (2020, 2022). Wie genau du den Übergang operationalisierst, hängt also vor allem von deiner Fragestellung ab.

Die Grundinformationen zum Lebensverlauf, also der tatsächlich realisierte Übergang, werden längsschnittlich in einem Episodenformat erhoben. In den SUF-Daten liegen die Daten im spell-Format in den Files mit sp-Präfix (Zur beruflichen Bildung: spVocTrain-Datenfile). Als Operationalisierung wäre beispielsweise denkbar zu überprüfen, ob Befragte im Jahr nach dem verlassen der Haupt-/Real-/Sekundarschule eine Berufliche Ausbildung, einen weiteren Schulbesuch, eine Übergangsaktivität oder etwas anderes (Arbeitslosigkeit, ungelernt Jobben etc.) gemacht haben. Das Aufbereiten der Längsschnittdaten ist jedoch nicht ganz einfach. Ich habe mal quick and dirty ein codeschnipsel von einem meiner Datenaufbereitungsprojekte auf deine Fragestellung angepasst. Vielleicht hilft dir das ja als Grundlage.

********************************************************************************
* Do-File Übergang Schule in Ausbildung
* Hans Gerhardt
clear all

global neps_data "M:/group/DSI/NEPS/Erhebungsdaten_intern/" 

********************************************************************************
global cohort "SC4"
global version "D_12-0-0"
global suf  "$neps_data/SUF SC4/SUF SC4_D_12-0-0_20211206/Stata14"

********************************************************************************
* Biography-file als Grundlage für die Arbeit mit den Episodendaten
use "$suf/${cohort}_Biography_${version}", clear

********************************************************************************
* Informationen zur Schulbiografie aus spSchool
merge 1:m ID_t splink using "$suf/${cohort}_spSchool_${version}", ///
	keep(match master) nogen ///
	keepusing(subspell ts11204 ts11209 ts11209)
drop if subspell != 0 & sptype == 22 // ich nutze nur die harmonisierten/vollständigen Spells aus dem Schuldatensatz, diese sind als subspell = 0 abgelegt
drop subspell

// Besuchte Schulform / Schulabschluss
fre ts11204 ts11209

// Beispiel Operationalisierung: Was machen Befragte 9 Monate nach Hauptschulabschluss/MSA?
gen marker = 1 if inlist(ts11209,1,2,3) // markierung relevante Datenzeilen

// nur ersten Abschluss markieren
gen enddatum = ym(endy,endm)
bys ID_t marker (enddatum): replace marker = . if _n != 1 // nur ersten abschluss markieren

// Übertragung auf alle spells pro person, um in späteren Analyseschritten auf infos zurück greifen zu können
bys ID_t (marker): gen datum_erster_abschluss = enddatum[1] 
bys ID_t (marker): gen art_erster_abschluss = ts11209[1] 
bys ID_t (marker): gen note_erster_abschluss = ts11209[1]
format datum_erster_abschluss %tm 

// Nur Episoden behalten, die früher 9 Monate nach letztem Abschluss angefangen haben und zu dem Zeitpunkt noch andauern
keep if ym(starty,startm) < (datum_erster_abschluss+9) & (datum_erster_abschluss+9)<= ym(endy,endm)

// Parallele Episoden identifizieren
bys ID_t: gen parallel_episodes = _N
fre parallel_episodes
fre sptype if parallel_episodes >= 2
list ID_t parallel_episodes sptype if parallel_episodes >= 2, sepby(ID_t)

* Entscheidung Welche der parallen Episoden soll gelöscht werden
* kleinere Prio = wird vorrangig behalten
fre spms
recode spms -55 = 2 2 = 3, gen(prio1)
fre sptype
recode sptype 24 = 1 23 = 2 22 = 3 25 = 4 27 = 5 29 = 6 26 = 7 30 = 8 99 = 9, gen(prio2)

// Eine Episode pro Person behalten
bys ID_t (prio1 prio2 splink): keep if _n == 1 
drop parallel_episodes prio1 prio2 ts11209 ts11204 enddatum marker

** Was machen Befragte 9 Monate nach erstem Hauptschulabschluss/MSA?
fre sptype

** Jetzt könntest du Über spVocTrain auch noch genauere Angaben zur Art der Ausbildung ranmergen
merge 1:m ID_t splink using "$suf/${cohort}_spVocTrain_${version}", ///
	keep(match master) nogen keepusing(relevante Variablen)
fre subspell
drop if subspell != 0 & sptype == 24 // ich nutze nur die harmonisierten Spells aus den anderen Spell-Datensätzen, diese sind als subspell = 0 abgelegt

Im pTarget-file liegen die Daten aus den sogenannten Übergangsmodulen. Die Befragten werden entsprechend ihrer Angaben zum Lebensverlauf (Episodenstruktur) nochmal speziell in die für die passenden Fragen zur aktuellen Situation gefiltert (Jahr vor dem Übergang, im ersten Jahr der Ausbildung, im letzten Jahr der Ausbildung, nach dem Übergang in den Job) und nochmal detailliert nach Merkmalen des Übergangs gefragt. Für die SC4 gibt es dafür leider noch keine Dokumentation, aber die Erhebung erfolgt in der SC3 sehr ähnlich und wird im Data-Manual der SC3 beschrieben (Kapital zu School-to-Training/Work Transitions). Das aktualisierte Data Manual ist fast fertig und soll zeitnah veröffentlicht werden. Die Frage die du im do-file aktuell verwendest ist eine dieser Fragen aus dem Modul zum Übergang in die Ausbildung, die den Befragten während ihrer Schulzeit gestellt werden.

Wie Tobias schon geschrieben hat, würde ich dir auch empfehlen im Querschnitt zu arbeiten. Das heißt, pro Person nur eine Zeile, und nicht mit allen Wellen zu arbeiten.

Ich hoffe ich konnte etwas weiterhelfen

Hans

Literaturangaben

Kleinert, C., & Schels, B. (2020). Zurück zur Norm? Kompromissbildung zwischen geschlechtstypischen und -untypischen Berufsaspirationen, Bewerbungs- und Ausbildungsberufen. Köln Z Soziol, 72(Suppl 1), 229–260. https://doi.org/10.1007/s11577-020-00668-1
Schels, B., Kleinert, C., Fischer-Browne, M. & Ahrens, L. (2022). Compromises between Occupational Aspirations and VET Occupations — a Contribution to the Reproduction of Social Inequalities?. Zeitschrift für Soziologie, 51(2), 154-173. https://doi.org/10.1515/zfsoz-2022-0011

hans.gerhardt · 7. März 2023 um 12:00

Noch eine Ergänzung: Die NEPS-Daten sind wirklich recht komplex. Vielleicht kommt für deine Fragestellung auch die BIBB-Schulabgänger*innen-Befragung infrage. Die Datenaufbereitung und Operationalisierung dürfte da wesentlich einfacher sein. https://www.bibb.de/de/1392.php

Ann-Kathrin · 11. April 2023 um 13:47

Liebes NEPS-Team,

ich habe noch eine kurze Frage zum Mergen. Ich habe bereits einen Datensatz erstellt mit Variablen aus pTarget, pTargetCATI, pCourseClass und spSchool. Und ich möchte jetzt gerne die Variable „Betriebsgröße“ aus dem Datensatz spVocTrain an meinen bereits erstellten Datensatz mergen.

grafik

Ich erhalte bei diesem Code die Fehlermeldung „variables ID_t wave do not uniquely identify observations in the using data“.

Könnt ihr mir sagen woran das liegt?

Vielen Dank
Ann-Kathrin