Liebe NEPSforum-NutzerInnen,
für meine Bachelorarbeit verwende ich die Daten der SC6 und benötige unterschiedliche Variablen aus vier Teildatensätzen. Beim Mergen haben sich einige "Probleme" ergeben.
Zuvor ein paar Infos zu meiner Fragestellung und der Analysestichprobe, die ich mit den Daten anstrebe. Ich untersuche den Einfluss der Digitalkompetenz (ICT Literacy Test) auf das Netto-Erwerbseinkommen einer Person und welchen zusätzlichen Einfluss dabei die individuelle Bildung, das Alter, das Geschelcht, der aktueller Beruf, der Migrationshintergrund und die Absolvierung einer Weiterbildung auf diesen Zusammenhang nehmen. Aufgrunddessen soll meine Analysestichprobe nur Personen beinhalten, die diese Merkmale erfüllen.
Ich habe dafür diese Teildatensätze Schritt für Schritt gemergt:
SC6_Basics_D_9-0-1.dta;
SC6_xTargetCompetencies_D_9-0-1.dta,
SC6_spEmp_D_9-0-1.dta und
SC6_spCourses_D_9-0-1.dta.
Mit Hilfe der Merging Matrix (https://www.neps-data.de/de-de/datenzentrum/datenunddokumentation/startkohorteerwachsene/dokumentation.aspx), die ihr auf der Website zu Verfügung stellt, habe ich die vier Teildatensätze gemergt. Mein Hauptproblem: beim 2. Mergen bilden sich dann Dubletten.
Folgende Fragen habe ich zum untern angehängten Do-File:
- Zuerst, ist der von mir gewählte Ansatz zu mergen korrekt?
- Warum passiert das mit den Dubletten? Liegt es daran, dass spEmp und spCourses Episodendaten beinhalten und wie gehe ich damit um?
- Wie kann ich, dass sich Doubletten bilden, im Voraus verhindern?
- Alternativ: wie kann ich die Dubletten löschen und den Überblick darüber behalten, was gelöscht wird?
- Wäre Reshapen von long auf wide eine Option, um die Dubletten verschwinden zu lassen?
- Oder ist "duplicates drop ID_t, force" eine Option?
- Wenn ja, wann ist es am sinnvollsten dies zu tun? - Direkt nach dem mergen oder nachdem die benötigten Variablen recodiert und die Missings gedropt wurden? Ich habe nämlich festgestellt, dass die Fallzahlen stark variieren, je nach dem, wann ich die Dubletten droppe.
Ich hoffe, meine Fragen sind nachvollziehbar.
Vielen Dank im Voraus für die Hilfe!
Liebe Grüße
Rebecca
use SC6_Basics_D_9-0-1.dta /* use as master file*/
*** 1. Merge: Basics und xTargetCompetencies ***
merge 1:1 ID_t using "HIER EIGNEN PFAD EINFÜGEN\SC6_xTargetCompetencies_D_9-0-1.dta"
keep ID_t t70000y t700001 tx29005 tx28101 tx29068 ica5001x_c ica5003x_c ica5005x_c ///
ica5004s_c ica5006x_c ica5007x_c ica5008x_c ica5010x_c ica5017s_c ica5018s_c ica5015s_c ///
ica5019x_c ica5016s_c ica5020s_c ica5023x_c ica5027x_c ica5026x_c ica5029x_c ica5028x_c ///
ica5030x_c icg9119x_sc6a5_c ica5050s_c icg9122x_sc6a5_c ica5047s_c ica5046x_c ica5021s_c ///
ica5052s_c ica5054x_c ica5057x_c ica5_sc1
*** 2. Merge: Basics_XTargetCompetencies.dta MIT spEmp.dta ***
merge 1:m ID_t using "HIER EIGNEN PFAD EINFÜGEN\SC6_spEmp_D_9-0-1.dta"
keep ID_t wave splink t70000y t700001 tx29005 tx28101 tx29068 ica5001x_c ///
ica5003x_c ica5005x_c ica5004s_c ica5006x_c ica5007x_c ica5008x_c ica5010x_c ///
ica5017s_c ica5018s_c ica5015s_c ica5019x_c ica5016s_c ica5020s_c ica5023x_c ///
ica5027x_c ica5026x_c ica5029x_c ica5028x_c ica5030x_c icg9119x_sc6a5_c ica5050s_c ///
icg9122x_sc6a5_c ica5047s_c ica5046x_c ica5021s_c ica5052s_c ica5054x_c ica5057x_c ///
ica5_sc1 ts23410
*Hiernach entstehen dann die Dubletten
*** 3. Merge: Basics_xTargetCompetencies_spEmp.dta MIT spCourses.dta ***
merge m:1 ID_t wave splink using "HIER EIGNEN PFAD EINFÜGEN\SC6_spCourses_D_9-0-1.dta"
keep ID_t wave splink t70000y t700001 tx29005 tx28101 tx29068 ica5001x_c ///
ica5003x_c ica5005x_c ica5004s_c ica5006x_c ica5007x_c ica5008x_c ica5010x_c ///
ica5017s_c ica5018s_c ica5015s_c ica5019x_c ica5016s_c ica5020s_c ica5023x_c ///
ica5027x_c ica5026x_c ica5029x_c ica5028x_c ica5030x_c icg9119x_sc6a5_c ica5050s_c ///
icg9122x_sc6a5_c ica5047s_c ica5046x_c ica5021s_c ica5052s_c ica5054x_c ica5057x_c ///
ica5_sc1 ts23410 t272011_g13w1
/*Duplicates über ID_t löschen
duplicates report ID_t
duplicates drop ID_t, force
duplicates report ID_t
Dazu die Frage, ob die Dubletten direkt nach dem Mergen gedroppt werden sollten
oder erst nachdem ich die Variablen recodiert und die Missing Values gelöscht habe?*/
****************
* Ende Do-File *
****************
save Datensatz_merged.dta
log close
exit
end of do-file