Gesamtdauer von Lehrgängen/Kursen (spCourse: t271001)

Hallos liebes NEPS-Team,

ich arbeite gerade mit dem SUF SC6 12-1-0; genauer bereite ich gerade den spCourses-Datensatz auf.
Dabei bin auf Diskrepanzen zwischen den bereits generierten Angaben zur Gesamtdauer der Lehrgänge und Kurse (t271001) und den Einzelangaben zur Dauer in den jeweils 5 möglichen Kursen gestoßen (t271011_w*).

Der Code, den ich genutzt habe, ist der folgende:

use ${datapath}spCourses${version}.dta, clear

drop if t27800b>=1962 & t27800b<2009 //alle WB vor 2009 raus

*Gesamtlänge der WB (summiert aus den 5 möglichen WB)
mvdecode t271011_w1 t271011_w2 t271011_w3 t271011_w4 t271011_w5, mv(-54,-97,-98)

egen dur = rowtotal(t271011_w*) //Dauer der einzelnen 5 möglichen WB aufsummieren
gen diff = dur-t271001 //Differenz zwischen Original- und zuvor erstellter Variable generieren

sort diff
br ID_t wave t271011_w1 t271011_w2 t271011_w3 t271011_w4 t271011_w5 dur diff t271001

Beim Vergleich der händisch aufsummierten Dauer der 5 möglichen Weiterbildungen und der bereits generierten Dauer (t271001) zeigen sich bei einigen Fällen teils große Unterschiede in den Angaben zur Dauer der Kurse. Habt ihr dazu vielleicht eine Erklärung parat? Oder gibt es eine Empfehlung, welche Angaben „verlässlicher“ sind?

Erneut vielen Dank für Eure Hilfe und viele Grüße
Marco

Hallo Marco,

wenn du vor Berechnung deiner Differenz die fehlenden Werte in der „Gesamtdauer (t271001)“ auch noch wegkodieren würdest, wäre deine Berechnung korrekt.
Allerdings gebe ich dir Recht, dass es dann immer noch sehr viele Unterschiede zwischen den einfachen Summe der Kursdauern und der Gesamtdauer gibt.
Das liegt aber tatsächlich daran, dass diese beiden Maßzahlen nicht direkt miteinander verglichen werden sollten. Wenn du dir die entsprechenden Befragungsinstrumente ansiehst, wirst du feststellen, dass die Gesamtdauer keine irgendwie generierte bzw aus anderen Informationen berechnete Angabe ist, sondern eine Schätzung, die der Befragte selbst vornimmt.
Dass die Schätzungen von tatsächlichen Dauern abweichen, ist in der Forschung hinlänglich bekannt.
Zudem gibt es auch einen inhaltlichen Unterschied, den man hier bedenken sollte:
Während bei der Gesamtdauer der Kurse (t271001) auf alle Kurse, die im letzten Jahr stattgefunden haben (oder auch vorher begonnen haben und im letzten Jahr beendet wurden) Bezug genommen wird, werden nur für maximal 5 aus diesen womöglich deutlich mehr als 5 Kursen detailliertere Nachfragen zu Inhalten und Dauern gestellt. Insofern kann die Summe aus maximal 5 Kursen auch deutlich geringer ausfallen als die Gesamtdauer aller Kurse.
Immerhin ist aber auch für knapp 80% aller Fälle die Differenz = 0. Vielleicht hilft dir eine Umkodierung der Differenz in eine kategoriale Angabe weiter?
Welchen Informationen du letztendlich mehr trauen solltest, kannst natürlich letztendlich nur du selbst beantworten und das hängt natürlich maßgeblich davon ab, in welcher Form du diese Daten weiter aufbereitest und in welche Art von Analyse du sie steckst.
Ich kann dir jedoch schonmal versichern, dass hier datenseitig erstmal kein Berechnungsfehler etc vorliegt, sondern die Informationen vom Befragten selbst stammen.

Hoffentlich konnte ich dir damit wenigstens ein klein wenig weiterhelfen?

Viele Grüße,
Benno

Das bringt auf jeden Fall Licht ins Dunkel.
Dank dir und schöne Feiertage!