Dataversion
v41
Data Set
pgen
Please describe your problem
Mir ist aufgefallen, dass in den Daten für das Jahr 2023 auffällig viele „[-2] trifft nicht zu“ Fälle bei der Variable pgnace2 auftreten. Die Branchenangaben waren für Arbeitnehmer zum Beispiel 2019 noch sehr zuverlässig und gut dokumentiert. Wieso ist der Anteil der fehlenden Werte mittlerweile so hoch und gibt es da eine Lösung, wie man trotzdem an die Branchenangabe kommt?
Durch die Fort- und Rückschreibung mit anderen Befragungswellen kann ich den Missings-Anteil bisher nur auf 14 Prozent senken.
Die Beobachtung ist leider zutreffend.
Eigentlich soll in jedem zweiten Jahr die Branche (und der aktuelle Beruf ) für alle Erwerbstätigen erhoben werden. In den Zwischenjahren werden die entsprechenden Fragen nur bei Berufswechsel gestellt. Darüber hinaus sollten Erstbefragte immer über aktuellen Beruf und Branche Auskunft geben. Wenn keine Berufswechsel berichtet werden, erfolgt für die Zwischenjahre dann eine Fortschreibung der aktuellen Branche in PGEN mit Informationen aus dem Vorjahr.
Durch Fehler bei der Erhebung ist bei den zweijährlichen Vollerhebungen eine Lücke entstanden, gleichzeitig wurden auch die Erstbefragten nicht nach dem aktuellen Beruf gefragt. Das führt dann dazu, dass es weniger gültige Werte für Berufs- und Branchenvariablen (pgnace2, pgisco08, pgkldb2010) als in Vorjahren gibt.
Im Erhebungsjahr 2024 für (die v41 der SOEP-Core-Daten) gibt es für alle Befragten eine Kompletterhebung des aktuellen Berufs mit über 21000 kodierten Angaben zur aktuellen Branche und zum Beruf.
Die Frage wurde übrigens hier schon beantwortet: Variable zum Beruf (pgisco08)