Einkommensvariablen, Startkohorte 6

Ich arbeite mit Daten der SC6 im RemoteNEPS.
Für die Berechnung von Armutsindikatoren spielen insbesondere die Einkommensvariablen für mich eine Rolle. Hierzu auch meine Frage:
 
Es geht um die drei Variablen aus pTarget: 
t510010
t510011_g1
sowie
t510010_g1
 
In Variable t510010 sind Missings codiert in -97 vorhanden. In Variable t510010_g1 sind diese zum Teil falls möglich aufgefüllt bis auf einige Übrige, welche mit -55 codiert sind. Ich habe leider keine Dokumentation dazu gefunden, wie die fehlenden Werte aufgefüllt wurden. Mir scheint, dass Variable t510011_g1 dazu verwendet wurde.

--

Mich interessiert außerdem, wie die Variable ts23410_g1 aus dem spEmp-Datensatz geschätzt wurde. Wo kann ich hierzu die Dokumentation finden?

Können Sie mir mitteilen, wie Sie die fehlenden Werte aufgefüllt haben und mir die Stelle der Dokumentation darüber nennen?

Du hast keine detaillierte Dokumentation zu der Thematik gefunden, weil sie bisher nicht existiert; ein Handbuch der Datenaufbereitung, das en détail dokumentiert, wie von uns generierte Variablen zustande kommen, ist seit langer Zeit angedacht, bisher aber aus Zeitgründen noch nicht entstanden.

Für die Einkommensfragen (sowohl für Erwerbs- als auch Haushaltseinkommen; die Erläuterung unten verwendet die Variablennamen für das Haushaltseinkommen aus pTarget, gilt aber analog auch für die Erwerbseinkommens-Angaben aus spEmp) in SC6 gilt folgender Sachverhalt:

- Einkommensangaben werden zunächst offen erfragt
- Wenn die Befragten keine Angaben machen, wird in einer zweistufigen "Einkommenswippe" versucht, das Einkommen in 500-Euro-Schritten (falls unter 3000 Euro) bzw. 100-Euro-Schritten (falls über 3000 Euro) zu erfragen.

Soweit so gut; im Ergebnis sorgt das im Datensatz allerdings dafür, dass die Einkommensangaben in 5 getrennten Variablen auftauchen; das sind:

(1) die offene Angabe, falls angegeben (t510010)
(2) die "Wippe" mit der groben Angabe "unter 1500", "1500 bis unter 3000", "3000 und mehr", falls angegeben (t510011)
(3) die drei kategorialen Angaben mit den detail-Informationen aus der jeweiligen Gruppe gemäß (2) (t510012, t510013, t510014).

Um den Umgang mit den Informationen aus diesen 5 Variablen zu erleichtern, haben wir zwei generierte Variablen erzeugt, die sie in eine Variable integrieren:

(A) t510011_g1 enthält alle Angaben gesammelt in der kategorialen, feingliedrigen Abstufung; Angaben aus der offenen Angabe sind in die jeweilige Kategorie überführt; sollte jemand zwar die grobe Einkommenswippe (t510011) beantwortet haben, aber dann keine feingliedrige Antwort mehr gegeben haben, können solche Angaben hier nicht integriert werden und erhalten den Missing-Code -55 ("nicht ermittelbar").

(B) t510010_g1 enthält alle Angaben gesammelt in einer künstlichen metrischen Variable. Die Auffüll-Logik ist dabei wie folgt:
- liegt eine offene Angabe vor, wird sie verwendet
- liegt nur eine kategoriale Angabe vor, so wird der empirische Median aus den offenen Angaben, die innerhalb der jeweiligen Kategorie liegen, ermittelt und eingesetzt. Ist also bspw. die kategoriale Angabe "2500 bis unter 3000 Euro" genannt, ermitteln wir den Median der offenen Angaben im Intervall [2500,3000); dieser Median wird eingesetzt.
- Personen, die das Item komplett verweigert haben, erhalten den selben Missing-Code wie in den original-Angaben.

Das Verfahren aus (B) wird von mehreren größeren deutschen Befragungen (bspw. dem ALLBUS oder dem PASS) so oder sehr ähnlich angewendet, manchmal mit der Variation, die Klassenmitte oder das arithmetische Mittel an Stelle des Medians zu verwenden. Es ist zu beachten, dass die resultierenden Angaben (1) die Varianz der wahren Werte naturgemäß unterschätzen, weil für alle Personen mit der kategorialen Angabe X der gleiche Wert in die Variable eingefügt wird; (2) es sich hier um _keine_ Imputation der Einkommensangaben handelt -- wenn Befragte die Angaben zum Einkommen komplett verweigern, kann auch dieses Verfahren keine Angabe ermitteln. Ein multiples Imputationsverfahren ist der einzige Weg, dies zu umgehen; dessen Ausgestaltung ist aber abhängig von der Fragestellung, die mit den Daten untersucht werden soll.