Anonymisierung und Zahl an Datenpunkten bei Präsentation von Fall-Profilen

Liebe NEPS-Gemeinde,
da ich sowohl auf Anonymiserung als auch auf die Präsentation „echter“ Fallprofile einen großen Wert lege (und Profile außerdem zentral meine Forschungsfragen betreffen), würde mich interessieren, wie ich in Artikeln und Präsentationen korrekt anonymisiere.

Konkreter Fall: Ich habe mit k-Medoids cluster gebildet und jeder Medoid ist ja dann (im Gegensatz zu k-Means) ein tatsächliches Individuum.

Dieses würde ich natürlich aufgrund seiner exemplarischen Stellung gerne Porträtieren.

Zwei Ideen meinerseits:

  • Ich bleibe unter einer bestimmten Zahl von Datenpunkten z.B. max. 4-6 (Alter, Gechlecht, Behinderungsstatus, letzter Bildungsabschluss, …)
  • Ich „verwische“ die Daten, wo möglich z.B. Alter „zwischen 40 und 50“ , Abschluss „ISCED-Stufe 3“
  • eine Kombination aus beidem

Gibt es offizielle Richtlinien zur Anzahl von Datenpunkten?

Eigentlich glaube ich nicht, dass jemand aufgrund der von mir verwendeten Informationen identifiziert werden könnte.

Aber es gibt in mindestens einem Bereich immer mindestens eine Person die schlauer ist als ich selbst; also frage ich sicherheitshalber euch noch einmal um Rat.

Mit bestem Dank und Gruß

Simon

Lieber Simon,

wichtig ist, sich an die Vereinbarungen aus dem Datennutzungsvertrag zu halten.

Das sind in erster Linie hier zwei Punkte:

§9 (2) „[…] insbesondere dürfen Veröffentlichungen keine Rückschlüsse auf im Rahmen des NEPS befragte Personen, Haushalte oder Institutionen zulassen.“
Das heißt, du solltest z.B. durch die von dir genannten Punkte darauf achten, dass keine derartigen Rückschlüsse auf Individuen möglich sind. Was das konkret bedeutet, lässt sich so pauschal schwer beantworten. Eine konkrete Mindestanzahl von Datenpunkten in Veröffentlichungen fordern wir allerdings nicht.

§2 (4) „Der Datenempfänger verpflichtet sich, die Daten nicht, auch nicht in modifizierter Form, an Dritte weiterzugeben oder diesen zugänglich zu machen.“
Außerdem solltest du also darauf achten, dass der Umfang deiner Veröffentlichung nicht zu einer Datenweitergabe wird. Um einen Extremfall zu skizzieren: Wenn in deinem Beispiel alle vorhanden Merkmale zur Clusterbildung herangezogen werden und in jedem Cluster nur eine Person übrig bleibt (also die Anzahl der Cluster gleich der Anzahl der Personen ist), würde eine Veröffentlichung der Clustermerkmale ja einer Veröffentlichung des Datensatzes gleichkommen. Das wäre auf jeden Fall gegen die Bestimmungen im Datennutzungsvertrag.

Letztlich liegt es in deiner Hand, hier maß- und verantwortungsvoll zu handeln. Wenn du dir nicht sicher bist, kannst du uns als FDZ im Zweifelsfall auch gerne deine Präsentation überprüfen lassen, falls das nötig erscheint.

Viele Grüße,
Tobias

1 „Gefällt mir“

Danke Tobias,
für deine Einschätzung und für das Vertrauen.
Dann werde ich das im Sinne der von mir genannten Anonymisierungsprozesse einfach bestmöglich umsetzen.
Beste Grüße
Simon