Ich arbeite mit Textdaten und habe festgestellt, dass sich meine Ergebnisse deutlich verändern, je nachdem, wie ich die Daten vorverarbeite, zum Beispiel durch Stopword-Entfernung, Stemming oder Lemmatisierung. Ich hatte schon mit gewissen Unterschieden gerechnet, aber nicht in diesem Ausmaß. Würdet ihr das eher als normale Analyseentscheidung sehen oder als Datenqualitätsproblem, das man expliziter diskutieren sollte?
Ich würde das auf jeden Fall als etwas ansehen, das man explizit diskutieren sollte. Vorverarbeitung wird oft als rein technischer Vorbereitungsschritt dargestellt, in der Praxis beeinflusst sie aber mit, was die Daten überhaupt messen. Wenn sich die Ergebnisse zwischen mehreren plausiblen Vorverarbeitungsschritten deutlich verändern, deutet das darauf hin, dass die Befunde sensibel gegenüber der Art sind, wie das Rohmaterial transformiert wird.
Das bedeutet nicht unbedingt, dass die Daten schlecht sind. Aber es bedeutet, dass die Analyse nicht unabhängig von diesen Entscheidungen ist. Deshalb sollten die Vorverarbeitungsschritte nicht als neutrale Standardeinstellungen behandelt, sondern transparent gemacht werden.
Ich würde in so einem Fall mehrere sinnvolle Vorverarbeitungspipelines vergleichen und fragen, welche Entscheidungen für die konkrete Fragestellung theoretisch gut begründet sind, welche möglicherweise Informationen entfernen, die ich eigentlich brauche, und ob die inhaltliche Schlussfolgerung stabil bleibt .
Wenn sich die Antwort je nach Vorverarbeitung verändert, würde ich das als Teil der Qualitätsbewertung berichten.