Datenqualität muss stärker in den Fokus der Wissenschaft rücken
Der Workshop unter der Leitung von Prof. Dr. Carsten Oliver Schmidt hat sich intensiv mit dem Thema Datenqualität auseinandergesetzt. © TMF e.V.
Uneinheitliche Datenstandards, Datenfehler sowie intransparente Wege der Datenaufbereitung und -darstellung sind wesentliche Stolpersteine in den Gesundheits- und Lebenswissenschaften. Um Handlungsfelder für einen systematischeren und transparenteren Umgang mit Datenqualität zu definieren, kamen vom 17.-18. November 2022 rund 140 Expertinnen und Experten aus Fachgesellschaften, Dateninitiativen und Verbänden zum ersten gemeinsamen hybriden Workshop in Deutschland zu diesem Thema in Berlin zusammen. „Datenqualität muss stärker in den Fokus wissenschaftlichen Arbeitens rücken“, fordert der Organisator des Workshops Prof. Dr. Carsten Oliver Schmidt von der Universität Greifswald. „Wir brauchen einen systematischeren und transparenteren Umgang mit Datenqualität und initialen Datenanalysen, um die Gesundheits- und Lebenswissenschaften effizienter und transparenter zu gestalten.“
Datenqualitätsbewertungen müssen ein transparenter Teil wissenschaftlichen Arbeitens werden
Auf dem Workshop unterstrichen die Datenwissenschaftlerinnen und -wissenschaftler deshalb, dass strukturierte Datenqualitätsbewertungen ein bedeutender Teil jeder wissenschaftlichen Studie sein sollten. Die Ergebnisse dieser Bewertungen sollten möglichst nachnutzbar verfügbar und transparent dargestellt werden. Ausrichter der Veranstaltung waren die Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), die Technologie- und Methodenplattform für die vernetzte medizinische Forschung (TMF), die Deutsche Gesellschaft für Epidemiologie (DGEpi), die Deutsche Region der Internationale Biometrische Gesellschaft (IBS-DR), die Deutsche Gesellschaft für Sozialmedizin und Prävention (DGSMP), die internationale Initiative STRengthening Analytical Thinking for Observational Studies (STRATOS) sowie das Konsortium Nationale Forschungsdateninfrastruktur für personenbezogene Gesundheitsdaten (NFDI4Health), die den Workshop mit Mitteln der Deutschen Forschungsgemeinschaft förderte.
Selbst Mittelgeber und wissenschaftliche Zeitschriften fordern keine Transparenz zur Datenqualität
Der Umgang mit Datenqualität in den Gesundheitswissenschaften ist durch ein beeindruckendes Paradoxon gekennzeichnet. Einerseits hängt jede belastbare wissenschaftliche Arbeit und Aussage zu drängenden Fragen hinsichtlich Gesundheit, Krankheit, Prävention, Therapie und Krankheitsfolgen von einer hohen Datenqualität ab. Andererseits steht das Thema Datenqualität in der Breite der Gesundheits- und Lebenswissenschaften nicht ausreichend im Fokus.
Unzureichende Datenhaltung, fehlende Nutzung von Standards und wenig aussagekräftige Beschreibungen von Datensätzen sind wichtige Gründe dafür, dass viele Datenwissenschaftlerinnen und Datenwissenschaftler einen großen Teil ihrer Zeit darauf verwenden, auswertbare Datenkörper zu schaffen. „Das verschwendet unnötigerweise Ressourcen und schafft Fehlerpotenziale“, konstatiert Dr. Nicole Rübsamen, Sprecherin der AG Epidemiologische Methoden der DGEpi. Ein Teil des Problems ist, dass es keinen konsentierten Methodenkanon zur Erfassung und Beschreibung von Datenqualitätsproblemen gibt. Eine systematische und transparente Beschreibung von Datenqualität wird zudem weder von Mittelgebern, noch von wissenschaftlichen Zeitschriften eingefordert.
„Eine systematische Berichterstattung über Aktivitäten zur Überprüfung und Aufbereitung von Daten im Vorfeld der eigentlichen statistischen Analysen fehlt oder ist oft nicht nachvollziehbar“ ergänzt Prof. Marianne Hübner von der Michigan State University und Co-Sprecherin der STRATOS Initiative. In Anlehnung an die Leitlinien zum Reporting von Studien in den Gesundheitswissenschaften, koordiniert vom EQUATOR Netzwerk in Oxford, sollten daher etwa Kriterien zur Beschreibung von Datenqualität erstellt werden. Für überprüfte Datensätze könnte dies grundsätzlich in Form strukturierter Berichte erfolgen, um nachvollziehbare Einblicke zu erlauben, sind sich Rübsamen, Hübner und Schmidt einig.
Eine systematische Berichterstattung über Aktivitäten zur Überprüfung und Aufbereitung von Daten im Vorfeld der eigentlichen statistischen Analysen fehlt oder ist oft nicht nachvollziehbar.
Handlungsoptionen liegen vor, werden aber unzureichend genutzt
Forschung und Lehre berücksichtigen bestehende Handlungsoptionen noch zu wenig. Diese reichen von Datenstandards über Datenqualitätskonzepten bis hin zu Software zur Erleichterung von Datenqualitätsbewertungen. Vor diesem Hintergrund bot der durchgeführte Workshop ein Forum zur Diskussion effizienterer und transparenterer Gestaltungsprozesse. Gleichzeitig verdeutlichte er die Notwendigkeit weiterer Abstimmungen, um ein besser harmonisiertes Vorgehen in der Forschungspraxis zu erreichen. „Die TMF Arbeitsgruppe Datenqualität und Transparenz der TMF e.V. hat es sich deshalb in Kooperation mit weiteren nationalen und internationalen Gesellschaften und Netzwerken zum Ziel gesetzt, Empfehlungen, Standards und Werkzeuge zur Qualitätssicherung und Datenbewertungen weiterzuentwickeln“ so Carsten Oliver Schmidt, der die Arbeitsgruppe leitet.
Wissenschaftlicher Ansprechpartner
Prof. Dr. Carsten Oliver Schmidt (Universitätsmedizin Greifswald)
Tel.: +49 3834 867713
E-Mail: carsten.schmidt@uni-greifswald.de
Pressekontakt
Wiebke Lesch (TMF e.V.)
Tel.: +49 30 2200 24731, Mobil: +49 177 2663257
E-Mail: presse@tmf-ev.de, Twitter: @tmf_eV