„Data sharing hat in der Genomforschung Tradition“
© artbesouro - stock.adobe.com
Am 8. und 9. Juni 2016 veranstalten die TMF und die e:Med Systemmedizin-Forschungsverbünde gemeinsam einen Workshop zum Thema „Best Practice – Sharing and Publishing of Human (Gen)Omics Data“. Im Rahmen des Workshops sollen die Probleme beleuchtet werden, vor die sich nationale und internationale Konsortien hinsichtlich der gemeinsamen Nutzung und Publikation von Forschungsdaten gestellt sehen. Im Vorfeld des Workshops sprach die TMF mit Prof. Dr. Michael Krawczak (Institut für Medizinische Informatik und Statistik, Universitätsklinikum Schleswig-Holstein, Campus Kiel) über Chancen und Herausforderungen einer gemeinsamen Datennutzung und über seine Erwartungen an die Veranstaltung.
Prof. Dr. Michael Krawczak © TMF e.V.
Herr Professor Krawczak, in den letzten Jahren wird intensiv über „data sharing“ und die öffentliche Bereitstellung von medizinischen Forschungsdaten diskutiert. Wie ist die Situation in der Genomforschung?
In der Genomforschung, bei der im Hochdurchsatz große Datenmengen erzeugt werden, gibt es schon eine relativ lange Tradition der gemeinsamen Datennutzung. Dahinter steckt im Wesentlichen die Einsicht, dass angesichts des schwachen bis moderaten Einflusses einzelner genetischer Faktoren auf Volkskrankheiten möglichst große Fallzahlen untersucht werden müssen. Und diese Fallzahlen erzielt man eben nur, wenn Daten geteilt und gemeinsam genutzt werden. Die so genannte „Post-GWAS-Forschung“, die sich derzeit an die Ära der Hochdurchsatz-Genotypisierung anschließt, geschieht überhaupt nur noch in großen Konsortien.
Über einen längeren Zeitraum gab es allerdings die dezidierte Forderung der National Institutes of Health (NIH) der USA, genomische Daten möglichst zeitnah in öffentlichen Repositorien bereitzustellen. Das ging so weit, dass das Teilen von Daten zur zwingenden Voraussetzung für öffentliche Förderung wurde. Man ist da wieder etwas zurückgerudert, weil sich gezeigt hat, dass die möglichen Datenschutzrisiken weder verstanden noch bewältigt waren.
Wie sieht dieses „data sharing“ konkret aus? Wie reagieren die Forscher?
Für mich ist immer noch nicht schlüssig, warum „data sharing“ heißen muss, dass Daten immer auch physikalisch zusammengeführt werden müssen. Ich bin der Ansicht, dass Wissenschaftler und Wissenschaftsmanager mehr über alternative Methoden nachdenken sollten, die keine physikalische Integration der Daten voraussetzen und darüber hinaus die intellektuellen Eigentumsrechte an den Daten unberührt lassen. Die allermeisten Wissenschaftler sind ja bereit, Daten zu teilen – auf individuelle Anfrage und in bilateraler Abstimmung. Diese Bereitschaft stößt aber schnell an Grenzen, wenn „data sharing“ zwingend bedeutet, Daten – und damit auch die Verfügungsgewalt über diese Daten – abzugeben.
Wissenschaftler sind insbesondere dann bereit, Daten zu teilen, wenn sie aus den Daten schon einen wesentlichen Nutzen für ihre eigene Arbeit – und sagen wir ruhig: auch für ihre eigene Karriere – gezogen haben. Ich glaube aber nicht, dass viele Wissenschaftler bereit wären, umfangreiche Investitionen in die Erzeugung von Daten zu tätigten, um diese dann von Anfang an in große Konsortien oder Datenbanken einzubringen.
Das sieht man ganz deutlich an der bereits erwähnten Post-GWAS-Forschung: Dabei dreht sich alles um große Datenbestände, teilweise auch aus Konsortien, die hinsichtlich der primären Fragestellung – dem Suchen nach genetischen Risikofaktoren für eine bestimmte Erkrankung – schon „abgearbeitet“ sind. Publikationen sind bereits erfolgt, wodurch die Bereitschaft zum Teilen der Daten verständlicherweise groß ist. Auf diese Art der Nachnutzung zielen letztendlich ja auch die Initiativen von Förderorganisationen wie der DFG ab. Daten einer vernünftigen Nachnutzung zuzuführen bedeutet eben nicht Teilen von Anfang an. Je weiter nachgelagert die Nutzung ist, umso bereiter sind Wissenschaftler zum Teilen ihrer Daten.
Ist die gemeinsame Datennutzung nicht eigentlich im Sinne des Patienten?
Natürlich ist es im Sinne der Patienten, wenn ihre Daten auf die bestmögliche Art und Weise wissenschaftlich genutzt werden. Aber die Frage ist, wie die Entscheidung über die Datennutzung ausgestaltet ist und welche Einwilligung ihr zugrunde liegt.
In der Regel hängt die Teilnahme an Studien und die Bereitschaft der Patienten, Daten und Biomaterial hierfür bereitzustellen, stark an der jeweiligen Institution. Wenn Patienten nicht explizit gefragt wurden, ob ihre Daten nach der Forschung an dieser Institution an große Konsortien gehen dürfen, ist es problematisch, ein Einverständnis mit dieser Weitergabe einfach zu unterstellen. Man kann nicht voraussetzen, dass der Patientenwille sich auch auf jede Form einer nachgelagerten Nutzungen erstreckt, insbesondere dann nicht, wenn die Entscheidung über Art und Umfang der Nachnutzung nicht mehr bei den Institutionen liegt, denen sie ursprünglich zur Verfügung gestellt wurden.
Kann man sagen, wie hoch das Risiko ist, dass eine Person in so einer großen Datenbank identifiziert werden kann?
Je umfangreicher, reichhaltiger und individueller Daten sind, die zu einer Person in einer Datenbank gespeichert wurden, umso größer ist die Wahrscheinlichkeit, individuelle Einträge in einer solchen Datenbank re-identifizieren zu können. Das gilt übrigens nicht nur für genomische Daten. Oft sind die Daten selbst aber gar nicht das Problem, sondern die Möglichkeit, durch sie auf andere, kritische Daten zuzugreifen, deren Nutzung durch die ursprüngliche Einwilligung nicht gedeckt ist. Gerade „omics“-Daten sind so reichhaltig und spezifisch, dass deren Zuordnung zu einem (personenbezogenen) Referenzdatensatz schon mit einem relativ kleinen Ausschnitt der Daten möglich ist.
Allerdings bleibt bei diesen Überlegungen die Frage: Was hätte man davon? Und wie kommt man an personenbezogene Teildaten? Theoretisch ist vieles möglich, in der Praxis aber ist das meiste davon nicht eben einfach. Der technische Aufwand zur Erzeugung oder Beschaffung von „omics“-Daten – auch in Teilen – ist noch immer relativ hoch.
Man spricht von öffentlicher Bereitstellung von Forschungsdaten. Was heißt denn das, sind diese Daten einfach so im Internet?
Nach meiner Einschätzung sind Datensammlungen, wenn sie wissenschaftlich seriös sind, nicht einfach im Internet verfügbar. Alle großen Datenbanken, die ich kenne, erfordern das Durchlaufen von Anmelde- und Authentifizierungsverfahren mit entsprechenden Kontrollen. Öffentliche Bereitstellung heißt normalerweise nicht, dass Daten offen herumliegen.
Welche methodischen Herausforderungen bringt die gemeinsame Datennutzung mit sich?
Schon allein die Tatsache, dass dabei auf große Fallzahlen abgezielt wird, zeigt, dass es um schwache Effekte mit wenig Aussagekraft über das einzelne Individuum geht. Und auch hinsichtlich der biologischen Mechanismen, die dem Krankheitsgeschehen zugrunde liegen, sind die Daten in der Regel nicht besonders aussagekräftig.
Der Befund einer genetischen Variante, die das Risiko für eine Volkskrankheit von fünf auf sechs Prozent erhöht, mag zwar statistisch signifikant sein. Es ist aber extrem unwahrscheinlich, dass sich hinter diesem Effekt ein einfach aufzudeckender biologischer Mechanismus verbirgt. Nur wenige genetische Risikofaktoren haben so starke Effekte, dass man damit etwas über die zugrunde liegenden Mechanismen aussagen könnte. Diese Einsicht hat sich allerdings erst im Laufe der Zeit eingestellt. Bei chronisch-entzündlichen Darmerkrankungen spielen z.B. hunderte genetische Faktoren eine Rolle, jeder wahrscheinlich auf eine andere Art und Weise. Deren präzise Mechanismen aufzudecken, ist extrem schwierig, und große Datenmengen allein werden uns bei der Aufklärung nicht mehr weiterhelfen. Vielmehr ist experimentelle Arbeit erforderlich, z.B. mit in vitro- oder Tiermodellen, oder es muss im Sinne der Systemmedizin viel theoretisches Vorwissen eingebracht werden.
Was erwarten Sie von dem Workshop im Juni?
Ich erwarte zunächst einmal eine Bestandsaufnahme der Problematik, weil es meiner Erfahrung nach hierzu zu wenig Dialog gegeben hat, weder zwischen IT-Experten und Forschern noch mit Ethikern, Datenschützern und Juristen. Der Workshop soll diese Gruppen zusammenbringen, gerade vor dem Hintergrund der Herausforderungen der e:Med-Forschungsverbünde. Also einfach gesagt: Jeder erzählt mal, wo ihn der Schuh drückt und wie er die Sache sieht. Meine Hoffnung ist, dass am Ende alle eine bessere gemeinsame Sicht auf das Problem haben und das Treffen Ausgangspunkt einer engeren Zusammenarbeit der verschiedenen beteiligten Gruppen wird.
Herr Professor Krawczak, wir danken für das Gespräch.
Das Interview führte Antje Schütt.
Prof. Dr. Michael Krawczak ist Direktor des Instituts für Medizinische Informatik und Statistik, Christian-Albrechts-Universität zu Kiel, und Vorstandsvorsitzender der TMF.
Weiterführende Informationen