„Data sharing hat in der Genomforschung Tradition“
Interview mit Prof. Dr. Michael Krawczak zur gemeinsamen Nutzung und Publikation von genetischen Daten – Workshop von TMF und e:Med im Juni
Prof. Dr. Michael Krawczak
Mai 2016. Am 8. und 9. Juni 2016 veranstalten die TMF und
die e:Med Systemmedizin-Forschungsverbünde gemeinsam einen Workshop zum Thema
„Best Practice – Sharing and Publishing of Human (Gen)Omics Data“. Im Rahmen
des Workshops sollen die Probleme beleuchtet werden, vor die sich nationale und
internationale Konsortien hinsichtlich der gemeinsamen Nutzung und Publikation von
Forschungsdaten gestellt sehen. Im Vorfeld des Workshops sprach die TMF mit
Prof. Dr. Michael Krawczak (Institut für Medizinische Informatik und Statistik,
Universitätsklinikum Schleswig-Holstein, Campus Kiel) über Chancen und
Herausforderungen einer gemeinsamen Datennutzung und über seine Erwartungen an
die Veranstaltung.
 |
|
Eine Kurzfassung des Interviews erscheint in der
Juni-Ausgabe der Zeitschrift E-Health-Com. |
|
|
|
Herr Professor
Krawczak, in den letzten Jahren wird intensiv über „data sharing“ und die
öffentliche Bereitstellung von medizinischen Forschungsdaten diskutiert. Wie
ist die Situation in der Genomforschung?
In der Genomforschung, bei der im Hochdurchsatz große
Datenmengen erzeugt werden, gibt es schon eine relativ lange Tradition der
gemeinsamen Datennutzung. Dahinter steckt im Wesentlichen die Einsicht, dass angesichts
des schwachen bis moderaten Einflusses einzelner genetischer Faktoren auf
Volkskrankheiten möglichst große Fallzahlen untersucht werden müssen. Und diese
Fallzahlen erzielt man eben nur, wenn Daten geteilt und gemeinsam genutzt
werden. Die so genannte „Post-GWAS-Forschung“, die sich derzeit an die Ära der Hochdurchsatz-Genotypisierung
anschließt, geschieht überhaupt nur noch in großen Konsortien.
Über einen längeren Zeitraum gab es allerdings die dezidierte
Forderung der National Institutes of Health (NIH) der USA, genomische Daten möglichst
zeitnah in öffentlichen Repositorien bereitzustellen. Das ging so weit, dass
das Teilen von Daten zur zwingenden Voraussetzung für öffentliche Förderung
wurde. Man ist da wieder etwas zurückgerudert, weil sich gezeigt hat, dass die
möglichen Datenschutzrisiken weder verstanden noch bewältigt waren.
Wie sieht dieses „data
sharing“ konkret aus? Wie reagieren die Forscher?
Für mich ist immer noch nicht schlüssig, warum „data
sharing“ heißen muss, dass Daten immer auch physikalisch zusammengeführt werden
müssen. Ich bin der Ansicht, dass Wissenschaftler und Wissenschaftsmanager mehr
über alternative Methoden nachdenken sollten, die keine physikalische
Integration der Daten voraussetzen und darüber hinaus die intellektuellen
Eigentumsrechte an den Daten unberührt lassen. Die allermeisten Wissenschaftler
sind ja bereit, Daten zu teilen – auf individuelle Anfrage und in bilateraler
Abstimmung. Diese Bereitschaft stößt aber schnell an Grenzen, wenn „data
sharing“ zwingend bedeutet, Daten – und damit auch die Verfügungsgewalt über
diese Daten – abzugeben.
Wissenschaftler sind insbesondere dann bereit, Daten zu
teilen, wenn sie aus den Daten schon einen wesentlichen Nutzen für ihre eigene
Arbeit – und sagen wir ruhig: auch für ihre eigene Karriere – gezogen haben. Ich
glaube aber nicht, dass viele Wissenschaftler bereit wären, umfangreiche
Investitionen in die Erzeugung von Daten zu tätigten, um diese dann von Anfang
an in große Konsortien oder Datenbanken einzubringen.
Das sieht man ganz deutlich an der bereits erwähnten Post-GWAS-Forschung:
Dabei dreht sich alles um große Datenbestände, teilweise auch aus Konsortien,
die hinsichtlich der primären Fragestellung – dem Suchen nach genetischen Risikofaktoren
für eine bestimmte Erkrankung – schon „abgearbeitet“ sind. Publikationen sind
bereits erfolgt, wodurch die Bereitschaft zum Teilen der Daten verständlicherweise
groß ist. Auf diese Art der Nachnutzung zielen letztendlich ja auch die Initiativen
von Förderorganisationen wie der DFG ab. Daten einer vernünftigen Nachnutzung
zuzuführen bedeutet eben nicht Teilen von Anfang an. Je weiter nachgelagert die
Nutzung ist, umso bereiter sind Wissenschaftler zum Teilen ihrer Daten.
Ist die gemeinsame
Datennutzung nicht eigentlich im Sinne des Patienten?
Natürlich ist es im Sinne der Patienten, wenn ihre Daten auf
die bestmögliche Art und Weise wissenschaftlich genutzt werden. Aber die Frage
ist, wie die Entscheidung über die Datennutzung ausgestaltet ist und welche
Einwilligung ihr zugrunde liegt.
In der Regel hängt die Teilnahme an Studien und die
Bereitschaft der Patienten, Daten und Biomaterial hierfür bereitzustellen,
stark an der jeweiligen Institution. Wenn Patienten nicht explizit gefragt wurden,
ob ihre Daten nach der Forschung an dieser Institution an große Konsortien
gehen dürfen, ist es problematisch, ein Einverständnis mit dieser Weitergabe einfach
zu unterstellen. Man kann nicht voraussetzen, dass der Patientenwille sich auch
auf jede Form einer nachgelagerten Nutzungen erstreckt, insbesondere dann
nicht, wenn die Entscheidung über Art und Umfang der Nachnutzung nicht mehr bei
den Institutionen liegt, denen sie ursprünglich zur Verfügung gestellt wurden.
Kann man sagen, wie
hoch das Risiko ist, dass eine Person in so einer großen Datenbank identifiziert
werden kann?
Je umfangreicher, reichhaltiger und individueller Daten
sind, die zu einer Person in einer Datenbank gespeichert wurden, umso größer
ist die Wahrscheinlichkeit, individuelle Einträge in einer solchen Datenbank re-identifizieren
zu können. Das gilt übrigens nicht nur für genomische Daten. Oft sind die Daten
selbst aber gar nicht das Problem, sondern die Möglichkeit, durch sie auf
andere, kritische Daten zuzugreifen, deren Nutzung durch die ursprüngliche
Einwilligung nicht gedeckt ist. Gerade „omics“-Daten sind so reichhaltig und spezifisch,
dass deren Zuordnung zu einem (personenbezogenen) Referenzdatensatz schon mit
einem relativ kleinen Ausschnitt der Daten möglich ist.
Allerdings bleibt bei diesen Überlegungen die Frage: Was hätte
man davon? Und wie kommt man an personenbezogene Teildaten? Theoretisch ist
vieles möglich, in der Praxis aber ist das meiste davon nicht eben einfach. Der
technische Aufwand zur Erzeugung oder Beschaffung von „omics“-Daten – auch in
Teilen – ist noch immer relativ hoch.
Man spricht von
öffentlicher Bereitstellung von Forschungsdaten. Was heißt denn das, sind diese
Daten einfach so im Internet?
Nach meiner Einschätzung sind Datensammlungen, wenn sie
wissenschaftlich seriös sind, nicht einfach im Internet verfügbar. Alle großen
Datenbanken, die ich kenne, erfordern das Durchlaufen von Anmelde- und
Authentifizierungsverfahren mit entsprechenden Kontrollen. Öffentliche
Bereitstellung heißt normalerweise nicht, dass Daten offen herumliegen.
Welche methodischen
Herausforderungen bringt die gemeinsame Datennutzung mit sich?
Schon allein die Tatsache, dass dabei auf große Fallzahlen
abgezielt wird, zeigt, dass es um schwache Effekte mit wenig Aussagekraft über das
einzelne Individuum geht. Und auch hinsichtlich der biologischen Mechanismen,
die dem Krankheitsgeschehen zugrunde liegen, sind die Daten in der Regel nicht
besonders aussagekräftig.
Der Befund einer genetischen Variante, die das Risiko für
eine Volkskrankheit von fünf auf sechs Prozent erhöht, mag zwar statistisch
signifikant sein. Es ist aber extrem unwahrscheinlich, dass sich hinter diesem
Effekt ein einfach aufzudeckender biologischer Mechanismus verbirgt. Nur wenige
genetische Risikofaktoren haben so starke Effekte, dass man damit etwas über die
zugrunde liegenden Mechanismen aussagen könnte. Diese Einsicht hat sich allerdings
erst im Laufe der Zeit eingestellt. Bei chronisch-entzündlichen
Darmerkrankungen spielen z.B. hunderte genetische Faktoren eine Rolle, jeder
wahrscheinlich auf eine andere Art und Weise. Deren präzise Mechanismen
aufzudecken, ist extrem schwierig, und große Datenmengen allein werden uns bei
der Aufklärung nicht mehr weiterhelfen. Vielmehr ist experimentelle Arbeit
erforderlich, z.B. mit in vitro- oder Tiermodellen,
oder es muss im Sinne der Systemmedizin viel theoretisches Vorwissen eingebracht
werden.
Was erwarten Sie von
dem Workshop im Juni?
Ich erwarte zunächst einmal eine Bestandsaufnahme der
Problematik, weil es meiner Erfahrung nach hierzu zu wenig Dialog gegeben hat,
weder zwischen IT-Experten und Forschern noch mit Ethikern, Datenschützern und
Juristen. Der Workshop soll diese Gruppen zusammenbringen, gerade vor dem
Hintergrund der Herausforderungen der e:Med-Forschungsverbünde. Also einfach gesagt:
Jeder erzählt mal, wo ihn der Schuh drückt und wie er die Sache sieht. Meine Hoffnung
ist, dass am Ende alle eine bessere gemeinsame Sicht auf das Problem haben und
das Treffen Ausgangspunkt einer engeren Zusammenarbeit der verschiedenen
beteiligten Gruppen wird.
Herr Professor
Krawczak, wir danken für das Gespräch.
Das Interview führte Antje Schütt.
Prof. Dr. Michael Krawczak ist Direktor des Instituts für
Medizinische Informatik und Statistik, Christian-Albrechts-Universität zu Kiel,
und Vorstandsvorsitzender der TMF.
Weitere Informationen
- Workshop „Best Practice – Sharing and Publishing of Human (Gen)Omics Data“ am 8./9. Juni 2016 in Berlin - Informationen & Anmeldung