News

Sichere Daten­verarbeitungs­umgebungen (SPE) für medi­zinische Daten

Bedarf in Deutschland und Erfahrungen aus dem europäischen Ausland

Die Teilnehmenden des SPE-Workshops in Berlin

© TMF e.V.

Am 4. November 2024 tauschten sich Vertreterinnen und Vertreter der Projekte genomDE und der Medizininformatik-Initiative (MII) sowie Expertinnen und Experten von CSC Finnland, Genomics England und des Schweizer Instituts für Bioinformatik bei einem gemeinsamen Workshop in Berlin aus. Bei der von der TMF e.V. organisierten Veranstaltung nahmen zudem die Bundesministerien für Gesundheit sowie Bildung und Forschung, das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) und das Robert Koch-Institut (RKI) teil. Dabei wurden Anforderungen an und die Erfahrungen mit sicheren Datenverarbeitungsumgebungen (Secure Processing Environment – SPE) aus Sicht der Forschung und der genommedizinischen Versorgung diskutiert.­

Sebastian C. Semler, TMF-Geschäftsführer und Leiter der Koordinationsstellen für genomDE und die MII, stellte eingangs dar, inwiefern eine SPE in bestimmten Gesetzgebungen verpflichtend vorgesehen ist: Im Europäischen Gesundheitsdatenraum (EHDS) ist Sekundärdatennutzung nach jetzigem Stand ausschließlich über eine SPE möglich. Die EU-Kommission wird voraussichtlich 2025 einen Implementing Act erlassen, der Weiteres regeln wird. Im deutschen Gesundheitsdatennutzungsgesetz (GDNG) ist festgelegt, dass Kriterien entwickelt werden sollen, wie zukünftig eine Datenverknüpfung durch eine SPE erfolgen kann.

Was ist eine SPE?

Es gibt bislang keine einheitliche Definition einer SPE. Man kann SPEs als sichere und regulierte Datenverarbeitungsinfrastrukturen bezeichnen, die Versorgenden und Forschenden den Zugang zu sensiblen Gesundheitsdaten ermöglichen und die Sicherheit der Daten angemessen wahren. In den Vorträgen wurden verschiedene Definitionen genannt. 

SPE im Modellvorhaben Genomsequenzierung 

Prof. Dr. Thomas Berlage vom Fraunhofer FIT berichtete von den Ergebnissen eines ersten Workshops zu den Anforderungen an SPEs aus Use Cases der genommedizinischen Versorgung und Forschung. Er betonte, dass insbesondere im Modellvorhaben Genomsequenzierung die wissensgenerierende Versorgung nur in sicheren Datenverarbeitungsumgebungen erreicht werden kann. Für die Verarbeitung der Genomdaten können hier bereits die Entwicklungen des Deutschen Humangenom-Phänomarchivs (GHGA) genutzt werden. 

Für Datendienste als zentrales Nutzungskonzept im Modellvorhaben Genomsequenzierung sind noch viele offene Fragen zu klären. Ziel sei die föderierte Verarbeitung durch alle klinischen und genomischen Datenknoten. Geklärt werden müsse auch eine Datenzusammenführung (Linkage) mit Daten aus den klinischen Krebsregistern und den Forschungsdatenzentren inklusive der Einbeziehung von Kassendaten. Angedacht werden könne hier z. B. eine separate Recheninstanz mit Statistiktools und einem Broker-Zugriff auf Datenquellen. 

Anforderungen aus klinischer Perspektive

Dr. Philipp Breitfeld, UKE Hamburg, präsentierte das Modell einer sicheren lokalen Forschungsdatenumgebung (Trusted Research Environment, TRE). Für klinische Routinedaten brauche es eine sichere Arbeitsumgebung und einen sicheren Zugang zu komplexen Daten für eine präzisere Forschung unter Einhaltung von Datenschutz und gesetzlichen Anforderungen. Wichtig sei darüber hinaus eine effiziente Bereitstellung von Rechenressourcen und einer Kooperationsplattform.

Ergebnisse einer Befragung der Nachwuchsforschungsgruppe BENEFIT der MII zeigen, dass Klinikerinnen und Kliniker einen niederschwelligen Datenzugang fordern und in ihrem Forschungsworkflow unterstützt werden wollen. Sie wollen die Möglichkeit haben, interdisziplinär zusammenzuarbeiten, klinische Nutzerinnen und Nutzer in die Forschung einzubinden und auf spezialisierte Software zuzugreifen. Technische Anforderungen an eine TRE betreffen unter anderem Skalierbarkeit (Bereitstellung einer flexiblen Infrastruktur innerhalb der TRE vor dem Hintergrund wachsender Datenmengen und höherer Nutzerzahlen), Interoperabilität sowie Datensicherheit und -schutz (z. B. Sicherheitsprotokolle, Zugriffskontrollen).

Das UKE in Hamburg habe mit der sogenannten Forschungsplattform „Datenhotel“ einen Lösungsansatz entwickelt. Hier sei es möglich, individuelle Forschung mit pseudonymisierten Daten aus der lokalen Regelversorgung auf Basis landesrechtlicher Vorgaben durchzuführen. Das „Datenhotel“ diene unter anderem der Generierung und/oder der vereinfachten, datenschutzkonformen Überprüfung von wissenschaftlichen Forschungsfragen. Eine sogenannte Transferstelle exportiere vom Nutzer angeforderte, von der Treuhandstelle pseudonymisierte Daten in einen dem Nutzer zur Fragestellung zugewiesenen Raum. Im „Datenhotel“ sind die klinischen Daten aus dem lokalen Krankenhausinformationssystem (KIS) nur temporär aufrufbar und können nicht heruntergeladen werden. Der Zugang erfolgt nur über besonders geschützte Computer.

Im Hinblick auf die Weiterentwicklung von TREs betonte er, dass die Verarbeitung von Big Data, maschinelles Lernen sowie der Export von KI-Modellen und Algorithmen in die geschützten Datenverarbeitungsumgebungen noch an Grenzen stoße. Diese Funktionen sollten in Zukunft integriert werden. Eine Zusammenarbeit mit externen Organisationen sei wünschenswert. 

Differenzierte Betrachtung des Schutzbedarfes von Genom- und Bilddaten

Prof. Dr. Michael Krawczak, UKSH, stellte vor, dass der Schutzbedarf genomischer Daten auf den ersten Blick hoch sei, da von einer Re-Identifizierung ein Risiko für Stigmatisierung und Diskriminierung nicht nur für die betroffene Person, sondern auch für ihre Verwandtschaft ausgehen kann. Er wies jedoch darauf hin, dass für die Interpretation genomischer Daten ein hohes wissenschaftliches Fachwissen notwendig sei und dass generell die Schutzwürdigkeit von verschiedenen genomischen Datenkategorien differenziert betrachtet werden sollte. Die Gesamtgenom-Sequenz habe beispielsweise einen höheren Schutzbedarf als SNP (Single Nucleotide Polymorphisms).

Prof. Dr. Tobias Penzkofer von der Charité – Universitätsmedizin Berlin ergänzte, dass der Schutzbedarf von Bilddaten ebenfalls hoch sei. Diese enthielten eine große Menge an identifizierenden Informationen, zum Beispiel anatomische, pathologische oder demographische Hinweise und oft weitere Metadaten. Bilddaten und ihre potentiell identifizierbaren Merkmale könne man in unterschiedliche Schutzkategorien untergliedern. Technische Lösungen, wie Defacing, Metadaten-Ersatz, aber auch organisatorische Lösungen (Verarbeitung durch qualifiziertes Personal) könnten diese Daten schützen. Es sei nötig, sich diesen Problemen zu stellen und wirksame Maßnahmen zu ergreifen.  

SPE des Forschungs­daten­zentrums im BfArM

Dr. Christian Brachem vom BfArM stellte vor, wie beim Forschungsdatenzentrum (FDZ) Gesundheit Abrechnungsdaten der gesetzlich Krankenversicherten (ambulant und stationär) und ePA-Daten in einer SPE bereitgestellt werden sollen. Das FDZ Gesundheit schätzte den Schutzbedarf der DaTraV-Daten nach den Kriterien des Bundesamts für Sicherheit in der Informationstechnik (BSI) als „hoch“ ein. Das BfArM stehe weiterhin in enger Abstimmung mit dem BSI und der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI). Das FDZ betreibt ein eigenes Rechenzentrum mit eigener Infrastruktur, das Zonen mit hohem und niedrigem Schutzbedarf trennt. Forschende stellen über das Antragsportal einen Antrag auf Datennutzung und erhalten bei Genehmigung Zugang zu der sicheren Verarbeitungsumgebung (virtualisierter Browser). Dort liegen Testdaten, während die Echtdaten ausgelagert sind. Nur die Ergebnismenge kann das System der Echtdaten verlassen und dem Forschenden bereitgestellt werden. Dafür ist jeweils eine manuelle Prüfung notwendig. Für die Verknüpfung mit Genomdaten bestehe momentan keine gesetzliche Grundlage. Hauptkriterien, die für eine SPE beachtet werden sollten, seien die Stärkung des Datenschutzes und der IT-Sicherheit, mehr Transparenz und Sichtbarkeit sowie ein forschungsfreundlicher Workflow.

Erfahrungen aus Finnland, England und der Schweiz

Im Anschluss demonstrierten Beispiele aus Finnland, England und der Schweiz, wie Forschende in anderen europäischen Ländern in sicheren Datenverarbeitungsumgebungen auf nationale medizinische Datensammlungen zugreifen können.

Dr. Augusto Rendon von Genomics England erklärte, dass in England fünf Sicherheitsaspekte für SPEs gelten: safe people, safe projects, safe setting, safe data und safe outputs. Als Partner des National Health Service (NHS) wird bei Genomics England die Mehrheit der Services in privaten Clouds, u. a. bei Amazon, umgesetzt. Genutzt werden HL7-FHIR und NSH Standards. Er präsentierte die National Genomic Research Library, die aus einer Partnerschaft von National Health Service (NHS) England and Genomics England besteht.

Forschende haben Zugang zu einer sicheren Datenverarbeitungsumgebung über einen virtuellen Desktop. Dadurch seien Datensicherheit und Zugangskontrolle zu Services und Daten gewährleistet. Alle Analysen werden in der sicheren Datenverarbeitungsumgebung durchgeführt. Aggregierte Ergebnisse können die sichere Datenverarbeitungsumgebung verlassen, nicht jedoch Rohdaten. Die Forschungsplattform ist Cloud-basiert. Sie sei kostenpflichtig und nur teilweise durch Steuermittel finanziert. Die Kosten für die gesamte Infrastruktur schätzt er auf ca. 10 Millionen Pfund pro Jahr.

Heikki Lehväslaiho erläuterte den Ansatz des CSC – IT Center for Science aus Finnland, einem Non-Profit-Unternehmen, das dem finnischen Staat und den Universitäten gehört. CSC bietet Cloud Computing Services in jeweils eigenentwickelten Cloud-Systemen. Es gibt sowohl einen virtuellen privaten Cloud-Service („ePouta“), der nur über das interne Netzwerk einer Organisation verfügbar ist, als auch „Sensitive Data Services“, die on-demand übers Internet verfügbar sind und den gesamten Forschungszyklus unterstützen sowie Zusammenarbeit ermöglichen. Lehväslaiho berichtete von den langjährigen Erfahrungen mit SPEs in Finnland und warnte insbesondere davor, zentralistische Ansätze zu wählen. Aus seiner Sicht seien föderierte Ansätze – auch auf europäischer Ebene – unumgänglich. Um föderierte Systeme zum Erfolg zu führen, sei wiederum das Identitätsmanagement von entscheidender Bedeutung. 

Dr. Julia Maurer, Schweizer Institut für Bioinformatik (SIB), erläuterte, dass in der Schweiz ein dezentraler Ansatz gewählt wurde, bei dem Daten nur für Forschungsprojekte in sichere Knotenpunkte transferiert werden. Die sichere Forschungsumgebung des BioMedIT Networks bestehe aus drei physischen Knotenpunkten, die eine sichere Cloudumgebung und IT-Unterstützung für die Forschung bieten. Forschende erhalten nur die Analyseergebnisse, keine Daten. Sie stellte außerdem das Swiss Federated Genomics Network (SFGN) vor, das der Schweizerische Knotenpunkt für das European Genome-Phenome Archive ist und einen genomischen Datensatz erstellt. Sie hob hervor, dass vor allem gute Governance-Rahmenbedingungen für eine SPE notwendig seien sowie die Bereitschaft aller Stakeholder, die Öffentlichkeit einzubeziehen und die Kommunikation zu stärken, um die Akzeptanz der Bürgerinnen und Bürger zu erhalten.

Fazit

Der von der TMF organisierte Workshop bündelte die Expertise der beiden Initiativen genomDE und MII sowie weiterer nationaler Entwicklungen bei Behörden und Universitäten zum Thema SPE und zeigte den Vergleich zum europäischen Ausland auf. Es wurde deutlich, dass sowohl auf nationaler Ebene als auch im europäischen Raum noch viele Fragen zu SPEs ungelöst sind. Dazu zählen Anforderungen an die Föderierung von SPEs und die Frage nach den Betriebskosten und -aufwänden. Im Weiteren ist außerdem zu diskutieren, welche Funktionalitäten einer SPE priorisiert werden sollten. Die Teilnehmenden waren sich einig, dass modulare Systeme, die skalierbar und interoperabel sind, zu bevorzugen sind. Als Koordinationsstelle für genomDE und die MII wird die TMF die Erarbeitung von Anforderungen an eine SPE aus wissenschaftlicher Sicht weiterhin unterstützen.