„Die Qualität der Analyseergebnisse hängt von der Qualität der Eingangsdaten ab.“
© ST.art - stock.adobe.com
Neue Messverfahren und Fortschritte in der medizinischen Bild‐ und Signalanalyse führen zu einer stetig zunehmenden Menge an Bild‐ und Biosignaldaten. Durch die bisher praktizierte interaktive und manuelle Inspektion von Bild- und Biosignaldaten können die erzeugten Datenvolumina bereits heute nicht mehr adäquat ausgewertet werden. Analysen mit Big Data-Technologie können hier weiterhelfen. Allerdings hängt die Qualität der Ergebnisse stark von der Qualität der Eingangsdaten ab. Um hierfür Lösungen zu entwickeln, ist Prof. Krefting deshalb gemeinsam u.a. mit der TMF und der Deutschen Gesellschaft für Schlafforschung und Schlafmedizin aktuell an einem Forschungsantrag zum Thema "Management und Analyse großer Datenmengen (Big Data)" beteiligt.
Prof. Dr. Dagmar Krefting (HTW Berlin) © TMF e.V.
Was ist das Ziel des Big-Data Projekts und was sind dabei die zentralen Fragestellungen?
Bei dem Projekt geht es darum, sowohl technische als auch organisatorische Lösungen zur Sicherung der Ergebnisqualität von Big Data Verfahren im Bereich der medizinischen Bild‐ und multidimensionalen Sensordatenanalyse zu entwickeln. Die Standardtechnologien der Big Data Analyse kommen dabei zum Einsatz und werden um Funktionalitäten für das Qualitätsmanagement und die Datensicherheit erweitert. Wir wollen uns in dem Projekt vor allem auf Bilddaten aus der Pathologie und auf Biosignaldaten aus der Schlafforschung konzentrieren.
Daten‐ und rechenintensive Anwendungen aus der medizinischen Bild‐ und Signalverarbeitung wurden bisher durch eine Integration in verteilte Grid‐ und Cloud-Infrastrukturen realisiert. Welche neuen Möglichkeiten bringt die Big-Data Technologie?
Die Big-Data Technologie kommt aus der Webanalyse und wurde für die Verarbeitung großer Datenmengen entwickelt, die aus unterschiedlichen Quellen stammen, an unterschiedlichen Orten vorliegen und in verschiedenen Formaten. Mit den existierenden Big-Data Lösungen kann man sehr große Mengen (in der Dimension von PetaByte) solch heterogener Daten in kurzer Zeit analysieren. In der Medizin finden sich sehr viele Fragestellungen, für die man genau diese Art der Technologie benötigt. Von Grid und Cloud unterscheidet sich Big-Data beispielsweise dadurch, dass es die Daten dort analysiert, wo sie anfallen. Lediglich die Ergebnisse von Auswertungen werden auf andere Rechner übertragen. Bei Grid und Cloud hingegen müssen die Daten vor der Auswertung auf externe Rechner übertragen und anschließend wieder zurück transferiert werden. Dadurch kommt es bei größeren Datenvolumina zu Engpässen mit entsprechenden Zeitverlusten.
Inwiefern eignet sich gerade die Schlafmedizin als Anwendungsszenario für dieses Projekt?
In der Schlafmedizin werden mit der Polysomnographie Biosignale aufgezeichnet, z.B. Hirnströme, Atmung etc. Dadurch entstehen sehr schnell große Datenmengen. Bisher werden die Somnographiedaten in der Regel manuell ausgewertet. Ein Schlafmediziner versucht am Ende einer Nacht, die der Patient im Schlaflabor verbracht hat – oder schon zwischendurch – Auffälligkeiten in den Daten zu finden. Die Daten vollständig zu analysieren ist auf diese Weise jedoch gar nicht möglich – im Gegensatz zu automatisierten Verfahren wie Big Data Analysen. Damit kann man in sehr kurzer Zeit die Daten eines bestimmten Patienten mit den Referenzdaten abgleichen und gewinnt so schnell wichtige Informationen für die Diagnostik. Der Zeitfaktor spielt in der Schlafmedizin eine große Rolle, denn viele Patienten können nicht drei Wochen auf ein Ergebnis warten. Dieses zeitkritische Moment ist ein klassisches Setting für Big Data-Analysen.
Wo liegen die Herausforderungen für die BigData-Technologie in Hinblick auf andere Anwendungsszenarien wie die virtuelle Mikroskopie in der digitalen Pathologie?
Ein wesentlicher Teil von Big Data Herausforderungen liegt in der Organisation und Bewertung von Daten und Anwendungen und somit in den wissenschaftlichen Prozessen. Die Qualität der Analyseergebnisse hängt von der Qualität der Eingangsdaten ab. Bei der hochauflösenden Digitalisierung von histologischen Schnittpräparaten in der virtuellen Mikroskopie beispielsweise wirken verschiedene Faktoren auf die Bildqualität. Dies beginnt mit der überwiegend manuell erfolgenden Präparation, nicht standardisierten Routinefärbungen (HE, PAS, etc.), unterschiedlichen Scannern, der korrekten Erfassung des Bildausschnittes hin zu einer kontrastreichen Digitalisierung. Es ist deshalb sehr wichtig, solche Daten mit guten Metadaten zu beschreiben, damit die Datenqualität für spätere Analysen einschätzbar wird. Die Datenqualität umfasst aber auch ihre rechtmäßige Verwendung unter Berücksichtigung der Datenschutzgesetze, Krankenhausgesetze und weiterer rechtlicher Bestimmungen.
Wie kann die Einhaltung von datenschutzrechtlichen Vorgaben in verteilten Systemen gewährleistet werden?
In dem von uns geplanten Projekt enthalten die Daten kein implizites Reidentifizierungspotential. Maßnahmen zum Schutz der Vertraulichkeit können sich im Rahmen des Projektes deshalb auf das Metadatenmanagement konzentrieren, die Aufnahmedaten selber bieten keine Möglichkeiten zur Identifizierung des Patienten. Generell gibt es jedoch im TMF-Umfeld sehr viele Ansätze z.B. aus den früheren Grid-Projekten oder dem laufenden cloud4health Projekt, um über Anonymisierung und Pseudonymisierung die persönlichen Daten der Patienten in großformatigen Auswertungen zu Forschungszwecken zu schützen.
Frau Prof. Krefting, wir danken für das Gespräch!
Prof. Dr. Dagmar Krefting ist Professorin an der HTW Berlin. Sie lehrt und forscht im Bereich verteilter Systeme und Informationssicherheit mit Schwerpunkt auf der medizinischen Bild- und Signalanalyse. Prof. Krefting koordiniert das Projekt Somnonetz.
Das Interview führte Beate Achilles. Es erscheint auch in der Zeitschrift E-Health-COM 5 | 2013.