Text-Mining ist eine vielversprechende Methode
Rund 80 Experten diskutierten auf dem TMF-Workshop den Status Quo von Text-Mining in der Medizin
TMF-Workshop zum Text-Mining
09.02.2015. Wo stehen wir im Bereich von Text-Mining in der medizinischen
Forschung? – das war die zentrale Frage beim TMF-Workshop zum Text-Mining am
28. Januar 2015 in Berlin. Im Rahmen des Workshops tauschten sich Forscher,
Antragsteller, Fördermittelgeber, Industriepartner und Datenschützer zu den
neuen Entwicklungen beim Einsatz von Text-Mining in der aktuellen klinischen
Forschung aus. „Wir müssen in der Forschung darauf achten, den Mehrwert von
Text-Mining transparenter herauszustellen und ihn besser zu kommunizieren“,
betonte Prof. Dr. Ulrich Sax (Universitätsmedizin Göttingen)
in seinem Abschluss-Statement zur Veranstaltung. Dabei sei es wichtig, Anwendungsszenarien
zu definieren, für die die Effektivität der syntaktischen und semantischen
Erschließung klinischer Texte dargestellt und auch beziffert werden kann.
Text-Mining beschleunigt Arbeitsprozesse, darüber waren sich
die Referenten und Teilnehmer einig. Deutlich wurde dies auch anhand der von Dr.
Philipp Daumke (Averbis) einführend vorgestellten Ergebnisse
und Anwendungsfälle des cloud4health-Projekts, an dem die
TMF beteiligt ist. Die Sekundärnutzung klinischer Daten ist ein wichtiges Feld
für die medizinische Forschung. Viele Informationen sind aber vor allem in den unstrukturierten
Freitexten zu finden. Aufgabe des cloud4health-Projekts war es deshalb, einen
Ansatz für die Nutzung unstrukturierter Daten durch den Einsatz von Text-Mining
zu entwickeln. „Das Ergebnis zeigte uns, dass cloud4health
Smart-Data-Auswertungen auf medizinischen Daten ermöglicht und hierfür eine
sichere Cloud-Architektur bereitstellt“, so Daumke.
Spezielle Anforderung der Forschung: Anonymisierung von Texten mit Text-Mining-Methoden
 |
|
Dr. Philip Senger berichtete über die Studienergebnisse vom cloud4health-Projekt
|
|
Im Rahmen des cloud4health-Projekts wurde ein
De-Identifikationstool (DeID) entwickelt. Die Software ermöglicht, dass personenbezogene
Daten in klinischen Texten mit hoher Trefferquote halb-automatisch gefunden und
für die Anonymisierung vollständig eliminiert werden können. Krankenhäuser
können mit Hilfe des De-Identifikations-Werkzeugs Arztbriefe anonymisieren und
für die Verwendung außerhalb der Klinik rechtskonform aufbereiten.
Datenschützer hätten das Programm insgesamt positiv bewertet, halten aber die
Ergänzung weiterer Schutzmaßnahmen für notwendig, betonte Daumke.
Auch wenn die Sekundärnutzung klinischer Daten für
die Forschung oder Qualitätssicherung nichts Neues ist, so steht die
elektronische Auswertung von unstrukturierten Texten hierfür, das Text-Mining, noch
relativ am Anfang seiner Entwicklung. Dr. Philipp Senger vom Fraunhofer-Institutfür Algorithmen und Wissenschaftliches Rechnen SCAI bescheinigte
der Methode jedoch großes Potential. Er stellte die im Rahmen des Projekts
cloud4health erarbeiteten Anwendungsbeispiele vor, in denen mit Text-Mining der
Aufbau eines Endoprothesenregisters, die Plausibilitätsprüfung von
Medikamentenverordnungen oder der Aufbau von Biodatenbanken unterstützt werden konnte.
Er resümierte, dass vollständige funktionelle Workflows für alle
Anwendungsszenarien erarbeitet werden konnten. Seiner Einschätzung nach können
solche Anwendungen mehr oder weniger „Out of the Box“ von anderen Kliniken
übernommen werden.
Datenschutz und Datensicherheit sind zentrale Themen beim Text-Mining
Anonymisierung und Pseudonymisierung sind einige
der wichtigen Bestandteile des im Projekt cloud4health von der TMF entwickelten
Datenschutzkonzepts. Ein weiterer zentraler Baustein war die Implementierung
einer sicheren Cloud-Infrastruktur entlang eines speziell hierfür entwickelten
IT-Sicherheitskonzepts. Wichtige Vorgaben waren die manuelle Freigabe der Daten
durch die Kliniken nach interner Abstimmung, die sichere Transport- und Dokumentenverschlüsselung,
eine mandantenfähige Cloud und die sichere Löschung aller Daten in der Cloud
nach der Prozessierung. Die Erfahrungen zeigten, dass eine sichere Nutzung
einer solchen Cloud möglich ist, betonte Steffen Claus vom Institut SCAI,
welches für das Sicherheitskonzept und die Umsetzung der Cloud im Projekt
verantwortlich zeichnete.
Anwendung von Ontologiesystemen und Informationsextraktion
Studienprojekte am Institut Fraunhofer FOKUS arbeiten bei der syntaktischen und semantischen Erschließung
klinischer Texte mit Ontologie-Diensten. Diese dienen seit langem der
Klassifikation von unstrukturierten und semi-strukturierten Dokumenten. Das
klassische Dokumenten-Retrieval bereichern sie um eine semantische Suche, die es
beispielsweise ermöglicht, dass bei einer Suche nach dem Begriff „Gehirn“ auch
Dokumente gefunden werden, in denen dieser Begriff nicht vorkommt, die aber von
Alzheimer- oder Schlaganfall-Patienten handeln. Hierfür müssen die
Ontologie-Dienste die semantischen Beziehungen zwischen den verschiedenen
Begriffen und damit auch eine „semantische Nähe“ abbilden können. Erste Studien
hätten zu sehr guten Ergebnissen bei der Klassifikation und dem Retrieval von
eHealth-Dokumenten auf dieser Basis geführt, so Dr. Andreas Billig vom
Fraunhofer FOKUS.
Martin Toepfer vom Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik der Universität Würzburg berichtete
vom Einsatz der Informationsextraktion aus semi-strukturierten Befundberichten zur
Unterstützung eines klinischen Data Warehouse. Notwendig sei die Hinzunahme der
aufwändigen Texterschließung, da wichtige Informationen für Anwendungsfälle,
wie beispielsweise die Rekrutierungsunterstützung in klinischen Studien, nicht in
den bereits strukturiert erfassten Daten vorlägen. Neben einer regelbasierten
Segmentierung der Dokumente sei jedoch auch die Implementierung
domänenspezifischer Terminologien notwendig, um z.B. in einem Bereich wie der transthorakalen
Echokardiographie die notwendigen Informationen aus den Dokumenten extrahieren
zu können. Für die eigentliche Volltextsuche setze man Apache Lucene ein.
Hinsichtlich der Genauigkeit der extrahierten Informationen habe man sehr gute
Erfahrungen gemacht, allerdings immer nur bezogen auf die jeweilige, durch eine
selbst entwickelte Terminologie abgedeckte, klinische Subdomäne.
Text-Mining in anderen Bereichen
Einen „Blick über den (medizinischen) Tellerrand“ hinaus bot
Oliver Schmitt von der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen mit der Vorstellung der Integration der Open
Source Software Elasticsearch in die digitale Forschungsinfrastruktur der
Göttinger eResearch Alliance. Elasticsearch ermögliche es auf Basis von Apache
Lucene große Mengen an Volltexten aus Originalquellen zu verarbeiten und in
einer skalierbaren (Cloud-)Umgebung rasch durchsuchbar zu machen.
Forschungsprojekte wie "TextGrid" (virtuelle Forschungsumgebung für
Geistes- und Kulturwissenschaftler) erzielten durch Elasticsearch gute Textprocessing-Ergebnisse.
Der
Bereitschaft von Softwareanbietern, die medizinische Forschung durch
kommerzielle Produkte zu unterstützen, verliehen Lothar Zimmermann von 3M, Mark Neumann von ID, Christian Seebode von
ORTEC und Peter Langkafel von SAP Ausdruck.
Die gezeigten Beispielanwendungen waren allerdings nur zum Teil dem Bereich der
medizinischen Forschung zuzuordnen. In der Diskussion wurde dies seitens der
Softwareanbieter darauf zurückgeführt, dass Kliniken eher zu investieren bereit
seien, wenn es um Erlösoptimierung als um Forschungsunterstützung gehe. Die Entwicklung
der Geschäftsmodelle gerade im Bereich der Forschung sei noch nicht
konsolidiert und habe bisher nicht zu den erwarteten, beziehungsweise
notwendigen, Umsätzen geführt.
Abschlussdiskussion

|
 |
|
Teilnehmer der Podiumsdiskussion stellten den Mehrwert von Text-Mining in den Mittelpunkt
|
Als Moderator der abschließenden Podiumsdiskussion zog
Prof. Dr. Ulrich Sax, Sprecher der
Arbeitsgruppe „IT-Infrastruktur und Qualitätsmanagement“ der TMF, das Fazit, dass der Workshop
eindrucksvoll zeigen konnte, dass Text-Mining in der Unterstützung der
Forschung eine sehr wichtige Rolle spielen könne. Allerdings sei es gerade in
der medizinischen Forschung wichtig, den Mehrwert und die Effizienz von
Text-Mining konkret zu bestimmen und diese auch den relevanten
Entscheidungsträgern in den Kliniken verständlich zu vermitteln. Denn nur mit bewusster
Zielsetzung und sicheren finanziellen Ressourcen könne das Potenzial, das
Text-Mining bietet, ausgeschöpft werden.
Weiterführende Informationen:
- Download des Programmflyers [pdf | 758 KB]
- www.cloud4health.de
- Workshop zum Datenschutz bei der Sekundärnutzungklinischer Daten in der Cloud
Vortragsfolien zum Download:
- Dr. Philipp Daumke (Averbis)
Vorstellung cloud4health-Projekt
- Dr. Philipp Daumke (Averbis)
Deidentifizierung frei-textlicher Daten
- Dr. Philipp Senger (Fraunhofer SCAI)
Text-Mining in cloud4health - Ansätze und Ergebnisse
- Steffen Claus (Fraunhofer SCAI)
Architektur und Sicherheits- aspekte des Text-Mining in der Cloud
- Dr. Andreas Billig (Fraunhofer FOKUS)
Klassifikation und Retrieval von eHealth-Dokumenten auf der Basis von Ontologie-Diensten
- Martin Toepfer (IKIAI, Universität Würzburg)
Informationsextraktion aus semi- strukturierten Befundberichten
- Oliver Schmitt (eResearch Alliance, GWDG)
Skalierbare Suche in der Forschung mit Beispielen aus Bibliotheks- und Sozialwissenschaften