Semantische Textanalyse zur qualitätskontrollierten Extraktion klinischer Phänotyp-Information im Healthcare Integrated Biobanking
Das Projekt „Semantische Textanalyse zur qualitätskontrollierten Extraktion klinischer Phänotyp-Information im Healthcare Integrated Biobanking (STAKI2B2)“ ist Teil der DFG-Fördermaßnahme zur „Förderung von Forschungsprojekten über die und mit der TMF“.
Die Verfügbarkeit hochqualitativer Biomaterialien bildet eine der wesentlichen Grundlagen für eine nachhaltige und reproduzierbare translationale biomedizinische Forschung. Dies gilt sowohl im Kontext der explorativen, aber zunehmend auch für den Bereich der validierenden Forschung. So besteht eine grundlegende Skepsis darüber, inwieweit sich die aus einer Vielzahl von Ergebnissen präklinischer Untersuchungen ableitenden hohen Erwartungen auch wirklich in die klinische Praxis umsetzen lassen. Ein wesentliches Problem ist die fehlende Beachtung von Qualitätsunterschieden in Probenmaterialien und die nicht ausreichende Validierung potentieller Marker an Vergleichskollektiven mit definierten, zur Zielkrankheit differierenden Erkrankungen und Komorbiditäten.
Im Projekt sollen valide Phänotypdaten mit Verfahren der automatischen Sprachverarbeitung aus klinischen Dokumenten maschinell extrahiert werden. Hierzu wird eine Textanalytik-Pipeline aufgebaut, die mit Verfahren des semi-überwachten Maschinellen Lernens relevante medizinische Entitäten (wie Krankheiten, Arzneien, Diagnosen usw.) und Beziehungen zwischen diesen Entitäten (etwa die Wirksamkeit oder Dosierung von Medikamenten bezüglich einer Krankheit, Laborwerte für die Diagnostik) aus klinischen Dokumenten (Arztbriefen, Radiologie-oder Pathologieberichte usw.) automatisch bestimmt. Die automatische Textanalytik bildet dann die Grundlage dafür, aus unstrukturierten medizinischen Dokumenten des Krankenhausinformationssystems des Universitätsklinikum Jena medizinische Kontextdaten zu berechnen und für eine strukturierte Auswertung so zur Verfügung zu stellen
Aktivitäten und Fortschritt 2018
- Erstellung eines Textkorpus klinischer Berichte
- Annotation von klinischen Dokumenten
- Automatische inhaltsbezogene Analyse von klinischen Dokumenten und deren Bewertung
- Beratung des Datenschutzkonzepts
Aktivitäten und Fortschritt 2019
- Optimierung des Datenflusses bzw. der technischen Verfahren zur automatischen Klassifizierung von definierten, standardisierten Patientenpopulationen
- Finalisierung des Datenschutzkonzepts
Ausblick 2020
- Projektabschluss
D088-01 STAKI2B2
Projektleitung: Prof. Dr. Udo Hahn (Institut für Germanistische Sprachwissenschaft, Universität Jena), PD Dr. Michael Kiehntopf (Institut für Klinische Chemie und Laboratoriumsdiagnostik, Universitätsklinikum Jena)
Projektzeitraum: 2017 – 2020
Förderer: Deutsche Forschungsgemeinschaft (DFG) | Projektnummer: 315098900
Weiterführende Informationen