Drittmittelprojekt

Semantische Textanalyse zur qualitäts­kontrollierten Extraktion klinischer Phänotyp-Information im Healthcare Integrated Biobanking

Das Projekt „Semantische Text­analyse zur qualitäts­kontrollierten Extrak­tion klinischer Phänotyp-Information im Health­care Integrated Biobanking (STAKI2B2)“ ist Teil der DFG-Förder­maßnahme zur „Förderung von Forschungs­projekten über die und mit der TMF“.

Abgeschlossenes Projekt
Qualitätsmanagement
Genommedizin & Biobanken
STAKI2B2

Die Verfügbarkeit hochqualitativer Biomaterialien bildet eine der wesentlichen Grundlagen für eine nachhaltige und reproduzierbare translationale biomedizinische Forschung. Dies gilt sowohl im Kontext der explorativen, aber zunehmend auch für den Bereich der validierenden Forschung. So besteht eine grundlegende Skepsis darüber, inwieweit sich die aus einer Vielzahl von Ergebnissen präklinischer Untersuchungen ableitenden hohen Erwartungen auch wirklich in die klinische Praxis umsetzen lassen. Ein wesentliches Problem ist die fehlende Beachtung von Qualitäts­unterschieden in Probenmaterialien und die nicht ausreichende Validierung potentieller Marker an Vergleichs­kollektiven mit definierten, zur Zielkrankheit differierenden Erkrankungen und Komorbiditäten.

Im Projekt sollen valide Phänotyp­daten mit Verfahren der automatischen Sprach­verarbeitung aus klinischen Dokumenten maschinell extrahiert werden. Hierzu wird eine Textanalytik-Pipeline aufgebaut, die mit Verfahren des semi-überwachten Maschinellen Lernens relevante medizinische Entitäten (wie Krankheiten, Arzneien, Diagnosen usw.) und Beziehungen zwischen diesen Entitäten (etwa die Wirksamkeit oder Dosierung von Medikamenten bezüglich einer Krankheit, Laborwerte für die Diagnostik) aus klinischen Dokumenten (Arztbriefen, Radiologie-oder Pathologieberichte usw.) automatisch bestimmt. Die automatische Textanalytik bildet dann die Grundlage dafür, aus unstrukturierten medizinischen Dokumenten des Krankenhaus­informations­systems des Universitäts­klinikum Jena medizinische Kontextdaten zu berechnen und für eine strukturierte Auswertung so zur Verfügung zu stellen
 

Aktivitäten und Fortschritt 2018

  • Erstellung eines Textkorpus klinischer Berichte
  • Annotation von klinischen Dokumenten
  • Automatische inhaltsbezogene Analyse von klinischen Dokumenten und deren Bewertung
  • Beratung des Datenschutz­konzepts
     

Aktivitäten und Fortschritt 2019

  • Optimierung des Datenflusses bzw. der technischen Verfahren zur automatischen Klassifizierung von definierten, standardisierten Patienten­populationen
  • Finalisierung des Datenschutz­konzepts
     

Ausblick 2020 

  • Projektabschluss

 

D088-01 STAKI2B2

Projektleitung: Prof. Dr. Udo Hahn (Institut für Germanistische Sprachwissenschaft, Universität Jena), PD Dr. Michael Kiehntopf (Institut für Klinische Chemie und Laboratoriums­diagnostik, Universitätsklinikum Jena)
Projektzeitraum: 2017 – 2020
Förderer: Deutsche Forschungsgemeinschaft (DFG) | Projektnummer: 315098900