Interview

„k-Anonymität und l-Diversität bieten sicheren Schutz vor dem Ausspionieren personenbezogener Daten“

Interview mit Prof. Dr. Johann Eder über das neue „Anon“-Tool der TMF zur Anonymisierung medizinischer Daten

Headergrafik für das Thema Digitalisierung & E-Health

© elenabsl - stock.adobe.com

Wer klinische Daten einrichtungsübergreifend für zentrale Recherchen zusammenführt, muss eine Reidentifizierung von Patienten und Probanden über diese Daten sicher ausschließen können. Werden Rückschlüsse auf bestimmte Personen aufgrund des Zusatzwissens eines Nutzers möglich, gelten die Daten nicht mehr als anonym und für ihre Speicherung und Verarbeitung fehlt – ohne die informierte Einwilligung der Patienten – die Rechtsgrundlage. Eine starke Vergröberung medizinischer Daten mittels k-Anonymisierung  und L-Diversität kann dies verhindern. Im Auftrag der TMF hat Prof. Eder hierfür eine flexibel und einfach einsetzbare Softwarelösung, das „Anon-Tool“ entwickelt, das in Kürze über die TMF-Homepage öffentlich zur Verfügung stehen wird.

Portraitbild Eder Interview 2013

Univ. Prof. Dipl.-Ing. Dr. Johann Eder

Sie haben im Rahmen eines 2012 gestarteten TMF-Projekts ein so genanntes „Anon-Tool“ entwickelt. Wozu dient es und wie können Forscher darauf zugreifen?
 

Das Anon-Tool erzeugt aus einem Datenbestand mit personenbezogenen Daten eine Datei, in der es nicht mehr möglich ist, Daten einer einzigen Person zuzuordnen. Die Daten werden also anonymisiert und die Privatsphäre wird geschützt. Technisch gesehen erzeugt das Anon-Tool aus einem Datenbestand eine k-anonyme und l-diverse Datei. Die Spezialität dieses Tools ist, dass der Nutzwert der anonymisierten Daten spezifisch für die geplante Verwendung optimiert wird. Das Tool stellt die TMF den Forschern demnächst über eine Open-Source Plattform zur Verfügung.
 

Warum reicht eine einfache De-Identifizierung – also die Entfernung potentiell identifizierender Daten aus den Datenbeständen beispielsweise von Biobanken – nicht aus, um eine dauerhafte Vertraulichkeit zu gewährleisten?
 

Das Streichen der üblichen Schlüssel wie Name, Versicherungsnummer, etc. reicht nicht aus, weil es mit Attributen wie Postleitzahl, Beruf, Körpergröße, Geburtsdatum, etc. sehr rasch möglich ist, einzelne Personen zu identifizieren. Würde man alle diese potenziell identifizierenden Daten streichen, würde man viel mehr an Information verlieren als mit k-Anonymisierung.
 

Welche Arten von Datenbeständen sind von diesem Problem neben den Biobanken noch betroffen?
 

Eigentlich sind alle Datenbestände betroffen, die personenbezogene Daten enthalten, die weitergeben oder von Dritten abgefragt werden sollen.
 

Wie funktioniert k-Anonymisierung und für welche Anwendungszwecke ist sie sinnvoll?
 

Das "k" steht für eine Zahl. Je höher das "k" ist, desto stärker die Anonymisierung. Zuerst identifizieren wir im Datenbestand die Quasi-Identifier: Das sind all jene Felder, deren Inhalt ein  potentieller  Angreifer kennen kann. Typische Kandidaten sind Geburtsdatum, Alter, Beruf, Wohnort, Geburtsort,  etc. Die Inhalte dieser Felder werden verallgemeinert, indem etwa der Geburtsort durch den  Landkreis ersetzt wird, das Alter durch eine Altersgruppe in 5-er oder 10-er Schritten, usw. Die Daten werden so weit verallgemeinert, dass es zu jedem Datensatz "k-1" Datenzwillinge gibt. Wird beispielsweise "k" mit 7 festgelegt, müssen also sieben Datensätze dieselbe  Kombination von Werten in den quasi-identifizierenden Feldern haben. Ein Angreifer kann damit keinen einzelnen Datensatz mehr identifizieren, sondern nur mehr eine Gruppe von "k" Datensätzen. Dabei geht natürlich Information verloren. Aber unser Verfahren stellt sicher, dass der Informationsverlust minimal ist.
 

Welche weiteren Anonymisierungsmöglichkeiten gibt es neben der k-Anonymisierung und wie sind diese Methoden im Anon-Tool berücksichtigt?
 

Im Anon-Tool haben wir zusätzlich l-Diversivität implementiert.  Das löst folgendes Problem: Wenn in einem Feld, das nicht Quasi-Identifier ist - zum Beispiel Diagnose - alle Sätze einer Gruppe denselben Wert haben und ein Angreifer weiß, dass die Daten der gesuchten Person sich in diesem Datensatz befinden, dann kennt er damit  die genaue Diagnose der Person. Die Forderung ist nun, dass in einer k-Gruppe in den  Feldern, die nicht verallgemeinert wurden, mindestens "l" – zum Beispiel fünf – verschiedene Werte vorkommen. Das heißt in unserem Beispiel, dass ein Angreifer die Diagnose einer Person nur auf fünf verschiedene Möglichkeiten einschränken kann. So kann er die genaue Diagnose nicht herausfinden. Wenn zudem in einen Datenbestand Kontrollgruppen mit der Diagnose "gesund" aufgenommen werden, dann kann ein Angreifer nicht einmal mehr herausfinden, ob die Person überhaupt erkrankt ist. Zusammen ergeben k-Anonymität und l-Diversität einen sehr sicheren Schutz vor dem Ausspionieren personenbezogener Daten.
 

Herr Prof. Dr. Eder, wir danken für das Gespräch!

 

Univ. Prof. Dipl.-Ing. Dr. Johann Eder ist Vorstand des Instituts für Informatik-Systeme der Alpen Adria Universität Klagenfurt. Seine Forschungsschwerpunkte sind Interoperabilität, Workflow Systeme und Informationssysteme für Biobanken.

Logo EHealth.com

Das Interview führte Beate Achilles. Es erscheint auch in der Zeitschrift E-Health-COM 2 | 2013.