News

Qualität in der Hochdurchsatz-Geno­typisierung ist machbar

Experten der TMF bewerten Qualitäts-Sicherungsverfahren für Genotypisierungsdaten - Hinweise und Werkzeuge in Berlin vorgestellt

Headergrafik für das Thema Genommedizin & Biobanken

© Zubada - stock.adobe.com

Dank der Entwicklung von Hochdurchsatzverfahren zur Genotypisierung stehen aus den Genomforschungsprojekten der vergangenen Jahre unvorstellbare Datenmengen zur Verfügung. "Ich bin sicher, dass bisher erst ein Bruchteil der wissenschaftlichen Fragestellungen, für die diese Daten generiert wurden, beantwortet wurde. Ein Großteil der beantwortbaren Fragen ist bis heute vermutlich noch nicht einmal gestellt worden." Diese Einschätzung formulierte Prof. Dr. Michael Krawczak (Universität Kiel) im Rahmen der Informationsveranstaltung zum Qualitätsmanagement von Genotypisierungsdaten, die am 21. Juni 2010 in Berlin stattfand. In der Veranstaltung, an der rund 50 Molekulargenetiker und Bio-Informatiker aus ganz Deutschland teilnahmen, wurden die Ergebnisse eines Projektes vorgestellt, das vom Bundesministerium für Bildung und Forschung (BMBF) von 2008 bis 2010 im Rahmen der Methodenausschreibung gefördert worden war.

Fragen der Qualitätssicherung von Daten, die bei der Hochdurchsatz-Genotypisierung generiert werden, reichen von Problemen der Validität und Plausibilität über die Erkennung und Vermeidung von Fehlern bis hin zu Anforderungen an Datenhaltung und Datentransfer. Gemäß dem Motto der TMF - "das Rad nicht immer wieder neu erfinden" - hat die Projektgruppe die verschiedensten Verfahren der Verarbeitung und Analyse von Genotypisierungsdaten systematisch nach Qualitätsgesichtspunkten geprüft, verglichen und bewertet.

Präsentiert wurden einerseits Empfehlungen zur Wahl geeigneter Qualitätssicherungsverfahren, andererseits aber auch konkrete Hilfsmittel in Form von Begleitdokumenten oder Software-Tools. In der Veranstaltung wurden wesentliche Aussagen und Ergebnisse aus den einzelnen Teilprojekten hervorgehoben:

  • Calling-Algorithmen: Insgesamt wird CRLMM als der beste Allel-Calling-Algorithmus empfohlen. JAPL kommt in Frage, wenn möglichst viele Personen in den Analysen berücksichtigt werden müssen, während Chiamo  die meisten Vorteile bietet, wenn viele SNPs in den Analysen verwendet werden sollen.
  • Es wurde gezeigt, dass sich die Analyse von Cluster-Plots anhand der drei Kriterien „Kompaktheit“, „Verbundenheit“ und „Trennbarkeit“ erfolgreich algorithmisieren lässt. Die Ergebnisse werden als R-Paket verfügbar gemacht.
  • SNP-Daten müssen vor einer Weitergabe an Dritte oder zur kooperativen Bearbeitung mit Begleitinformationen – beispielsweise zum DNA-Sample, zum Genotypisierungsprozess oder zur Patienteneinwilligung – versehen werden. Zur Erfassung solcher Daten wurde ein konsentiertes Formular erstellt.
  • Bei Software für die Aufbereitung von SNP-Daten konnten deutliche (Geschwindigkeits-)Vorteile für das Programm GenABEL nachgewiesen werden.
  • Eine konsentierte Nomenklatur für nicht-kanonische Intensitäts-Cluster von SNPs auf Illumina Genotypisierungschips wurde erstellt. Sie dient als Grundlage für eine Verbesserung automatisierter Calling-Verfahren, um nicht nur drei sondern auch vier, fünf und mehr Cluster korrekt zu erfassen und Genotypen mit höherer Präzision zu erhalten.
  • Es wurde gezeigt, dass Scores zur Clustervalidierung geeignet sind, um fehlerhafte Genotypen zu identifizieren. Kriterien wie Call Rate, MAF oder HWE sind unverzichtbar und komplementär zu Scores. Der „silhouette score“ wird als unabhängiges Kriterium weiter empfohlen.
  • Für eine standardisierte und systematische Qualitätskontrolle von Replikations-Genotypisierungsdaten wurde im Rahmen des Projektes die Software „RepliCheckSNP“ entwickelt und in der Veranstaltung vorgeführt.
  • Zur Speicherung von Genotypisierungsdaten werden de-normalisierte BLOBs („Binary Large Objects“) empfohlen.
  • Datenschutzempfehlungen beinhalten unter anderem die Einbindung von Datentreuhändern.

Als Genotypisierung bezeichnet man die Analyse des Genotyps, also der molekular kodierten Erbanlagen eines Organismus. Sie ist die entscheidende molekulargenetische Methode im Rahmen so genannter Assoziationsstudien, die zur Identifizierung von „Krankheitsgenen“ dienen. Dabei werden die Erbanlagen einer möglichst großen Gruppe von Personen, die eine bestimmte Krankheit ausgebildet haben, mit den Erbanlagen einer nicht von der Krankheit betroffenen Gruppe verglichen. Auf Basis einer DNA-basierten Genotypisierung lassen sich beispielsweise Arzneimittel gezielt für bestimmte Patientengruppen einer spezifischen genetischen Ausprägung entwickeln.

Impressionen

Informationsveranstaltung Genotypisierung Gruppenbild 2010

Die Referenten der Informationsveranstaltung am 21. Juni 2010. V.l.n.r.: Dr. Thomas Bettecken, Prof. Dr. Thomas Wienker, Prof. Dr. Andreas Ziegler, Dr. Arne Pfeufer, Prof. Dr. Michael Krawczak, Dr. Andresas Wolf, Prof. Dr. Bertram Müller-Myhsok, Dr. Michael Steffens, Mathias Freudigmann. © TMF e.V.

Informationsveranstaltung Genotypisierung Freudigmann 2010

Mathias Freudigmann (Geschäftsstelle TMF e.V.), Leiter des Teilprojektes Koordination, sprach einleitende Worte und dankte dem Förderer BMBF ebenso wie allen Projektmitwirkenden. © TMF e.V.

Informationsveranstaltung Genotypisierung Krawczak 2010

Prof. Dr. Michael Krawczak (Universität Kiel) führte ins Thema ein und berichtete über die Hintergründe und den Werdegang des Projekts. © TMF e.V.

Informationsveranstaltung Genotypisierung Schillert 2010

Dr. Arne Schillert (Universität Lübeck) stellte die Projektergebnisse zur automatischen Beurteilung von Cluster-Plots sowie zu Verfahren des Genotyp-Callings vor. © TMF e.V.

Informationsveranstaltung Genotypisierung Müller Myhsok 2010

Prof. Dr. Betram Müller-Myhsok (MPI für Psychiatrie, München) © TMF e.V.

Informationsveranstaltung Genotypisierung Müller-Myhsok 2010

Prof. Dr. Betram Müller-Myhsok (MPI für Psychiatrie, München) ... © TMF e.V.

Informationsveranstaltung Genotypisierung Bettecken 2010

... und Dr. Thomas Bettecken bewerteten Kriterien zur Plausibilitätsprüfung. © TMF e.V.

Informationsveranstaltung Genotypisierung Steffens 2010

Fehlererkennung und -korrektur beim Umgang mit Genotypisierungsdaten war das Thema von Dr. Michael Steffens ... © TMF e.V.

Informationsveranstaltung Genotypisierung Wienker 2010

... und Prof. Dr. Thomas Wienker (Universität Bonn). © TMF e.V.

Wolf Genotypisierung 2010

Andreas Wolf (Universität Kiel) erläuterte die Anforderungen an Datenhaltung und -transfer. © TMF e.V.

Informationsveranstaltung Genotypisierung Pfeufer 2010

Mit 'RepliCheckSNP' steht nun ein Software-Werkzeug zur standardisierten und systematischen Qualitätskontrolle von Genotypisierungsdaten aus Replikationsstudien zur Verfügung. Dr. Arne Pfeufer führte das Programm vor. © TMF e.V.

Informationsveranstaltung Genotypisierung Publikum 2010

Rund 50 Molekulargenetiker und Bio-Informatiker aus ganz Deutschland waren der Einladung zu der Informationsveranstaltung nach Berlin gefolgt.© TMF e.V.