Big Data Genetik: leistungsstarke Indexierung
Die Zukunft der biomedizinischen Forschung ist eng mit einem besseren Verständnis des Erbguts verknüpft. Insbesondere hängt der Erfolg davon ab, die Erbinformation hunderttausender Proben zu speichern, zu analysieren und logisch miteinander zu verknüpfen.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Verbesserte Technologien in der biomedizinischen Forschung ermöglichen es, das gesamte Erbgut eines Individuums kostengünstig zu sequenzieren. In diesem Projekt wurden neue technische Konzepte für ein computergestütztes System entwickelt, das Zehntausende solcher genomischer Datensätze gemeinsam speichert und sie für Forschung und klinische Anwendung zugänglich macht. Das System basiert auf sogenannten Genomgraphen. Diese Datenstruktur kombiniert die Informationen zur Erbgutsequenz mit anderen relevanten klinischen oder experimentellen Daten. Die Genomgraphen lassen sich effizient mit neuen Informationen ergänzen. Sie erlauben bei kleinem Speicheraufwand eine schnelle Suche nach Informationen. Der Fokus dieser Forschung liegt hierbei vor allem auf der Verringerung des Speicherplatzes bei gleichzeitigem Erhalt und effizientem Zugriff auf alle Informationen. Auf diese Weise werden die Daten FAIR: findable, accessible, interoperable, and reusable.
Hintergrund
Lebewesen tragen ihren Bauplan in der DNA ihrer Zellen. Um Lebensprozesse, aber auch Krankheitsursachen zu verstehen, ist es notwendig, diese Information auszulesen, abzuspeichern und zu vergleichen. Die in diesem Zusammenhang eingesetzten Forschungsmethoden verwenden häufig statistische Verfahren oder Ansätze des maschinellen Lernens, die erst aussagekräftig werden, wenn sie die genetische Information von vielen tausend Proben einbeziehen. Dieser Bedarf an riesigen Datensätzen bedeutet wiederum, dass eine kostengünstige Möglichkeit der Speicherung und des schnellen Datenvergleichs benötigt wird, da die schnell wachsende globale Sequenzierungskapazität jeden Monat neue Daten im Petabyte-Bereich erzeugt.
Ziele
Ziel des Projekts war die Entwicklung eines auf neuen technischen Konzepten basierenden computergestützten Systems, das die Erbinformation von Zehntausenden biologischer oder medizinischer Proben aufnehmen und effizient repräsentieren kann. Es ermöglicht die schnelle Suche nach neuen Proben und deren Abgleich mit vorhandenen Informationen. Das System bietet auch Platz für Informationen über die Herkunft der Probe und andere forschungsrelevante Daten in dem ständig wachsenden, kontinuierlich lernenden Informationsspeichersystem.
Bedeutung / Anwendung
Um den Zusammenhang von Erbinformationen und biologischen Merkmalen zu verstehen, ist es notwendig, ein breites Spektrum dieser Informationen miteinander zu vergleichen. Um beispielsweise Erbkrankheiten oder Krebs besser zu verstehen, muss die Erbinformation möglichst vieler Patientinnen und Patienten untersucht werden. Eine grosse Herausforderung ist dabei die korrekte und nutzerfreundliche Speicherung der riesigen Datenmengen. Das in diesem Projekt entwickelte Softwaresystem ermöglicht eine effiziente biomedizinische Forschung, indem es eine technische Grundlage für diese Arbeit bietet.
Resultate
Diese Forschung beschäftigte sich mit dem Problem des schnellen Wachstums von Datenmengen. Es wurden neue Algorithmen und Datenstrukturen zum effizienten Komprimieren und Durchsuchen von Sequenzsammlungen in Petabyte-Grössenordnungen entwickelt. Durch die Verringerung von Redundanzen wurden bis zu 1000-fache Komprimierungsraten erreicht, sodass die daraus resultierenden Daten nicht nur leichter zugänglich sind, sondern auch wesentlich kostengünstiger gespeichert werden können.
Die folgenden Ergebnisse wurden erzielt:
- Ein Tool sowie ein modulares Framework (MetaGraph) zum Indizieren beliebiger biomedizinischer Sequenzierungsdaten in Petabase-Grössenordnung: Das MetaGraph-Framework zielt direkt auf die Unzugänglichkeit von Sequenzen in grossen öffentlichen Archiven ab. Die Grundlage zahlreicher MetaGraph-Funktionen bilden die theoretischen Beiträge des Projekts auf dem Feld der sequenzierenden Bioinformatik.
- Ein Index aus mehr als vier Millionen Sequenzproben wurde mithilfe dieses Frameworks errechnet und öffentlich zugänglich gemacht. Vorberechnete Indizes wurden ebenfalls zur Verfügung gestellt. Eine interaktive Plattform wurde entwickelt, die über eine Web-Benutzeroberfläche oder eine öffentlich zugängliche API die Abfrage dieser Indizes ermöglicht.
- Wichtige methodologische Fortschritte wurden auf dem Feld der sequenzierenden Bioinformatik erzielt. Mehrere neue Methoden zur effizienten Komprimierung wurden entwickelt, mit der zusätzlichen Vorgabe, dass eine schnelle Suche oder ein schneller Zugriff ohne Dekomprimierung möglich sein muss.
- Fortschritte wurden dahingehend erzielt, wie Sequenzgraphen Informationen darstellen können; dabei wurden verschiedene Beiträge zu Effizienz- und Alignmentstrategien geleistet.
- Analysemethoden wurden entwickelt, die sich auf die Graphen anwenden lassen, und nicht auf die viel grösseren und redundanten Eingabedaten. Ein Konzept zur sensitiven Erkennung und Zusammenstellung von Markersequenzen für tausende mit externen Labels versehenen Proben wurde eingeführt. Dieses Konzept weist wichtige Implikationen für die Erkennung klinischer Sequenzmarker (z. B. aus metagenomischen Proben) bei fehlenden taxonomischen Informationen auf, wie in Zusammenarbeit mit dem Institut für Medizinische Virologie (Universität Zürich) gezeigt wurde.
- Abschliessend wurden voll funktionsfähige Referenzimplementierungen für alle entwickelten Methoden öffentlich zugänglich gemacht. Der gesamte Software-Code ist als Open-Source-Software lizenziert und steht zum Download und zur weiteren Beteiligung zur Verfügung.
Originaltitel
Scalable Genome Graph Data Structures for Metagenomics and Genome Annotation