Genetic big data: une indexation puissante
L’avenir de la recherche biomédicale est étroitement lié à une meilleure compréhension du génome. Son succès dépend en particulier du stockage, de l'analyse et de la mise en relation logique des informations génétiques de centaines de milliers d’échantillons.
Portrait / description du projet (projet de recherche terminé)
L'amélioration des technologies dans la recherche biomédicale permet aujourd'hui de séquencer l'ensemble du génome d'un individu à faible coût. Dans ce projet, de nouveaux concepts techniques sont développés pour un système informatique qui stocke des dizaines de milliers de ces ensembles de données génomiques en un seul endroit et les rend accessibles pour la recherche et les applications cliniques. Le système se base des graphes de génome. Cette structure de données combine des informations sur la séquence du génome avec d’autres données cliniques ou expérimentales pertinentes. Les graphes de génome peuvent être efficacement complétés par de nouvelles informations. Ils permettent une recherche rapide avec un stockage à moindre coût. La recherche se focalise surtout sur une réduction de la taille de la mémoire nécessaire avec un accès efficace à toutes les informations. Ce faisant, les données deviennent FAIR: findable, accessible, interoperable, and reusable
Contexte
Les organismes vivants portent leur plan de construction dans l'ADN de leurs cellules. Afin de comprendre les processus vitaux et également les causes des maladies, il est nécessaire de lire ces informations, de les stocker et de les comparer. Les méthodes de recherche utilisées dans ce contexte font souvent appel à des statistiques ou à des approches d'apprentissage automatique qui n'acquièrent une valeur informative que si elles intègrent des informations provenant de milliers d'échantillons. Ce besoin d'énormes ensembles de données signifie à son tour qu'il est nécessaire de disposer d'un moyen peu coûteux de stockage et de comparaison rapide des données, car la capacité mondiale de séquençage, en croissance rapide, génère des pétaoctets de nouvelles données chaque mois.
Objectif
Le projet avait pour objectif le développement d’un système informatique, basé sur de nouveaux concepts techniques, capable d’enregistrer et représenter efficacement l’information génomique de dizaines de milliers d’échantillons biologiques ou médicaux. Il permet de rechercher rapidement de nouveaux échantillons et de les comparer aux informations existantes. Le système prévoit également un espace pour les informations sur l'origine de l'échantillon et d'autres données pertinentes pour la recherche dans le système de stockage de l'information, en croissance constante et en apprentissage continu.
Importance / Application
Comprendre les liens entre information génétique et caractéristiques biologiques nécessite de comparer un large spectre d’informations génétiques. Par exemple, une meilleure compréhension des maladies génétiques ou des cancers requiert l’information génétique du plus grand nombre possible de personnes touchées. Dans ce contexte, un stockage correct et convivial d’énormes quantités de données représente un défi. Le système logiciel développé dans le cadre de ce projet permet de faire de la recherche biomédicale de manière efficace en fournissant une base technique pour ce travail.
Résultats
Cette recherche a abordé le problème de la croissance rapide des données. Elle a permis de développer de nouveaux algorithmes et de nouvelles structures de données afin de compresser et de rechercher efficacement des collections de séquences à l'échelle du pétaoctet. En obtenant des taux de compression jusqu’à 1000 fois grâce à la réduction des redondances, les données obtenues sont non seulement plus accessibles mais également beaucoup plus rentables à stocker.
Les résultats suivants ont été obtenus:
- Un outil et un cadre modulaire (MetaGraph) pour indexer des données de séquençage biomédical arbitraires à l'échelle d’une pétabase. Le cadre MetaGraph traite directement de l'inaccessibilité des séquences dans les grandes archives publiques. De nombreuses fonctionnalités de MetaGraph s’appuient sur les contributions théoriques du projet au domaine de la bioinformatique séquentielle.
- Un index comprenant plus de quatre millions d'échantillons de séquençage utilisant ce cadre a été calculé et rendu public. Les index précalculés ont été partagés avec le public. Une plateforme interactive a été conçue pour consulter directement ces index au moyen d’une interface Web ou d’une API accessible au public.
- D'importantes avancées méthodologiques ont été réalisées dans le domaine de la bioinformatique séquentielle. Plusieurs nouvelles méthodes ont été élaborées pour réaliser une compression efficace tout en permettant une recherche ou un accès rapide sans décompression.
- Des progrès ont été réalisés sur la manière dont les graphes séquentiels peuvent représenter l'information, avec plusieurs contributions aux stratégies d'efficacité et d'alignement.
- Des méthodes d'analyse ont été conçues pour être appliquées aux graphes à la place des données d'entrée beaucoup plus volumineuses et redondantes. Un concept a été introduit pour la détection sensible et l'assemblage de séquences de marqueurs parmi des milliers d'échantillons munis d'étiquettes externes. Ce concept a d’importantes implications pour la détection des marqueurs de séquences cliniques (par exemple, à partir d'échantillons métagénomiques) en l'absence d'informations taxonomiques, comme le montre la collaboration avec l'Institut de virologie médicale (Université de Zurich).
- Enfin, des mises en œuvre de référence entièrement fonctionnelles ont été mises à la disposition du public pour toutes les méthodes développées. Tous les codes logiciels sont soumis à licence en tant que logiciels libres et disponibles à des fins de téléchargement et de contribution.
Titre original
Scalable Genome Graph Data Structures for Metagenomics and Genome Annotation