Comparaison de génomes: des analyses plus rapides
Les avancées technologiques dans le séquençage de l'ADN facilitent le décryptage du génome de nombreux organismes. Cette masse de données, de qualité variable, constitue un défi pour les biologistes : comment les analyser de manière efficace et cohérente ?
Portrait / description du projet (projet de recherche terminé)
Le projet se concentrera tout d’abord sur le développement d’outils capables d’organiser les données génomiques et d’en déduire les éléments biologiques comparables, comme par exemple les gènes similaires entre différentes espèces. Se basant sur des données génomiques de différents types, ils permettront d’analyser davantage d’espèces, un point important pour mieux comprendre les processus impliqués dans l’évolution des espèces. Le second axe consistera à mettre au point de nouveaux algorithmes d’apprentissage automatique à même d’identifier, parmi les dizaines de milliers de gènes présents dans les génomes, lesquels montrent les caractéristiques les plus intéressantes. Leur étude approfondie à l’aide de méthodes de modélisation permettra d’en comprendre les interactions et l’évolution.
Contexte
Identifier les gènes importants pour le développement des organismes permet de déterminer lesquels sont liés à des fonctions essentielles à leur survie. En médecine, par exemple, savoir si un gène identifié dans un organisme modèle comme la souris possède la même fonction chez l'homme se révèle essentiel. Répondre à de telles questions nécessite des méthodes computationnelles complexes ainsi que des données de qualité. De ce fait, elles se limitent à un petit nombre d'organismes très bien étudiés et font fi de l’énorme quantité de données de moindre qualité actuellement générées.
Objectif
Ce projet vise à développer de nouvelles approches computationnelles à même de traiter des données génomiques de qualité variable afin de comparer les génomes de différents organismes. Modéliser les interactions entre les gènes, à l’aide de méthodes d’apprentissage automatique, permettra de comprendre l'évolution de groupes de gènes impliqués, par exemple, dans les voies métaboliques.
Importance / Application
Le projet s'intègre pleinement dans le cadre de la problématique Big Data en abordant les aspects de taille, d’hétérogénéité et de qualité des données génomiques en biologie. Il a des implications au-delà de cette seule discipline car la mise en place d'approches de gestion et de comparaison de données est essentielle dans d’autres domaines, comme l’analyse du langage. L’apprentissage automatique constitue, lui, un élément clé des sciences computationnelles.
Résultats
Le projet a permis d’obtenir deux résultats majeurs:
Premièrement, pour traiter efficacement et rigoureusement les séquences protéiques dérivées de génomes nouvellement séquencés, nous avons développé OMAmer, une nouvelle méthode de classification des familles et sous-familles de protéines sans alignement, adaptée aux bases de données phylogénomiques contenant des milliers de génomes. Nous avons également démontré l'applicabilité de cette approche aux problèmes concrets de la génomique comparative. Les ensembles de données sont de plus en plus nombreux du fait des nouveaux efforts déployés en génomique comparative à grande échelle, et nous comptons sur OMAmer et ses outils dérivés pour jouer un rôle essentiel en rendant ces ensembles pertinents pour les questions biologiques.
Deuxièmement, nous avons progressé dans l'utilisation du Big Data pour identifier les signaux subtils de coévolution dans les séquences biologiques à l’aide de méthodes d'intelligence artificielle avancées. Même si ce projet était axé sur la coévolution, l'approche d'apprentissage automatique que nous avons développée peut s’appliquer à d'autres processus moléculaires tels que la détection de la sélection. L'étape suivante consiste à poursuivre dans cette direction en utilisant la base de données Selectome (une ressource de sélection positive dans le génome des vertébrés) que nous avons mise à jour dans le cadre de ce projet.
Titre original
Efficient and accurate comparative genomics to make sense of high volume low quality data in biology