Chimie computationnelle: découverte de nouvelles molécules
Les liaisons chimiques théoriquement possibles sont tellement nombreuses qu’il est impossible de les évaluer systématiquement par avance. Afin de pouvoir malgré tout faire des prévisions sensées, ce projet souhaite combiner l’apprentissage automatique avec des méthodes d’approximation de la chimie quantique.
Description du projet (projet de recherche terminé)
L’apprentissage automatique est une méthode mathématique permettant à des ordinateurs d’acquérir des connaissances de manière autonome à partir d’ensembles de données déterminés. Cette technique s’utilise déjà avec succès pour prédire les propriétés de composés chimiques. En raison du nombre extrêmement élevé de liaisons chimiques, les prévisions ne sont toutefois pas particulièrement précises. La cause en est que les ensembles de données mis à disposition sont soit suffisamment précis mais trop petits, soit suffisamment grands mais trop imprécis. C’est pourquoi nous cherchons à améliorer les modèles par une combinaison habile d’un petit nombre de données très précises avec un grand nombre de données moins précises.
Contexte
La synthèse et le test de nouveaux matériaux dans l’industrie chimique ou de nouveaux médicaments dans l’industrie pharmaceutique prennent beaucoup de temps et coûtent cher. Maîtriser la complexité des liaisons chimiques permettrait de réduire sensiblement ces dépenses. Grâce à des méthodes mathématiques améliorées, le projet vise à développer de manière ciblée des composés chimiques possédant les propriétés souhaitées.
Objectif
L’objectif de ce projet est le développement d’un procédé performant, soit précis et extrêmement rapide, pour prédire les propriétés de composés chimiques.
Importance / Application
Ce projet fournit aux chimistes expérimentaux un nouvel outil qui pourra les guider, grâce à des prévisions instantanées, dans l’identification, le design, la synthèse et la caractérisation de nouveaux composés intéressants. Le succès de tels modèles implique par ailleurs une meilleure compréhension quantitative des relations entre les structures chimiques et leurs propriétés.
Résultats
Trois parties constituent les achèvements dans le cadre de ce projet.
Dans la première partie, les données de formation/test ont été construites. Tous les ensembles de données ont été publiés et mis à disposition à des fins scientifiques.
La deuxième partie concerne les modèles d'apprentissage des machines quantiques qui utilisent des données de référence quantiques à fidélité multiple et à coût et précision de calcul variables. La courbe d'apprentissage pourrait être grandement améliorée, ce qui signifie que le modèle d'apprentissage par machine quantique est beaucoup plus puissant maintenant.
La troisième partie est le fondement mathématique et le développement de méthodes numériques pour les grands problèmes dans le domaine de "big data".
Toutes ces découvertes contribuent à améliorer encore les modèles d'apprentissage machine.
Titre original
Big Data for Computational Chemistry: Unified machine learning and sparse grid combination technique for quantum based molecular design