Algorithmes de prédiction rapide
L’humanité produit des quantités de plus en plus importantes de données. Les ordinateurs ont la capacité d’apprendre à partir de ces dernières, mais traiter cette énorme masse constitue encore un défi. Ce projet a développé des algorithmes d’apprentissage puissants et ultrarapides.
Portrait / description du projet (projet de recherche terminé)
Les "processus gaussiens" (GP) se rapportent à une famille d’algorithmes puissants utilisés dans l’apprentissage automatique. Ils ont de nombreuses vertus et peuvent apprendre à partir de n’importe quelles données, peu importe leur complexité. Ils ont de bonnes propriétés mathématiques pour des prévisions fiables. Ils sont clairs et facilement compréhensibles. Mais cette puissance a un coût en matière de temps de traitement, celui-ci étant incompatible avec les mégadonnées. Dans certains cas, il est toutefois possible d’approximer ces algorithmes afin de traiter des données de toutes tailles. Ce projet a entendu étendre cette capacité à tous les cas en développant des algorithmes spécifiques aux mégadonnées.
Contexte
L’apprentissage automatique est un domaine de recherche qui créé des procédures informatiques de plus en plus sophistiquées (algorithmes) pour analyser des mégadonnées. Cette combinaison entre mégadonnées et algorithmes intelligents offre une opportunité sans précédent pour en apprendre davantage sur le monde et, donc, pour accélérer le progrès. Mais le volume considérable de données complexes disponibles présente aussi des défis : leur traitement se doit d’être efficace et leur analyse fiable et pertinente.
Objectif
L’utilité d’un algorithme dans l’analyse des données est limitée par la rapidité requise pour leur traitement. De nombreuses recherches en matière d’apprentissage automatique sont donc orientées sur la combinaison entre puissance et rapidité, mais cela reste encore à faire pour les mégadonnées. Ce projet s’est concentré sur une nouvelle approche afin de créer des algorithmes qui fournissent un maximum de puissance et de rapidité, permettant ainsi de remplir les promesses du Big Data.
Importance / Application
Ce projet a englobé deux applications concrètes pour les nouveaux algorithmes. La première était une collaboration avec MétéoSuisse pour améliorer les prévisions et les alertes météo sur l’intensité des précipitations à partir de données radar.
La deuxième collaboration, avec armasuisse, a entendu fournir des prévisions en matière d’électrosmog. De nombreux autres problèmes peuvent être abordés en utilisant les mêmes algorithmes, par exemple dans les domaines de la médecine, de l’économie et de la science.
Résultats
Le projet a permis de faire progresser l'état de la technique dans les deux familles de méthodes de régression par processus gaussiens (GP) avec le Big Data, à savoir: les méthodes des points inducteurs clairsemés et les méthodes des GP locaux.
S’agissant de la première famille, les méthodes des points inducteurs clairsemés, le projet a permis des avancées significatives de l’apprentissage de ces méthodes d'approximation dans la configuration par mini-lots avec des techniques de descente de gradient stochastique. En particulier, une méthode récursive pour l'apprentissage de GP clairsemés a été conçue. En exploitant des mises à jour de type filtre Kalman, cette dernière a permis de réduire le nombre de paramètres à estimer et d'augmenter les performances globales. En suivant un axe de recherche similaire, une autre méthode, basée sur des mises à jour de filtre d'information et des hypothèses d'indépendance, a fourni des accélérations de calcul jusqu'à quatre fois supérieures à l'état de la technique.
Le projet a permis aussi de développer une méthode corrélée pour les approximations de GP locaux. Cette méthode permet un contrôle précis du niveau de sparsité et de localité de l'approximation. Il est donc plus facile de l'adapter à des applications spécifiques. De plus, en tenant compte de manière adéquate des corrélations dans une configuration Produits d'experts, la méthode proposée offre de meilleures performances que les approximations de l'état de la technique.
Le projet a donné lieu à plusieurs contributions dans des revues et conférences de premier plan dans les domaines de l'apprentissage automatique, des statistiques et de la théorie du contrôle.
Titre original
State space Gaussian processes for big data analytics