Coresets: du big data avec moins de données
La numérisation croissante de la société et de la science engendre d’énormes quantités de données. Dans ce projet, des algorithmes efficaces de compression des données ont été développés de façon à pouvoir les analyser de façon suffisamment précise.
Portrait / description du projet (projet de recherche terminé)
L’approche complète des techniques d’optimisations mathématiques déjà existantes afin de les adapter aux tâches complexes et aux modèles variés de l’apprentissage automatique moderne. Aussi des liens avec la théorie de l'apprentissage statistique ont été étudiés afin d’estimer la précision de la prévision des résultats. Au niveau théorique, des nouveaux algorithmes ont été étudiés et la preuve mathématique de leurs propriétés et de l’exactitude de leurs résultats a été apporté. Au niveau pratique, les algorithmes ont été implémentés et mis à disposition sous forme de logiciel libre, tenant en compte aussi bien des architectures de centres de données modernes que des plateformes mobiles.
Contexte
L’apprentissage automatique offre diverses techniques pour détecter des modèles utiles ainsi que pour étayer et automatiser des décisions sur la base de données. Mais plus leur volume est important, plus il est difficile de résoudre efficacement les problèmes de calcul qui en découlent.
Objectif
Des nouveaux algorithmes ont été développés pour analyser efficacement de gros volumes de données. L’objectif est de synthétiser ou de comprimer ces dernières de manière à réduire de façon minimale la précision des analyses statistiques et des processus d’apprentissage. Les "core sets" (ensembles de base) générés lors de la compression se traitent aussi de manière robuste et précise au moyen de méthodes de résolution complexes parce qu’ils sont considérablement plus petits que les données d’origine.
Importance / Application
Les résultats permettront à des groupes de recherche et à des entreprises qui ne possèdent pas de grands centres de calcul et de données de mieux faire face à leur croissance rapide. Les domaines d’application potentiels vont des systèmes de recommandation en ligne à l’Internet des objets en passant par la robotique.
Résultats
L'un des principaux résultats du projet est la construction de nouveaux "core sets" qui sont compatibles avec les modèles de réseaux neuronaux profonds modernes.
L'idée centrale est d'optimiser les pondérations associées aux différents points de données de façon à ce qu'un modèle formé d’après les données pondérées optimise la précision de prédiction de l'ensemble de données complet. Au lieu d’un simple sous-échantillonnage uniforme des données, qui ne permet pas de saisir correctement les cas marginaux et les événements rares, les "core sets" optimisés de ce projet résument systématiquement et échantillonnent de manière adaptative l'ensemble des données.
Ces approches permettent d’apprendre des modèles complexes en ligne, même sur des flux de données non stationnaires (c'est-à-dire où la distribution sous-jacente des exemples évolue au fil du temps, par exemple en raison des tendances saisonnières). Elles fournissent également des moyens très efficaces pour l'apprentissage semi-supervisé actif. En d'autres termes, ces méthodes sont capables de déterminer, à partir d'un grand ensemble de données non étiquetées, un petit sous-ensemble de points à étiqueter de façon à optimiser la précision prédictive lors de la propagation des informations d'étiquetage à l'aide des techniques modernes d'apprentissage profond semi-supervisé.
Titre original
Scaling Up by Scaling Down: Big ML via Small Coresets