Politique basée sur les faits: démontrer les causalités dans les données
Le Big Data est à même d’améliorer non seulement les pronostics sur les évolutions économiques mais aussi les analyses d’impact économiques. Alors que d’énormes progrès ont été réalisés dans le passé en ce qui concerne les pronostics, l’utilisation des données pour l’évaluation de l’impact n’en était qu’à ses débuts au début du projet. Nous avons développé donc des méthodes idoines afin de les appliquer à des questions de recherche sélectionnés.
Portrait / description du projet (projet de recherche terminé)
Dans la première partie du projet, nous avons combiné des méthodes de l’analyse de causalité propres à la micro-économétrie avec les méthodes statistiques de l’apprentissage automatique. Nous avons examiné tout d’abord les propriétés des nouveaux procédés statistiques à l’aide de méthodes de simulation. Nous avons vérifié ensuite l’utilité pratique des méthodes dans des domaines d’application.
Contexte
Ces dernières années, la recherche micro-économétrique a fait de gros progrès dans le développement des outils méthodologiques pour répondre aux questions causales. Ces méthodes s’appliquent déjà avec succès - par exemple pour l’évaluation de mesures de politique économique. Ces méthodes se révèlent malheureusement inapproprié pour analyser des volumes de données complexes et n'exploite pas les dernières avancées en matière d'apprentissage automatique. Ces méthodes peuvent-elles être élargies afin de réaliser des progrès importants dans l’évaluation de l’impact lors de l’utilisation de big data?
Objectif
Dans ce projet, nous voulons combiner les méthodes microéconométriques de l’analyse de causalité (évaluation de l’impact) avec les modèles de prévision statistiques de l’apprentissage automatique, afin d’utiliser les vastes jeux de données en vue d’améliorer de manière significative l’analyse de l’impact des décisions économiques prises par les autorités politiques et les privés.
Importance / Application
Le résultat du projet permet d'obtenir des déclarations nettement plus fiables sur l’impact de certaines mesures et décisions dans de nombreux de secteurs économiques. Dans le secteur public, il sera ainsi possible de mener une politique économique plus efficace, car basée sur des éléments factuels et concrets. Dans le secteur privé, les entreprises bénéficieront également de meilleures bases de décision.
Résultats
Dans la première partie de ce projet, nous avons évalué les méthodes existantes d'apprentissage automatique causal à l’aide de méthodes de simulation, après quoi nous avons étendu ces méthodes et en avons développé de nouvelles. La plupart de ces extensions et nouveaux développements, basés sur le double apprentissage automatique ainsi que sur les forêts causales, avaient pour objectif principal d'obtenir un ensemble cohérent de méthodes permettant d'estimer de manière cohérente les paramètres de causalité pertinents à différents niveaux d'agrégation, ainsi que d'effectuer une analyse de politique optimale. Cette dernière est basée sur l'attribution de la «politique» ou du traitement à une certaine population en vue de maximiser une certaine fonction d’objectif, comme les bénéfices d'une entreprise ou la prospérité clairement définie d'un décideur politique. Le code informatique respectif en R ou Python a été créé et mis (gratuitement) à la disposition du public via PyPy et CRAN.
Ces nouvelles méthodes ont été appliquées à plusieurs questions économiques:
- Quels sont les effets (hétérogènes) de la participation à des programmes actifs du marché du travail pour le cas spécifique des chômeurs? Dans ce cas, des analyses similaires ont été menées avec des données administratives provenant de la Flandre et de l'Allemagne.
- Quels sont les effets des réglementations environnementales sur les prix d'offre des voitures d'occasion ? Cette analyse était basée sur des données provenant d’un portail en ligne allemand.
- Existe-t-il un favoritisme des arbitres dans les matchs de football à l’égard des équipes provenant de la même région linguistique suisse? Cette analyse était basée sur des données footballistiques suisses provenant des deux premières ligues.
- Une autre analyse empirique a permis d’appliquer cette méthodologie aux questions concernant les effets de la pratique de la musique sur le développement de l'enfant, les effets de la pratique d’un sport sur le succès des rencontres en ligne, les effets du sentiment d’actualité concernant les annonces des bénéfices sur les indicateurs boursiers, ainsi que les questions concernant la «malédiction des ressources» dans les pays en développement.
Dans toutes ces applications issues de domaines très différents, les nouvelles méthodes ont démontré leur importante valeur ajoutée par rapport à l’ensemble d’outils empiriques existant. Elles contribuent ainsi à améliorer sensiblement la valeur des études empiriques pour la prise de décision.
Titre original
Causal analysis with Big Data