Evidenzbasierte Politik: Kausalität aus Daten entdecken
Big Data kann nicht nur die Prognose ökonomischer Entwicklungen, sondern auch deren Wirkungsanalyse verbessern. Während jedoch für die Prognose in der Vergangenheit riesige Fortschritte erzielt wurden, stand die Nutzung dieser Daten für die Wirkungsmessung zu Beginn des Projekts erst am Anfang. Daher wollten wir Methoden zur Wirkungsmessung weiterentwickeln und auf ausgewählte Forschungsfragen exemplarisch anwenden.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Im ersten Projektteil haben wir kausalanalytische Methoden aus der Mikroökonometrie mit den statistischen Methoden des maschinellen Lernens kombiniert. Die Eigenschaften der resultierenden neuen statistischen Verfahren untersuchten wir zuerst mit Hilfe von Simulationsmethoden. Danach überprüften und optimierten wir die Methoden in spezifischen Anwendungsgebieten.
Hintergrund
In den letzten Jahren hat die mikroökonometrische Forschung grosse Fortschritte bei der Entwicklung methodischer Werkzeuge zur Beantwortung kausaler Fragestellungen erzielt. Diese Methoden wurden – etwa zur Beurteilung wirtschaftspolitischer Massnahmen – schon erfolgreich eingesetzt. Doch leider sind diese Methoden zur Analyse komplexer Datenmengen weitgehend ungeeignet und nutzen nicht die neuesten Fortschritte beim maschinellen Lernen. Lassen sich die Methoden erweitern, so dass auch in der Wirkungsmessung massive Fortschritte bei der Verwendung von Big Data erzielt werden können?
Ziele
In diesem Projekt wollen wir die mikroökonometrische Methoden der Kausalanalyse (Wirkungsmessung) und die statistischen Prognosemodelle des maschinellen Lernens kombinieren, um die umfangreichen Datensätze für eine deutlich verbesserte Wirkungsanalyse wirtschaftspolitischer und privatwirtschaftlicher Entscheidungen verwenden zu können.
Bedeutung / Anwendung
Die Ergebnisse führen zu verlässlicheren Aussagen über die Wirkung von einzelnen Massnahmen und Entscheidungen in vielen wirtschaftlichen Bereichen. Somit ergibt sich einerseits für den öffentlichen Sektor die Möglichkeit einer effizienteren, da evidenzbasierten, Wirtschaftspolitik. Andererseits profitieren im privaten Sektor auch Firmen von verbesserten Entscheidungshilfen.
Resultate
Im ersten Teil dieses Projekts haben wir bestehende Methoden des kausalen maschinellen Lernens mit Hilfe von Simulationsmethoden evaluiert und anschliessend diese Methoden erweitert bzw. neue entwickelt. Das Hauptziel der meisten dieser Erweiterungen und Neuentwicklungen, die sowohl auf doppeltem maschinellem Lernen als auch auf ursächlichen Kräften basieren, war es, einen konsistenten Satz von Methoden zu erhalten, der es erlaubt, relevante kausale Parameter auf verschiedenen Aggregationsebenen auf kohärente Weise zu bewerten sowie eine optimale Richtlinienanalyse durchzuführen. Letztere basiert auf der Zuordnung der «Richtlinie» oder Handlungsweise zu einer bestimmten Population, um eine Zielfunktion zu maximieren, z.B. die Gewinne eines Unternehmens oder eine genau definierte Fürsorge eines Entscheidungsträgers. Entsprechender Computercode in R oder Python wurde erstellt und über PyPy und CRAN öffentlich (kostenlos) zur Verfügung gestellt.
Die neuen Methoden wurden in einem zweiten Teil auf verschiedene wirtschaftliche Fragestellungen angewandt:
- Welche (heterogenen) Effekte hat die Teilnahme an aktiven Arbeitsmarktprogrammen für den spezifischen Arbeitslosentypus? In diesem Fall wurden ähnliche Analysen mit Verwaltungsdaten aus Flandern und Deutschland durchgeführt.
- Welche Auswirkungen haben Umweltauflagen auf die Angebotspreise von Gebrauchtwagen? Diese Analyse basierte auf Daten eines deutschen Online-Portals.
- Weitere empirische Analysen wendeten die Methodik auf Fragen nach den Effekten von musikalischer Bildung auf die kindliche Entwicklung, Sportlichkeit auf den Erfolg bei Online-Dating-Plattformen, Stimmungen in Bezug auf Gewinnbekanntgaben zu Börsenkennzahlen sowie auf Fragen nach dem sogenannten «Ressourcenfluch» in Entwicklungsländern an.
- Welche (heterogenen) Effekte hat die Teilnahme an aktiven Arbeitsmarktprogrammen für den spezifischen Arbeitslosentypus? In diesem Fall wurden ähnliche Analysen mit Verwaltungsdaten aus Flandern und Deutschland durchgeführt.
In all diesen Anwendungsfällen aus sehr unterschiedlichen Bereichen konnten die neuen Methoden einen erheblichen Mehrwert gegenüber bestehenden empirischen Toolkits beweisen. Damit sorgen sie für eine wesentliche Verbesserung des Wertes empirischer Studien für die Entscheidungsfindung.
Originaltitel
Causal analysis with Big Data