Schnelle Vorhersagealgorithmen
Die Menschheit produziert immer grössere Mengen von Daten. Computer sind zwar fähig, aus diesen Daten zu lernen, aber die Verarbeitung riesiger Datenvolumen ist nach wie vor schwierig. Dieses Projekt entwickelte leistungsfähige, ultraschnelle Algorithmen, die Big-Data-basiertes Lernen ermöglichen.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Gauss'sche Prozesse (GP) sind im maschinellen Lernen eingesetzte, leistungsstarke Algorithmen mit vielen Vorzügen: Sie können auch von sehr komplexen Daten lernen. Dank ihrer guten mathematischen Eigenschaften liefern sie zuverlässige Voraussagen. Sie sind eindeutig und leicht verständlich. Ihre Leistungsfähigkeit geht allerdings zu Lasten der Verarbeitungszeit – für grosse Datenmengen sind sie deshalb ungeeignet. Dennoch sind diese Algorithmen in bestimmten Fällen zur Verarbeitung beliebig grosser Datenvolumen einsetzbar. Ziel dieses Projekts war es, diese Einsatzmöglichkeiten zu erweitern und Algorithmen zu entwickeln, die geeignet sind, verschiedenste Anwendungen zu revolutionieren.
Hintergrund
Im Forschungsbereich des maschinellen Lernens werden zunehmend intelligentere IT-Verfahren (Algorithmen) für die Analyse von Big Data entwickelt. Dies bietet bisher ungeahnte Möglichkeiten, mehr über die Welt zu erfahren und neue Entwicklungen zu beschleunigen. Doch die Fülle der verfügbaren Daten birgt verschiedene Herausforderungen, denn die grossen Volumen komplexer Daten müssen zuverlässig analysiert und effizient verarbeitet werden.
Ziele
Der Nutzen eines Algorithmus für die Datenanalyse hängt davon ab, wie viel Zeit er zur Verarbeitung der Daten benötigt. Im Bereich maschinelles Lernen konzentriert sich die Forschung daher vor allem auf die Verbindung von Leistung und Geschwindigkeit – ein Ziel, das für Big Data noch nicht erreicht wurde. Im Fokus dieses Projekts stand ein neuer Ansatz zur Entwicklung von Algorithmen, die so schnell und leistungsfähig sind, dass sie das Versprechen von Big Data einlösen können.
Bedeutung / Anwendung
Die neuen Algorithmen sollten im Rahmen des Projekts auch praktisch erprobt werden: Erstens wurden in Kooperation mit MeteoSchweiz enorme Mengen von Radardaten verarbeitet, um die Vorhersage der Niederschlagsintensität zu verbessern.
Zweitens wurden in Kooperation mit Armasuisse umfangreiche Sensordaten für die Vorhersage von Elektrosmog ausgewertet. Mithilfe der gleichen Algorithmen können viele weitere Probleme gelöst werden, etwa in den Bereichen Medizin, Wirtschaft und Wissenschaft.
Resultate
Das Projekt brachte den Stand der Forschung hinsichtlich zweier Methodik-Familien für die GP-Regression mit Big Data voran: die Methoden der sparsamen Induzierungspunkte und die lokalen GP-Methoden.
Hinsichtlich der ersten Familie, der Methoden der sparsamen Induzierungspunkte, hat das Projekt signifikante Fortschritte im Training solcher Annäherungsmethoden im Mini-Batch-Setting mit stochastischen Gradientenabstiegsverfahren erreicht. Insbesondere wurde eine rekursive Methode für das Training sparsamer GP entwickelt, die durch das Ausnutzen von Kalman-Filter-ähnlichen Updates die Anzahl der zu schätzenden Parameter reduzierte und die Gesamtleistung erhöhte. Indem ein ähnlicher Forschungsansatz verfolgt wurde, konnte gezeigt werden, dass eine weitere Methode auf der Grundlage von Informationsfilter-Updates und Unabhängigkeitsannahmen im Vergleich zum aktuellen Stand der Forschung eine bis zu viermal höhere Berechnungsgeschwindigkeit ermöglichte.
Im Rahmen des Projekts wurde ausserdem eine korrelierte Methode für lokale GP-Annäherungen entwickelt. Diese Methode ermöglicht eine präzisere Kontrolle über den Sparsamkeitsgrad und die Lokalität der Annäherung. Die Optimierung für bestimmte Anwendungen gestaltet sich so einfacher. Des Weiteren erreichen die vorgeschlagenen Methoden durch korrekte Berücksichtigung von Korrelationen in einem Produkt des Experten-Settings eine bessere Leistung als bisherige Annäherungen.
Im Rahmen des Projekts wurden verschiedene Beiträge für führende Fachzeitschriften und Konferenzen zum Thema maschinelles Lernen, Statistik und Steuerungstheorie produziert.
Originaltitel
State space Gaussian processes for big data analytics