Coresets: Big Data mit weniger Daten
Durch die zunehmende Digitalisierung in der Gesellschaft und Wissenschaft entstehen massive Datenmengen. In diesem Projekt wurden effiziente Algorithmen entwickelt, um Daten so komprimieren zu können, dass mit den komprimierten Datensätzen maschinelle Lernmodelle mit zufriedenstellender Genauigkeit trainiert werden können.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Der Ansatz erweitert bereits bestehende mathematische Optimierungsverfahren, um sie auf komplexe Aufgaben und reichhaltige Modelle des modernen maschinellen Lernens anwenden zu können. Zudem wurden Verbindungen zur statistischen Lerntheorie untersucht, um die Vorhersagegenauigkeit der Ergebnisse abschätzen zu können. Die Arbeit ist einerseits theoretisch: Es wurden neuartige Algorithmen entwickelt und ihre Eigenschaften und die Genauigkeit ihrer Resultate wurden mathematisch bewiesen. Andererseits wurden die Algorithmen implementiert und als Open-Source-Software zur Verfügung gestellt. Dabei wurden sowohl Architekturen von modernen Datenzentren als auch mobile Plattformen berücksichtigt.
Hintergrund
Immense Datenmengen entstehen in unterschiedlichsten Bereichen von Wissenschaft und Gesellschaft. Das maschinelle Lernen bietet vielerlei Techniken, nützliche Muster zu erkennen sowie datenbasiert Entscheidungen zu unterstützen und zu automatisieren. Je grösser allerdings die Datenmenge, desto schwieriger ist es, die resultierenden Rechenaufgaben effizient zu lösen.
Ziele
Neuartige Algorithmen zur effizienten Analyse von grossen Datenmengen wurden entwickelt. Hierbei ist das Ziel, die Daten so zusammenzufassen oder zu komprimieren, dass mit den komprimierten Daten maschinelle Lernmodelle mit minimalen Genauigkeitseinbussen trainiert werden können. Die bei der Komprimierung entstehenden so genannten Coresets können auch von komplexen Lösungsverfahren mit hoher Robustheit und Genauigkeit bearbeitet werden, weil sie erheblich kleiner sind als die ursprünglichen Daten.
Bedeutung / Anwendung
Die Ergebnisse werden es auch Forschungsgruppen und Unternehmen ohne grosse Rechen- und Datenzentren erlauben, mit dem rasanten Wachstum an Daten besser Schritt halten zu können. Potenzielle Anwendungen reichen von Online-Empfehlungsdiensten über die Robotik bis zum Internet der Dinge.
Resultate
Zu den wichtigsten Ergebnissen des Projekts zählen neuartige Coreset-Konstruktionen, kompatibel mit modernen tiefen neuronalen Netzwerkmodellen.
Die zentrale Idee dahinter ist, mit unterschiedlichen Datenpunkten verbundene Gewichtungen so zu optimieren, dass ein in Bezug auf gewichtete Daten trainiertes Modell die Vorhersagegenauigkeit für den gesamten Datensatz maximiert. Statt einer einfachen einheitlichen Unterabtastung der Daten, die Randfälle und seltene Ereignisse nicht richtig erfasst, fassen die optimierten Coresets dieses Projekts den Datensatz systematisch zusammen und nehmen entsprechende Stichproben.
Mit diesen Ansätzen können komplexe Modelle sogar bei nicht-stationären Datenströmen (d. h., wenn sich die zugrunde liegende Verteilung eingehender Proben z. B. wegen saisonaler Schwankungen im Laufe der Zeit ändert) online trainiert werden. Ausserdem stellen sie ein hochwirksames Mittel für aktives, semi-überwachtes Lernen dar. Diese Methoden können also bei der Weitergabe von Kennzeichnungsdaten mithilfe moderner semi-überwachter Deep-Learning-Techniken aus einem grossen nicht gekennzeichneten Datensatz eine kleine Teilmenge von Punkten zur Kennzeichnung bestimmen, um die Vorhersagegenauigkeit zu maximieren.
Originaltitel
Scaling Up by Scaling Down: Big ML via Small Coresets