Modelle maschinellen Lernens: Robustheit und Verallgemeinerung
Schwerpunkt des Projekts war die Entwicklung von Theorie und Methodik für maschinelles Lernen von lernenden Systemen. Es ging also um die Entwicklung robusterer Lernsysteme und neuer Methoden für maschinelles Lernen sowie um die Bestätigung von Entscheidungen neuronaler Netze, die erhebliche Lernfähigkeiten in verschiedenen Bereichen versprechen.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Im Rahmen dieses Projekts wurden neue gemeinsame optimierungs- und lerntheoretische Grundlagen für neuronale Netze entwickelt, um zum einen rechnerische Skalierbarkeitsgrenzen zu überwinden und zum anderen die Qualität der Lernergebnisse nachzuweisen. Grundsätzlich stützt sich die Vorgehensweise auf die bereits vorliegenden theoretischen Ergebnisse der Forschungsteams zum Kompromiss zwischen garantierter Datenmenge und Berechnung sowie auf die jüngsten Berechnungsmethoden, die schon jetzt umfangreiche, konvexe Optimierungsprobleme zur Erleichterung nicht-konvexer Probleme lösen.
Hintergrund
Die gemeinsame Untersuchung von Optimierung und Funktionsdarstellungen steckt derzeit selbst bei einfachen Minimierungsformulierungen im maschinellen Lernen noch in den Kinderschuhen. Durch einen einheitlichen Ansatz im breiteren Rahmen der nicht-konvexen Optimierung sollten neue Methoden entwickelt werden, die über Datengenerierung, Komprimierung, Domain-Anpassung und Steuerungsaufgaben hinaus anwendbar sind.
Ziele
Es wurden drei miteinander verknüpfte Forschungsbereiche untersucht:
(1) ein exakter, skalierbarer Rahmen für Prognosen mit neuronalen Netzen und Langevin-Dynamik
(2) ein flexibler, robuster Entscheidungsrahmen durch selbstverstärkendes Lernen
(3) die Verallgemeinerung und Zertifizierung von neuronalen Netzen
Bedeutung / Anwendung
Theorie und Methodik dieses Projekts sind weit über Datengenerierung, Komprimierung, Domain-Anpassung und Steuerungsaufgaben hinaus anwendbar und versprechen erhebliche Lernfähigkeiten in unterschiedlichen Bereichen.
Resultate
Das Projekt wurde mit den folgenden Ergebnissen abgeschlossen:
- Gemeinsames Optimieren und Erlernen theoretischer Grundlagen für neuronale Netze mit überprüfbaren Ergebnissen
- Schulung von Lernsystemen durch iterative Unterweisung
- Neue robuste selbstverstärkende Lerntechniken
Es wurde ein Optimierungsrahmen zur Schätzung der Lipschitz-Konstante neuronaler Netze entwickelt, der für Verallgemeinerung und Verifizierung entscheidend ist. Der Ansatz basiert auf der Suche nach einem Polynomzertifikat über Krivine-Zertifikate und Lasserre-Hierarchien. Ausserdem hat das Team die Regulierung von neuronalen Netzen mithilfe der 1-Path-Norm untersucht und Berechnungstools zur Schaffung numerischer Lösungen entwickelt. Zudem konnten neue Tools zur Quantifizierung der Lerngeneralisierung hergeleitet werden.
Es wurden Probleme im Bereich maschinelles Lernen betrachtet, bei denen eine Lehrperson Beispiele zur Beschleunigung des Lernens bereitstellte, welche die Vielfalt der Schülerinnen und Schüler hinsichtlich ihrer Lernfortschritte berücksichtigten. Im Rahmen des Projekts wurde dieses Problem auch auf den Bereich des inversen selbstverstärkenden Lernens ausgedehnt, wobei festgestellt wurde, dass der Lernfortschritt drastisch beschleunigt werden kann.
Schliesslich wurde ein neuer Rahmen für gemischte Nash-Gleichgewichte für ein robustes selbstverstärkendes Lernen entwickelt. Der Kerngedanke besteht dabei darin, eine gehobene Version des Problems des robusten selbstverstärkenden Lernens zu betrachten und dann die entwickelte Langevin-Dynamik zu verwenden, um Lösungsverteilungen zu nutzen. Dieser Ansatz verstärkt nicht nur die Robustheit, sondern auch die Verallgemeinerung im Allgemeinen.
Originaltitel
Theory and methods for accurate and scalable learning machines