Sprachmodelle: neue Methoden für dialogfähige Agenten
Bald schon werden uns intelligente Softwareagenten Rede und Antwort stehen und uns mit Unterhaltung und Information versorgen. Damit solche interaktiven Anwendungen möglich werden, untersuchte dieses Projekt Grundlagenmethoden des maschinellen Sprachverstehens und Lernens.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Dialogfähige Agenten benötigen eine Reihe von Lesefähigkeiten. Sie müssen etwa Referenzen auf Personen, Organisationen, Ereignisse und Begriffe identifizieren – also quasi automatisch Wikipedia-Links erstellen – können. Sie müssen trotz der fundamentalen Mehrdeutigkeit und Kontextabhängigkeit unserer Sprache verstehen, von wem oder was die Rede ist. Auch muss der Gehalt der Aussagen erkannt und extrahiert werden. Hier bieten neuere Verfahren des "Deep Learnings" Möglichkeiten, den Bedeutungsinhalt von Sätzen unabhängig von Wortwahl und Satzbau zu verstehen. Schliesslich geht es darum, geeignete Diskursmodelle zu entwickeln, die verbunden mit einem Situationsverständnis eine effektive Interaktion mit Menschen ermöglichen.
Hintergrund
Vielfältige Algorithmen helfen uns bei der Beschaffung und Bewertung von Informationen, etwa im Zusammenhang mit Suchmaschinen oder sozialen Medien. Gleiches gilt für den Bereich der Unterhaltung oder des E-Commerce. Mehr und mehr kommen dabei intelligente, dialogfähige Systeme zum Einsatz, an die wir gesprochene Anfragen in natürlicher Sprache richten können. Die wirtschaftlichen und gesellschaftlichen Auswirkungen dieser neuen Technologien sind enorm.
Ziele
Eine dialogfähige Software muss automatisch Text und Sprache verstehen. Dabei geht es nicht nur um gesprochene Anfragen, sondern auch um ein tieferes Verständnis der Dokumente und Texte, in denen unser Weltwissen niedergeschrieben ist. Dieses Projekt entwickelte neue Methoden des Textverstehens: Wovon ist die Rede und was wird ausgesagt? Was könnte davon für das Gegenüber relevant oder wissenswert sein? Fragen, die einer algorithmischen Lösung bedürfen.
Bedeutung / Anwendung
Ziel dieses Forschungsprojekts war es Technologien und Methoden zu entwickeln, die direkt in Dialogsysteme einfliessen werden. Solche Systeme sind in Smartphones und auf dem Internet bereits vielfältig im Einsatz, und ihre Bedeutung wird in dem Masse steigen, wie die Qualität der Interaktion mit Menschen verbessert werden kann. Ob zu Hause, am Arbeitsplatz, oder unterwegs: intelligente Agenten werden heutige Schnittstellen in die digitale Welt des Wissens und der Unterhaltung ersetzen.
Resultate
Im Rahmen des Projekts wurden Resultate in vier grundlegenden Bereichen erzielt, welche von zentraler Bedeutung sind für die sich rasch entwickelnden Bereiche Verarbeitung natürlicher Sprache und dialogfähige Agenten.
Im Bereich Erkennung und Verknüpfung von Entitäten trug das Projekt zu einem neuartigen Verkettungssystem bei, welches das fortschrittliche Einbetten von Entitäten, einen neuronalen Aufmerksamkeitsmechanismus über lokale Kontextfenster und eine differenzierbare gemeinsame Disambiguierungsinferenzierung kombiniert. Insbesondere kombiniert das System die Erkennung und Verknüpfung von Entitäten. Darüber hinaus hat die Arbeit in diesem Bereich zu innovativen Folgeprojekten geführt.
Zweitens konnten im Bereich der Spracherzeugungsmodelle, welche die Grundlage für Konversationssysteme bilden, Resultate erzielt werden, die sich mit verschiedenen Einschränkungen durch Verzerrungen und Lernzwang beim Training bedingungsloser Sprachmodelle befassen.
Drittens wurden im Zusammenhang mit der Verwendung von tiefen neuronalen Netzen für generative Modelle Fortschritte bei Lernalgorithmen für Generative Adversarial Networks (GAN) und deren Bewertung erzielt. Die Hoffnung ist, dass GANs für die Textproduktion und den Austausch in Gesprächen eingesetzt werden könnten, was nach wie vor eine Herausforderung darstellt.
Viertens wurden Resultate in Bezug auf die Entwicklung von Agenten für bestärkendes Lernen im Rahmen von textbasierten Spielen erzielt. Der Schwerpunkt lag auf der Frage, wie mit der kompositorischen und kombinatorischen Natur der Sprache umgegangen werden kann, die eine Strategieoptimierung erschwert. Es wurde ein Agent entwickelt, der in der Lage ist, in einer ganzen Familie von Spielen gute Leistungen zu erbringen, nicht nur in einem einzigen.
Insgesamt leistete das Projekt bedeutende Beiträge zur Methodik des maschinellen Lernens, vor allem in den Bereichen geometrische Einbettungen und generative Modelle. Die Resultate sind in einem Dutzend wissenschaftlichen Publikationen dokumentiert, darunter bereits stark zitierte Beiträge von Top-Konferenzen im Bereich des maschinellen Lernens oder der künstlichen Intelligenz wie NeurIPS, ICML und AISTATS.
Originaltitel
Conversational Agent for Interactive Access to Information