Bereiche von der Robotik über die Medizin bis hin zur Politikwissenschaft versuchen, KI-Systeme zu trainieren, sinnvolle Entscheidungen aller Artwork zu treffen. Beispielsweise könnte der Einsatz eines KI-Techniques zur intelligenten Steuerung des Verkehrs in einer überlasteten Stadt Autofahrern helfen, ihr Ziel schneller zu erreichen und gleichzeitig die Sicherheit oder Nachhaltigkeit zu verbessern.
Leider ist es keine leichte Aufgabe, einem KI-System beizubringen, gute Entscheidungen zu treffen.
Reinforcement-Studying-Modelle, die diesen KI-Entscheidungssystemen zugrunde liegen, scheitern immer noch häufig, wenn selbst kleine Abweichungen bei den Aufgaben, für die sie trainiert werden, auftreten. Im Falle des Verkehrs kann es für ein Modell schwierig sein, eine Reihe von Kreuzungen mit unterschiedlichen Geschwindigkeitsbegrenzungen, Fahrspurnummern oder Verkehrsmustern zu steuern.
Um die Zuverlässigkeit von Reinforcement-Studying-Modellen für komplexe Aufgaben mit Variabilität zu erhöhen, haben MIT-Forscher einen effizienteren Algorithmus für deren Coaching eingeführt.
Der Algorithmus wählt strategisch die besten Aufgaben für das Coaching eines KI-Agenten aus, sodass dieser alle Aufgaben in einer Sammlung verwandter Aufgaben effektiv ausführen kann. Im Fall der Ampelsteuerung könnte jede Aufgabe eine Kreuzung in einem Aufgabenraum sein, der alle Kreuzungen in der Stadt umfasst.
Durch die Konzentration auf eine kleinere Anzahl von Schnittpunkten, die am meisten zur Gesamteffektivität des Algorithmus beitragen, maximiert diese Methode die Leistung und hält gleichzeitig die Trainingskosten niedrig.
Die Forscher fanden heraus, dass ihre Technik bei einer Reihe simulierter Aufgaben zwischen fünf und 50 Mal effizienter battle als Standardansätze. Dieser Effizienzgewinn hilft dem Algorithmus, schneller eine bessere Lösung zu lernen, was letztendlich die Leistung des KI-Agenten verbessert.
„Wir konnten mit einem sehr einfachen Algorithmus unglaubliche Leistungsverbesserungen feststellen, indem wir über den Tellerrand hinausschauten. Ein Algorithmus, der nicht sehr kompliziert ist, hat eine bessere Probability, von der Group übernommen zu werden, da er einfacher zu implementieren und für andere leichter zu verstehen ist“, sagt die leitende Autorin Cathy Wu, außerordentliche Professorin für Karriereentwicklung bei Thomas D. und Virginia W. Cabot in Bau- und Umweltingenieurwesen (CEE) und am Institut für Daten, Systeme und Gesellschaft (IDSS) sowie Mitglied des Labors für Informations- und Entscheidungssysteme (LIDS).
Sie ist dabei Papier vom Hauptautor Jung-Hoon Cho, einem CEE-Absolventen; Vindula Jayawardana, Doktorandin am Fachbereich Elektrotechnik und Informatik (EECS); und Sirui Li, ein IDSS-Doktorand. Die Forschung wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Einen Mittelweg finden
Um einen Algorithmus für die Steuerung von Ampeln an vielen Kreuzungen in einer Stadt zu trainieren, würde ein Ingenieur normalerweise zwischen zwei Hauptansätzen wählen. Sie kann einen Algorithmus für jede Kreuzung unabhängig trainieren, indem sie nur die Daten dieser Kreuzung verwendet, oder einen größeren Algorithmus trainieren, indem sie Daten von allen Kreuzungen verwendet und ihn dann auf jede einzelne anwendet.
Aber jeder Ansatz bringt seine Nachteile mit sich. Das Coaching eines separaten Algorithmus für jede Aufgabe (z. B. eine bestimmte Kreuzung) ist ein zeitaufwändiger Prozess, der eine enorme Menge an Daten und Berechnungen erfordert, während das Coaching eines Algorithmus für alle Aufgaben häufig zu einer unterdurchschnittlichen Leistung führt.
Wu und ihre Mitarbeiter suchten nach einem Kompromiss zwischen diesen beiden Ansätzen.
Für ihre Methode wählen sie eine Teilmenge von Aufgaben aus und trainieren für jede Aufgabe unabhängig einen Algorithmus. Wichtig ist, dass sie strategisch einzelne Aufgaben auswählen, die die Gesamtleistung des Algorithmus bei allen Aufgaben am wahrscheinlichsten verbessern.
Sie nutzen einen gängigen Trick aus dem Bereich des verstärkenden Lernens namens Zero-Shot-Switch-Studying, bei dem ein bereits trainiertes Modell ohne weiteres Coaching auf eine neue Aufgabe angewendet wird. Beim Transferlernen schneidet das Modell bei der Aufgabe „Neuer Nachbar“ oft bemerkenswert intestine ab.
„Wir wissen, dass es best wäre, alle Aufgaben zu trainieren, aber wir fragten uns, ob wir mit dem Coaching einer Teilmenge dieser Aufgaben durchkommen, das Ergebnis auf alle Aufgaben anwenden und trotzdem eine Leistungssteigerung feststellen könnten“, sagt Wu.
Um herauszufinden, welche Aufgaben sie auswählen sollten, um die erwartete Leistung zu maximieren, entwickelten die Forscher einen Algorithmus namens Mannequin-Primarily based Switch Studying (MBTL).
Der MBTL-Algorithmus besteht aus zwei Teilen. Zum einen modelliert es, wie intestine jeder Algorithmus funktionieren würde, wenn er unabhängig für eine Aufgabe trainiert würde. Anschließend wird modelliert, um wie viel sich die Leistung jedes Algorithmus verschlechtern würde, wenn er auf eine andere Aufgabe übertragen würde. Dieses Konzept wird als Generalisierungsleistung bezeichnet.
Durch die explizite Modellierung der Generalisierungsleistung kann MBTL den Wert des Trainings für eine neue Aufgabe abschätzen.
MBTL führt dies nacheinander aus, indem es zuerst die Aufgabe auswählt, die zum höchsten Leistungsgewinn führt, und dann zusätzliche Aufgaben auswählt, die anschließend die größten geringfügigen Verbesserungen der Gesamtleistung bewirken.
Da sich MBTL nur auf die vielversprechendsten Aufgaben konzentriert, kann es die Effizienz des Trainingsprozesses erheblich verbessern.
Reduzierung der Schulungskosten
Als die Forscher diese Technik an simulierten Aufgaben testeten, darunter die Steuerung von Verkehrssignalen, die Verwaltung von Echtzeit-Geschwindigkeitshinweisen und die Ausführung mehrerer klassischer Steuerungsaufgaben, battle sie fünf- bis 50-mal effizienter als andere Methoden.
Das bedeutet, dass sie durch Coaching mit weitaus weniger Daten zur gleichen Lösung gelangen könnten. Mit einer 50-fachen Effizienzsteigerung könnte der MBTL-Algorithmus beispielsweise nur zwei Aufgaben trainieren und die gleiche Leistung erzielen wie eine Standardmethode, die Daten von 100 Aufgaben verwendet.
„Aus Sicht der beiden Hauptansätze bedeutet das, dass Daten aus den anderen 98 Aufgaben nicht erforderlich waren oder dass das Coaching aller 100 Aufgaben den Algorithmus verwirrend macht, sodass die Leistung am Ende schlechter ausfällt als bei uns“, sagt Wu.
Mit MBTL könnte bereits eine geringfügige zusätzliche Trainingszeit zu einer deutlich besseren Leistung führen.
Zukünftig planen die Forscher, MBTL-Algorithmen zu entwerfen, die sich auf komplexere Probleme wie hochdimensionale Aufgabenräume erstrecken lassen. Sie sind auch daran interessiert, ihren Ansatz auf reale Probleme anzuwenden, insbesondere auf Mobilitätssysteme der nächsten Technology.
Die Forschung wird teilweise durch einen CAREER Award der Nationwide Science Basis, das PhD Scholarship Program der Kwanjeong Instructional Basis und ein Amazon Robotics PhD Fellowship finanziert.