Neues Werk von Turing-Award-Gewinner Sutton: 1967-Formel behebt großen Mangel bei Stream Reinforcement Learning

Absichtsaktualisierung für Stream-Reinforcement-Learning

Ende 2024 löste eine Studie mit dem Titel „Streamlined Deep Reinforcement Learning Finally Works“ (arXiv:2410.14606) in der Fachwelt breite Diskussionen aus. Die Autoren, die der Mahmood - Gruppe an der Universität Alberta angehören, widmeten einen großen Teil der Arbeit der Beschreibung einer peinlichen Realität: Reinforcement Learning, eine Methode, die von Natur aus darauf ausgelegt sein sollte, „während der Bewegung zu lernen“, kann dies in der Ära der tiefen neuronalen Netzwerke fast nicht leisten. Sobald man den Replay - Buffer entfernt oder die Batch - Größe auf 1 setzt, bricht das Training zusammen. Sie nennen dies „Stream Barrier“.

Die in dieser Studie vorgeschlagenen StreamX - Algorithmen haben es dank fein abgestimmter Hyperparameter, spärlicher Initialisierung und verschiedener Stabilisierungstechniken geschafft, diese Barriere zu überwinden.

Weniger als anderthalb Jahre später lieferten ein Mitglied derselben Forschungsgruppe zusammen mit Koautoren aus dem Openmind - Institut eine völlig andere Antwort: Die Wurzel des Problems der Stream Barrier liegt nicht in „zu wenig Daten“, sondern in „falsch gewählten Schrittgrößen“.

Titel der Studie: Intentional Updates for Streaming Reinforcement Learning

Link zur Studie: https://arxiv.org/pdf/2604.19033v1

Code - Repository: https://github.com/sharifnassab/Intentional_RL

Wie groß ist das Loch, das man mit einem Gasstoß macht?

Stellen Sie sich vor, Sie lernen, Ihr Auto einzuparken. Ihr Fahrlehrer sagt Ihnen, Sie sollen jedes Mal „0,1 Sekunde lang aufs Gas geben“. Das Problem ist, dass bei gleicher Gasdauer von 0,1 Sekunde die zurückgelegte Strecke des Autos je nach Bergauffahrt, Bergabfahrt, leerem oder beladenem Fahrzeug sehr unterschiedlich sein kann. Manchmal fehlt es nur noch einen Zentimeter, um perfekt einzuparken, manchmal kracht man 30 Zentimeter vor dem Ziel in die Wand.

Die Schrittgröße bei der traditionellen Gradientenmethode funktioniert auf die gleiche Weise: Sie legt fest, wie weit die Parameter bei jedem Schritt verschoben werden, kontrolliert aber nicht, wie sich die Ausgabe der Funktion tatsächlich ändert. Bei Batch - Training werden die Fehler von Hunderten oder Tausenden von Stichproben gemittelt, so dass extreme Fälle abgeschwächt werden und das Problem nicht so offensichtlich ist. In einer „streaming“ - Umgebung gibt es bei jedem Schritt nur eine Stichprobe, und es kann keine Mittelung vorgenommen werden. Sobald die Gradientenrichtung instabil wird, variiert die Aktualisierungsamplitude stark - heute 30 Zentimeter vorwärts, morgen 50 Zentimeter rückwärts. Der Lernprozess bricht in heftigen Schwankungen zusammen.

Dieses Phänomen von „Overshooting und Undershooting“ ist im Bereich des Reinforcement Learning besonders gravierend, da die Gradienten nicht nur in ihrer Amplitude, sondern auch in ihrer Richtung von einem Zeitschritt zum nächsten stark variieren.

Neu definieren, was ein Schritt leisten soll

Arsalan Sharifnassab vom Openmind - Institut, Mohamed Elsayed, A. Rupam Mahmood und Richard Sutton von der Universität Alberta und andere haben in einer kürzlich veröffentlichten Studie einen Ansatz vorgeschlagen, der von einem anderen Blickwinkel ausgeht: Anstatt die Verschiebung der Parameter zu bestimmen, sollte man direkt festlegen, wie sich die Ausgabe der Funktion ändern soll.

Diese Idee kommt nicht aus dem Nichts. 1967 haben die japanischen Wissenschaftler Nagumo und Noda in ihrer Studie A learning method for system identification im Bereich der adaptiven Filterung den „Normalized Least Mean Squares“ (NLMS) - Algorithmus vorgeschlagen. Im Wesentlichen wird hier die Schrittgröße aus der gewünschten Änderung der Ausgabe berechnet, und nicht umgekehrt. Allerdings ist dieser Algorithmus nur für einfache lineare Szenarien geeignet.

Die Forscher haben diesen Ansatz auf das Deep Reinforcement Learning erweitert. Sie nennen es „Intentional Updates“: Bevor man die Parameter aktualisiert, definiert man zunächst, „was man mit diesem Schritt erreichen möchte“, und berechnet dann die erforderliche Schrittgröße rückwärts.

Bei der Wertschätzung (d. h. der Vorhersage zukünftiger Belohnungen) definieren sie das Ziel so, dass nach jeder Aktualisierung der Vorhersagefehler des Werts des aktuellen Zustands um einen festen Prozentsatz verringert werden soll - beispielsweise um 5%, nicht mehr und nicht weniger. Bei der Strategieoptimierung (d. h. der Verbesserung des Entscheidungsverhaltens) definieren sie das Ziel so: Die Wahrscheinlichkeit, eine bestimmte Aktion auszuwählen, darf sich bei jedem Schritt nur um einen „angemessenen“ Betrag ändern.

Mit der Autofahrer - Metapher ausgedrückt: Es ist, als würde der Fahrer vor jeder Aktion entscheiden, „ich will das Auto um 20 Zentimeter vorwärts bewegen“ und dann die erforderliche Gasmenge anhand der aktuellen Straßenverhältnisse (Steigung, Beladung) automatisch berechnen, anstatt immer die gleiche Gasmenge zu geben und sich aufs Glück zu verlassen.

Der Turing - Preis - Gewinner und sein Puzzle

Einer der Autoren der Studie ist Richard S. Sutton, der 2024 mit dem Turing - Preis ausgezeichnet wurde und als „Vater des modernen Reinforcement Learning“ bekannt ist.

Suttons Stellung in der Wissenschaft ist vergleichbar mit der von Richard Feynman in der Physik: Er hat nicht nur die beiden grundlegenden Rahmenwerke des modernen Reinforcement Learning, das Time - Difference - Learning (TD - Learning) und die Policy - Gradient - Methode, entwickelt, sondern hat auch zusammen mit Andrew Barto das am weitesten verbreitete Lehrbuch in diesem Bereich, Reinforcement Learning: An Introduction (jetzt in der zweiten Auflage, kostenlos online lesbar), geschrieben. 2024 erhielt er zusammen mit Barto den Turing - Preis, und die Begründung lautete: „Für die Schaffung der konzeptionellen und algorithmischen Grundlagen des Reinforcement Learning.“

Nach seiner Preisverleihung hat Sutton sich nicht in den Ruhestand zurückgezogen, sondern das Preisgeld in das von ihm gegründete Openmind - Institut investiert, das junge Forscher unterstützt, die „Grundlagenforschung in einer umkommerziellen Druck ausgesetzten Umgebung“ betreiben möchten. Diese neue Studie stammt aus diesem gemeinnützigen Institut.

Der erste Autor der Studie, Sharifnassab, hat kürzlich auf der ICML 2025 das MetaOptimize - Framework vorgestellt, das sich mit der automatischen Anpassung der Lernrate im Online - Modus befasst. Beide Projekte haben das gleiche Ziel: Die Schrittgröße intelligenter zu gestalten.

Algorithmusdetails: Einfacher als erwartet

Die mathematische Herleitung der „Intentional Updates“ ist nicht kompliziert. Die Kernformel lässt sich in einem Satz beschreiben: Die Schrittgröße ist gleich der „gewünschten Änderung der Ausgabe“ geteilt durch die „wirkliche Auswirkung der Gradientenrichtung auf die Ausgabe“.

Bei der Wertschätzung ist diese „wirkliche Auswirkung“ die Norm des Gradientenvektors (was der Steilheit der Funktion in der Nähe der aktuellen Parameter entspricht): Je steiler der Bereich, desto kleiner die Schrittgröße, je flacher, desto größer. So bleibt die Auswirkung jeder Aktualisierung auf die Wertfunktion konstant.

Bei der Strategieoptimierung wird die „gewünschte Änderung“ als proportional zur Advantage - Funktion definiert: Je besser die aktuelle Aktion im Vergleich zum Durchschnitt ist, desto stärker wird die Strategie in diese Richtung verändert. Durch eine gleitende Mittelung wird die Größenordnung normalisiert, um sicherzustellen, dass die Änderung der Strategie im Laufe der Zeit in einem interpretierbaren Bereich bleibt.

Die Forscher haben diese Kernidee mit zwei praktischen Ansätzen kombiniert: Diagonale Skalierung im Stil von RMSProp (zur Behandlung von Größenunterschieden zwischen verschiedenen Parameterdimensionen) und Eligibility Traces (zur Weiterleitung des Belohnungssignals an frühere Zeitschritte).

Daraus resultieren drei vollständige Algorithmen: Intentional TD (λ) für die Wertvorhersage, Intentional Q (λ) für die diskrete Aktionskontrolle und Intentional Policy Gradient für die kontinuierliche Kontrolle.

Experimentelle Ergebnisse: SAC ohne GPU erreichen

Die Studie hat diese Methode an mehreren Standard - Benchmarks evaluiert, und die Ergebnisse sind beeindruckend.

Bei den MuJoCo - Aufgaben der kontinuierlichen Kontrolle (einschließlich komplexer Simulationsroboter wie Ant, Humanoid, HalfCheetah) erreichte die neue Methode Intentional AC in der streaming - Einstellung (Batch - Größe = 1, ohne Replay - Buffer) oft eine Leistung, die der von SAC - einem Algorithmus, der einen großen Replay - Buffer verwendet und fast der Goldstandard für kontinuierliche Kontrollaufgaben ist - nahekommt oder sogar übertrifft. In Bezug auf die Rechenleistung benötigt eine Aktualisierung von Intentional AC nur etwa 1/140 der Fließkommaoperationen einer Aktualisierung von SAC.

Bei den Atari - und MinAtar - Spielen mit diskreten Aktionen war die Leistung von Intentional Q - learning vergleichbar mit der von DQN, das einen Replay - Buffer verwendet. Außerdem konnte mit einer einzigen Hyperparameter - Einstellung alle Aufgaben gelöst werden, ohne dass die Parameter für jede Aufgabe separat eingestellt werden mussten.

Die Forscher haben auch überprüft, ob das „Ziel“ tatsächlich erreicht wurde: Sie haben das Verhältnis zwischen der tatsächlichen und der erwarteten Aktualisierungsgröße gemessen. In einer vereinfachten Einstellung ohne Eligibility Traces betrug die Standardabweichung dieses Verhältnisses nur zwischen 0,016 und 0,029, und der 99. Perzentil lag in allen Fällen unter 1,07. Dies bedeutet, dass in den meisten Fällen die Aktualisierung tatsächlich so durchgeführt wurde, wie es geplant war.

Außerdem zeigten eine Reihe von Ablationsexperimenten, dass die Leistung nach Entfernen der RMSProp - Normalisierung oder des σ - Terms zwar abnimmt, aber immer noch wettbewerbsfähig bleibt. Die „Intentional Scaling“ ist der Hauptbeitrag, während die anderen Komponenten nur unterstützend wirken.

Es gibt noch Probleme

Das Framework der „Intentional Updates“ hat auch in Bezug auf die Robustheit deutliche Vorteile. Wenn die Forscher die verschiedenen Stabilisierungstechniken, auf die die StreamX - Methode angewiesen ist (spärliche Initialisierung, Belohnungs - Skalierung, Eingabe - Normalisierung, LayerNorm), schrittweise entfernten, war die Leistungseinbuße von Intentional AC deutlich geringer als die von StreamAC. Dies zeigt, dass die Intentional Scaling die Abhängigkeit von externen „Hilfsmitteln“ von Grund auf reduziert.

Aber die Studie räumt auch ein, dass es ein noch nicht vollständig gelöstes Problem gibt: Bei der Strategieoptimierung hängt die Schrittgröße von der aktuell gesampelten Aktion ab. Dies kann dazu führen, dass verschiedenen Aktionen implizit unterschiedliche „Gewichte“ zugewiesen werden, was die erwartete Richtung des Policy - Gradienten verändern kann. Bei den Aufgaben Humanoid und HumanoidStandup haben die Forscher durch Messung der Kosinus - Ähnlichkeit der erwarteten Aktualisierungsrichtung festgestellt, dass diese Abweichung in der kritischen Lernphase nahezu 0,96 beträgt (fast keine Auswirkung). Bei Ant - v4 sinkt die Übereinstimmung jedoch auf einen Median von 0,63, was zeigt, dass das Problem nicht immer vernachlässigt werden kann.

Die Autoren weisen darauf hin, dass zukünftige Forschungen nach einer Strategie zur Wahl der Schrittgröße suchen sollten, die unabhängig von der Aktion ist, damit das „Ziel“ auch im erwarteten Sinne unvoreingenommen bleibt. Dies ist eine klare Aufgabe für zukünftige Forscher in diesem Bereich.

Fazit: AI wie ein Mensch lernen lassen

Das derzeit vorherrschende Trainingsparadigma