StartseiteArtikel

Der Vater von AlphaGo hat eine neue Methode zur Schaffung von Reinforcement-Learning-Algorithmen gefunden: Lassen Sie die KI sich selbst entwerfen.

机器之心2025-10-28 16:32
Maschinen können tatsächlich autonom verstärkte Lernregeln mit SOTA - Leistung entdecken.

Reinforcement Learning ist eines der heißesten Themen im Bereich Künstlicher Intelligenz (KI) in letzter Zeit, und es tauchen ständig neue Algorithmen auf.

Damit stellt sich die Frage: Kann die KI selbst leistungsstarke Reinforcement - Learning - Algorithmen entdecken?

Kürzlich hat das Google DeepMind - Team in einer Veröffentlichung in Nature diese Möglichkeit untersucht. Und sie haben sehr positive Ergebnisse erzielt: Maschinen können tatsächlich autonom Reinforcement - Learning - Regeln entdecken, deren Leistung auf dem Stand der Technik (SOTA) liegt, und diese Regeln sind besser als die von Menschen entworfenen.

Titel: Discovering state - of - the - art reinforcement learning algorithms

Adresse: https://www.nature.com/articles/s41586 - 025 - 09761 - x

Es ist erwähnenswert, dass der Leiter des Teams und Korrespondenzautor David Silver, ein führender Forscher im Bereich Reinforcement Learning, ist. Er hat auch das berühmte AlphaGo - Projekt geleitet und wird oft als „Vater von AlphaGo“ bezeichnet. Bis jetzt wurden David Silvers Arbeiten fast 270.000 Mal zitiert. Diese Studie hat vier Erstautoren: Junhyuk Oh, Greg Farquhar, Iurii Kemaev und Dan A. Calian.

Konkret betrachtet, basiert die Vorgehensweise des Teams auf folgender Idee: Meta - Learning in einer Vielzahl komplexer Umgebungen auf der Grundlage der Erfahrung von vielen Agenten. Diese Methode kann die Reinforcement - Learning - Regeln entdecken, denen die Agenten bei der Aktualisierung ihrer Strategien und Vorhersagen folgen.

Das Team hat auch umfangreiche Experimente durchgeführt und festgestellt, dass diese „automatisch entdeckten Regeln“ in den klassischen Atari - Benchmarks alle bestehenden Methoden übertreffen und auch in einigen hochschwierigen Benchmarks, die sie noch nie gesehen haben, besser als viele SOTA - Reinforcement - Learning - Algorithmen performen.

Diese Forschungsergebnisse sind von großer Bedeutung. Sie bedeuten, dass die in Zukunft für fortschrittliche KI benötigten Reinforcement - Learning - Algorithmen möglicherweise nicht mehr auf die manuelle Gestaltung angewiesen sind, sondern sich automatisch aus der Erfahrung der Agenten entwickeln und verbessern können.

Entdeckungsmethode

Die Entdeckungsmethode des Teams umfasst zwei Arten von Optimierungen: Agentenoptimierung und Meta - Optimierung. Die Parameter der Agenten werden optimiert, indem ihre Strategien und Vorhersagen auf die Ziele aktualisiert werden, die von den Reinforcement - Learning - Regeln erzeugt werden. Gleichzeitig werden die Meta - Parameter der Reinforcement - Learning - Regeln optimiert, indem ihre Ziele aktualisiert werden, um die kumulierten Belohnungen der Agenten zu maximieren.

Agentennetzwerk

Viele Reinforcement - Learning - Studien befassen sich damit, welche Vorhersagen (z. B. Werte) die Agenten treffen sollten und welche Verlustfunktionen zur Lernung dieser Vorhersagen (z. B. TD - Lernen) und zur Verbesserung der Strategien (z. B. Strategiegradienten) verwendet werden sollten.

Anstatt auf manuell entworfene Methoden zurückzugreifen, hat das Team einen expressiven Vorhersagespace ohne vordefinierte Semantik definiert und durch Meta - Learning mit einem Meta - Netzwerk herausgefunden, was die Agenten optimieren müssen. Sie hoffen, die Fähigkeit, die Kernideen bestehender Reinforcement - Learning - Algorithmen darzustellen, beizubehalten und gleichzeitig einen breiten Raum für neuartige Algorithmen zu eröffnen.

Dazu lässt das Team die von θ parametrisierten Agenten neben der Strategie π zwei Arten von Vorhersagen treffen: eine auf Beobachtungen basierende Vektorvorhersage y (s) und eine auf Aktionen basierende Vektorvorhersage z (s,a), wobei s und a die Beobachtung und die Aktion darstellen (siehe untenstehendes Bild).

Die Form dieser Vorhersagen ergibt sich aus dem grundlegenden Unterschied zwischen „Vorhersage“ und „Kontrolle“. Beispielsweise wird die Wertfunktion normalerweise in eine Zustandsfunktion v (s) (zur Vorhersage) und eine Aktionsfunktion q (s,a) (zur Kontrolle) aufgeteilt. Viele andere Konzepte im Reinforcement Learning, wie z. B. Belohnungen und Nachfolgerfeatures, haben ebenfalls eine auf Beobachtungen basierende Version s↦ℝ^m und eine auf Aktionen basierende Version s,a↦ℝ^m. Daher ist die Funktionsform dieser Vorhersagepaare (y,z) allgemein genug, um viele bestehende Grundkonzepte im RL darzustellen, aber nicht darauf beschränkt.

Außer diesen zu entdeckenden Vorhersagen treffen die Agenten in den meisten Experimenten auch Vorhersagen mit vordefinierter Semantik. Genauer gesagt, erzeugen die Agenten eine Aktionswertfunktion q (s,a) und eine auf Aktionen basierende Hilfsstrategievorhersage p (s,a). Dies soll die Entdeckungsprozesse darauf konzentrieren, neue Konzepte über y und z zu entdecken.

Meta - Netzwerk

Ein Großteil der modernen Reinforcement - Learning - Regeln basiert auf der „Vorwärtsansicht“ von RL. In dieser Ansicht nehmen die RL - Regeln eine Trajektorie von Zeitschritt t bis t + n entgegen und nutzen diese Informationen, um die Vorhersagen oder Strategien der Agenten zu aktualisieren. Sie aktualisieren normalerweise die Vorhersagen oder Strategien in Richtung eines „Bootstrapping - Ziels“, d. h. in Richtung zukünftiger Vorhersagewerte.

Entsprechend verwendet die RL - Regel des Teams ein Meta - Netzwerk (Abbildung 1c) als Funktion, um die Ziele zu bestimmen, auf die die Agenten ihre Vorhersagen und Strategien aktualisieren sollen. Um das Ziel im Zeitschritt t zu erzeugen, nimmt das Meta - Netzwerk eine Trajektorie von Zeitschritt t bis t + n als Eingabe entgegen, die Informationen über die Vorhersagen, Strategien, Belohnungen und das Ende der Episode der Agenten enthält. Es verwendet ein Standard - LSTM, um diese Eingaben zu verarbeiten, aber auch andere Architekturen sind möglich.

Die Auswahl der Eingaben und Ausgaben des Meta - Netzwerks bewahrt einige wünschenswerte Eigenschaften der manuell entworfenen RL - Regeln:

Erstens: Das Meta - Netzwerk kann alle Beobachtungsinformationen und beliebige diskrete Aktionsräume verarbeiten. Dies liegt daran, dass es nicht direkt die Beobachtungen als Eingabe erhält, sondern indirekt über die Vorhersagen der Agenten. Darüber hinaus verarbeitet es aktionsspezifische Eingaben und Ausgaben, indem es die Gewichte zwischen verschiedenen Aktionsdimensionen teilt. Daher kann es auf ganz unterschiedliche Umgebungen verallgemeinern.

Zweitens: Das Meta - Netzwerk ist unabhängig von der Gestaltung des Agentennetzwerks, da es nur die Ausgaben des Agentennetzwerks erhält. Solange das Agentennetzwerk die erforderlichen Ausgaben in der Form (π, y, z) erzeugen kann, kann die entdeckte RL - Regel auf beliebige Agentenarchitekturen oder - größen verallgemeinert werden.

Drittens: Der Suchraum, der durch das Meta - Netzwerk definiert wird, enthält die wichtige algorithmische Idee des „Bootstrapping“.

Viertens: Da das Meta - Netzwerk sowohl Strategien als auch Vorhersagen verarbeitet, kann es nicht nur Meta - Learning für Hilfsprobleme durchführen, sondern auch direkt die Vorhersagen nutzen, um die Strategie zu aktualisieren (z. B. um die Varianz zu verringern) und eine Basislinie bereitzustellen.

Schließlich: Die Ausgabe von Zielen ist ausdrucksstärker als die Ausgabe einer skalaren Verlustfunktion, da sie auch halbgradientenbasierte Methoden wie Q - Lernen in den Suchraum einbezieht.

Aufbauend auf diesen Eigenschaften der Standard - RL - Algorithmen ermöglicht dieses parameterreiche neuronale Netzwerk, dass die entdeckten Regeln die Algorithmen möglicherweise mit viel höherer Effizienz und feinerer Kontextwahrnehmung implementieren können.

Agentenoptimierung

Die Parameter (θ) der Agenten werden aktualisiert, um die Distanz zwischen ihren Vorhersagen und Strategien und den Zielen des Meta - Netzwerks zu minimieren. Die Verlustfunktion der Agenten kann wie folgt ausgedrückt werden:

Dabei ist D (p,q) eine Distanzfunktion zwischen p und q. Das Team wählt die KL - Divergenz als Distanzfunktion, da sie allgemein genug ist und sich zuvor als hilfreich bei der Vereinfachung von Meta - Optimierungsproblemen erwiesen hat. Hierbei sind π_θ,y_θ,z_θ die Ausgaben des Agentennetzwerks, und ̂π, ̂y,ẑ sind die Ausgaben des Meta - Netzwerks, wobei jeder Vektor mit der Softmax - Funktion normalisiert wird.

Die Hilfsverlustfunktion L_aux wird für die Vorhersagen mit vordefinierter Semantik, d. h. die Aktionswerte (q) und die Hilfsstrategievorhersagen (p), wie folgt definiert:

Dabei ist ̂q das Aktionswertziel aus dem Retrace - Algorithmus und wird auf einen two - hot - Vektor 2 projiziert; und p̂ = π_θ(s′) ist die Strategie des nächsten Schritts. Um mit den anderen Verlustfunktionen konsistent zu sein, verwendet das Team ebenfalls die KL - Divergenz als Distanzfunktion D.

Meta - Optimierung

Das Ziel des Teams ist es, eine RL - Regel (repräsentiert durch ein von den Meta - Parametern η parametrisiertes Meta - Netzwerk) zu entdecken, die es den Agenten ermöglicht, die Belohnungen in verschiedenen Trainingsumgebungen zu maximieren. Dieses Entdeckungsziel J (η) und sein Meta - Gradient

 können wie folgt ausgedrückt werden:

Dabei 

stellt eine aus einer Verteilung gesampelte Umgebung dar, und θ repräsentiert die Agentenparameter, die von der anfänglichen Parameterverteilung induziert werden und sich während des Lernprozesses mit der RL - Regel entwickeln.

ist die erwartete diskontierte Gesamtbelohnung, d. h. das typische RL - Ziel. Die Meta - Parameter η werden gemäß der obigen Gleichung mit Gradientenanstieg optimiert.

Um den Meta - Gradienten zu schätzen, instanziiert das Team in einer Gruppe von gesampelten Umgebungen eine Kolonie von Agenten, die anhand des Meta - Netzwerks lernen. Um sicherzustellen, dass diese Annäherung der tatsächlichen Verteilung entspricht, die das Team interessiert, verwendet das Team eine Vielzahl komplexer Umgebungen aus herausfordernden Benchmarks. Dies steht im Gegensatz zu früheren Arbeiten, die sich auf wenige einfache Umgebungen konzentrierten. Daher wird der Entdeckungsprozess verschiedenen RL - Herausforderungen ausgesetzt, wie z. B. der Sparsamkeit von Belohnungen, der Länge der Aufgaben und der teilweisen Beobachtb