Kann Rechenleistung die Intelligenz von KI nicht retten? Google's neues Superwerk beendet die Debatte über die "zufälligen Papageien"
In Umgebungen mit spärlichen Belohnungen haben traditionelle KI-Modelle oft Schwierigkeiten, Anreize zu finden und hierarchisches Denken zu erlernen. Nun hat das Google-Team es geschafft, dass Agenten "Sprungdenken" erlernen, indem es einen Metakontroller einführt, der den internen Residualfluss des Modells steuert. Diese Studie zeigt, dass in großen Modellen eine hierarchische Entscheidungsfindung, ähnlich wie im menschlichen Gehirn, spontan entstehen kann. Dies bietet ein neues Trainingsparadigma für KI in komplexen Aufgaben, die mehrere Schritte erfordern.
Ist die größte "Schwäche" von KI-Agenten unzureichende Rechenleistung?
Nein, es sind eher zu wenige Belohnungen und zu lange Wege.
In langfristigen Aufgaben mit spärlichen Belohnungen ist die traditionelle Methode der token-by-token-Exploration wie das Erkunden eines Labyrinths mit verbundenen Augen: Es gibt keine Wegweiser, keine Hinweise, und erst am Ende weiß man, ob man richtig war.
Das Ergebnis ist die peinliche Realität: Um einen Agenten komplexe Aufgaben erledigen zu lassen, muss man oft einen externen Planer hinzufügen, um ihn "an der Hand zu führen".
Die Google-Studie wählt einen anderen Ansatz: Im Labyrinth wird dem Agenten verlangt, eine Reihe von farbigen Teilzielen nacheinander zu erreichen, und nur wenn er den gesamten Weg fehlerfrei absolviert, erhält er eine Belohnung. Mit dieser harten, spärlichen Belohnung wird die echte Fähigkeit zur hierarchischen Entscheidungsfindung herausgefordert.
Der echte Durchbruch besteht darin, dass sie nicht nur die Ausgabe optimieren, sondern auch den internen "kognitiven Prozess" des Modells steuern.
Wie kann ein Agent in einer Umgebung mit spärlichen Belohnungen effizient erkunden?
Traditionelle große Modelle verlassen sich auf die token-by-token-Explorationsmethode. Bei komplexen Aufgaben, die mehrere richtige Schritte erfordern, um eine Belohnung zu erhalten, ist es für Agenten aufgrund der spärlichen Belohnungen schwierig, langfristige Aufgaben mit hierarchischer Entscheidungsfindung zu bewältigen.
Das ist wie ein Mensch, der mit verbundenen Augen ein Labyrinth durchquert. Erst am Ende erhält er Feedback, und es gibt keine Anleitung. Unabhängig davon, wie oft er es versucht, findet er den Ausgang nicht.
Deshalb müssen aktuelle Agenten von großen Modellen einen externen Planer haben, um komplexe Aufgaben, die mehrere Schritte erfordern, zu bewältigen. Die Google-Studie fordert den Agenten auf, im Labyrinth eine Reihe von farbigen Positionen (Teilziele) in einer bestimmten Reihenfolge zu besuchen, und erst wenn die Sequenz vollständig richtig abgeschlossen ist, erhält er eine Belohnung.
Abbildung 1: Der Agent muss im Labyrinth nacheinander verschiedene farbige Quadrate passieren.
Diese "kombinatorischen Aufgaben" erfordern, dass der Agent die Fähigkeit zur hierarchischen Problemlösung beherrscht. Er benötigt nicht nur einfache motorische Kontrollfähigkeiten, sondern auch fortschrittliche zeitliche Planungsfähigkeiten.
Das ist wie die Aufgabe eines Menschen, ein Wasserglas zu transportieren, was einer Reihe von zusammenhängenden Handlungen wie "Wasserglas aufnehmen → zum Tisch gehen → Wasserglas ablegen" entspricht.
Das "Gehirn im Gehirn": KI entdeckt abstrakte Handlungen selbst
Wie hat das Google-Team das Problem der spärlichen Belohnungen gelöst?
Die Antwort ist der Metakontroller.
Der Metakontroller kann eine Reihe einfacher interner Controller erzeugen, indem er den Residualfluss des Basis-Modells empfängt.
Jeder Controller entspricht einer zeitlichen abstrakten Handlung, und jede zeitliche abstrakte Handlung entspricht einer Zeitachse und hat eine Endbedingung. Indem mehrere Controller zeitlich kombiniert werden, kann der Agent in neuen Aufgaben effizient erkunden.
Abbildung 2: Der Metakontroller steuert die Aktivierung des Residualflusses eines vortrainierten autoregressiven Modells.
Über die selbstüberwachte Vorhersage der nächsten Handlung entdeckt der Metakontroller, wie er eine zeitlich spärlich veränderliche Sequenz einfacher interner Controller erzeugen kann.
In hierarchischen Aufgaben entspricht jeder interne Controller einer zeitlichen abstrakten Handlung, die das Basis-autoregressive Modell zu einem sinnvollen primären Ziel führt.
Abbildung 3: Die Architektur des Metakontrollers
Durch verstärktes Lernen haben die Forscher festgestellt, dass der Metakontroller durch Variationsinferenz automatisch sinnvolle Verhaltensmodule identifizieren kann. Dies entspricht der unüberwachten Entdeckung, wie abstrakte Handlungen durchgeführt werden sollen.
Mit dem Metakontroller muss man nicht mehr manuell eine Aufgabe wie das Aufbrühen von Tee für jemanden in mehrere Schritte zerlegen, wenn man einen Roboter trainiert.
Darüber hinaus kann der Metakontroller die Zeit dynamisch integrieren. Er kann die Dauer jeder abstrakten Handlung über Schalteinheiten steuern. Außerdem kann er die gelernten abstrakten Handlungen neu kombinieren, um neue Aufgaben zu lösen.
Abbildung 4: Der selbstüberwachte Metakontroller entdeckt zeitliche abstrakte Handlungen in einem vortrainierten autoregressiven Modell.
Das von dem Metakontroller gelernten Schaltmuster kann perfekt mit den echten Teilzielen übereinstimmen, obwohl das Modell nie Teilziel-Labels erhalten hat. Diese Art, die Teilziele je nach Umgebung zu wechseln, entsteht spontan und zeigt, dass im Modell eine hierarchische Struktur ähnlich wie "Optionen" entsteht.
Interne verstärkte Lernmethode: Ein neues Trainingsparadigma mit um mehrere Größenordnungen gesteigerter Effizienz
Das Überraschendste an dieser Studie ist die interne verstärkte Lernmethode mit dem Metakontroller. Im Gegensatz zur traditionellen verstärkten Lernmethode, die in den ursprünglichen Handlungsräumen feinabstimmt, lernt die interne verstärkte Lernmethode in den entdeckten abstrakten Handlungsräumen. Dadurch wird der Suchraum erheblich verkleinert. Bei Aufgaben, die Kombinationsfähigkeit und Generalisierung erfordern, ist die Erfolgsrate der internen verstärkten Lernmethode deutlich höher als bei allen Vergleichsmethoden, einschließlich der bisher besten hierarchischen verstärkten Lernmethode CompILE.
Abbildung 5: Die Erfolgsraten verschiedener verstärkter Lernmethoden
Der Grund, warum der Agent mit größerer Wahrscheinlichkeit eine Aufgabe, die mehrere Schritte erfordert, lernen kann, ist, dass das Modell mit dem Metakontroller implizit lernt, langfristige Aufgaben in wiederverwendbare Teilprogramme (z.B. "zu einem farbigen Feld bewegen") zu zerlegen. Dadurch wird der Suchraum kleiner, und die Belohnungen sind nicht mehr spärlich.
Das entspricht der Reduzierung der Dimensionalität des Handlungsraums, indem der hochdimensionale Residualflussraum in einen niedrigdimensionalen abstrakten Raum komprimiert wird. Zusammen mit der Operation auf abstrakten Zeitskalen verkürzt sich die effektive Zeitspanne. Dadurch wird die Belohnungsverteilung auf abstrakter Ebene effizienter.
Die konkrete Umsetzung des "Wach-Schlaf"-Trainingszyklus
In einer Studie von 2015 [2] hat Jürgen Schmidhuber das theoretische Framework des "Wach-Schlaf"-Trainingszyklus vorgeschlagen.
Das Kernkonzept ist die Schaffung eines iterativen, sich selbst verbessernden Zyklus, in dem zwei Phasen abwechselnd ausgeführt werden. Das Ziel ist die Schaffung eines autonomen Intelligenzsystems, das zeitliche Abstraktion und Planungsfähigkeiten bilden und nutzen kann.
In der Schlafphase betrachtet der Agent seine vergangenen Erfahrungen (Sequenzen von Beobachtungen und Handlungen) und trainiert ein internes Weltmodell durch selbstüberwachtes Lernen.
In der "Wach"-Phase nutzt der Agent die internen Repräsentationen des Weltmodells, die in der "Schlaf"-Phase gelernt wurden, um verstärktes Lernen und Planung durchzuführen, um neue, wertvolle Verhaltensweisen zu entdecken. Die neuen Erfahrungsdaten, die in der "Wach"-Phase gewonnen werden, werden in die Erfahrungsdatenbank aufgenommen und in der nächsten "Schlaf"-Phase verwendet, um das Weltmodell zu verbessern.
Die Google-Studie kann als konkrete Umsetzung des "Wach-Schlaf"-Trainingszyklus angesehen werden. Die Vorhersage des nächsten Tokens (hier die nächste Handlung oder Beobachtung) in einem vortrainierten autoregressiven Basis-Modell entspricht der Schlafphase. Das Modell wird auf einer großen Menge unmarkierter Verhaltensdaten trainiert.
Dieser Prozess ist das selbstüberwachte Lernen. Das Modell lernt, die potenziellen Ziele des Agenten (z.B. Teilziele) abzuleiten und bildet zeitliche abstrakte Repräsentationen in der Aktivierung seines Residualflusses.
Die Wachphase ist der Metakontroller und die von ihm angetriebene interne verstärkte Lernmethode. Er lernt, wie er die interne Aktivierung des Residualflusses des Basis-Modells (Weltmodell) steuert, um sinnvolle, über mehrere Zeitschritte anhaltende abstrakte Handlungen (z.B. "zur blauen Position gehen") zu erzeugen.
Das entspricht der Planung und Kontrolle im internen Zustandsraum des Weltmodells.
Abbildung 6: Die Wichtigkeit der Einfrierung des vortrainierten autoregressiven Modells bei der Entdeckung zeitlicher abstrakter Handlungen.
Wie in Abbildung 6 gezeigt, entstehen nur dann die richtigen Schaltrepräsentationen, die mit den Teilzielen übereinstimmen, wenn das Basis-autoregressive Modell während des Trainings des Metakontrollers eingefroren wird.
Diese Entdeckung unterstützt stark die Idee des schrittweisen iterativen "Wach-Schlaf"-Zyklus: Zunächst wird durch Vorhersage ein hochwertiges, stabiles Weltmodell (Basis-Modell) erstellt.
Dann wird auf dieser Grundlage die interne verstärkte Lernmethode durch den Metakontroller angetrieben, um die Steuerungsstrategie zu lernen.
Wenn beide gleichzeitig trainiert werden (Gemeinsames Training), konvergiert das Modell zu einer degenerierten Lösung, und es können keine sinnvollen zeitlichen Abstraktionen entdeckt werden.
Dies bestätigt die theoretische Überlegenheit des schrittweisen, iterativen Trainings. Dies entspricht dem von Jürgen Schmidhuber vorgeschlagenen Zyklustrainingsschema "zunächst Schlaf (Modellaufbau), dann Wachsein (Lernen der Steuerung)".
Beendigung der Debatte über den "zufälligen Papagei"
In der Forschung zu großen Modellen gibt es immer Kritiker, die der Meinung sind, dass autoregressive Modelle, unabhängig von ihrer Anzahl an Parametern, nichts anderes als "zufällige Papageien" sind und es schwierig ist, konsistente zeitliche Abstraktionen und Planungen zu bilden.
Diese Studie zeigt jedoch, dass die Trainingsmethode der Vorhersage des nächsten Wortes, wenn sie mit einem Metakontroller kombiniert wird, hierarchische zeitliche Abstraktionen induzieren kann, die der menschlichen Problemlösungsmethode sehr ähnlich sind.
Die Lösung von Aufgaben, die mehrere Schritte erfordern, ohne manuelle Belohnungsgestaltung, ist ein wichtiger Schritt hin zu autonomen Agenten, die in komplexen, offenen Suchräumen navigieren können, in denen die Definition des Zwischenfortschritts oft unbekannt ist.
Die Google-Studie markiert den Übergang der KI-Forschung von der reinen Optimierung der Modellausgabe hin zum Verständnis und zur Steuerung des internen kognitiven Prozesses des Modells. Sie bietet eine solide praktische Grundlage für die Entwicklung von allgemeinen KI-Systemen mit echter hierarchischer Inferenzfähigkeit und zeigt, dass das Nachahmen des menschlichen Schlafs die effiziente Lernfähigkeit in komplexen Zeitreihenaufgaben ermöglicht.
Im Vergleich zu interpretativen Methoden wie spärlichen Autoencodern (SAEs) hat der Metakontroller deutliche Vorteile. Er reduziert direkt die Vorhersagefehler durch Interventionen im Residualfluss, hat ein internes Gedächtnis, unterstützt Interventionen über lange Zeiträume und kann interpretierbare, lang anhaltende Interventionsstrategien entdecken.
Die potenziellen Anwendungen dieser Technologie sind äußerst vielfältig.
Bei der Roboterkontrolle kann es einem Roboter ermöglichen, komplexe Aufgaben auszuführen, die mehrere Schritte erfordern. Bei mathematischen Schlüssen kann es die Fähigkeit haben, komplexe Probleme in handhabbare Schritte zu zerlegen. Bei der wissenschaftlichen Entdeckung kann es einem Agenten ermöglichen, in Umgebungen mit sp