Inferenzmodell mit nur 27 Millionen Parametern übertrifft DeepSeek und Claude!

Ein brandneuer Inferenzarchitektur für große Modelle.

Wie ein Mensch denken.

Steht die Architektur von Large Language Models vor einem Wandel?

Bei der Lösung komplexer Aufgaben setzen aktuelle Large Language Models (LLMs) hauptsächlich die Chain-of-Thought (CoT)-Technik ein. Diese Techniken weisen jedoch Probleme wie komplexe Aufgabenzerlegung, hohen Datenbedarf und hohe Latenzzeiten auf.

Kürzlich haben Forscher von Sapient Intelligence, inspiriert vom hierarchischen Aufbau und der mehrstufigen Verarbeitung des menschlichen Gehirns, ein neues hierarchisches Inferenzmodell (HRM) vorgeschlagen. Dies ist eine völlig neue zyklische Architektur, die eine hohe Rechentiefe bei gleichbleibender Trainingsstabilität und -effizienz ermöglicht.

Genauer gesagt führt das HRM über zwei voneinander abhängige zyklische Module sequenzielle Inferenzaufgaben in einem einzigen Vorwärtsdurchlauf aus, ohne dass die Zwischenschritte explizit überwacht werden müssen. Ein hochrangiges Modul ist für langsame, abstrakte Planung zuständig, während ein niedrigrangiges Modul schnelle, detaillierte Berechnungen durchführt. Das HRM verfügt über nur 27 Millionen Parameter und erreicht mit nur 1.000 Trainingsbeispielen herausragende Ergebnisse bei komplexen Inferenzaufgaben.

Das Modell kann ohne Vor-training oder CoT-Daten funktionieren und erzielt nahezu perfekte Ergebnisse bei anspruchsvollen Aufgaben wie komplexen Sudoku-Rätseln und der Suche nach dem optimalen Pfad in großen Labyrinthen. Darüber hinaus schneidet das HRM im Abstract and Reasoning Corpus (ARC), einem Schlüsselmaßstab für die Fähigkeiten allgemeiner Künstlicher Intelligenz, besser ab als große Modelle mit deutlich längeren Kontextfenstern.

Alles in allem hat das HRM das Potenzial, einen revolutionären Fortschritt in der allgemeinen Computation zu bewirken.

Paper: Hierarchical Reasoning Model

Link zum Paper: https://arxiv.org/abs/2506.21734

Wie in der folgenden Abbildung gezeigt: Links – Das HRM ist vom hierarchischen Aufbau und der zeitlichen Trennung des Gehirns inspiriert. Es besteht aus zwei zyklischen Netzwerken, die auf unterschiedlichen Zeitskalen arbeiten, um Aufgaben gemeinsam zu lösen. Rechts – Mit nur etwa 1.000 Trainingsbeispielen übertrifft das HRM (etwa 27 Millionen Parameter) die besten CoT-Modelle bei induktiven Benchmark-Tests (ARC-AGI) und anspruchsvollen Symbolbaum-Suchrätseln (Sudoku-Extreme, Maze-Hard), während die CoT-Modelle völlig scheitern. Das HRM wird mit zufälligen Initialwerten gestartet und erledigt Aufgaben direkt anhand der Eingabe, ohne Chain-of-Thought.

Hierarchisches Inferenzmodell

Die Notwendigkeit der Tiefe bei komplexen Inferenzaufgaben wird in der folgenden Abbildung gezeigt.

Links: Beim Sudoku-Extreme Full, das extensive Baumsuche und Backtracking erfordert, führt eine Erhöhung der Breite des Transformers nicht zu einer Leistungssteigerung, während die Erhöhung der Tiefe von entscheidender Bedeutung ist. Rechts: Die Standardarchitektur ist gesättigt und profitiert nicht von einer Erhöhung der Tiefe. Das HRM überwindet diese grundlegende Einschränkung und nutzt seine Rechentiefe effektiv, um nahezu perfekte Genauigkeit zu erreichen.

Die Kernidee des HRM stammt aus dem Gehirn: hierarchischer Aufbau + mehrstufige Verarbeitung auf unterschiedlichen Zeitskalen. Genauer gesagt:

Hierarchische Verarbeitung: Das Gehirn verarbeitet Informationen über eine mehrstufige Hierarchie von kortikalen Regionen. Hohe Hirnregionen (z. B. Präfrontalhirn) integrieren Informationen auf einer längeren Zeitskala und bilden abstrakte Repräsentationen, während niedrige Hirnregionen (z. B. sensorische Kortizes) für die Verarbeitung sofortiger, konkreter sensorisch-motorischer Informationen zuständig sind.

Zeitskalentrennung: Die neuronale Aktivität dieser Hierarchien weist unterschiedliche innere Zeitrhythmen auf, die sich in bestimmten neuronalen Oszillationsmustern manifestieren. Diese Zeitskalentrennung ermöglicht es den hohen Hirnregionen, die schnellen Berechnungsprozesse der niedrigen Hirnregionen stabil zu steuern.

Zyklische Verbindungen: Das Gehirn verfügt über dichte zyklische neuronale Netzwerke. Diese Rückkopplungsschleifen verbessern die Genauigkeit der Repräsentationen und die Anpassung an den Kontext durch iterative Optimierung, erfordern jedoch zusätzliche Verarbeitungszeit. Bemerkenswerterweise kann diese Mechanik das Problem der tiefen Kreditzuweisung im Backpropagation-through-time-Algorithmus (BPTT) effektiv umgehen.

Das HRM-Modell besteht aus vier lernbaren Komponenten: einem Eingangsnetzwerk f_I (・; θ_I ), einem niedrigen zyklischen Modul f_L (・; θ_L), einem hohen zyklischen Modul f_H (・; θ_H) und einem Ausgangsnetzwerk f_O (・; θ_O).

Das HRM bildet den Eingangsvektor x auf den Ausgangspredictionsvektor y´ ab. Zunächst wird der Eingang x vom Netzwerk in eine Repräsentation projiziert

Der Endzustand des Moduls am Ende eines Zyklus ist:

Schließlich wird nach N vollständigen Zyklen die Vorhersage aus dem verborgenen Zustand des H-Moduls extrahiert

Das HRM zeigt hierarchische Konvergenz: Das H-Modul konvergiert stabil, während das L-Modul innerhalb eines Zyklus wiederholt konvergiert und dann vom H-Modul zurückgesetzt wird, was zu Spitzen im Residuum führt. Zyklische neuronale Netzwerke zeigen schnelle Konvergenz, wobei das Residuum schnell gegen Null geht. Im Gegensatz dazu erleiden tiefe neuronale Netzwerke einen Gradientenverlust, und signifikante Residuen treten hauptsächlich in der Anfangsschicht (Eingangsschicht) und der Endschicht auf.

Das HRM führt ein:

Erstens die Approximation des Gradienten. Zyklische Modelle berechnen gewöhnlich den Gradienten mithilfe von BPTT. BPTT erfordert jedoch die Speicherung aller verborgenen Zustände während der Vorwärtsausbreitung und die Kombination dieser Zustände mit den Gradienten während der Rückwärtsausbreitung, was zu einem linearen Anstieg des Speicherbedarfs mit der Anzahl der Zeitschritte T (O (T)) führt.

Das HRM hat eine Ein-Schritt-Gradientenapproximation entwickelt, deren Kernidee darin besteht, den Gradienten des letzten Zustands jedes Moduls zu verwenden und die anderen Zustände als Konstanten zu behandeln.

Die obige Methode erfordert nur O (1) Speicher, erfordert keine Zeitentwicklung und kann einfach mit automatischen Differenzierungsframeworks wie PyTorch implementiert werden, wie in Abbildung 4 gezeigt.

Zweitens die Tiefenüberwachung. In diesem Artikel wird ein Tiefenüberwachungsmechanismus in das HRM integriert.

Gegeben ein Datensatz (x, y), wird das HRM-Modell mehrmals vorwärts propagiert, wobei jeder Durchlauf als Segment bezeichnet wird. Sei M die Gesamtzahl der Segmente, die vor dem Stopp ausgeführt werden. Für jedes Segment m ∈ {1, ..., M} sei

der verborgene Zustand am Ende des Segments m, der sowohl die hochrangigen als auch die niedrigrangigen Zustandskomponenten enthält. Abbildung 4 zeigt den Pseudocode für das Training mit Tiefenüberwachung.

Adaptive Rechenzeit (ACT). Das Gehirn wechselt dynamisch zwischen automatischem Denken (System 1) und sorgfältigem Schließen (System 2).

Inspiriert von diesem Mechanismus wird in diesem Artikel eine adaptive Stoppstrategie in das HRM integriert, um schnelles und langsames Denken zu ermöglichen.

Abbildung 5 zeigt einen Vergleich der Leistung von zwei HRM-Varianten. Die Ergebnisse zeigen, dass die ACT die Rechenressourcen effektiv an die Komplexität der Aufgabe anpassen kann, wodurch die Rechenressourcen erheblich eingespart werden, während die Leistung möglichst wenig beeinträchtigt wird.

Erweiterung der Inferenzzeit. Ein effektives neuronales Modell sollte in der Lage sein, zusätzliche Rechenressourcen während der Inferenzphase dynamisch zu nutzen, um die Leistung zu verbessern. Wie in Abbildung 5-(c) gezeigt, kann das HRM-Modell die Inferenzrechnung nahtlos erweitern, indem einfach der Rechenbeschränkungsparameter Mmax erhöht wird, ohne dass das Modell neu trainiert oder die Architektur angepasst werden muss.

Experimente und Ergebnisse

In dieser Studie haben die Autoren Benchmark-Tests mit ARC-AGI, Sudoku und Labyrinthen durchgeführt. Die Ergebnisse sind in Abbildung 1 gezeigt:

Das HRM schneidet bei komplexen Inferenzaufgaben hervorragend ab, führt jedoch zu einer interessanten Frage: Welche zugrunde liegenden Inferenzalgorithmen implementiert das HRM-Neuralnetzwerk tatsächlich? Die Beantwortung dieser Frage ist von entscheidender Bedeutung für die Verbesserung der Interpretierbarkeit des Modells und das tiefere Verständnis des Lösungsspektrums des HRM.

Die Autoren versuchen, den Inferenzprozess des HRM zu visualisieren. Bei der Labyrinthaufgabe scheint das HRM zunächst mehrere potenzielle Pfade zu erkunden und dann blockierte oder ineffiziente Pfade auszuschließen, um einen ersten Lösungsentwurf zu erstellen, der dann mehrmals optimiert wird. Bei der Sudokuaufgabe ähnelt diese Strategie der Tiefensuche: Das Modell erkundet potenzielle Lösungen und führt ein Backtracking durch, wenn es in eine Sackgasse gerät. Das HRM wendet

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Mit nur 27 Millionen Parametern hat dieses Inferenzmodell DeepSeek und Claude übertroffen.

Hierarchisches Inferenzmodell

Experimente und Ergebnisse