Vermeiden Sie, dass Michelin - Köche Kartoffeln schälen: NVIDIA nutzt "Kleinhirnsteuerung des Gehirns" zur Rekonstruktion der Produktivität von AGI

Erster Schritt für zusammengesetztes KI

Angesichts der enormen Rechenleistung, die von großen Modellen verbraucht wird, hat NVIDIA das 8B-Modell Orchestrator vorgestellt, das wie ein "intelligentes Baukasten-System" fungiert. Durch die Kombination von Tools werden Kosten gesenkt und Effizienz gesteigert. Mit nur 30 % des Budgets erzielte es auf der HLE-Benchmark einen Score von 37,1 %.

Kürzlich hat das NVIDIA Research festgestellt, dass kleine Modelle, wenn sie richtig feingestimmt werden, ausreichen, um große Modelle zu "lenken".

Das neue Modell Orchestrator des NVIDIA-Forschungsteams hat nur 8 Milliarden Parameter (8B). Es ist nicht nur genauer und kostengünstiger als bisherige AI-Intelligent-Agenten-Tools, sondern kann auch die Werkzeugauswahl präzise an die Benutzerpräferenzen anpassen.

Bei der HLE-Benchmark erzielte Orchestrator einen beeindruckenden Score von 37,1 %, was GPT-5 (35,1 %) deutlich übertrifft. Gleichzeitig wurde die Effizienz um das 2,5-fache gesteigert.

Bei den tau2-Bench- und FRAMES-Tests führte Orchestrator ebenfalls mit deutlichem Abstand vor GPT-5 an, wobei seine Kosten nur etwa 30 % derjenigen von GPT-5 betragen.

Bei mehreren Indikatoren erreicht Orchestrator das optimale Gleichgewicht zwischen Leistung und Kosten und kann sich hervorragend auf bisher unbekannte Tools übertragen.

Preprint-Link: https://arxiv.org/abs/2511.21689

Warum reicht "starkes Modell + Werkzeuge" noch nicht aus?

Bei extrem schwierigen Tests wie der Humanity’s Last Exam (HLE), die umfassende logische Denkfähigkeiten erfordern, wissen die großen Modelle zwar etwas von allem, aber wenn es um tiefgreifende logische Denkprozesse und die Kostenkontrolle geht, geraten sie in Schwierigkeiten.

Es ist schwierig, mit nur einem großen Modell (z. B. GPT-5), einfache Werkzeuge wie Suchmaschinen und Code-Interpreter zu nutzen, um gleichzeitig Genauigkeit, Kostengünstigkeit und Kontrollierbarkeit zu gewährleisten.

Um Geld zu sparen, ist die erste Reaktion der Branche: Statt immer das stärkste Modell zu nutzen, schaffen wir einen "Koordinator", der die Aufgaben verteilt.

Aber wenn man die gängigen großen Modelle als Koordinator einsetzt, kommt es zu einem ironischen Ergebnis:

Wenn GPT-5 als Koordinator fungiert, werden 98 % der Anfragen wieder an GPT-5 oder GPT-5-mini weitergeleitet.

Wenn man Qwen3-8B als Koordinator einsetzt, werden 73 % der Aufgaben einfach an GPT-5 weitergeleitet, wenn es unsicher ist.

Mit anderen Worten: Wir dachten, wir hätten einen "Koordinator" geschaffen, aber es ist nur ein zusätzlicher "Telefonist".

Aufgabenverteilung auf verschiedene Modelle nach der Verwendung unterschiedlicher Modelle als Koordinator

Das Ergebnis zeigt, dass man mit nur einem Prompt die gängigen großen Modelle nicht zu qualifizierten Koordinatoren machen kann.

ToolOrchestra trennt die "Intelligenz" von einem einzelnen Modell und rekonstruiert es zu einem komplexen System aus einem "leichtgewichtigen Koordinationszentrum + heterogenen Werkzeugesatz". Dies bildet ein neues Paradigma für die Zusammenarbeit zwischen Modellen und Werkzeugen.

Als nächstes schauen wir uns an, wie Orchestrator trainiert wurde.

Orchestrator: Mehrfache Ausführung und benutzerdefiniertes RL

Stellen Sie sich vor: Die bisherigen großen Modelle waren wie gehobene Restaurants, in denen ein "Michelin-Koch" (GPT-5) von Anfang bis Ende alle Gerichte zubereitet - Feuer, Schneidekunst und Servierkunst liegen in seinen Händen.

Was war das Ergebnis? Aufgrund der hohen Kosten pro Token stieg die Gesamtkosten sprunghaft an.

Das neue "Gemeinschaftsgang" - Modell von NVIDIA ist wie eine Großküche. Ein kluger "Lagerist" (kleines 8B-Modell Orchestrator) sitzt in der Mitte. Der Lagerist kocht nicht selbst, sondern:

Lässt ein "Sichuan-Restaurant" an der Ecke (Qwen-Math-7B) ein Stück "Hui Guo Rou" (eine mathematische Aufgabe) braten;

Bittet einen "Chef für südchinesische Desserts" (Coder-32B), einen Korb mit Shrimp-Dumplings (Code schreiben) zu machen;

Wenn er unsicher ist, ruft er den Michelin-Koch (GPT-5) an, um den Geschmack zu bestimmen.

Architekturdiagramm von Orchestrator

Das kleine 8B-Modell Orchestrator für die Koordination lernt durch Reinforcement Learning und neigt automatisch zu lokal installierten Modellen, basierend auf den vom Benutzer angegebenen Präferenzen.

Die Belohnungsfunktion während des Trainings kann in 3 Teile aufgeteilt werden:

1. Ergebnis, d. h. ob die Antwort richtig ist. Bei richtiger Antwort +1, sonst 0; Die Beurteilung wird von GPT5 vorgenommen;

2. Effizienz, die mit den finanziellen Kosten und der Zeitverzögerung korrespondiert;

3. Übereinstimmung mit dem Präferenzvektor der Benutzerwerkzeuge.

Die Summe dieser drei Teile bildet die Zielfunktion des Reinforcement Learnings. Am Ende wird ein Orchestrator trainiert, der wägt, sich an Anweisungen hält und weiß, wie man Geld spart.

Orchestrator enthält auch einen menschenähnlichen Schritt-für-Schritt-Lösungsmechanismus:

Durch die COT (Chain of Thought) - Methode analysiert Orchestrator den aktuellen Zustand und plant die strukturierte Nutzung von Werkzeugen für den nächsten Schritt;

Danach wird die Aktion in der Umgebung ausgeführt (z. B. mathematische Ableitung, Codeausführung) und das Ergebnis zurückgegeben;

Diese mehrfache Schleife ist ein weiterer Innovationspunkt von Orchestrator.

Mit der Trainingsmethode hat diese Studie auch ToolScale erstellt, um das Training des Reinforcement Learnings zu unterstützen.

Als erste große, verifizierbare synthetische Datensammlung für die mehrfache Nutzung von Werkzeugen: ToolScale erstellt automatisch simulierte Umgebungen (einschließlich Datenbanken und Werkzeug-APIs) in 10 Bereichen (Finanzen, Medizin, Luftfahrt usw.) mithilfe eines großen Modells und generiert dann 430.000 Aufgaben mit von Menschen markierten optimalen Werkzeugnutzungsverläufen.

Übersicht über den Datensyntheseprozess von ToolScale

Jede Aufgabe muss drei Prüfungen bestehen:

Ausführungskorrektheit (Übereinstimmung der Datenbankzustandsänderungen)
Prozessfidelity (wichtige Informationen werden erwähnt)
Vollständigkeit der Aktionen.
Diese Daten werden verwendet, um Orchestrator zu trainieren.

Die "pragmatische Revolution" der AGI

Bei drei hochschwierigen Benchmarks übertrifft Orchestrator-8B die bestehenden Methoden und senkt die Inferenzkosten erheblich:

Bei der HLE (Humanity’s Last Exam) erreichte es eine Genauigkeit von 37,1 % (gegenüber 35,1 % von GPT-5), und die Kosten betrugen nur 9,2 Cent (30 % von GPT-5);

Bei der τ2-Bench (strenger Test für Funktionsaufrufe) hatte es eine Richtigkeit von 80,2 %, und nur etwa 40 % der Schritte riefen GPT-5 auf;

Bei der FRAMES (faktische logische Denkfähigkeit) erreichte es einen Score von 76,3 % (gegenüber 74,2 % der SOTA), und die Verzögerung sank auf 8,2 Minuten (41 % von GPT-5).

Vergleich der Leistung und Kosten der Modelle nach der Koordination durch Orchestrator.

Im Vergleich zu starken Einzellarge-Language-Modell-Systemen erreicht Orchestrator die beste Kosteneffizienz:

Eine weitergehende Analyse zeigt, dass seine herausragende Leistung auf die Fähigkeit zur rationalen Arbeitsteilung zurückzuführen ist:

Orchestrator ruft bedarfsweise kostengünstige Werkzeuge wie lokale Suchmaschinen, Math-7B und Qwen-32B auf und ruft nur in kritischen Schritten GPT-5 auf (1,95 Mal pro Aufgabe);

Wenn GPT-5 die Koordination übernimmt, muss es durchschnittlich 5,23 Mal GPT05-mini aufrufen, um eine Aufgabe zu lösen.

Die Verwendung von kostengünstigen Modellen für weniger komplexe Probleme ist die Quelle für die Kostensenkung und Effizienzsteigerung von Orchestrator.

Vergleich der Anrufhäufigkeit von Orchestrator für verschiedene Werkzeuge

Orchestrator zeigt auch eine starke Generalisierungsfähigkeit: Bei Modellen, die nicht im Training verwendet wurden (z. B. Gemma-3-27B, Codestral-22B) oder neuen Preispolitik (DeepInfra) schwankt seine Leistung nur geringfügig, was beweist, dass es eine allgemeine Strategie für die Abstraktion der Werkzeugfähigkeiten und die Kosten-Nutzen-Abwägung gelernt hat, statt sich an eine bestimmte Konfiguration zu überanpassen.

Außerdem ist Orchestrator bei der Berücksichtigung der Benutzerpräferenzen besser als andere große Modelle. Dies beweist, dass Orchestrator eine anpassbare, einschränkbare und interpretierbare Fähigkeit zur Werkzeugkoordination hat.

Der erste Schritt hin zu einem komplexen AI-System

In den letzten Jahren wurde immer dieselbe Geschichte in der Welt der KI erzählt: Zunächst wird ein möglichst großer universeller "Gehirn" geschaffen, und dann wird er durch Prompts und wenige Beispiele vorübergehend zu einem Experten in Übersetzung, Schreiben, Programmieren usw. gemacht.

Aber mit der Fortschritt der Forschung beginnt diese Geschichte zu wackeln:

Immer mehr "komplexe AI-Systeme", die aus mehreren Modellen und Werkzeugen zusammenarbeiten, haben Vorteile in Sicherheit, Geschwindigkeit und Kosten gegenüber einem einzelnen großen Modell und übertreffen es sogar in der Fähigkeit.

Zusammenfassend lässt sich sagen, angesichts der hohen Kosten und des hohen Energieverbrauchs bei der Verwendung von großen Modellen zeigt Orchestrator, dass durch die Trennung von "Entscheidungsgewalt" und "Ausführungsgewalt", anstatt auf einen Superhelden zu hoffen, ein neuer Weg zu einem effizienten, kontrollierbaren und erweiterbaren praktischen AGI-System eröffnet werden kann.

ToolOrchestra markiert den ersten Schritt in Richtung eines wirklich intelligenten komplexen AI-Systems. Dies repräsentiert ein neues, aufkommendes Paradigma, das die einheitliche AI-Architektur ersetzen will.

Kleine Sprachmodelle werden schließlich der Schlüssel zur Realisierung eines skalierbaren intelligenten Agenten-AI werden.

Referenzen:

https://arxiv.org/abs/2511.21689

https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/

https://research.nvidia.com/labs/lpr/ToolOrchestra/

Dieser Artikel stammt aus dem WeChat-Account "New Intelligence Yuan", Autor: New Intelligence Yuan, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Lassen Sie nicht den Michelin-Köchern Kartoffeln schälen. NVIDIA nutzt die "Kleinhirnsteuerung des Gehirns" und rekonstruiert die Produktivität von AGI.

Warum reicht "starkes Modell + Werkzeuge" noch nicht aus?

Orchestrator: Mehrfache Ausführung und benutzerdefiniertes RL

Die "pragmatische Revolution" der AGI

Der erste Schritt hin zu einem komplexen AI-System