35B Agent übertrifft Modelle mit Billionen von Parametern? Shanghai AI Lab veröffentlicht Agents-A1 als Open-Source-Projekt: Scaling the Horizon
Langzeitaufgaben (Long-Horizon) sind eines der dringend zu lösenden Probleme bei aktuellen AI Agenten.
In Szenarien wie Softwareentwicklung, wissenschaftlicher Forschung und komplexer Entscheidungsfindung müssen Agenten oft kontinuierliche Entscheidungen in langfristigen Bedingungen treffen. Ein Fehler in einem Schritt kann die nachfolgenden Aufgaben beeinflussen. In der Vergangenheit hing diese Fähigkeit oft von größeren Modellen ab. Die Erweiterung des Agenten-Horizonts (Agent Horizon) ist ebenfalls eine wichtige Richtung, aber es gibt immer noch Probleme wie unzureichende Infrastruktur und die Schwierigkeit, heterogene Fähigkeiten zu vereinheitlichen.
Um diese Probleme zu lösen, hat das Team von Shanghai AI Lab ein MoEAgent-Modell namens Agents-A1 mit 35 Milliarden Parametern entwickelt. Sie versuchen, ohne weitere Parametererhöhung, sondern nur durch die Erweiterung des Agenten-Horizonts, mit einem kleineren Modell die Leistung von Modellen mit Billionen von Parametern in Langzeitaufgaben zu erreichen.
Link zur Studie: https://arxiv.org/abs/2606.30616
Die Forschungsergebnisse zeigen, dass Agents-A1 in einigen Aufgaben wie mehrstufiger Suche, wissenschaftlicher Forschung und Befolgung langer Anweisungen bereits eine bessere Leistung als einige Modelle mit Billionen von Parametern erreicht hat und in der Kategorie der Modelle mit 35 Milliarden Parametern führend ist.
Abbildung | Leistungsfähigkeit von Agents-A1 in Benchmark-Tests.
Allerdings hat das Forschungsteam auch angegeben, dass Agents-A1 in Ingenieuraufgaben immer noch einen Abstand zu Spitzen-Modellen hat.
Diese Studie stellt eine kostengünstigere Methode zur Entwicklung starker AI-Agenten vor: Lehren Sie ihnen, lang anhaltende und bewährte Arbeitsgewohnheiten zu entwickeln, anstatt nur ihre Parameteranzahl zu erhöhen.
Wie wurde Agent-A1 entwickelt?
Agents-A1 ist ein MoEAgent-Modell mit 35 Milliarden Parametern, das für Langzeitaufgaben entwickelt wurde. Es basiert auf einer Langzeitwissen-Aktions-Infrastruktur und integriert verschiedene Agentenfähigkeiten in ein einziges Modell durch dreistufiges Training: Zunächst wird ein ganzheitlicher SFT (Supervised Fine-Tuning) durchgeführt, dann werden Teachermodelle für verschiedene Bereiche trainiert, und schließlich wird die Vereinheitlichung durch Multi-Teacher on-policy distillation (OPD) erreicht. Der genaue Ablauf ist wie folgt:
1. Ganzheitlicher Supervised Fine-Tuning (SFT)
Das Ziel dieses Schritts ist es, die allgemeinen Agentenfähigkeiten des Modells zu entwickeln. Das Forschungsteam verwendet hochwertige Langzeit-Trajektdaten aus verschiedenen Bereichen und Aufgaben für das Training, um die Fähigkeiten des Modells in der Verständnis, Schlussfolgerung und Befolgung von Anweisungen in langen Kontexten zu verbessern. Bei der Trainingsdurchführung wird Sample Packing eingesetzt, um mehrere kürzere Samples in einer einzigen Trainingssequenz zusammenzufügen, und es wird eine Attention-Maske verwendet, um Kreuzinterferenzen zwischen den Samples zu vermeiden, wodurch die Padding-Aufwendungen reduziert und die GPU-Nutzung verbessert werden.
2. Training von Bereichs-Teachermodellen
Das Forschungsteam hat die Modellfähigkeiten in vier Arten von Fach-Teacher-Modellen aufgeteilt: Suche, wissenschaftliche Schlussfolgerung, Befolgung von Anweisungen und Tool-Aufruf, und hat jeweils Trainingspläne entwickelt.
- Such-Teacher: Es wird ein zweistufiges Training mit erstem SFT und anschließendem RL (Reinforcement Learning) durchgeführt, und GRPO wird eingesetzt, um die Fähigkeiten in der Zerlegung komplexer Probleme, mehrstufiger Suche und Tool-Kooperation zu verbessern. Das Ziel ist es, die Anzahl redundanter Suchen zu reduzieren, während die Richtigkeit gewährleistet wird.
- Wissenschaftlicher Teacher: Durch zweistufigen SFT wird zunächst die Fähigkeit der wissenschaftlichen Ableitung gestärkt, und dann werden die Fähigkeiten der externen Interaktion und der Evidenz-Integration durch Tool-Enhanced-Trajekt-Training verbessert. Das Modell lernt, wann es externe Tools nutzen soll und wie es die evaluierten oder berechneten Evidenzen integrieren soll.
- Anweisungs-Befolgungs-Teacher: Es wird ein zweistufiges Training mit RL und GRPO durchgeführt: In der ersten Stufe wird die Fähigkeit zur Befolgung feingranularer Einschränkungen wie Format, Länge, Schlüsselwörter und Sprache verbessert; in der zweiten Stufe wird die Fähigkeit zur Evidenz-Lokalisierung, Informations-Integration und Kontext-Regel-Befolgung in langen Kontexten ICL gestärkt.
- Tool-Aufruf-Teacher: Es wird eine zweistufige Optimierung mit Tool-SFT und Tool-RL durchgeführt. Der Schwerpunkt liegt auf dem Lernen, wann Tools aufgerufen werden sollen, wie Fehler korrigiert werden sollen und wann die Aufgabe beendet werden soll. Durch die Kombination von Ergebnisrewards, Prozessrewards und Wiederverwendung hochwertiger schwieriger Aufgaben wird die Fähigkeit der Tool-Nutzung verbessert.
3. Stufe der vereinheitlichten Modelle
Das Forschungsteam sammelt zunächst Schüler-Trajekten und lässt dann die entsprechenden Bereichs-Teacher bewerten und leiten. Im Gegensatz zur Offline-Imitation bewerten die Teacher direkt die von den Schülern generierten Trajekten. Schließlich wird das Modell durch Bereichs-routing-basierte Distillation und signifikante Wort-Alignment optimiert, um sowohl die allgemeinen Fähigkeiten des ganzheitlichen SFT als auch die Fachkenntnisse der Bereichs-Teacher zu berücksichtigen.
Abbildung | Überblick über den dreistufigen Trainingsablauf von Agents-A1.
Um diesen Trainingsablauf zu unterstützen, hat das Forschungsteam eine Wissen-Aktions-Infrastruktur mit dem Wissen-Aktions-Graph KAG als Kern aufgebaut und durch Selbstspiel kontinuierlich hochwertige Lang-Trajektdaten erweitert. Auf diese Weise enthalten die Trainingsbeispiele nicht nur Fragen und Antworten, sondern auch die vollständigen Tool-Nutzungs- und Validierungsprozesse.
Abbildung | Überblick über die Wissen-Aktions-Infrastruktur von Agents-A1.
Experimentelle Ergebnisse
Insgesamt zeigt Agents-A1 in Langzeit-Suche, Anweisungs-Befolgung und wissenschaftlicher Schlussfolgerung eine hervorragende Leistung. Es übertrifft nicht nur Modelle gleicher Größe (35 Milliarden Parameter), sondern auch einige Modelle mit Billionen von Parametern in einigen Benchmarks. Die genauen Ergebnisse sind wie folgt:
Abbildung | Leistungskomparierung zwischen Qwen3.5-35B-A3B, Agents-A1-SFT und Agents-A1.
1. Ganzheitlicher SFT
Die Ergebnisse zeigen, dass Agents-A1-SFT in Langzeit-Suche, Ingenieuraufgaben und wissenschaftlicher Forschung deutlich verbessert ist, aber in allgemeinen Agentenaufgaben, Anweisungs-Befolgung und HLE zurückgeht. Dies zeigt auch, dass allein der ganzheitliche SFT noch nicht ausreicht, um die Konflikte zwischen verschiedenen Schlussfolgerungsmustern zu vermindern.
2. Training von Bereichs-Teachermodellen
Such-Enhanced-Teacher: Dieser Teacher ist in allen vier Benchmarks stabil besser als Qwen3.5-35B-A3B. Insbesondere in der allgemeinen AI-Assistenten-Benchmark GAIA ist die Verbesserung am deutlichsten, von 59,8 auf 95,1.
Abbildung | Leistungskomparierung zwischen Qwen3.5-35B-A3B und Such-Enhanced-Teacher-Modell.
Wissenschaftlicher-Enhanced-Teacher: Der zweistufige SFT hat die Fähigkeiten der wissenschaftlichen Schlussfolgerung und der Tool-Interaktion des Teachermodells deutlich verbessert. Im Vergleich zum Basismodell ist der wissenschaftliche-Enhanced-Teacher in allen wissenschaftlichen Aufgaben besser, insbesondere in FS-R, wo eine deutliche Verbesserung von 2,5 auf 54,3 erreicht wurde.
Abbildung | Leistungskomparierung zwischen Qwen3.5-35B-A3B und Wissenschaftlicher-Enhanced-Teacher-Modell.
Experimente zur Anweisungs-Befolgung und Lernen in langen Kontexten: Das Reinforcement Learning hat die Fähigkeiten des Modells in der Verständnis von langen Kontexten, der Befolgung von Anweisungen und der Generalisierung von verifizierbaren Anweisungseinschränkungen deutlich verbessert. Insgesamt ist der RL-Enhanced-Teacher in den relevanten Tests besser als Qwen3.5-35B-A3B, insbesondere in LongBench V2 und IFBench.
Abbildung | Testresultate von Qwen3.5-35B-A3B und RL-Enhanced-Teacher-Modell in LongBench V2, IFBench und IFEval.
Tool-Aufruf-Experimente: Die explizite Tool-Nutzungs-Überwachung und das Reinforcement Learning haben die Fähigkeit des Modells beim Tool-Aufruf deutlich verbessert, insbesondere in Aufgaben, die mehrstufige und strukturierte Interaktionen erfordern. Genauer gesagt, hat das Tool-Enhanced-Modell in τ²-Bench und VitaBench signifikante Verbesserungen erzielt.
Abbildung | Leistungstestresultate von Qwen3.5-35B-A3B und Tool-Enhanced-RL-Teacher-Modell in τ²-Bench und VitaBench.
Experimente mit vereinheitlichten Modellen: Die Ergebnisse zeigen, dass das Multi-Teacher-OPD besser als der reine ganzheitliche SFT ist, um die Konflikte zwischen verschiedenen Schlussfolgerungsmustern in verschiedenen Aufgaben zu vermindern. Es kann die breite Fähigkeitsabdeckung beibehalten und die Fachkenntnisse verschiedener Bereiche besser integrieren, und die Leistung in Langzeitaufgaben weiter verbessern.
Abbildung | Vergleich zwischen Agents-A1 und Modellen mit 35 Milliarden / 1 Billion Parametern.
Außer den Standard-Benchmarks hat das Forschungsteam auch zwei Beispiele gezeigt, um die Langzeit-Agentenfähigkeiten von Agents