Das Zeitalter der AI-"Agentenorganisationen" beginnt: Microsoft schlägt AsyncThink (asynchrones Denken) vor

Nächste Station: menschliche AI-Agentenorganisation?

Von großen Sprachmodellen (LLM) zu Agenten repräsentiert einen Paradigmenwechsel in der Künstlichen Intelligenz (KI) von der "Wortwahl" zum "Handeln".

Wenn mehrere Agenten in Form einer Organisation auftreten und durch Kooperation und parallele Arbeit Ergebnisse erzielen, die die individuelle Intelligenz übertreffen, entsteht das nächste Paradigma der KI - die "agentische Organisation" (agentic organization).

Obwohl die gegenwärtigen LLM als individuelle Agenten bereits beeindruckende Inferenzfähigkeiten gezeigt haben, müssen sie für die Verwirklichung der Vision der "agentischen Organisation" nicht nur in der Lage sein, unabhängig zu denken, sondern auch als organisierter System kooperativ denken.

Deshalb hat das Microsoft-Team eine neue Methode namens "Asynchrones Denken" (AsyncThink) für die Inferenz von LLM vorgeschlagen. Dabei werden die internen Denkprozesse in eine Struktur organisiert, die parallel ausgeführt werden kann, um die Probleme wie hohe Latenz, schlechte Anpassungsfähigkeit und Dynamik in den bestehenden parallelen Denkmethoden zu lösen.

Experimente zeigen, dass AsyncThink im Vergleich zum parallelen Denken die Genauigkeit der mathematischen Inferenz verbessert und gleichzeitig die Inferenzlatenz um 28 % reduziert. Darüber hinaus kann AsyncThink die erlernten Fähigkeiten des asynchronen Denkens verallgemeinern und ohne zusätzliche Training effektiv auf unbekannte Aufgaben reagieren.

Link zur Studie: https://arxiv.org/pdf/2510.26658

Forschungsansatz

Das Herzstück von AsyncThink ist das "Organisator-Arbeiter" (Organizer - Worker) - Denkprotokoll. Dabei nimmt das LLM zwei Rollen ein:

Einerseits fungiert es als "Organisator", der komplexe Probleme in Teilaufgaben zerlegt und die Reihenfolge der Aufgaben durch "Fork" (Aufzweigung) und "Join" (Zusammenführung) plant. Andererseits ist es auch ein "Arbeiter", der diese Teilaufgaben ausführt und Zwischenergebnisse zurückgibt.

Abbildung | Beispiel des Denkprotokolls von AsyncThink. Das Protokoll ermöglicht asynchrones Denken durch Fork - Join - Operationen, um die Denktrassen zu steuern.

Auf diese Weise kann das Modell nicht nur mehrere Teilprobleme parallel bearbeiten, sondern auch die Denkrichtung dynamisch anpassen, um eine flexiblere und effizientere Inferenz zu erreichen.

Um das AsyncThink - Modell zu trainieren, haben sie einen zweistufigen Trainingsablauf vorgeschlagen: Kaltstart - Formatfeinabstimmung und Reinforcement Learning.

1. Kaltstart - Formatfeinabstimmung

In dieser Phase wird das bestehende LLM durch die Kaltstart - Formatfeinabstimmung trainiert, um die Organisationsgrammatik und die Handlungsstruktur des AsyncThink - Frameworks zu erlernen.

Bei der Datensynthese verwendet das Forschungsteam GPT - 4o, um synthetische Trainingsdaten zu generieren, da in den bestehenden Korpora fast keine Denkbeispiele des "Organisator - Arbeiter" - Typs vorhanden sind. GPT - 4o analysiert zunächst jedes Eingabeproblem, erkennt die Denksegmente, die unabhängig gelöst werden können, und generiert dann die Inferenzpfade des Organisators und des Arbeiters gemäß dem AsyncThink - Protokollformat.

Bei der Strukturinitialisierung wählt das Forschungsteam verschiedene Organisationsaktionssequenzen zufällig aus und integriert eine dieser Strukturbeispiele in die Trainingshinweise, damit das Modell unter verschiedenen Strukturen lernen kann und somit vielfältigere Denktopologien generieren kann.

Nach Abschluss der Datensynthese und der Strukturinitialisierung führt das Forschungsteam eine überwachte Feinabstimmung des Basis - LLM durch, um dem Modell die Fähigkeit zu verleihen, gültige Organisatoraktionen auszuführen.

In dieser Phase hat das Modell noch nicht gelernt, mit asynchronem Denken die richtigen Antworten zu generieren, sondern nur das Format zu imitieren.

2. Reinforcement Learning

Da in der ersten Phase nur die syntaktische Struktur der Organisatoraktionen gelehrt wurde, fehlt dem Modell immer noch die Fähigkeit, diese Denkmechanismen zur Generierung der endgültigen Antworten zu nutzen. Deshalb führt das Forschungsteam eine zweite Phase - das Reinforcement Learning - durch, um das Modell mittels Belohnungen zu lehren, effiziente und genaue Strategien zu entwickeln.

Abbildung | Schematische Darstellung des Reinforcement - Learning - Frameworks von AsyncThink.

Im Belohnungsmodell wird durch Genauigkeitsbelohnungen sichergestellt, dass die endgültigen Antworten korrekt sind; durch Formatbelohnungen wird sichergestellt, dass die vom Modell generierten Pfade ausführbar sind; durch Denkparallelisierungsbelohnungen wird das Modell dazu angeregt, asynchron statt sequenziell zu denken.

Beim Training verbessert das Forschungsteam den Gruppen - Relativen Strategieoptimierungsalgorithmus (GRPO), um ihn an die asynchrone Struktur anzupassen. Das Modell generiert nicht mehr eine einfache Denksequenz (CoT), sondern eine "Denkstruktur", die aus einem Organisator und mehreren Arbeitern besteht. Die endgültige Belohnung wird allen Ausgaben der gesamten Struktur zugute kommen, um sicherzustellen, dass jeder Teil auf dasselbe Ziel hin optimiert wird.

Durch das feingeschnittene Belohnungsmodell und den Optimierungsmechanismus kann das AsyncThink - Modell sein internes "agentisches Organisationssystem" dynamisch und effizient koordinieren, um reale Probleme zu lösen.

Experimentelle Bewertung

Das Forschungsteam hat die Leistung des AsyncThink - Modells bei der Mehrlösungs - Countdown - Aufgabe, der mathematischen Inferenz und der Sudoku - Aufgabe bewertet. Experimente zeigen, dass AsyncThink im Vergleich zu sequenziell und parallel denkenden Modellen immer eine höhere Genauigkeit und eine niedrigere Latenz erzielen kann .

Darüber hinaus hat das Forschungsteam durch Ablationsstudien die Leistung weiter analysiert, um die Wirksamkeit des "zweistufigen Trainingsablaufs" von AsyncThink hervorzuheben.

Im Einzelnen:

1. Mehrlösungs - Countdown - Experiment

Die Volltrefferquote von AsyncThink erreicht 89,0 %, was höher ist als die des parallelen Denkens (68,6 %) und des sequenziellen Denkens (70,5 %). Dies bedeutet, dass es nicht nur eine höhere Genauigkeit hat, sondern auch mehr Lösungen abdecken kann.

Abbildung | Bewertungsergebnisse der Mehrlösungs - Countdown - Aufgabe. ≥a Correct zeigt, ob das Modell die einzige richtige Lösung für das gegebene Problem finden kann.

2. Mathematische Inferenzexperiment

Bei AIME - 24: Die Genauigkeit von AsyncThink beträgt 38,7 %, die Latenz 1468,0; bei AMC - 23: Die Genauigkeit von AsyncThink beträgt 73,3 %, die Latenz 1459,5. Im Vergleich zur traditionellen parallelen Inferenz reduziert es die Inferenzlatenz um etwa 28 %, während die Genauigkeit gewährleistet bleibt .

Abbildung | Bewertungsergebnisse der mathematischen Inferenz bei AIME - 24 und AMC - 23.

3. Experiment zur Übertragbarkeit auf andere Aufgaben

Obwohl es nur auf der Countdown - Aufgabe trainiert wurde, zeigt AsyncThink immer noch die beste Leistung bei der 4 × 4 - Sudoku - Aufgabe (Genauigkeit von 89,4 % und niedrigste Latenz). Dies zeigt, dass das LLM nicht spezifische Muster gelernt hat, sondern ein übertragbares organisatorisches Denkmuster.

Abbildung | Bewertungsergebnisse von AsyncThink bei der 4 × 4 - Sudoku - Aufgabe.

4. Ablationsexperiment

Im Ablationsexperiment hat das Forschungsteam festgestellt, dass die Formatfeinabstimmung (Format SFT) dem LLM beibringt, die "Sprache" zu lernen, d. h. wie man Fork und Join ausführt; das Reinforcement Learning (RL) lehrt dem LLM die "Strategie", d. h. wann man Forken und wie man Joinen soll, um schneller und genauer zu sein; die Parallelisierungsbelohnung (Rη - Belohnung) bringt dem LLM die "Effizienz" bei - das Gleichgewicht zwischen Genauigkeit und Latenz.

Abbildung | Ergebnisse des Ablationsexperiments durch Entfernen der Schlüsselkomponenten von AsyncThink.

Zukünftige Arbeiten

Obwohl AsyncThink in Bezug auf die Verbesserung der Inferenzgenauigkeit und die Reduzierung der Inferenzlatenz des LLM bemerkenswerte Vorteile zeigt, ist es nur ein Anfang für die Verwirklichung der Vision der "agentischen Organisation".

In zukünftigen Arbeiten wird das Forschungsteam die "agentische Organisation" in drei Aspekten weiter erforschen: "Skala/Vielfaltserweiterung", "Rekursive agentische Organisation" und "Mensch - KI - Agentenorganisation".

1. Erweiterung der Skala und Vielfalt der Agenten

Erstens die Erweiterung der Anzahl der "Arbeiter". Zukünftige Arbeiten sollten die Skalierungsgesetze des asynchronen Denkens erforschen: Wie wird das Genauigkeits - Latenz - Trade - off sich verändern, wenn die Kapazität des Agentenpools von wenigen auf Hunderte oder sogar Tausende wächst?

Zweitens die Erweiterung der Vielfalt der Agenten. Anstatt eines homogenen Agentenpools sollte man sich einer großen Organisation aus heterogenen Expertenarbeitern zuwenden. Diese Agenten können auf bestimmte Bereiche (z. B. Mathematik, Programmierung, Datenanalyse) hin feinabgestimmt werden und können zudem mit verschiedenen externen Tools (z. B. Codeinterpreter, Datenbankabfragesystem oder Netzwerksuch - API) ausgestattet werden. Dies stellt für den Organisator ein komplexeres und leistungsfähigeres Lernproblem dar.

2. Rekursive agentische Organisation

In diesem Paradigma kann jeder Arbeiter dynamisch zu einem Suborganisator ernannt werden und somit die Fähigkeit erlangen, sein eigenes Subarbeiterteam zu bilden. Dies ermöglicht eine flexible hierarchische Struktur, die sich natürlich für tief verschachtelte und komplexe Probleme eignet, die mehrstufige Zerlegung erfordern. Beispielsweise kann ein hervorragender Organisator eine breite Abfrage wie "Löse * - Problem" delegieren, und der zugewiesene Arbeiter fungiert als Suborganisator, der drei neue Subarbeiter bildet, um verschiedene Lemmata parallel und unabhängig zu testen.

3. Mensch - KI - Agentenorganisation

Ein wichtiges Forschungsgebiet ist die Schaffung eines Mensch - KI - Kooperationsframeworks durch die direkte Integration von Menschen in die agentische Organisation. Dies kann bedeuten, dass "Menschen als Organisatoren" Aufgaben an KI - Arbeiter mithilfe des Fork - Protokolls verteilen oder dass "Menschen als Arbeiter" von der KI mit Aufgaben betraut werden, die menschliche Urteile erfordern. Darüber hinaus ermöglicht kooperatives Planen, dass Menschen und KI eine asynchrone Strategie gemeinsam entwickeln, bevor sie ausgeführt wird. Dieser Ansatz geht über die reine Autonomie der KI hinaus und ermöglicht eine starke Mischintelligenz.

Dieser Artikel stammt aus dem WeChat - Kanal

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das Zeitalter der AI-"Agentenorganisationen" beginnt. Microsoft hat AsyncThink (asynchrones Denken) vorgeschlagen.