MiniMax führt Mavis ein: Ein echter Agent ähnlich dem System der "Drei Ministerien und Sechs Ministerien"

Man sollte Agenten genauso behandeln wie Menschen und die Kunst des Führens von Untergebenen verstehen...

Ich habe eine Aufgabe erstellt, und der Agent hat den Plan-Modus aktiviert und sieben Schritte geplant.

Ich habe die Planung genehmigt, und er hat begonnen, die Aufgabe auszuführen. Er hat drei Schritte durchgeführt und dann angehalten, um zu berichten: „Ich habe Schritte 1, 2 und 3 abgeschlossen. Die Ergebnisse sind diese und jene... Möchten Sie, dass ich mit Schritten 4, 5, 6 und 7 fortfahre?“

Ich habe ihm gesagt, dass er fortfahren soll. Er hat dann weitere zwei Schritte durchgeführt und erneut angehalten: „Ich habe Schritte 4 und 5 abgeschlossen. Die Ergebnisse sind diese und jene... Möchten Sie, dass ich mit Schritten 6 und 7 fortfahre?“

Nach einem ganzen Abend mit der Aufgabe hat sich gezeigt, dass es keine langfristigen Ergebnisse gibt, wenn man den Agenten mit einer langwierigen Aufgabe beauftragt. Im Dialog wechselte es ständig nur zwischen „Fortfahren“.

Seit langem habe ich verschiedene Agenten für meine Arbeit eingesetzt, und das war immer so.

Dieser Umgangston ist nicht logisch. Obwohl es eine gute Arbeitsweise ist, bei der Zusammenarbeit mit KI immer wieder zu überprüfen, ist es in vielen Fällen so, dass ich den Agenten nie angewiesen habe, anzuhalten, aber er tut es trotzdem.

MiniMax hat in einem neuesten technischen Blogbeitrag dieses Verhalten der Agentenprodukte auf „Kontextangst“ zurückgeführt. Der Kern der Sache ist, dass das Modell unsicher ist, wann eine überlange Aufgabe abgeschlossen ist. Es ist nicht, dass es die Aufgabe nicht kann, sondern es hat Angst, etwas falsch zu machen. Deshalb hält es immer wieder an, um zu fragen.

Heute hat MiniMax Agent auf der Desktop-Version eine bedeutende Aktualisierung erhalten. Ein neuer Modus namens Mavis wurde hinzugefügt (tatsächlich ist es die Abkürzung für „MiniMax as a Jarvis“).

Es ist nichts Neues, dass ein Agent als Boss fungiert und eine Gruppe von Agenten als Mitarbeiter. MiniMax hat jedoch festgestellt, dass die bisherigen Mainstream-Multi-Agent-Frameworks im Wesentlichen darauf basieren, dass das Modell durch die Anordnung von Prompt-Wörtern „Rollenspiel“ spielt. Aber diese Methode reicht nicht lange, und es treten Probleme wie die oben erwähnte Kontextangst, die Verschlechterung bei langwierigen Aufgaben und die Selbstüberprüfung auf.

Ein Multi-Agent-System benötigt eine zuverlässige Infrastruktur, die kontinuierlich läuft und gewartet wird und bei der die Agenten nicht miteinander kollaborieren. Das ist, was MiniMax macht.

Echtzeit-Test: Lassen Sie den Agenten die Arbeit des anderen überprüfen

MiniMax hat seine Agent-Team-Infrastruktur Team Engine genannt. Unter diesem Engine-Hauptmodul gibt es drei Kernrollen: Leader, Worker und Verifier. Wie der Name schon sagt, ist die eine Rolle für die Verwaltung, die andere für die Arbeit und die dritte für die Prüfung zuständig.

Der wichtigste Unterschied ist, dass zwischen Worker und Verifier eine „konfrontative“ Beziehung besteht, und niemand kann etwas verschleiern.

Vor Kurzem hat APPSO ein Thema untersucht: „Alle Modellhersteller, die Ansprüche an Coding/Agenten haben, müssen ihre eigenen unabhängigen Coding/Agentenprodukte entwickeln.“

(Ja, MiniMax war zuvor ein Gegenbeispiel, aber es hat sich bewiesen, bevor der Artikel veröffentlicht wurde!)

Also haben wir dieses Thema erneut mit MiniMax Agent Team getestet.

Diese Aufgabe wurde in fünf Worker-Aufgaben aufgeteilt. Nach Abschluss jeder Aufgabe hat der Worker das Ergebnis an den Leader gesendet (der Status wird als „Mavis an General“ oder „General an Mavis“ angezeigt).

Einer der Worker hat 12 Minuten lang keine Ergebnisse zurückgegeben. APPSO hat bemerkt, dass der Leader ungeduldig geworden ist und einen Bash-Befehl gesendet hat, um den Arbeitsstatus zu überprüfen:

Nachdem alle fünf Worker ihre Aufgaben abgeschlossen hatten, hat der Leader fünf Verifier erstellt, die in der Aufgabenliste als Agenten mit „gelben Hüten“ angezeigt werden:

Der Verifier hat schnell Fehler gefunden! Einer der Verifier hat einen eindeutigen Datenfehler in den Ergebnissen des entsprechenden Workers entdeckt und ein „Fehlschlag“-Urteil erteilt. Sofort darauf hat der entsprechende Worker seine Arbeit neu gestartet (es wird ein blauer kleiner Kreis angezeigt, der den laufenden Status anzeigt).

Wenn man in den Arbeitsbereich des entsprechenden Workers schaut, kann man seinen Denkprozess beobachten: „Der Verifier hat meine vorherigen Ergebnisse abgelehnt, aufgrund der folgenden drei Fehler... Ich muss zurückgehen und die Schlüsselfakten neu überprüfen und die spezifischen Zahlenprobleme korrigieren...“

Es ist wirklich so, dass die Agenten untereinander „unparteiisch“ sind und ihre Arbeit zuverlässig erledigen.

Dieser Vorgang hat sich in den fünf 1:1-Konfrontationen zwischen Agenten insgesamt mehrere Dutzendmal wiederholt. Währenddessen hat Mavis angegeben, dass er „etwas Neues gelernt“ hat und hat seine Erinnerung aktualisiert.

Während die vorherige Aufgabe noch läuft, haben wir eine neue tiefergehende Studie gestartet, um den Reisemarkt während der Mai-Ferien basierend auf autoritativen Daten zu analysieren und einen mehrdimensionalen Analysebericht zu erstellen.

Diese Studie ist komplexer als die vorherige Aufgabe. Und weil es eine kontinuierliche Konfrontation gibt, braucht das Agent Team für die tiefergehende Studie viel länger als ein normaler Einzel-Agent.

Aber der endgültige Bericht ist im Vergleich zu anderen KI-tiefergehenden Studien sauberer und glaubwürdiger.

APPSO plant derzeit viele Offline-Events, und die Planung und das Entwerfen von Ideen sind immer schwierig. Wir haben diese Aufgabe auch an Mavis gegeben, um zu sehen, wie gut es funktioniert.

Ich muss eine Offline-Salon-Veranstaltung für AI-Entwickler in Guangzhou planen. Bitte geben Sie mir so viele passende Veranstaltungsorte für Tech-Veranstaltungen mit 100 bis 1000 Teilnehmern wie möglich und ungefähre Preise an. Sammeln Sie auch Informationen über ähnliche Veranstaltungen, und helfen Sie mir, das Thema, die Propaganda und den Betrieb der AI-Veranstaltung zu planen. Ordnen Sie all dies in einem strengen Geschäftsplanformat zusammen, und erstellen Sie eine ansprechende Webseite, die dem Thema entspricht.

Die Zeit, die für die Planung benötigt wird, ist länger als bei der vorherigen tiefergehenden Studie. Mavis hat geantwortet: „Diese Aufgabe ist sehr umfangreich und erfordert die parallele Arbeit mehrerer Agenten - Standortforschung, Wettbewerbsanalyse, Themenplanung, Geschäftsplanung, Webseitenentwicklung.“

Das Besondere an Mavis ist, dass wir ihm weiterhin neue Anforderungen hinzufügen können:

Zusätzlich zum ausführlichen Bericht sollten Sie mir auch einen ersten Entwurf eines formellen Vertrags erstellen, einschließlich Verträge mit Veranstaltungsorten und Verträge mit eingeladenen Gästen. Außerdem sollten Sie mir eine Finanztabelle für die Vorphase erstellen und eine so detaillierte wie möglich PPT für die Präsentation des Plans geben.

Nachdem das Agent Team die neuen Anforderungen erhalten hat, wird es den Plan weiter ausarbeiten und mehr Arbeitsabläufe starten. Schließlich haben wir bis zu neun parallele Aufgaben gestartet.

Wenn wir in den Denkprozess von Mavis schauen, können wir viele Nachrichten zwischen den Agenten sehen. Diese Agenten arbeiten unter der speziellen Team Engine und teilen ihren Status miteinander. Einige warten, einige arbeiten und einige überprüfen.

Sieht dieser Verifier nicht wie ein anspruchsvoller „Auftraggeber“ aus?

Am Ende wurden überraschenderweise mehr als zehn Dateien geliefert, darunter xls, ppt, html-Webseiten und entsprechende .md-Versionen.

Die Finanzbudgettabelle, die von Agent Team erstellt wurde, umfasst die Gesamtprojektbudgetübersicht, die Cashflow-Prognose, das Ticketpreis- und Sponsoring-Preis-Modell sowie die Kostenabrechnung.

Als Nächstes möchte ich auf eine weitere Eigenschaft von Mavis eingehen: Es kann mit Chat-Plattformen verbunden werden und unterstützt mehrere Aufgaben gleichzeitig.

Ähnlich wie die von MiniMax bereits unterstützten OpenClaw und Hermes Agent kann Mavis auch über die IM-Kanäle von WeChat und Feishu Aufgaben verteilen. Der Einrichtungsprozess ist stark vereinfacht. Mit einem Klick auf die Einstellschaltfläche, einem Scannen des Codes und einer Benennung können wir Mavis in WeChat/Feishu verwenden.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

MiniMax hat Mavis eingeführt, ein echter Agent, der wie das System der "Drei Ministerien und Sechs Ministerien" funktioniert.

Echtzeit-Test: Lassen Sie den Agenten die Arbeit des anderen überprüfen