StartseiteArtikel

Wird ein Unternehmen nach der Verbesserung der Vertrauenswürdigkeit des Agenten über eine neue Gruppe nützlicher "Digitaler Mitarbeiter" verfügen?

极客邦科技InfoQ2025-12-19 08:09
Es ist sehr wahrscheinlich, dass die Implementierung von produktionsreifen Multi-Agent-Systemen im Jahr 2026 in großem Maßstab stattfinden wird.

Mit der Entwicklung der KI-Technologie von der "Instrumentalisierung" zur "Autonomisierung" wird der Agent zu einer wichtigen Form für die Unternehmensanwendung von Großen Modellen. Wie kann man nun Agenten optimieren, um sie vertrauenswürdiger und nützlicher zu machen, damit sie schließlich ausgezeichnete "digitale Mitarbeiter" für Unternehmen werden können?

In jüngster Zeit hat die Live-Sendung "Geek's Appointment" von InfoQ in Zusammenarbeit mit AICon als Gastgeberin Marke Wei, senior application support analyst bei RBC eingeladen. Gemeinsam mit Wang Yunfeng, CTO von Zhidemai Technology, Lu Fei, leitender Technologie-Manager der Großinstallationsgeschäftseinheit von SenseTime, und Wu Haoyu, leitender Technologie-Manager von Minglue Technology Group wird kurz vor der bevorstehenden AICon Global Artificial Intelligence Development and Application Conference 2025 in Peking darüber diskutiert, wie die "Vertrauenswürdigkeit" von Unternehmensagenten verbessert werden kann.

Einige herausragende Ansichten sind wie folgt:

  • In Zukunft wird es möglicherweise keine traditionellen Softwareoberflächen mehr geben. Die UI könnte ganz verschwinden und stattdessen direkt von Agenten mit dem System interagiert werden.
  • Der Wert eines Protokolls liegt darin, dass alle Akteure in der Ökosystem, seien es Anbieter von Gehirnen, Daten, Tools oder Ausführungskapazitäten, in der gleichen Sprache kommunizieren können. Dadurch können sich alle auf ihr Fachgebiet konzentrieren, ohne viel Zeit auf die Anpassung zu verwenden.
  • Viele Modelle haben das Problem des Vergessens im mittleren Teil langer Texte. Das Suchen nach einer Nadel im Heuhaufen ist von vornherein eine unrealistische Aufgabe. Obwohl viele Anbieter von Modellen behaupten, über ein sehr langes Kontextfenster zu verfügen, ist der tatsächlich effektive Teil nicht so groß.
  • Die eigentliche Herausforderung besteht darin, wie man das Geschäftsmodell und das technische Modell einheitlich macht und ausrichtet. Die Parameterausrichtung auf rein technischer Ebene ist dagegen das am wenigsten Sorgen bereitende Problem, schließlich programmieren alle.

Der folgende Text basiert auf der Live-Transkription und wurde von InfoQ gekürzt.

Definition der technischen Grenzen von Agenten

Marke Wei: Viele Menschen denken, dass ein Agent einfach ein Chatbot mit ein paar Plug-ins ist. Aus technischer Architekturperspektive: Wenn sich das Systemziel von "Dialog" zu "Aktion" ändert, welche größte qualitative Veränderung tritt in der Technologiestapel auf, wie sehen Sie das?

Wang Yunfeng: Ich denke, dass ein Chatbot an sich nur eine Interaktionsform ist. Früher hat man hauptsächlich über Klicks im Internet interagiert. Später hat die KI die Fähigkeit zum Dialog erworben, und die Menschen haben begonnen, mit ihr im Dialogfeld zu interagieren. Dann ist die End-to-End-Sprache aufgetaucht, und die KI hat eine stärkere multimodale Fähigkeit erhalten, was den Dialog natürlicher und stärker gemacht hat. Mit dem Aufkommen von Agenten wurde der Handlungsspielraum noch weiter erweitert.

Ein Chatbot ist nur eine Oberfläche, und die Schlüssellogik liegt im dahinterliegenden Großen Modell. Wir vergleichen das Große Modell oft mit "einem Gehirn", während der traditionelle Chatbot nur dazu dient, dem Benutzer zu ermöglichen, über einfache Interaktionen das Wissen des Modells auszuschöpfen. Ein intelligentes Gehirn benötigt jedoch ein peripheres System, ähnlich wie ein Mensch Augen, Nase und das Tastsinnsorgan braucht, um die Welt wahrzunehmen, und Hände und Füße, um Handlungen auszuführen.

Der vollständige Prozess umfasst: Das Modell empfängt eine Aufgabe, entscheidet, welche Aktion es ausführen soll, nimmt die Außenwelt wahr, erhält Rückmeldungen und passt seinen Plan ständig anhand der Rückmeldungen an. Dies unterscheidet sich stark von der früheren reinen Chatbot-Methode. Die technische Komplexität und die Anforderungen an die Ökosystem sind weit höher als bei Dialogsystemen.

Lu Fei: Der Kernunterschied zwischen KI, die auf Dialog abzielt, und KI, die auf Aktion abzielt, besteht darin, dass die erste auf den Prozess, die zweite auf das Ergebnis fokussiert. Viele Programmierer werden sich noch an den Zustand von GitHub Copilot erinnern, als es gerade auf den Markt kam und noch keine Agenten-Modus hatte. Damals hatte es nur die Funktion des Code-Vervollständigens und war im Wesentlichen ein Chatbot. Der übliche Ablauf war: Das Modell vervollständigt den Code. Wenn das Ergebnis nicht zufriedenstellend ist, gibt der Programmierer dem Modell Feedback und bittet es um Änderungen. Wenn beim Ausführen des Codes ein Fehler auftritt, wird der Fehlerbericht wieder an das Modell gesendet, damit es weiter ändert, bis der Code erfolgreich läuft.

Später ist der Agenten-Modus aufgetaucht. Im Wesentlichen ist es immer noch das gleiche, nur kann der Agent den gesamten Prozess automatisch ausführen. Früher musste der Mensch den Plan machen und die Aufgaben schrittweise im Kopf verwalten, wie z. B. zu entscheiden, wann man zum Testen wechseln und wie man basierend auf den Ergebnissen wieder zum Codieren zurückkehren soll. Dies alles waren Aufgaben der Kontextverwaltung.

Mit der Entstehung von Agenten werden diese Prozesse in das System integriert: Der Agent plant selbst, ruft Tools auf und verwaltet den Kontext. Der Kern liegt darin, dass das Modell eine stärkere Fähigkeit zur Gedächtnis- und Kontextverwaltung hat. Die Fähigkeit, kurzfristiges, mittelfristiges und langfristiges Gedächtnis sowie den Zustandswechsel aufrechtzuerhalten, die früher beim Menschen lag, wird nun in den Agenten verlagert.

Deshalb kann ein Agent stundenlang oder sogar tageweise in einem Zyklus arbeiten und immer wissen, was er getan hat, was er gerade tut und was er als Nächstes tun wird. Dies zeigt die bedeutende qualitative Veränderung in der aktuellen Agenten-Technologiestapel.

Wu Haoyu: Dies hängt auch mit der aktuellen Popularität des Doubao-Smartphones zusammen. Das von Doubao und Nubia gemeinsam entwickelte Smartphone kann direkt von der KI gesteuert werden. Allerdings haben Plattformen wie WeChat und Taobao den Zugang verweigert. Ich habe es kurz getestet, und es ist wirklich stark. Es ist nicht mehr in Dialogform, sondern kann auf dem Smartphone Schritt für Schritt Aufgaben ausführen, basierend auf Ihren Anweisungen.

Dies bedeutet, dass die KI die Fähigkeit zur Aufgabenplanung und -ausführung hat, was auch in Unternehmensszenarien von großer Bedeutung ist. Wenn wir beispielsweise die KI bitten, die Popularität eines Themas zu beurteilen, darf sie nicht einfach suchen und antworten, sondern muss einen gesamten Plan erstellen, einschließlich der Suche, der Sammlung verwandter Wörter und Beiträge, der Stimmungsanalyse und der Berichtserstellung. Dies unterscheidet sich stark von der früheren Methode, die nur auf Fragen und Antworten oder einfache Textanalysen abzielte. Die Anforderungen an die Planungs- und Scheduling-Fähigkeit sind deutlich höher.

Zweitens: Wenn das System die Fähigkeit zum "Handeln" hat, erweitern sich auch seine Berechtigungen und Verantwortungen. Die KI kann auf das Handyalbum und die Chatnachrichten zugreifen. Innerhalb eines Unternehmens kann sie möglicherweise auf Arbeitssoftware und Datenbanken zugreifen. Dies bedeutet, dass das System rückverfolgbar und steuerbar sein muss und klare Sicherheitsgrenzen festlegen muss, sonst werden die Handlungen unkontrollierbar. Deshalb haben wir in der Agenten-Architektur viele Überwachungs- und verifizierbare Mechanismen sowie eine manuelle Rückkopplungsschleife eingebaut. Dies ist auch einer der größten Unterschiede zur früheren Chatbot-Methode.

Marke Wei: Derzeit werden Agenten oft "dümmer" oder "steckenbleiben". Betrachtet man die drei Schritte der Rechenleistungszufuhr, der Datenzufuhr und der Protokollinteraktion, wo liegt derzeit die "Schwache Stelle"? Ist die Inferenzgeschwindigkeit zu langsam, um mit dem Denken Schritt zu halten, oder ist das Kontextgedächtnis zu kurz, was die Logik einschränkt?

Lu Fei: Genauer gesagt, fehlt es an kostengünstiger Rechenleistung. Bei den tatsächlich umgesetzten Agenten liegt das Problem oft nicht darin, ob es Rechenleistung gibt, sondern in der Abwägung zwischen Kosten und Effekt. In vielen Anwendungsfällen werden keine Spitzenmodelle verwendet, sondern kleinere Modelle wie 30B oder sogar 7B. Obwohl diese Modelle möglicherweise ein Kontextfenster von 100K oder sogar 200K unterstützen, wird das Kontextfenster in der Praxis auf 32K oder weniger begrenzt, um die Kosten zu senken. Ebenso begrenzen wir die Anzahl der Tiefen-Denk-Runden des Agenten. Wenn man beispielsweise im Cursor den Max-Modus aktiviert und das beste Modell verwendet, um ein Feature zu generieren, kann man binnen zwanzig Minuten das monatliche Kontingent aufbrauchen. Wenn in Zukunft mehr kostengünstige Rechenleistung zur Verfügung steht, können die bestehenden Spitzenmodelle und Algorithmen in breiteren Anwendungsfällen ihre volle Fähigkeit entfalten.

Wu Haoyu: Die Datenqualität im Kontext ist ebenfalls von äußerster Wichtigkeit. Selbst wenn der Kontext lang ist, wenn die Informationsqualität niedrig und das Rauschen hoch ist, werden die Aufgabenpläne und Ergebnisse des Modells dennoch nicht zufriedenstellend sein. Wenn wir beispielsweise eine Stimmungsanalyse durchführen, verwenden wir oft Beiträge von Plattformen wie Xiaohongshu und Weibo. Die Informationsdichte dieser Beiträge ist jedoch im Allgemeinen niedrig. Wenn man direkt zehntausend Beiträge an das Große Modell zur Zusammenfassung schickt, sind die gewonnenen Ansichten und Fakten entweder unvollständig oder verzerrt. Deshalb führen wir normalerweise eine Vorverarbeitung der Daten durch, bevor wir sie an das Modell zur Zusammenfassung oder Berichtserstellung senden.

Darüber hinaus stammt der Kontext von Agenten oft aus früheren mehrfachen Interaktionen. Einige Informationen sind nützlich, während andere nur erfolglose Versuche sind. Obwohl es bereits Techniken zur Kontextkompression gibt, sind diese meist passiv: Die Kompression erfolgt erst, wenn man sich dem Fensterlimit nähert. Tatsächlich müssen wir die Kompression häufiger durchführen, um die Informationsdichte der behaltenen Informationen zu erhöhen und sie zuverlässiger zu machen, um so die Planungsfähigkeit des Agenten zu verbessern. Um also Agenten besser funktionieren zu lassen, müssen zuverlässige, informationsdichte und hochwertige Daten bereitgestellt werden.

Wang Yunfeng: Mit der Stärkung der Modelle und der Vergrößerung des Kontextfensters ist es oft nicht das Modell, sondern die Qualität der privaten Unternehmensdaten, die das Ergebnis des Agenten bestimmt. Das Modell kann ausgewählt werden. Wenn es nicht funktioniert, kann man ein besseres Modell wählen oder es durch Feinabstimmung verbessern. Die Vorverarbeitung der Daten ist jedoch weit schwieriger als die Auswahl oder die Feinabstimmung eines Modells. Wir müssen zugeben, dass unvorverarbeitete Daten überhaupt nicht verwendbar sind, und die Erstellung von hochwertigen Daten ist sehr schwierig.

Obwohl das Kontextfenster immer größer wird, steigt die Wahrscheinlichkeit, dass das Modell Fehler macht, wenn der Eingabetext zu lang ist. In einigen Szenarien, in denen man die Benutzeranforderungen verstehen muss, reichen zehntausend Inhalte nicht aus, um eine vernünftige Beurteilung zu treffen. Die angemessene Stichprobengröße sollte eher hunderttausend oder sogar mehr sein. Wenn die Datenmenge jedoch in die Millionen geht, ist das Ergebnis der direkten Eingabe in das Modell fast unbrauchbar. Und wenn die Verarbeitungskette länger wird, sinkt die Gesamtverfügbarkeit auf ein unannehmbares Niveau, selbst wenn die Verfügbarkeit jedes Schritts 90% beträgt.

Die Fertigstellung eines Agenten erfordert die Zusammenarbeit vieler Schritte und Module. Das Gehirn ist nur eines der Module, und es benötigt auch eine große Menge an Daten, einschließlich privaten Unternehmensdaten sowie professioneller Informationen aus Bereichen wie Finanzen, Recht und Datenschutz. In Zukunft können verschiedene Fähigkeiten oder Module von verschiedenen Anbietern bereitgestellt werden. Beispielsweise konzentrieren sich einige Anbieter auf die Bereitstellung von Großen Modellen, um das "intelligente Gehirn" immer stärker zu machen, während die Datenanbieter sicherstellen, dass die Daten wahrhaftig, zuverlässig und informationsdicht sind. Einige Daten stammen auch aus der Echtzeitwahrnehmung.

In einem solchen System der Zusammenarbeit vieler Parteien wird die Wichtigkeit des Protokolls deutlich. Kein einziger Anbieter kann alle Aufgaben alleine bewältigen. Die Ökosystem erfordert zwangsläufig viele Teilnehmer. Wenn man jedes Mal, wenn man externe Daten oder Tools aufruft, eine neue Anpassung vornehmen muss, wird die Effizienz stark beeinträchtigt. Deshalb liegt der Wert des Protokolls darin, dass alle Akteure in der Ökosystem, seien es Anbieter von Gehirnen, Daten, Tools oder Ausführungskapazitäten, in der gleichen Sprache kommunizieren können, damit sich alle auf ihr Fachgebiet konzentrieren können, ohne viel Zeit auf die Anpassung zu verwenden.

Marke Wei: Wenn die Zukunft von der Zusammenarbeit vieler Agenten geprägt sein wird, brauchen Agenten einen Standard für die Kommunikation. Herr Wang setzt auf das MCP (Model Context Protocol). Was halten Sie, Herr Lu und Herr Wu, davon? Wird das Agenten-Verbindungs-Protokoll 2026 Open Source und einheitlich werden, oder werden die großen Unternehmen es dominieren?

Lu Fei: Die Zukunft wird zweifellos von der Zusammenarbeit vieler Agenten geprägt sein. Die Beziehungen zwischen Agenten werden auch viel komplexer sein als heute, mit vielfältigen und offenen Interaktionen. Deshalb ist ein einheitliches Agenten-Interaktions-Protokoll von besonderer Wichtigkeit. Ich bin persönlich überzeugt, dass das Protokoll schließlich Open Source und einheitlich werden wird, in einen neutralen, offenen und autonomen Zustand übergehen wird, und dies wahrscheinlich sehr schnell passieren wird.

Wir können uns an die Geschichte des Internets erinnern. Beispielsweise hat das TCP/IP-Protokoll zunächst mehr als zehn Jahre lang mit dem OCI konkurriert. Schließlich wurde das TCP/IP-Protokoll der IETF übergeben, um eine neutrale Verwaltung zu gewährleisten. Während dieser Zeit mussten Hardwarehersteller und Softwareentwickler beide Protokolle gleichzeitig unterstützen, was eine Herausforderung darstellte. Ähnliches ist auch mit dem HTTP-Protokoll passiert. Es hat lange gedauert, bis es Open Source und autonom geworden ist. Neuere Protokolle wie Kubernetes und gRPC sind hingegen innerhalb von etwa zwei bis drei Jahren in den Zustand der neutralen Verwaltung gekommen. Das gleiche gilt für das MCP. Ich erinnere mich, dass Anthropic kürzlich das MCP-Protokoll an die AIF gespendet hat. Mitglieder der AIF sind OpenAI, Google und Microsoft. Seit der ersten Veröffentlichung des MCP ist es erst etwa ein Jahr vergangen.

In der gegenwärtigen technologischen Umgebung sind alle großen Anbieter sich bewusst, dass nur durch die Annahme von Open Source, die gemeinsame Aufbau der Ökosystem und die Vermeidung von Protokollkriegen die Entwickler und Unternehmen eine stabile Vorhersehbarkeit erhalten können. So können alle sich aufbauend auf der MCP-Ökosystem Systeme entwickeln, ohne befürchten zu müssen, von einem Anbieter abhängig zu werden.

Wu Haoyu: Die großen Unternehmen unterstützen das MCP sehr stark. Obwohl es erst seit einem Jahr existiert, hat es bereits starke Vorteile gezeigt. Fast alle Anbieter haben es integriert, und es ist im Wesentlichen zum faktischen Standard für die Kommunikation zwischen vielen Agenten geworden. Darüber hinaus hat Anthropic auf der Grundlage des MCP viele neue Funktionen entwickelt. Beispielsweise erfordert das Standard-MCP eine schrittweise Aufrufung und das Warten auf die Antwort. Das neueste PDC-Protokoll von Anthropic hingegen kombiniert mehrere MCP-Aufrufe in einem Code. Unsere Testergebnisse stimmen mit den offiziellen Ergebnissen von Anthropic überein: Auf diese Weise kann die Länge des Kontexts um 80% oder mehr verkürzt werden.

Deshalb wird auch wenn das untere Schichtprotokoll einheitlich ist, die obere Ökosystem ständig innovieren. Insbesondere in der