Der Wettbewerb der großen Tech-Unternehmen im Bereich der Agenten entwickelt sich entlang vier Hauptachsen
Die Generalisierung des Coding Agents auf allgemeine Szenarien ist ein systemweites Wettbewerb.
Für die KI-Branche war diese Woche eine Woche voller wichtiger Neuigkeiten. Von Jensen Huang, der den KI-PC neu definiert hat, bis hin zu Microsoft Build 2026, das den Ruf „Agenten zuerst“ erhoben hat, OpenAI, das die Verschmelzung von ChatGPT und Codex angekündigt hat, bis hin zur Enthüllung der Fortschritte von WeChat Agent, der Einbindung von Drittanbieter-Skills in Qianwen, der Antwort von Doubao auf Bezahlungsrume und der Betonung der zunehmenden Wichtigkeit des Service-AI-Agenten auf der Ergebnispräsentation von Meituan.
Früher hat jemand gefragt, warum man nicht mehr über den einst so beliebten OpenClaw spricht. Die in dieser Woche verbreiteten Neuigkeiten beantworten diese Frage mit der Tat – man spricht nicht mehr über OpenClaw, weil der Coding Agent zu einer allgemeinen Lösung für die Ausführung von Aufgaben geworden ist und mit Chatbots zusammengeführt wird. Gleichzeitig beginnt die Erstellung der dazugehörigen Skill- und Agent-Ekosysteme, und es werden auch neue Bezahlungsmodelle erforscht.
Die großen Unternehmen verwandeln die von OpenClaw gewonnenen Erkenntnisse in reale Geschäftsentwicklungen. In diesem Prozess werden OpenClaw und die Produkte, die wir jetzt sehen, möglicherweise nicht die endgültige Form von KI-Produkten sein. Wie Yao Shunyu, der leitende KI-Wissenschaftler von Tencent, auf der Tencent Cloud KI-Industrieanwendungs-Konferenz 2026 sagte, hat erst eine langfristige Transformation begonnen, und die echten Produktformen, Geschäftsmöglichkeiten und Nutzungsmethoden sind noch lange nicht vollständig erfunden.
Was wir sicher sein können, ist, dass Agenten zum Kernbattlefeld der großen KI-Unternehmen werden, und die Form dieses Wettbewerbs entwickelt sich entlang von vier Hauptlinien: Wer kann mehr Benutzer in Produktivitätsszenarien anziehen? Wer kann die internen Produkte tiefer integrieren? Wer kann ein ausreichend reiches Skill- und Agent-Ekosystem aufbauen? Wer kann genügend Kontextinformationen sammeln?
Der „Kollege“ wird zum Wettbewerbsfokus der Agenten
Der Begriff „Kollege“ wird am häufigsten verwendet, wenn man über Agenten spricht. Microsofts Scout ist so konzipiert, dass es „wie ein Kollege“ arbeitet; Kouzi 3.0 betont die Zusammenarbeit zwischen Menschen und KI-Teams; Die von OpenAI vorgestellten Agent-Plugins werden als „neue Kollegen, die bereits die Einarbeitung abgeschlossen haben und den gesamten Prozess kennen“ beschrieben.
Diese Formulierungen bedeuten, dass Produktivitätsszenarien zum Wettbewerbsfokus der Agenten der großen Unternehmen geworden sind.
Microsofts Scout ist ein auf dem OpenClaw-Framework basierender Agent, der dauerhaft in Microsoft 365 integriert ist und in Teams läuft. Er kann mit Office-Anwendungen wie Outlook und OneDrive zusammenarbeiten, E-Mails, Kalender und Arbeitsnachrichten durchsuchen, Meeting-Konflikte automatisch behandeln, Antworten aufstellen und Aufgaben vorantreiben. Gleichzeitig hat Microsoft auch Agent 365 eingeführt, um die Identität, Berechtigungen, Strategien und Risiken von Agenten für Unternehmen einheitlich zu verwalten.
OpenAI hat das Thema seiner Pressekonferenz direkt auf „Intelligence at Work“ gesetzt. Auf dieser Pressekonferenz hat OpenAI für Codex drei Kern-Upgrades vorgenommen: Die Einführung von Agent-Plugins mit anpassbaren Funktionen; Die Erweiterung der lokalen Anmerkungsbearbeitungsfunktion von Code und Webseiten auf Dokumente, Tabellen und Präsentationen; Die Fähigkeit, Berichte über die Ergebnisse durch die Generierung von Webseiten zu erstellen.
Zugleich hat Doubao in seiner Antwort auf Bezahlungsfunktionen erwähnt, dass Doubao für die Produktivitätsanforderungen von Fachleuten eine professionelle Version von Doubao planen wird, die professionelle Dienstleistungen wie Softwareentwicklung, Datenanalyse, professionelles Design, Prozessautomatisierung, Finanzanalyse und wissenschaftliche Forschung enthalten wird.
Diese Produktmaßnahmen bedeuten, dass der enorme Wert von Produktivitätsszenarien – nicht nur in traditionellen Unternehmensszenarien – mit echten Geldern bestätigt wurde.
Die von OpenAI veröffentlichten Daten zeigen, dass die wöchentliche Aktivität von Codex seit Februar dieses Jahres um das Sechsfache gestiegen ist und 5 Millionen erreicht hat, wobei die Wachstumsrate von Wissensarbeitern das Dreifache von Entwicklern beträgt. Die Einnahmen von Anthropic im zweiten Quartal werden voraussichtlich um mehr als das Doppelte steigen und 10,9 Milliarden US-Dollar erreichen, und es könnte einen Betriebsgewinn von 559 Millionen US-Dollar erzielen. Die meisten seiner Einnahmen stammen von Unternehmen und Start-ups.
Die Integration und Verbindung interner Produkte werden immer tiefer
Die Aktualisierung und Iteration von Produkten entspricht einer tiefergehenden Umstrukturierung der Produktarchitektur. Einerseits haben die großen Unternehmen im Allgemeinen Chatbots und ein oder mehrere Agent-Produkte eingeführt, und jetzt beginnt die Integration dieser Produkte. Am radikalsten ist die Integration von ChatGPT und Codex durch OpenAI.
OpenAI möchte, dass ChatGPT von einem einfachen Dialogeingang zu einer Hauptoberfläche für die Zusammenarbeit von Agenten wird, während Codex zu einer universellen Agent-Plattform aufgewertet wird, die die Arbeitsanforderungen in verschiedenen Szenarien wie Büroarbeit, Forschung, Unternehmensprozessen, Datenanalyse und Geschäftsbetrieb erfüllen kann. Der Kern davon ist die Generalisierung der Anwendungsfälle des Coding Agents. Durch diese Integration erwartet OpenAI, Codex an die riesige Benutzerbasis von ChatGPT zu vermarkten und die Zahl der zahlenden Benutzer zu erhöhen.
Es gibt auch Meldungen, dass OpenAI plant, den KI-Browser Atlas auch in die Integration dieser Super-KI-Anwendung einzubeziehen.
Die andere Art der Integration ist, dass die bestehenden Internetproduktfähigkeiten und -dienstleistungen der großen Unternehmen schnell in Form von Skills oder Agenten in KI-Produkte integriert werden. Alis Hinzufügung der Funktionen zum Bestellen von Essen, Fahren mit dem Taxi und Einkaufen auf Taobao zu Qianwen war eine frühe Erprobung. Jetzt können wir sehen, dass ByteDance, Meituan und Tencent ähnliche Arbeiten durchführen.
Nachdem ByteDance Doubao mit dem Douyin-Marktplatz verbunden hat, fügt es nun auch die Empfehlung von Lokalen Lebensdiensten wie Restaurants, Kinokarten und Pensionen sowie Gruppenangeboten hinzu. Meituan hat auf der Ergebnispräsentation angegeben, dass der KI-Assistent „Xiaotuan“ in die Meituan-App integriert ist und während des Laborertages über 100 Millionen Benutzer bedient hat, wobei die Szenarien von Essen, Trinken, Ausgehen, Reisen bis hin zu Arztbesuchen reichen. Tencent Docs hat auch die in der Vergangenheit gesammelten Dokumentverarbeitungsfähigkeiten in Skills umgewandelt, die von WorkBuddy aufgerufen werden können.
Tang Daosheng, der leitende Unternehmensvorstand von Tencent, hat während der Tencent Cloud KI-Industrieanwendungs-Konferenz 2026 gesagt, dass viele Funktionen traditioneller Anwendungen in Fähigkeiten umgewandelt werden müssen, die von Agenten aufgerufen werden können, um den in den vergangenen Jahren gesammelten Wert weiter freizusetzen. Deshalb öffnet Enterprise WeChat in diesem Jahr einige seiner Datenfähigkeiten über Schnittstellen und Skills, damit andere Agenten sie aufrufen können. Dieser Trend zur Öffnung wird immer deutlicher.
Die Entwicklung eines Drittanbieter-Ekosystems wird an die Tagesordnung gestellt
Ein Kernunterschied zwischen Agenten und früheren Produkten ist, dass sie die Fähigkeit haben, Tools aufzurufen. Dies erfordert, dass hinter den Agenten ein ausreichend reiches Tool-Ekosystem vorhanden ist. Selbst die großen Unternehmen können es schwerlich allein schaffen, dieses Ökosystem aufzubauen. Deshalb ist die Entwicklung eines Drittanbieter-Skill- oder Agent-Ekosystems erforderlich.
Die Entwicklung dieses Ökosystems ist jetzt an die Tagesordnung gestellt.
Nach der Integration der internen ersten Partei-Produkte und -dienstleistungen von Alibaba hat Qianwen angekündigt, sich vollständig an Drittanbieter-Agenten und -Skills zu öffnen, damit alle Unternehmen ihre eigenen Marken-Agenten in Qianwen betreiben können. In dieser Woche haben Luckin Coffee, KFC, Mixue Bingcheng und China Eastern Airlines Skills in Qianwen integriert. Anschließend können Unternehmen auch die Persona und die spezifischen Dienstleistungen des Agenten in Qianwen anpassen.
Tencent integriert einerseits Meituans Xiaomei in Yuanbao, um Benutzern Dienste wie das Bestellen von Essen und die Lieferung zu bieten; Andererseits beschleunigt es die Entwicklung des WeChat-Agent-Ekosystems.
Medienberichte zeigen, dass der WeChat-Agent den Prototypentest abgeschlossen hat und am schnellsten diesen Monat den Compliance-Bewertungsprozess vor der öffentlichen Veröffentlichung starten wird. Dieser Agent kann WeChat-Miniprogramme steuern, um zusammengesetzte Dienste wie das Bestellen von Essen, Fahren mit dem Taxi, Buche von Tickets, Einkaufen und Lokale Lebensdienste zu realisieren.
Darüber hinaus versucht WeChat, eine Agent-to-Agent-Verbindung mit Mobiltelefonherstellern wie Honor und Xiaomi aufzubauen, damit seine Grundfähigkeiten von den Agenten der Mobiltelefonhersteller aufgerufen werden können. Das heißt, die Mobiltelefonhersteller werden auch neue Zugänge zum WeChat-Agent-Ekosystem werden, und es wird eine Architektur mit mehreren Zugängen, die ein gemeinsames Agent-Ekosystem nutzen, entstehen.
OpenAIs Agent-Plugins können die erforderlichen Tools, Wissen und Fähigkeiten für einen Job auf einmal zusammenfassen. Beispielsweise kann ein Plugin für kreative Produktion basierend auf einer Vorgabe Kampagnenpläne, Anzeigenvarianten, Produktlifestyle-Bilder und E-Commerce-Bildergalerien generieren und Tools wie Figma, Canva, Shutterstock, Picsart und Fal aufrufen. Einfach ausgedrückt, dies ist ein System für die Berufsübernahme für Agenten.
Derzeit decken die Agent-Plugins von Codex 62 beliebte Anwendungen und 110 Fähigkeiten ab. Später möchte OpenAI das Plugin-Ekosystem an Partner öffnen, damit Drittanbieter direkt in Codex und ChatGPT ihre eigenen Plugins erstellen und bereitstellen können.
Der Kontext wird noch wichtiger
Yao Shunyu hat gesagt, dass Modelle immer besser darin werden, komplexe Eingaben in Ausgaben umzuwandeln, aber nur unter der Voraussetzung, dass sie gute Eingaben erhalten. Dies erfordert, dass auf der Benutzerseite ausreichend detaillierte und nützliche Informationen für das Modell und den Agenten bereitgestellt werden, damit das Modell und der Agent Fragen wie „Wer bist du?“, „Was machst du?“ und „Welche Antwort ist für dich wertvoll?“ verstehen können, um den richtigen Weg zu finden.
Auf der Entwicklerseite ist auch eine ausreichende Kontextkommunikation bei der Entwicklung von KI-Produkten erforderlich. Yao Shunyu und Tang Daosheng haben in einem Gespräch auf der oben genannten Veranstaltung erwähnt, dass bei der Entwicklung von KI-Produkten aus den Produktfeedback festgelegt werden muss, was das Modell belohnen und bestrafen soll, was eine gute Antwort und was ein schlechtes Verhalten ist. Dies bedeutet, dass das Modellteam und das Produktteam durch einen Prozess der Kontextfreigabe eine gemeinsame Gestaltung (Co-Design) durchführen müssen, um eine bessere Benutzererfahrung zu schaffen.
Deshalb müssen KI-Produkte auf der Benutzerseite mehrfache Kontextinformationen verbinden und sammeln und dann durch die Unterscheidung, welche Informationen gegeben werden sollen und welche nicht, die Aufgabenabsicht mit dem Agenten abgleichen; Auf der Entwicklerseite muss ein reibungsloses Feedbacksystem aufgebaut werden, um die Entwicklungsziele des Modellteams und des Produktteams abzugleichen und die Verbesserung der Benutzererfahrung zu beschleunigen.
Sei es die Sammlung von Kontextinformationen auf der Benutzerseite oder die Freigabe von Kontextinformationen auf der Entwicklerseite, dies ist nicht nur ein Entwicklungsproblem, sondern auch ein organisatorisches Problem. Die Sammlung und Freigabe von Kontextinformationen müssen durch Zusammenarbeit erreicht werden.
Deshalb hat OpenAI im Januar dieses Jahres begonnen, das Team umzustrukturieren, um die Zusammenarbeit zwischen dem Produktteam und den Forschern, die für das zugrunde liegende Modell verantwortlich sind, enger zu gestalten, um ChatGPT und Codex zu integrieren; Dann hat es auch die Teams von ChatGPT, Codex und API zu einer Abteilung zusammengefasst, die von Thibault Sottiaux geleitet wird.
Zugleich könnte die Beachtung des Kontexts auch die Agentifizierung von Hardware stimulieren und die Hardware zu einem effektiven Weg werden, um Kontextinformationen von Benutzern zu sammeln. Microsofts Projekt Solara ist eine solche Erprobung. Die ständige Kommunikation ist nicht das einzige Ziel bei der Entwicklung von Agent-Desktop-Endgeräten und tragbaren Geräten. Vielmehr soll in Desktop- und mobilen Szenarien mehr Kontextinformationen für die Ausführung von Aufgaben durch Agenten bereitgestellt werden.
In den letzten Jahren hat die KI-Branche einen relativ klaren technologischen Weg gezeigt: Vorabtraining → Nachtraining → Agent → Coding Agent. Dieser Weg ist möglicherweise nicht die einzige Hauptlinie der Zukunft, aber er ist die effektivste Hauptlinie, die die großen Unternehmen derzeit greifen können.
Die von uns extrahierten vier Trends sind die miteinander verbundenen Grundkoordinaten auf diesem festgelegten Weg, und alle dienen schließlich der Generalisierung des Coding Agents auf allgemeine Szenarien. Dies ist wiederum ein systemweites Wettbewerb.
Dieser Artikel stammt aus dem WeChat-Account „Narrowcast AI“, Autor: Li Wei, veröffentlicht von 36Kr mit Genehmigung.