Alles über ChatGPT Agent auf einen Blick: Nicht über Manus Fähigkeiten, aber Licht am Ende des Tunnels für End-to-End-Lösung

Die Verschmelzung von Operator und Deep Research

Agent ist in diesem Jahr der größte Konsens in der KI-Branche. Natürlich kann auch OpenAI nicht hinterherbleiben.

Um 1 Uhr morgens am 18. Juli 2025, chinesischer Zeit, stellten Sam Altman und vier Forscher von OpenAI in einer Live-Übertragung offiziell ChatGPT Agent vor - ein universeller KI-Agent.

Zuvor gab es Manus, Lovart und Flowith. Die Funktionsszenarien, die ChatGPT Agent bietet, sind nicht besonders beeindruckend. Doch die Bedeutung seiner Veröffentlichung geht über seine Funktionen hinaus.

Die Revolutionärkeit von ChatGPT Agent liegt in seinem einzigartigen technischen Ansatz: Er kann aktiv Agentenfähigkeiten aus einem Toolkit auswählen und seine eigene virtuelle Maschine nutzen, um Aufgaben zu erledigen. Benutzer können den Arbeitsablauf der KI in der virtuellen Umgebung in Echtzeit beobachten.

Dieses Interaktionsinterface ähnelt zwar den Produkten wie Manus, doch die zugrunde liegenden Prinzipien sind grundlegend unterschiedlich. Manus ruft mehrere zugrunde liegende Modelle auf, was einer "externen Verschmelzung" ähnelt. ChatGPT Agent hingegen integriert die Agentenfähigkeiten in das Modell selbst. Wir können bereits den Anfang eines end-to-end universellen Agenten erkennen.

Manus' Design basiert im Wesentlichen auf der "externen Verschmelzung" durch das Aufrufen mehrerer zugrunde liegender Modelle. Im Vergleich dazu integriert ChatGPT Agent die Agentenfähigkeiten direkt in das Modell.

Laut OpenAI haben sie für die Entwicklung von ChatGPT Agent das Operator- und das Deep Research-Team zu einem einheitlichen Team zusammengeführt. Dieses neue Team besteht aus 20 bis 35 Personen.

Das Systemkarten von ChatGPT Agent zeigt, dass es sich um ein neues Agentenmodell handelt, das zur gleichen Serie wie OpenAI o3 gehört und einen end-to-end Trainingsansatz verwendet. Es ist ein einheitliches Modell für Agentenaufgaben, nicht eine ingenieurtechnische Kombination mehrerer Modelle.

Aus den Vergleichs-PPTs, die OpenAI herausgegeben hat, können wir sehen, dass dieses Training im Wesentlichen durch einen Prozess des verstärkten Lernens abgeschlossen wurde. Der Ansatz sollte ähnlich wie bei Grok4withtool sein.

Nach dem Neutraining kombiniert Agent die Fähigkeiten von Deep research zur mehrstufigen Recherche und zur Erstellung hochwertiger Berichte, die Fähigkeiten von Operator zur Ausführung von Aufgaben über eine ferngesteuerte, visuelle Browserumgebung, die Terminalwerkzeuge mit begrenzten Netzwerkzugriffsberechtigungen sowie die Fähigkeit, über Connectors auf externe Datenquellen und Anwendungen zuzugreifen.

Nach der Ausführung komplexer Aufgaben kann es auch dem Benutzer eine herunterladbare PPT oder ein Dokument übergeben.

Für Manus ist OpenAIs neues Vorgehen zweifellos ein schwerer Schlag. Selbst in Bezug auf die Preise gibt es nur einen geringen Unterschied: Mit dem Plus-Abo von GPT können Benutzer ChatGPT Agent für 20 US-Dollar pro Monat nutzen, während das Basisangebot von Manus 19 US-Dollar pro Monat kostet.

Wichtige Punkte:

ChatGPT Agent: Ein einheitlicher KI-Agent, der komplexe, mehrwerkzeugige Aufgaben ausführen kann.
Es integriert den Zugriff auf Textbrowser, GUI-Browser, Terminal und Bildgenerierungstools.
Es unterstützt interaktive, mehrrundige Dialoge mit Benutzern und erlaubt Unterbrechungen und Klarstellungen.
Verbesserte Sicherheitsmaßnahmen: Stärkere Abwehr gegen "bösartige Anweisungen" auf Webseiten; Automatische Ablehnung von Hochrisikoaufgaben; Biologische/chemische Risiken werden nach dem höchsten Sicherheitsstandard behandelt.
Es hat auf mehreren realen und Benchmark-Aufgaben Spitzenleistungen erzielt.

Übersicht über ChatGPT Agent - Funktionen ähneln Manus

Der Kern von ChatGPT Agent ist ein einheitliches Agentensystem (unified agentic system), das die Fähigkeiten von OpenAIs früheren Forschungsprojekten "Operator" (konzentriert auf die Website-Interaktion) und "Deep Research" (konzentriert auf die Informationssynthese) integriert und erweitert.

Dadurch kann ChatGPT Agent nahtlos von der logischen Überlegung zu der Ausführung konkreter Aktionen in einem einzigen Dialogfluss wechseln.

Virtuelle Computerenvironment: ChatGPT Agent führt alle Aufgaben in einer speziell für ihn eingerichteten virtuellen Maschine aus. Diese Umgebung ist sandboxed, um die Sicherheit der Operationen zu gewährleisten. Es kann den Kontext der Aufgaben in dieser Umgebung speichern, sodass es auch bei Unterbrechungen oder Änderungen der Anweisungen des Benutzers von der Stelle aus fortsetzen kann, an der es aufgehört hat, ohne den Fortschritt zu verlieren.
Intelligentes Toolkit: Um komplexe Arbeitsabläufe zu bewältigen, ist Agent mit vier Werkzeugen ausgestattet und kann je nach Aufgabenanforderungen automatisch das am besten geeignete Werkzeug auswählen:
Visueller Browser (Visual Browser): Zum Interagieren mit grafischen Benutzeroberflächen, z. B. zum Klicken auf Schaltflächen, Ausfüllen von Formularen und Browsen auf für Menschen konzipierten Websites.
Textbasierter Browser (Text-based Browser): Für Netzwerkrecherchen, die effizientes Denken und die Verarbeitung großer Textmengen erfordern.
Terminal: Erlaubt Agent, Code auszuführen, Dateien herunterzuladen und zu verarbeiten.
API-Zugriff: Kann direkt APIs aufrufen, um Informationen zu erhalten, z. B. über Connectors auf Daten von Anwendungen wie Google Drive, Gmail und GitHub zuzugreifen.

Neues Modellantrieb: ChatGPT Agent wird von einem speziell für ihn entwickelten neuen Modell angetrieben. Dieses Modell wurde durch ein Verfahren des verstärkten Lernens auf komplexen Aufgaben trainiert, die mehrere Werkzeuge erfordern, und hat somit gelernt, wie es zwischen verschiedenen Werkzeugen nahtlos wechseln und sie zusammenarbeiten lassen kann.

Es hat folgende Eigenschaften:

Automatische Aufgabenausführung: Benutzer können Anweisungen in natürlicher Sprache geben, z. B. "Analysiere meinen Kalender und erstelle mir einen Bericht über die bevorstehenden Kundenbesprechungen anhand der neuesten Nachrichten". Agent kann selbstständig einen Plan erstellen und eine Reihe von Operationen ausführen, wie das Browsen auf Websites, das Filtern von Informationen, das Ausführen von Code für die Analyse und schließlich die Erstellung von bearbeitbaren Folien oder Tabellenkalkulationen.

Kooperation und Interaktivität: Es fragt nach weiteren Details, wenn es sie zur Erreichung des Ziels benötigt. Benutzer können die Aufgabe jederzeit unterbrechen, umleiten oder die Kontrolle über den Browser vollständig übernehmen.

Sicherheit und Zugriffskontrolle: Sicherheit ist ein Kernbestandteil seines Designs. Bevor Agent kritische Operationen mit tatsächlichen Auswirkungen wie Käufe, das Absenden von Formularen, das Senden von E-Mails oder die Verarbeitung persönlicher Informationen ausführt, wird er ausdrücklich um die Genehmigung des Benutzers bitten. Gleichzeitig ist es verboten, Hochrisikoaufgaben wie Finanzüberweisungen oder die Abgabe von Rechtsberatungen auszuführen. OpenAI hat auch Schutzmaßnahmen gegen bösartige Angriffe wie "Prompt-Injection" eingebaut.

rekordbrechende Ergebnisse in mehreren Benchmark-Tests

Der schwierigste HLE erreicht 41,6 % (mit Werkzeug), höher als der gerade veröffentlichte Grok4 (mit Werkzeug) mit 41,0 %.

Bei der Humanity’s Last Exam, die weite Reichweiten an Wissen und fachkundige Fragen misst, erreicht es eine Genauigkeit von 41,6 % bei einer einzelnen Antwort. Nach der parallelen Acht-Wege-Inferenz und der Auswahl der Antwort mit der höchsten Zuversicht kann dies auf 44,4 % gesteigert werden.

Bei dem äußerst schwierigen FrontierMath-Mathematik-Benchmark steigt die Genauigkeit nach dem Ausführen von Code im Terminal auf 27,4 %.

Bei internen Tests für reale Wissensarbeitstasks erreicht ChatGPT Agent in etwa der Hälfte der Fälle Ergebnisse, die mit denen von Menschen vergleichbar oder besser sind.

Bei der realen Datenwissenschaftstask DSBench erreicht es eine Analyse- und Modellierungsgenauigkeit von 89,9 % bzw. 85,5 %, weit über dem Durchschnitt von Menschen.

Es führt auch in der direkten Bearbeitung von Tabellenkalkulationen an: In SpreadsheetBench erreicht es 45,5 %, mehr als Copilot in Excel mit 20 %. Darüber hinaus setzt es in der Browsing-Bewertung wie BrowseComp und WebArena neue Spitzenwerte.

(Abbildung: Bewertungsverfahren: Die Autoren von SpreadsheetBench bewerten Tabellenkalkulationen unter Windows mit Microsoft Excel. Wir verwenden unter OSX LibreOffice, was möglicherweise zu leichten Unterschieden in den Bewertungen führt. Beispielsweise berichten die Autoren, dass GPT - 4o bei der gesamten Hard-Beschränkung 15,02 % erreicht, während wir 13,38 % erhalten. Wir haben das vollständige Benchmark mit 912 Fragen verwendet.)

Aus den PPTs, die ChatGPT Agent selbst erstellt hat, kann man sehen, dass Agent in der Fähigkeit, PPTs zu erstellen und im Internet zu surfen, im Vergleich zu reinen Basismodellen deutliche Verbesserungen aufweist. Doch es hat immer noch einen weiten Weg bis hin zu den Fähigkeiten von Menschen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Alles über ChatGPT Agent auf einen Blick: Es hat die Fähigkeiten von Manus nicht übertroffen, aber man kann das Licht am Ende des Tunnels für die End-to-End-Lösung erkennen.

Wichtige Punkte:

Übersicht über ChatGPT Agent - Funktionen ähneln Manus

rekordbrechende Ergebnisse in mehreren Benchmark-Tests