StartseiteArtikel

ChatGPT Agent: Es liegt noch innerhalb der Fähigkeiten von Manus, aber es ist der Anschein eines Ende-zu-Ende-Systems zu erkennen.

36值班小助手2025-07-19 09:34
Zusammenschluss von Operator und Deep Research

Agent ist dieses Jahr der größte Konsens in der KI-Branche. OpenAI kann sich natürlich nicht zurückhalten.

Um 1 Uhr morgens am 18. Juli 2025, Pekinger Zeit, stellten Sam Altman und vier Forscher von OpenAI in einer Live-Übertragung offiziell ChatGPT Agent vor - ein universeller KI-Agent.

Vorher gab es Manus, Lovart und Flowith. Die Funktionsszenarien, die ChatGPT Agent bietet, sind nicht besonders beeindruckend. Doch die Bedeutung seiner Veröffentlichung geht über seine Funktionen hinaus.

Die Revolutionärheit von ChatGPT Agent liegt in seinem einzigartigen technologischen Ansatz: Er kann aktiv aus dem Toolbox die Agentenfähigkeiten auswählen und seine eigene Rechnereinheit nutzen, um Aufgaben zu erledigen. Der Benutzer kann den Arbeitsablauf der KI in der virtuellen Umgebung in Echtzeit beobachten.

Dieser Interaktionsstil ähnelt zwar Produkten wie Manus, aber die zugrunde liegenden Prinzipien sind grundlegend unterschiedlich. Manus ruft mehrere zugrunde liegende Modelle auf, was einer "externen Verschmelzung" ähnelt. ChatGPT Agent hingegen integriert die Agent-Fähigkeiten in das Modell selbst. Wir können bereits den Anfang eines end-to-end universellen Agents erkennen.

Manus' Design basiert im Wesentlichen auf der "externen Verschmelzung" durch das Aufrufen mehrerer zugrunde liegender Modelle. Im Gegensatz dazu integriert ChatGPT Agent die Agent-Fähigkeiten in das Modell selbst.

Laut OpenAI haben sie für die Entwicklung von ChatGPT Agent das Operator- und das Deep Research-Team zu einem einheitlichen Team zusammengeführt. Dieses neue Team besteht aus 20 bis 35 Personen.

Nach den Angaben auf der Systemkarte von ChatGPT Agent ist es ein neues Agent-Modell, das zur gleichen Serie wie OpenAI o3 gehört und einen end-to-end Trainingsansatz verwendet. Es ist ein einheitliches Modell, das für Agent-Aufgaben entwickelt wurde, und nicht eine technische Kombination mehrerer Modelle.

Aus den Vergleichs-PPTs, die OpenAI herausgegeben hat, können wir sehen, dass dieses Training im Wesentlichen über einen Prozess des verstärkten Lernens abgeschlossen wurde. Der Ansatz sollte ähnlich wie bei Grok4withtool sein.

Nach dem Retraining kombiniert der Agent die Fähigkeiten von Deep Research zur mehrstufigen Forschung und zur Erstellung hochwertiger Berichte, die Fähigkeiten von Operator zur Ausführung von Aufgaben in einer remote visualisierten Browser-Umgebung, terminale Tools mit beschränktem Netzwerkzugang sowie die Möglichkeit, über Connectors auf externe Datenquellen und Anwendungen zuzugreifen.

Nach der Ausführung komplexer Aufgaben kann er auch dem Benutzer eine herunterladbare PPT oder ein Dokument übergeben.

Für Manus ist OpenAIs neues Vorgehen zweifellos ein schwerer Schlag. Selbst in Bezug auf die Preise gibt es kaum einen Unterschied: Mit dem Plus-Abo von GPT kann man ChatGPT Agent für 20 US-Dollar pro Monat nutzen, während das Basis-Paket von Manus 19 US-Dollar pro Monat kostet.

Wichtige Informationen:

ChatGPT Agent: Ein einheitlicher KI-Agent, der komplexe, mehrfach-toolbasierte Aufgaben ausführen kann.

Er integriert den Zugang zu einem Text-Browser, einem GUI-Browser, einem Terminal und Bildgenerierungs-Tools.

Er unterstützt interaktive, mehrmalige Dialoge mit dem Benutzer und erlaubt Unterbrechungen und Klarstellungen.

Verbesserte Sicherheitsmaßnahmen: Stärkere Abwehr gegen "bösartige Anweisungen" auf Webseiten; Automatische Ablehnung von hochriskanten Aufgaben; Biologische und chemische Risiken werden gemäß der höchsten Sicherheitsstufe behandelt.

Er hat in mehreren realen und Benchmark-Aufgaben Spitzenleistungen erzielt.

Übersicht über ChatGPT Agent: Funktionen ähneln Manus

Der Kern von ChatGPT Agent ist ein einheitliches Agentensystem (unified agentic system), das die Fähigkeiten von OpenAIs früheren Forschungsprojekten "Operator" (konzentriert auf die Interaktion mit Webseiten) und "Deep Research" (konzentriert auf die Informationssynthese) integriert und erweitert.

Dadurch kann ChatGPT Agent in einem einzigen Dialogfluss nahtlos von der logischen Überlegung zur Ausführung konkreter Aktionen wechseln.

Virtuelle Computer-Umgebung: ChatGPT Agent führt alle Aufgaben auf einem speziell für ihn eingerichteten virtuellen Computer aus. Diese Umgebung ist sandboxed, um die Sicherheit der Operationen zu gewährleisten. Er kann den Kontext der Aufgabe in dieser Umgebung speichern, sodass er auch bei Unterbrechungen oder Änderungen der Anweisungen des Benutzers von der Stelle aus fortfahren kann, an der er aufgehört hat, ohne Fortschritt zu verlieren.

Intelligentes Toolbox: Um komplexe Arbeitsabläufe auszuführen, ist der Agent mit vier Tools ausgestattet und kann je nach Aufgabenstellung automatisch das am besten geeignete Tool auswählen:

Visual Browser: Zum Interagieren mit grafischen Benutzeroberflächen, z. B. zum Klicken auf Schaltflächen, Ausfüllen von Formularen und Browsen auf Webseiten, die für Menschen entwickelt wurden.

Text-based Browser: Zum Durchführen von Netzwerkesuchen, bei denen effizientes Denken und die Verarbeitung großer Mengen an Text erforderlich sind.

Terminal: Erlaubt dem Agent, Code auszuführen, Dateien herunterzuladen und zu verarbeiten.

API-Zugang: Kann direkt APIs aufrufen, um Informationen zu erhalten, z. B. über Connectors auf Daten von Anwendungen wie Google Drive, Gmail und GitHub zuzugreifen.

Angetrieben durch ein neues Modell: ChatGPT Agent wird von einem speziell für ihn entwickelten neuen Modell angetrieben. Dieses Modell wurde über ein Verfahren des verstärkten Lernens auf komplexen Aufgaben, die die Verwendung mehrerer Tools erfordern, trainiert, um zu lernen, wie man nahtlos zwischen verschiedenen Tools wechselt und diese zusammenarbeiten lässt.

Es hat die folgenden Eigenschaften:

Automatische Aufgabenausführung: Der Benutzer kann dem Agent Anweisungen in natürlicher Sprache geben, z. B. "Analysiere meinen Kalender und erstelle mir einen Überblick über die bevorstehenden Kundenmeetings basierend auf den neuesten Nachrichten". Der Agent kann dann selbstständig einen Plan erstellen und eine Reihe von Aktionen ausführen, wie z. B. das Browsen auf Webseiten, das Filtern von Informationen, das Ausführen von Code-Analysen und schließlich die Erstellung bearbeitbarer Dias oder Tabellen.

Kooperation und Interaktivität: Er wird aktiv nach weiteren Details fragen, um das Ziel zu erreichen. Der Benutzer kann die Aufgabe jederzeit unterbrechen, umleiten oder die Kontrolle über den Browser vollständig übernehmen.

Sicherheit und Zugangskontrolle: Sicherheit ist ein zentraler Aspekt seiner Gestaltung. Bevor er kritische Aktionen wie Einkäufe, das Absenden von Formularen, das Senden von E-Mails oder die Verarbeitung persönlicher Informationen ausführt, wird der Agent ausdrücklich um die Genehmigung des Benutzers bitten. Gleichzeitig ist er von der Ausführung hochriskanter Aufgaben wie Finanzüberweisungen oder der Erteilung von Rechtsberatungen ausgeschlossen. OpenAI hat auch Schutzmaßnahmen gegen "Anweisungseingriffe" und andere bösartige Angriffe eingebaut.

Bestnoten in mehreren Benchmark-Tests

Beim schwierigsten HLE erreicht er 41,6 % (mit Tool), höher als das gerade veröffentlichte Grok4 (mit Tool) mit 41,0 %.

Beim Humanity’s Last Exam, das weite Wissen und fachkundige Fragen misst, hat er eine Genauigkeit von 41,6 % bei einer einzelnen Antwort. Nach der parallelen Acht-Wege-Inferenz und der Auswahl der Antwort mit der höchsten Konfidenz kann diese auf 44,4 % gesteigert werden.

Beim extrem schwierigen FrontierMath-Mathematik-Benchmark steigt die Genauigkeit nach der Ausführung von Code im Terminal auf 27,4 %.

In internen Bewertungen für reale Wissensarbeitstasks ist ChatGPT Agent in etwa der Hälfte der Fälle mit Menschen gleichwertig oder besser.

Beim realen Datenscience-Task DSBench erreicht er eine Analyse- und Modellierungsgenauigkeit von 89,9 % bzw. 85,5 %, weit über dem Durchschnittswert von Menschen.

Seine Fähigkeit zur direkten Bearbeitung von Tabellen ist auch führend: Im SpreadsheetBench erreicht er 45,5 %, mehr als Copilot in Excel mit 20 %. Darüber hinaus hat er in Browser-Bewertungen wie BrowseComp und WebArena die bisherigen Spitzenleistungen übertroffen.

(Abbildung: Bewertungsverfahren: Die Autoren von SpreadsheetBench haben Tabellen in einer Windows-Umgebung mit Microsoft Excel bewertet. Wir haben in einer OSX-Umgebung mit LibreOffice gearbeitet, was möglicherweise zu kleinen Unterschieden in den Bewertungen führt. Beispielsweise berichten die Autoren, dass GPT - 4o bei der gesamten Hard-Beschränkung 15,02 % erreicht, während wir 13,38 % erhalten. Wir haben das vollständige Benchmark-Testset mit 912 Fragen verwendet.)

Nach den PPTs, die ChatGPT Agent selbst erstellt hat, hat der Agent sowohl in Bezug auf die PPT-Erstellung als auch auf das Surfen im Internet deutliche Verbesserungen gegenüber reinen Basis-Modellen. Aber er ist immer noch weit hinter Menschen zurück.