Das neue Agent-System von OpenAI wird von einem 24-köpfigen chinesischen Startup-Team übertroffen. In praktischen Tests hat es in Bezug auf Kosten und Qualität miserabel verloren. Ausländische Nutzer sagen: Chinesische Agent-Systeme haben einen generationalen Vorsprung.
Heute Nacht hat OpenAI die neue Funktion ChatGPT Agent eingeführt. Diese Funktion ermöglicht es dem KI-Assistenten, über seinen eigenen Webbrowser mehrstufige Aufgaben zu erledigen. Dies markiert auch den offiziellen Einstieg von OpenAI in den Bereich der "agentischen Künstlichen Intelligenz" – Systeme, die für den Benutzer eigenständig mehrstufige Aktionen ausführen können.
Es ist bekannt, dass diese Aktualisierung die Fähigkeiten von OpenAIs frühem Operator-Tool und der Deep Research-Funktion sowie die Vorteile von ChatGPTs Dialogfähigkeit vereint. Dadurch kann ChatGPT Websites besuchen, Code ausführen und Dokumente erstellen, wobei der Benutzer immer noch die Kontrolle über diesen Prozess behält. Wie beim früheren Operator muss die Agent-Funktion vor bestimmten Operationen, die reale Auswirkungen haben können (z. B. Einkäufe), die Genehmigung des Benutzers einholen. Der Benutzer kann jederzeit die Aufgabe unterbrechen, die Kontrolle über den Browser übernehmen oder die Operation vollständig stoppen. Das System enthält auch einen "Beobachtungsmodus", der für Aufgaben wie das Senden von E-Mails geeignet ist, die eine vollständige Überwachung durch den Benutzer erfordern.
Beim Verwenden des Agents sieht der Benutzer in einem Fenster innerhalb der ChatGPT-Oberfläche alle Aktionen, die die KI in ihrer eigenen privaten Sandbox ausführt. Diese Sandbox verfügt über ein eigenes virtuelles Betriebssystem und einen Webbrowser, der auf das reale Internet zugreifen kann, kontrolliert jedoch nicht das persönliche Gerät des Benutzers. Laut OpenAI "nutzt ChatGPT seinen eigenen virtuellen Computer, um diese Aufgaben auszuführen, kann reibungslos zwischen Schlussfolgerungen und Aktionen wechseln und komplexe Arbeitsabläufe von Anfang bis Ende bearbeiten, alles basierend auf Ihren Anweisungen."
Ein Momentaufnahme aus der Werbe-Demo-Video von ChatGPT Agent, die das System beim Suchen nach Flügen zeigt.
OpenAI hat angegeben, dass Benutzer den Agent verschiedene Anforderungen stellen können, wie z. B. das Zusammenstellen und Kaufen eines Outfits für eine bestimmte Gelegenheit, das Erstellen einer PowerPoint-Präsentation, die Planung von Mahlzeiten oder das Aktualisieren einer Finanz-Tabellenkalkulation mit neuen Daten. Das System kombiniert einen Webbrowser, Terminalzugang und Anwendungsprogrammierschnittstellen (APIs), um diese Aufgaben zu erledigen, darunter auch "ChatGPT Connectors", die es ermöglichen, mit Anwendungen wie Gmail und GitHub zu integrieren.
Gerade eben hat OpenAI auch angekündigt, dass ChatGPT Agent ab heute für Pro-, Plus- und Team-Benutzer verfügbar ist. Unternehmens- und Bildungsbenutzer werden in den nächsten Wochen Zugang erhalten. Da der Agent die Funktionen des Operators übertrifft, wird die frühere Vorschau-Website des Operators noch einige Wochen lang weiterlaufen und danach geschlossen werden.
Offizielle Bewertung: Spitzenleistung erreicht
In einem veröffentlichten Bewertungsbericht hat OpenAI erklärt, dass ChatGPT Agent in seinen eigenen Benchmark-Tests Spitzenleistungen erreicht hat. Im "Humanity's Last Exam" (ein Test, der die Leistung von Künstlicher Intelligenz bei expertenmäßigen Fragen bewertet) erreichte der Agent eine Genauigkeit von 41,6 %. Im Vergleich dazu erreichte OpenAIs o3-Modell bei der Verwendung von Tools eine Genauigkeit von 24,9 %. Im "FrontierMath"-Test (einer der schwierigsten derzeit entwickelten mathematischen Benchmark-Tests) erreichte der Agent bei der Verwendung von Tools eine Genauigkeit von 27,4 %, während das o3-Modell bei der Verwendung von Python eine Genauigkeit von 19,3 % erreichte.
Das Unternehmen hat auch behauptet, dass ChatGPT Agent bei datenwissenschaftlichen Aufgaben wie Datenanalyse und -modellierung besser abschneidet als Menschen. Im DSBench-Benchmark, der diese Fähigkeit misst, erreichte das System bei der Datenanalyseaufgabe einen Score von 89,9 %, während Menschen 64,1 % erreichten. Bei der Datenmodellierungsaufgabe erreichte es einen Score von 85,5 %, während Menschen 65,0 % erreichten. Darüber hinaus erreichte das System im OpenAIs BrowseComp-Test (zur Bewertung der Fähigkeit, schwierig zu findende Internetinformationen zu finden) einen Score von 68,9 % und im SpreadsheetBench-Test (zur Bewertung der Tabellenkalkulationsfähigkeit) einen Score von 45,5 %, beide höher als bei anderen OpenAI-KI-Modellen.
Ein Benutzer hat das Ergebnis der Erstellung eines Finanzanalyseberichts für NVIDIA mit ChatGPT Agent veröffentlicht und gesagt: "ChatGPT Agent ist unglaublich! Es hat dies in nur wenigen Minuten geschafft! Obwohl es bei den Berechnungen noch weit hinter einem neu eingestellten Investmentbank-Analysten zurückbleibt."
Es ist erwähnenswert, dass obwohl OpenAI behauptet, dass der Agent PowerPoint-Präsentationen für den Benutzer erstellen kann, das Unternehmen zugibt, dass die Funktion zur Erstellung von Folien noch in der Testphase ist und die Ausgabe in Bezug auf Format und Raffinesse möglicherweise "einfach" erscheint. Ein Benutzer hat berichtet, dass ChatGPT Agent in 9 Minuten eine Präsentation erstellt hat, die mit wenigen Änderungen einsatzbereit war. Das Ergebnis sieht wie folgt aus:
Ein Benutzer hat angegeben, dass OpenAIs Agent-Modus auch in der Lage ist, die erstellten Präsentationsfolien durch verstärktes Lernen zu verbessern. "Manus hat diese Funktion schon seit langem."
Tatsächliche Leistung: Deutliche Einschränkungen und Lücken in der Fähigkeit
Was OpenAI sagt, ist eine Sache. Tatsächlich scheint die Leistung von ChatGPT Agent bei der Erledigung von mehrstufigen Aufgaben stark von den konkreten Umständen abzuhängen.
Einige Benutzer haben darauf hingewiesen, dass ChatGPT Agent bei den PaperBench-, SWE-Bench-Validierungen, OpenAI PRs und OpenAI Research Engineer Interview-Fragen schlechter abschneidet als das o3-Modell.
Ein anderer Benutzer hat bei der Teilnahme eines Fallbeispiels, bei dem er ChatGPT Agent "eine Datensatz auf Kaggle analysieren und in PPT und Excel umwandeln" ließ, gesagt: "Es hat keine Bedienfehler gemacht, aber einige Daten waren falsch." Erst nach seiner Rückmeldung hat das System verstanden, dass es Probleme mit den Daten gab und was die Ursache war.
Laut ausländischen Medienberichten ist das dahinterliegende KI-Modell keine vollständige problemlösende Intelligenz, sondern eher ein komplexer, fortschrittlicher Imitator. Es hat zwar eine gewisse Flexibilität bei der Integration von Szenarien, hat aber auch viele Lücken. OpenAI hat den Agent und seine Komponenten mit Beispielen für Computer- und Tool-Verwendung trainiert. Bei Aufgaben, die außerhalb des Bereichs der in den Trainingsdaten enthaltenen Beispiele liegen, kann es möglicherweise Schwierigkeiten haben, diese zu erledigen.
Beispielsweise zeigt die Systemkarte von ChatGPT Agent, dass der Agent möglicherweise scheitert, wenn es darum geht, komplexe Aufgaben zu erledigen, die mehrere Schritte auf eine neue Weise miteinander verbinden müssen. In einer "Cyber Range"-Bewertung wurde ChatGPT Agent aufgefordert, in einer simulierten Netzwerkumgebung eines kleinen Online-Händlers umfassende Operationen auszuführen. Als es aufgefordert wurde, das Problem selbstständig zu lösen, konnte es die Aufgabe nicht erledigen. Obwohl es die anfänglichen Rechercheschritte, wie die Identifizierung von Servern im Netzwerk, erfolgreich ausführen konnte, hatte es Schwierigkeiten, weiter voranzukommen und die notwendigen Mittel miteinander zu verbinden, um das endgültige Ziel zu erreichen. Selbst wenn es Hinweise erhielt, scheiterte der Agent weiterhin (in diesem Fall ist dies vielleicht sogar gut, da es keine automatisierten Hackerangriffe durchführen kann). Dies zeigt, dass es bei der Lösung von komplexen Problemen, die außerhalb seines vertrauten Trainingsbeispiels liegen, deutliche Einschränkungen in seiner Fähigkeit hat.
Ein Entwickler hat gesagt, dass er in den meisten seiner KI-Anwendungsfälle derzeit überhaupt nicht ChatGPT Agent auswählen müsse. "Das o3-Modell erfüllt bereits alle Anforderungen und ist sehr kostengünstig. Es ist überhaupt nicht notwendig, eine ganze virtuelle Maschine mit Browser und Befehlszeilenoberfläche zu starten." Darüber hinaus hat er darauf hingewiesen, dass OpenAI viele komplexe Technologien in ein verbraucherfreundliches Produkt verpackt hat, aber die Erreichung dieser hohen Benutzerfreundlichkeit auf Kosten von Anpassbarkeit und Kombinierbarkeit geht, was derzeit seine Fähigkeiten einschränkt.
"Bei Forschungsaufgaben werde ich weiterhin Claude Code verwenden – es ist ein stärkeres professionelles Werkzeug." Claude Code ist eine auf dem Computer laufende Anwendung, die eine flexiblere Nutzungsmöglichkeit bietet: Es kann direkt auf alle Dateien zugreifen, und der Benutzer kann seine Betriebsweise unbegrenzt anpassen. ChatGPT Agent befindet sich innerhalb von ChatGPT und kann nur auf voreingestellte Weise arbeiten. "Es ist also nützlich, aber noch keine Alltagsanwendung."
Zertifizierung von ausländischen Nutzern: Nicht so gut wie die von chinesischen Teams entwickelten KI-Agenten
"ChatGPT Agent scheint ein echter Konkurrent von Manus zu sein." Nach der Einführung dieses Systems durch OpenAI haben viele ausländische Benutzer es zuerst mit AI-Agent-Produkten wie Manus AI und Genspark verglichen, die von chinesischen Unternehmern entwickelt wurden. Genspark ist ein allgemeiner KI-Agent, der von der Firma MainFunc, gegründet von Jing Kun, dem ehemaligen Vizepräsidenten der Baidu-Gruppe und ehemaligen CEO von Xiaodu Technology, und Zhu Kaihua, dem ehemaligen CTO von Xiaodu Technology, entwickelt wurde. Ursprünglich als KI-Suchmaschine konzipiert, hat es sich dann zu einem Super-Agenten gewandelt, der eigenständig denken, Aufgaben planen und Tools nutzen kann, um komplexe mehrstufige Aufgaben zu erledigen. Sein ARR (jährliche wiederkehrende Einnahmen) hat bereits 9 Tage nach dem Start die 10 Millionen US-Dollar-Marke überschritten.
Shubham Saboo, ein langjähriger Leiter von KI-Produkten, hat öffentlich kommentiert: "ChatGPT Agent ist überbewertet. Genspark und Manus AI sind bereits weit vorne bei der Erstellung von gut recherchierten KI-Präsentationen und der Bearbeitung von Tabellenkalkulationen."
Heute Morgen hat Jing Kun, Mitbegründer und CEO von MainFunc, auf der X-Plattform angegeben, dass sie mit demselben Prompt wie in OpenAIs heutigen Veröffentlichungsdemo einen Versuch gemacht haben und das folgende Ergebnis erhalten haben: Es hat nur einen Bruchteil der Zeit und der Kosten gedauert, aber die Qualität war um ein Vielfaches höher. Saboo hat nicht nur das Vergleichsvideo geteilt, sondern auch direkt gesagt: "Genspark Super Agent kann tatsächlich OpenAIs ChatGPT auf Anhieb schlagen."
"Ich hätte nie gedacht, dass es einen solchen Tag geben würde – als kleine Startup mit nur 24 Mitarbeitern sind wir so weit vorne... sogar vor OpenAI..." sagte Jing Kun erregt. Darüber hinaus hat er im Kommentarbereich die vollständige Wiedergabe seines Testauftrags veröffentlicht: https://www.genspark.ai/autopilotagent_viewer?id=ec2525b1-a16e-4f69-a568-d16b4b687aaf
Einige ausländische Benutzer haben daraufhin kommentiert: "Sie haben mich beeindruckt. Eine kleine Gruppe hat so viel Erfolg erzielt." Ein Benutzer hat darauf hingewiesen: "Nach den Anwendungsfällen einiger unserer Kunden ist Genspark bei einigen Aufgaben tatsächlich schneller, während nur der Agent-Modus bei anderen Aufgaben funktioniert (wir haben auch Manus, Skywork und Flowith getestet)." Gleichzeitig hat er Genspark auch eine sehr hohe Bewertung gegeben: "Die von Ihnen (Genspark) erstellten Präsentationen sind definitiv die besten. Andere Produkte können kaum mithalten."
Referenzlinks:
https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/
https://arstechnica.com/information-technology/2025/07/chatgpts-new-ai-agent-can-browse-the-web-and-create-powerpoint-slideshows/
Dieser Artikel stammt aus dem WeChat-Account "AI Frontline", Zusammenfassung: Hua Wei,