Wird OpenAI die Manus vernichten?
Genauso wie bei der Veröffentlichung der Text-zu-Bild-Funktion im März hat OpenAI erneut versucht, das Startup-Rennen im Bereich AI Agent vorzeitig zu beenden.
Um Mitternacht am 18. Juli (China-Zeit) hat OpenAI ChatGPT Agent vorgestellt. Es kann basierend auf den Anweisungen des Benutzers automatisch die Ausführungs-Schritte planen, verschiedene Tools aufrufen und Aufgaben in mehreren Schritten von der Datenerfassung bis zur Tabellenerstellung, von der Reiseplanung bis zur Hotelbuchung erledigen.
Screenshot eines Tweets von OpenAI
Dies ist auch die Richtung, in die die meisten AI Agent-Startup-Projekte derzeit gehen. Was Sie vor 4 Monaten in der angeblich ersten Promovideo für einen universellen AI Agent von Manus gesehen haben, hat ChatGPT Agent nun erreicht.
OpenAI-Gründer Sam Altman hat gesagt, dass dies das erste Mal sei, dass er sich "wirklich von AGI (Allgemeine Künstliche Intelligenz) überzeugt fühle". Die Forscher von OpenAI haben hingegen erklärt, dass ChatGPT Agent derzeit das stärkste AI Agent-Modell sei.
– Ja, OpenAI bezeichnet ChatGPT Agent als ein Modell, nicht als ein Produkt. Im Gegensatz zu Systemen wie Manus, die auf Kontextverwaltung und Toolketten-Orchestrierung angewiesen sind, hat OpenAI ein spezielles Modell trainiert, das komplexe Prozesse wie Aufgabenplanung, Toolübergreifenden Aufruf und Dokumentenerstellung in einem einzigen System bewältigen kann. Das Modell gehört derzeit zur o3-Serie, hat aber noch keinen eigenen Namen.
Unternehmer in der Ära der Künstlichen Intelligenz stehen vor einer schnelleren Technologie-Entwicklung als in jeder anderen historischen Epoche. Eine Aktualisierung des zugrunde liegenden Modells kann oft ein innovatives Produkt in einem vertikalen Bereich zerstören.
Li Xiang, Gründer von Li Auto, hat früher in seinem Freundeskreis gesagt, dass auf der To-C-Ebene keine Raum für Startups in vertikalen Anwendungen bleiben würde, wenn Unternehmen wie OpenAI, die die stärksten Basis-Modelle besitzen, dominant wären. "Die Essenz von Software ist die Funktion, die in Szenarien und vertikalen Bereichen umgesetzt werden muss. Die Essenz von Künstlicher Intelligenz ist die Fähigkeit. Wenn die Fähigkeit stark ist, kann sie alles verschlingen, und es ist auch für die Benutzer am bequemsten."
Selbst Zhu Xiaohu, der immer für die Innovation in der AI-Anwendung plädiert, hat in sozialen Medien erklärt, dass die großen Modelle 90 % der Agenten verschlingen würden. Ein Nutzer auf der Plattform X hat auch gefragt, wie andere Unternehmer konkurrieren könnten, wenn OpenAI später die API von ChatGPT Agent freigeben würde.
"Listen - das ist das Geräusch, wie viele Startups in den Nichts verschwinden." (Hören Sie - das ist das Geräusch, wie unzählige Startups verschwinden.)
lautete eine hochgelobte Kommentar unter dem OpenAI-Pressemitteilungsvideo.
Manus und Co. wagen einen Frontalangriff
Zumindest bisher zeigen Manus und Co. keine Anzeichen von Rückzug.
Unmittelbar nach der OpenAI-Pressemitteilung hat Manus einen Tweet auf X geteilt und geschrieben: "Welcome to the game." Auch flowith, ein chinesisches AI Agent-Startup, hat diesen Tweet geteilt und betont, dass sie bereits vor einem Jahr ein AI Agent-Produkt eingeführt hätten.
Als eines der ersten Startups, das in den letzten sechs Monaten das Schlagwort "universeller AI Agent" geprägt hat, hat Manus viel stärker reagiert als andere Unternehmen. Nur drei Stunden nach der Pressemitteilung hat Manus 10 Vergleichstests mit ChatGPT Agent veröffentlicht und erklärt, dass sie sich direkt mit OpenAI messen wollten.
Einige der Vergleichsinhalte stammen aus den Demos, die OpenAI an diesem Tag gezeigt hat, andere aus den echten Anwendungen von Nutzern in sozialen Medien. Die Szenarien umfassen Datenorganisation, Reiseplanung, Online-Shopping, Finanzanalyse, Restaurantbuchung usw. Die von Manus veröffentlichten Testergebnisse waren fast durchweg überlegen – nicht nur schneller in der Reaktion, sondern auch stärker auf die "Aufgabenabwicklung" fokussiert, z. B. mit saubereren Tabellen, reichhaltigeren Grafiken und PPTs, die sich näher an fertigen Produkten befanden.
Vergleichsvideo von Manus mit ChatGPT Agent
Beispielsweise bei der Aufgabe "Planen Sie eine dreitägige Tennisreise nach Palm Springs" hat OpenAI eine einfache Reiseplanungstabelle erstellt, während Manus eine Reiseplakat mit einem stilvollen Design für das Reiseziel erzeugt hat.
Vergleichstest von Manus
Beim Analysieren der Finanzberichte von San Francisco in den letzten vier Jahren hat OpenAI eine Excel-Datei ausgegeben, während Manus ein vollständiges Präsentationsdokument mit Diagrammen und Zusammenfassungen geliefert hat. "Manus erledigt das gesamte Projekt, nicht nur die Datenbereitstellung", hat Manus kommentiert.
Eine andere chinesische Firma, Genspark, hat ebenfalls hochkarätig reagiert. Eric Jing, Gründer von Genspark, hat auf X geschrieben: "Ich hätte nie gedacht, dass wir als ein kleines Unternehmen mit nur 24 Mitarbeitern einmal vor OpenAI liegen würden." Er hat erklärt, dass Genspark mit denselben Anweisungen kürzere Reaktionszeiten, niedrigere Kosten und eine "vielfach höhere Qualität" der Ergebnisse erzielen könne.
Am 19. Juli hat Genspark auch auf sozialen Medien neun Vergleichsbeispiele mit ChatGPT Agent geteilt, die zeigten, dass ihre ausgegebenen Dokumente reichhaltigere Daten-Dimensionen und ein schöneres Layout hatten. Neben Fällen wie Reiseplanung und Finanzanalyse, die auch in den Vergleichstests von Manus enthalten waren, haben sie auch einen Vergleich der Videogenerierungsfähigkeit geteilt und darauf hingewiesen, dass ChatGPT Agent die Aufgabe nicht erfüllen konnte.
Beispiel der Videogenerierung von Genspark
Die Reaktion der Nutzer in sozialen Medien war nicht so stark wie bei der vorherigen Aktualisierung der Text-zu-Bild-Funktion von OpenAI. Einige kritische Stimmen haben darauf hingewiesen, dass die Aufgabenabwicklung von ChatGPT Agent nicht hoch sei und die Generierungsgeschwindigkeit langsam wäre. Einige komplexe Aufgaben brauchten 20 Minuten oder länger, um abgeschlossen zu werden.
OpenAI scheint sich auch der Geschwindigkeitsproblematik von ChatGPT Agent bewusst zu sein. In einigen ihrer Promovideos schließen die Mitarbeiter oft ihren Laptop nach der Aufgabe und kommen später zurück, um die Ergebnisse zu checken.
"Selbst wenn es 15 Minuten oder eine halbe Stunde dauert, ist es dennoch eine deutliche Beschleunigung im Vergleich zu manueller Arbeit", hat die OpenAI-Forscherin Isa Fulford erklärt. Sie hat erklärt, dass dies eine Art von Nutzung sei, bei der man die Aufgabe im Hintergrund starten kann und später die Ergebnisse checken kann. Das Suchteam von OpenAI konzentriere sich eher auf Szenarien mit geringer Latenz.
OpenAI legt vielleicht mehr Wert auf die Zeit, in der das Modell kontinuierlich schließen und denken kann. Zhang Xikun, ein Forscher von OpenAI, hat gesagt, dass ChatGPT Agent in internen Tests eine maximale kontinuierliche Schlussfolgerungszeit von 2 Stunden erreicht habe. "Wir sollten eine Rangliste haben, um zu verfolgen, wie lange ein Modell kontinuierlich denken kann."
Was die Kritik an der unschönen Gestaltung der generierten Dokumente oder PPTs betrifft, haben die Forscher von OpenAI auf X vorgeschlagen, dass man ChatGPT Agent zuerst die Recherchearbeit erledigen lasse und dann das PPT-File ausgeben lasse. Da ChatGPT im standardmäßigen pptx-Format generiert, können die Nutzer auch in PowerPoint das gewünschte Design-Template anwenden.
Obwohl OpenAI betont, dass sie ein spezielles Modell für ChatGPT Agent trainiert haben, haben einige kritische Stimmen behauptet, dass es eher ein Produkt der Kombination von Operator (Browser-Interaktionsfähigkeit) und Deep Research (Tiefgehende Recherchefähigkeit) sei, die bereits früher eingeführt wurden. Operator kann ChatGPT ermöglichen, direkt über den Browser mit Websites zu interagieren, Webseiteninhalt zu lesen und zu verstehen, während Deep Research gut darin ist, Informationen zu analysieren und zusammenzufassen.
Tatsächlich stammen die Mitglieder des derzeitigen ChatGPT Agent-Teams aus den früheren Operator- und Deep Research-Abteilungen, und die Größe des Teams liegt derzeit zwischen 20 und 35 Personen. OpenAI hat erklärt, dass ChatGPT Agent eine natürliche Fortsetzung der Funktionen von Operator und Deep Research sei. "Wir haben festgestellt, dass viele Abfragen, die die Nutzer über Operator gemacht haben, tatsächlich besser für Deep Research geeignet sind. Deshalb haben wir die Stärken beider kombiniert."
OpenAI hat erklärt, dass diese Veröffentlichung nur den ersten Schritt darstelle, um die Agent-Funktion direkt in ChatGPT zu integrieren. Sie planen, regelmäßig weitere Funktionen hinzuzufügen.
Zwei technische Ansätze
Im Vergleich zu Startups, die in den letzten sechs Monaten an der Verbesserung der Ausgabe-Qualität und der Benutzererfahrung gearbeitet haben, ist die endgültige Darstellung der Aufgaben von ChatGPT Agent, das gerade von OpenAI vorgestellt wurde, recht grob.
Startups versuchen, ein Agent-Produkt anzubieten, das eine höhere Vollständigkeit und eine niedrigere Einstiegsschwelle hat. Nehmen wir Manus als Beispiel. In den letzten zwei Monaten hat diese Firma dem Produkt viele verschiedene Fähigkeiten wie PPT-Generierung, Videogenerierung und Audiogenerierung hinzugefügt. Auf ihrer offiziellen Website werden auch viele fertige Vorlagen und Benutzerbeispiele aufgelistet. Auch wenn diese Fähigkeiten auf externen Modellen basieren, haben die Startups zumindest in Bezug auf die Einstiegsschwelle bessere Ergebnisse erzielt als OpenAI.
Vorlagen auf der offiziellen Website von Manus
Aber wenn man die Innovationsaspekte der Anwendungs-Erfahrung außer Acht lässt, hat ChatGPT Agent durch das end-to-end trainierte einheitliche Modell offensichtlich Vorteile in der Fähigkeit des zugrunde liegenden Modells. OpenAI hat viele akademische Tests für ChatGPT Agent durchgeführt, und einige Testergebnisse liegen sogar vor denen von OpenAI o3 oder GPT 4o und erreichen das höchste Niveau in der Branche.
Beispielsweise hat ChatGPT Agent in der "Humanity’s Last Exam" (Letztes Examen der Menschheit) eine neue Höchstleistung von 41,6 % (pass@1) erreicht, was etwa doppelt so viel wie das von OpenAI o3 ist. Im DSBench-Test liegt ChatGPT Agent weit vor GPT-4o, und seine Leistung in der Datenanalyse-Aufgabe ist sogar deutlich besser als die menschliche Leistung.
Testergebnisse der "Humanity’s Last Exam"
Auf der Plattform SpreadsheetBench, die speziell die Fähigkeit zur Bearbeitung von Tabellenkalkulationen misst, hat ChatGPT Agent einen neuen Branchenrekord aufgestellt, und seine Leistung liegt doppelt so hoch wie die von GPT-4o. OpenAI hat erklärt, dass die Fähigkeit von ChatGPT Agent in ihren internen Benchmark-Tests ungefähr der eines Investmentbank-Analysten mit 1 bis 3 Jahren Berufserfahrung entspricht.
Einfach ausgedrückt, legt OpenAI mehr Wert auf die Verbesserung der Fähigkeit des zugrunde liegenden Modells durch ChatGPT Agent, während Startups aufgrund von technischen und finanziellen Einschränkungen eher auf Anwendungs-Innovation setzen.
Um Mitternacht am 19. Juli hat Ji Yichao, Mitbegründer von Manus, einen Artikel veröffentlicht und erklärt, dass Manus weiterhin auf Kontext-Engineering (In-Context Learning) statt auf end-to-end Agenten setzen werde.
Er hat gesagt, dass sie schon in der Anfangsphase des Mannus-Projekts überlegt haben, ob sie ein end-to-end Agent mit einem Open-Source-Modell trainieren oder einen Agent auf der Grundlage der Kontext-Lernfähigkeit des führenden Modells entwickeln sollten. Die Entstehung von Modellen wie GPT-3 habe sie davon überzeugt, dass das Kontext-Engineering der richtige Weg sei, da die Fähigkeiten dieser Modelle weit höher seien als die ihrer früheren internen Modelle.
"Wenn der Fortschritt der Modelle wie eine steigende Flut ist, möchten wir, dass Manus das Boot ist, nicht der am Meeresboden fest verankerte Pfahl", hat Ji Yichao erklärt. Dies würde es ihnen ermöglichen, Verbesserungen in wenigen Stunden statt in Wochen zu liefern und sicherzustellen, dass ihr kostenloses Produkt orthogonal zum zugrunde liegenden Modell bleibt.
Er hat in diesem technischen Dokument viele Erfahrungen von Manus im Kontext-Engineering geteilt, wie die Planung um KV-Caching herum und die Verwendung von Systemdateien als Kontext. Diese technischen Innovationen haben die Reaktionszeit und die Kostenvorteile von Manus deutlich verbessert.
Ji Yichao hat beispielsweise erklärt, dass die Verwendung von KV-Caching die Generierungszeit des ersten Tokens und die Inferenzkosten erheblich reduzieren könne. Beispielsweise sei die Kosten für die Eingabe-Tokens mit Caching bei der Verwendung von Claude