Offiziell aufgetreten: Der universelle KI-Agent von OpenAI

Die bisher größte Aktualisierung.

ChatGPT kann jetzt denken und handeln, Werkzeuge aktiv auswählen und mit seinem eigenen virtuellen Computer Aufgaben für Sie erledigen.

Das Zeitalter des Agent AI ist früher da als wir gedacht haben.

Um Mitternacht am Freitag, chinesischer Zeit, hat OpenAI plötzlich eine Produktvorstellung für ein neues Produkt gestartet.

Bei dieser Veröffentlichung handelt es sich um den brandneuen ChatGPT Agent, der eine entscheidende Verbesserung der Fähigkeiten eines allgemeinen Agenten (Agent) erreicht hat.

Im Gegensatz zu früheren Upgrades von großen Basis-Modellen kann ein allgemeiner Agent automatisch mehrere Werkzeuge nutzen, um Pläne zu erstellen und Menschen bei der Erledigung komplexer Aufgaben zu helfen, darunter das automatische Durchsuchen des Benutzer-Kalenders, das Erstellen von bearbeitbaren Präsentationen, das Ausführen von Code und vieles mehr. Der Agent kann sich mit Ihren Gmail- und GitHub-Konten verbinden, um Informationen zu erhalten und Probleme zu lösen, und er kann APIs nutzen, um auf verschiedene Anwendungen zuzugreifen. Die KI-Intelligenz, die vom Agent unterstützt wird, hat eine erhebliche Steigerung erfahren – das auf ChatGPT Agent basierende Modell hat auf der HLE-Basis ein Ergebnis von 41,6 % erzielt, was fast doppelt so viel wie das von o3 und o4-mini ist.

ChatGPT Agent ist derzeit für Abonnenten der OpenAI Pro-, Plus- und Team-Pläne verfügbar. Benutzer, die es nutzen möchten, können einfach im Dropdown-Menü der ChatGPT-Werkzeuge die Option „Agent-Modus“ auswählen.

OpenAI hat angekündigt, dass Unternehmens- und Bildungsnutzer die neuen Funktionen voraussichtlich gegen Ende des Sommers erhalten werden. Bei der offiziellen Veröffentlichung können Pro-Nutzer in der Regel maximal 400 Agent-Eingaben pro Monat nutzen, während andere bezahlende Nutzer maximal 40 Eingaben haben. Es ist derzeit noch unklar, wann diese Funktion für ChatGPT-Kostenlose Nutzer verfügbar sein wird.

Dies ist die bisher mutigste Veröffentlichung eines neuen Produkts von OpenAI. Von nun an ist ChatGPT ein Agent-Produkt, das für Menschen handeln und Aufgaben übernehmen kann, und es geht weit über die bloße Beantwortung von Fragen hinaus.

OpenAI CEO Sam Altman hat gesagt, dass es für ihn ein wahrhaftiges „AGI-Erlebnis“ war, zu sehen, wie der ChatGPT-Agent mit dem Computer komplexe Aufgaben ausführt. Es gibt ein anderes Gefühl, wenn man sieht, wie der Computer denkt, plant und handeln kann.

ChatGPT kann jetzt mit seinem eigenen virtuellen Computer Arbeit für Sie erledigen und komplexe Aufgaben von Anfang bis Ende bearbeiten. Benutzer können ChatGPT nicht nur anweisen, Anfragen wie „Suchen Sie nach dem Jahresfinanzbericht“ auszuführen, sondern es kann auch intelligent Websites durchsuchen, Ergebnisse filtern, bei Bedarf Sie zur sicheren Anmeldung auffordern, Code ausführen, Analysen durchführen und sogar bearbeitbare Folien- und Tabellenkalkulationen erstellen und seine Forschungsergebnisse zusammenfassen.

Zum Beispiel können Sie ChatGPT Agent anweisen, „Nach dem Jahresintegralen Finanzbericht der Stadt San Francisco (2020 - 2024) zu suchen“:

Oder geben Sie die Eingabe „Ich bin ein Tennisfan und möchte nach Palm Springs reisen, um Tennismeisterschaften zu sehen, insbesondere während der Halbfinale und des Finals. Ich wohne in San Francisco. Bitte erstellen Sie für mich einen detaillierten dreitägigen Reiseplan, der Flugbuchungen, Hotelreservierungen, Aktivitäten (Turniere, Wanderungen, kulinarische Entdeckungen, Wellnessbehandlungen usw.) umfasst. Ich mag Wanderungen, vegane Restaurants und Wellnessbehandlungen. Mein Gesamtbudget beträgt 3.000 US-Dollar. Der Reiseplan sollte Folgendes enthalten: genaue Zeitpläne; Inhalte, Kosten und andere Details jeder Aktivität; bei Bedarf Links zur Ticketbuchung oder Reservierung“ ein und lassen Sie ChatGPT Agent einen detaillierten Reiseplan erstellen:

Der Kern dieser neuen Fähigkeit ist ein einheitliches intelligentes agentisches System. Es kombiniert die Stärken dreier früherer Durchbrüche, darunter die Website-Interaktionsfähigkeit von Operator, die Informationszusammenfassungsfähigkeit von deep research sowie die intelligente Inferenz- und Dialogfähigkeit von ChatGPT.

ChatGPT kann dank seiner eigenen virtuellen Rechenumgebung flexibel zwischen Inferenz und Ausführung wechseln und komplexe Arbeitsabläufe von Anfang bis Ende gemäß den Anweisungen des Benutzers bearbeiten. Am wichtigsten ist, dass der Benutzer immer die Kontrolle hat. ChatGPT wird vor jeder wichtigen Aktion um Ihre Genehmigung bitten, und Sie können jederzeit die Aufgabe abbrechen, den Browser übernehmen oder die Ausführung stoppen.

OpenAI hat erklärt: „Obwohl ChatGPT Agent bereits in der Lage ist, komplexe Aufgaben zu bewältigen, ist diese Veröffentlichung erst der Anfang. Wir werden kontinuierlich verbessern und regelmäßig bedeutende Verbesserungen vornehmen, um es noch leistungsfähiger und nützlicher zu machen und es für mehr Benutzer zugänglich zu machen.“

Die natürliche Evolution von Operator und Deep Research

In der Vergangenheit hatten Operator und deep research jeweils ihre eigenen einzigartigen Stärken: Operator konnte auf Webseiten scrollen, klicken und eingeben, während deep research gut darin war, Informationen zu analysieren und zusammenzufassen.

Dennoch entfalteten beide ihre maximale Wirkung in verschiedenen Szenarien und hatten Bereiche, in denen sie weniger stark waren. Operator konnte keine tiefgehende Analyse durchführen oder detaillierte Berichte schreiben, während deep research nicht in der Lage war, mit Webseiten zu interagieren, Ergebnisse weiter zu filtern oder auf Inhalte zuzugreifen, die eine Benutzeranmeldung erforderten.

OpenAI hat festgestellt, dass viele Aufgaben, die von Benutzern mit Operator bearbeitet wurden, tatsächlich besser mit deep research gelöst werden konnten. Daher beschloss es, die Stärken beider zu integrieren.

Indem OpenAI diese komplementären Fähigkeiten in ChatGPT integrierte und weitere Werkzeuge einfügte, hat es in einem Modell völlig neue Fähigkeiten freigeschaltet. Es kann jetzt aktiv mit Webseiten interagieren – klicken, filtern und präzisere und effizientere Ergebnisse sammeln. Benutzer können auch in derselben Unterhaltung nahtlos von natürlicher Kommunikation zu konkreten Handlungsanforderungen übergehen.

OpenAI hat ChatGPT Agent mit einer ganzen Reihe von Werkzeugen ausgestattet: einen visuellen Browser, der über eine grafische Benutzeroberfläche mit Webseiten interagiert, einen Textbrowser zur Bearbeitung einfacher Inferenz-basierter Webabfragen, ein Terminal (Befehlszeilenoberfläche) sowie die Möglichkeit, direkt auf APIs zuzugreifen.

Der Agent kann auch ChatGPT Connectors nutzen, um Anwendungen wie Gmail und GitHub anzuschließen, sodass ChatGPT Informationen, die sich auf Ihre Eingabe beziehen, finden und in seiner Antwort verwenden kann. Benutzer können auch den Browser übernehmen und sich auf beliebigen Websites anmelden, um es ihm zu ermöglichen, bei der Informationssuche und Aufgabenausführung tiefer und breiter vorzugehen.

Das Bereitstellen von mehreren Möglichkeiten für ChatGPT, auf Webseiteninformationen zuzugreifen und mit ihnen zu interagieren, bedeutet, dass ChatGPT Agent den optimalen Weg wählen kann, um Aufgaben so effizient wie möglich zu erledigen. Beispielsweise kann es über eine API auf Ihre Kalenderinformationen zugreifen, den Textbrowser nutzen, um große Mengen an Textinhalt effizient zu verarbeiten und gleichzeitig die Fähigkeit haben, über eine visuelle Oberfläche mit Websites zu interagieren, die für Menschen entwickelt wurden.

Alle diese Vorgänge werden auf dem eigenen virtuellen Computer von ChatGPT Agent durchgeführt. Dadurch kann die für die Aufgabe erforderliche Kontextinformation beibehalten werden, wenn mehrere Werkzeuge verwendet werden. ChatGPT Agent kann je nach Bedarf den Textbrowser oder den visuellen Browser öffnen, um Webseiten zu besuchen, Dateien von der Website herunterladen, Befehle im Terminal ausführen, um die Dateien zu verarbeiten, und dann die Ergebnisse über den visuellen Browser anzeigen. Gleichzeitig passt es seine Strategie an die Aufgabe an, um schnell, präzise und effizient zu arbeiten.

ChatGPT Agent ist für iteratives und kollaboratives Arbeiten konzipiert und ist weitaus interaktiver und flexibler als frühere Modelle. Während ChatGPT eine Aufgabe ausführt, können Benutzer jederzeit unterbrechen, die Anweisungen weiter klären, um die Aufgabe in die gewünschte Richtung zu lenken oder die Aufgabe vollständig ändern. Es wird auf der Grundlage neuer Informationen weiterarbeiten, ohne den bisherigen Fortschritt zu verlieren.

Genauso wird ChatGPT bei Bedarf aktiv nach weiteren Details vom Benutzer fragen, um sicherzustellen, dass die Aufgabe immer mit dem Ziel übereinstimmt. Wenn eine Aufgabe länger dauert als erwartet oder stockt, können Benutzer die Aufgabe anhalten, einen Fortschrittsbericht anfordern oder die Aufgabe direkt beenden und die bisherigen Teilergebnisse erhalten. Wenn Benutzer die ChatGPT-App auf ihrem Smartphone installiert haben, wird sie ihnen auch eine Benachrichtigung senden, wenn die Aufgabe abgeschlossen ist.

Ergebnisse der Benchmark-Tests: Erweiterung der Praktikabilität in der realen Welt

Die Verbesserung der Fähigkeiten von ChatGPT Agent und des dahinterliegenden Modells zeigt sich in den Spitzenleistungen in mehreren Benchmark-Tests, die die Fähigkeiten beim Webbrowsing und der Erledigung von Aufgaben in der realen Welt bewerten.

Bei der Bewertung „Humanity's Last Exam“ (dieser Test misst die Leistung von KI bei Expertenfragen in verschiedenen Bereichen) hat das Modell, das ChatGPT Agent unterstützt, einen Pass@1-Wert von 41,6 erzielt.

Da der Agent dynamisch planen und Werkzeuge aktiv auswählen kann, kann er dieselbe Aufgabe auf verschiedene Weise bearbeiten. Bei der Erweiterung durch eine einfache parallele Strategie – das gleichzeitige Ausführen von bis zu acht Versuchen und die Auswahl des Ergebnisses mit der höchsten Selbstbewertung der Zuversicht – hat der Agent seinen HLE-Score auf 44,4 verbessert.

FrontierMath ist derzeit der schwierigste bekannte mathematische Benchmark-Test, der neue und noch nicht veröffentlichte Probleme enthält und normalerweise von Mathematikern Stunden oder sogar Tage dauert, um zu lösen. Wenn er die Fähigkeit hat, Werkzeuge zu nutzen (z. B. Zugang zu einem Terminal, um Code auszuführen), erreicht ChatGPT Agent in diesem Test eine Genauigkeit von 27,4 %, was weit über allen bisherigen Modellen liegt.

OpenAI hat das Modell auch anhand eines Benchmark-Tests bewertet, der komplexe reale Aufgaben simuliert. In einem internen Benchmark, der die Leistung des Modells bei komplexen, wirtschaftlich wertvollen wissensbasierten Arbeitsaufgaben misst, ist die Ausgabe von ChatGPT Agent in etwa der Hälfte der Fälle mit der menschlichen Leistung vergleichbar oder sogar besser, und die Aufgabenzeit variiert. Es ist deutlich besser als das von o3 und o4-mini.

Im DSBench-Benchmark-Test, der die Leistung eines Agenten bei realen Datenwissenschaftsaufgaben, die Datenanalyse und -modellierung umfassen, bewertet, hat ChatGPT Agent die durchschnittliche menschliche Leistung deutlich übertroffen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade eben ist der universelle KI-Agent von OpenAI, ChatGPT Agent, offiziell aufgetreten.

Die natürliche Evolution von Operator und Deep Research

Ergebnisse der Benchmark-Tests: Erweiterung der Praktikabilität in der realen Welt