StartseiteArtikel

Erste Offenlegung von Kernmitgliedern von OpenAI: Wie haben wir ChatGPT Agent entwickelt?

36氪的朋友们2025-07-24 13:06
OpenAI hat den multimodalen ChatGPT Agenten vorgestellt, der durch verstärkendes Lernen angetrieben wird und 1-Stunden-Langzeitaufgaben sowie sichere Interaktionen unterstützt.
  1. ChatGPT Agent ist eine Integration von Deep Research und Operator. Es vereint die Fähigkeiten zur Textverstehung und visuellen Interaktion und kann verschiedene Arten von Aufgaben ausführen, von Webbrowsing bis hin zum Ausführen von Code, was die Fähigkeit zur multimodalen kooperativen Verarbeitung zeigt.
  2. Die Kernmethode für seine Training ist Reinforcement Learning. Durch ein Belohnungssystem für Aufgaben lernt das Modell selbständig Strategien für die Verwendung von Tools, was die Beschränkungen der "vorgegebenen Aktionsprogrammierung" überwindet und es ihm ermöglicht, eine hohe Dateneffizienz und Aufgabenverallgemeinerungsfähigkeit zu erreichen.
  3. ChatGPT Agent kann Aufgaben, die bis zu einer Stunde dauern, ausführen und unterstützt mehrstufige Dialoge und die Anpassung durch die Interaktion mit dem Benutzer. Beispielsweise kann es Finanzberichtsmodelle erstellen, Forschungsberichte schreiben oder nach Waren suchen, was ein neues Paradigma für die Zusammenarbeit zwischen KI und Menschen darstellt.
  4. Das Entwicklungsteam ist klein aber effizient. Forschung und Technik sind tief integriert, und es findet eine interfunktionelle Zusammenarbeit und schnelle Iteration um die Benutzeranwendungsfälle herum statt. Dies ist ein typisches Beispiel für die Integration von Technik und Produkt bei OpenAI.
  5. Um die Sicherheit zu gewährleisten, hat OpenAI mehrere Schutzschichten implementiert: Tests durch rote Teams, Echtzeitüberwachung des Verhaltens, ein Mechanismus zur Berechtigungsbestätigung usw., um zu verhindern, dass das Modell schädliche Aktionen ausführt oder missbraucht wird.
  6. OpenAI strebt danach, einen universellen Superintelligenten Agenten zu schaffen, der fast alle Aufgaben ausführen kann, die Menschen auf einem Computer erledigen.

Nachrichten vom 23. Juli: Das Sequoia Capital hat kürzlich ein Dialogereignis veranstaltet, um mit Mitgliedern des OpenAI ChatGPT Agent-Teams über seine technologischen Innovationen und zukünftiges Potenzial zu diskutieren. Der Dialog wurde von zwei Partnern des Sequoia Capital, Sonya Huang und Lauren Reeder, moderiert. Mitglieder des OpenAI-Teams, die an der Veröffentlichung von ChatGPT Agent beteiligt waren, wie Isa Fulford, Casey Chu und Edward Sun, nahmen teil.

Bei diesem Dialog teilten sie die Entwicklung von ChatGPT Agent mit und diskutierten, wie ChatGPT Agent die Stärken von Deep Research und Operator kombiniert, um Aufgaben über verschiedene Bereiche hinweg effizient auszuführen. Sie sprachen auch über die Sicherheitsmaßnahmen von ChatGPT Agent und seine breiten Anwendungsgebiete.

Nach den Vorstellungen von OpenAI wird ChatGPT Agent eine stärkere Fähigkeit zur unabhängigen Urteilsbildung haben und kann benutzerdefinierte Dienste basierend auf den Gewohnheiten und Bedürfnissen jedes Benutzers anbieten. Es wird auch verschiedene Kommunikationsformen wie Sprache, Text und Bilder unterstützen. In Zukunft wird OpenAI einen universellen Superintelligenten Agenten schaffen, der fast alle Aufgaben ausführen kann, die Menschen auf einem Computer erledigen.

Im Folgenden die gekürzte Version des Dialogs:

Moderator: Heute werden wir mit Isa Fulford, Casey Chu und Edward Sun aus dem OpenAI-Team über die Entwicklung von KI-Agenten sprechen. Sie haben den neuen ChatGPT Agent entwickelt. Bitte stellen Sie seine Kernfunktionen und bedeutenden Durchbrüche vor.

Fulford: Vielen Dank für die Einladung. ChatGPT Agent ist das Ergebnis der Zusammenarbeit zwischen den Teams von Deep Research und Operator. Dieser KI-Agent kann komplexe, mehrstufige Aufgaben ausführen, die bis zu einer Stunde dauern können. Wir haben ihm eine virtuelle Computerumgebung gegeben, die Funktionen wie Textbrowsing, visuelles Browsing, Terminalzugang und API-Integration enthält. Alle diese Tools teilen den Zustand, ähnlich wie mehrere Anwendungen auf einem menschlichen Computer das Dateisystem teilen.

Diese Gestaltung ermöglicht es ChatGPT Agent, verschiedene komplexe Aufgaben flexibel zu bearbeiten und verbessert seine Effizienz und Fähigkeiten erheblich. Wir sind besonders zufrieden mit seiner Leistung in mehrstufigen Dialogen. Es kann Aufgaben kontinuierlich bearbeiten und sich ständig verbessern. In Zukunft möchten wir die Personalisierung und Gedächtnisfunktionen weiter verbessern, damit ChatGPT Agent Aufgaben ausführen kann, ohne dass der Benutzer sie initiieren muss.

01 Entstehung und Entwicklung

Moderator: Können Sie die Ursprungsgeschichte dieses Projekts erzählen? Wie hat es begonnen?

Casey Chu: Dieses Projekt entstand aus der Kombination von zwei Produkten, Deep Research und Operator. Im Januar 2025 veröffentlichten wir Operator, der Internetaufgaben wie Online-Shopping ausführen kann.

Zwei Wochen später stellten wir Deep Research vor, das sich auf das Browsing und die Synthese von Internetinformationen konzentriert und detaillierte Forschungsberichte mit Zitaten erstellt. Bei der Planung der zukünftigen Entwicklung erkannten wir, dass diese beiden Produkte einander ergänzen können.

Operator ist gut darin, visuelle Interaktionen zu handhaben, wie z.B. das Klicken auf Webseitenelemente, während Deep Research besser darin ist, Texteinformationen zu verarbeiten, wie z.B. das Lesen von langen Artikeln. Die Benutzerfeedback zeigte, dass sie möchten, dass Deep Research auf kostenpflichtigen Inhalten zugreifen kann, was Operator bereits kann. Daher war die Kombination beider Produkte eine natürliche Wahl.

Edward Sun: Unser Team hat durch die Vereinheitlichung der Architekturen von Deep Research und Operator einen großen Sprung in der Fähigkeit erzielt. Alle Tools teilen den Zustand, und die Benutzer können nahtlos zwischen Textanalyse, visuellem Browsing und Codeausführung wechseln. Wir haben keine vorgegebenen Nutzungsmuster für die Tools programmiert, sondern lassen das Modell durch Reinforcement Learning auf Tausenden von virtuellen Maschinen die besten Strategien selbst entdecken.

Diese Methode ermöglicht es ChatGPT Agent, stundenlang mit Benutzern zusammenzuarbeiten, Klärungsfragen zu stellen und Korrekturen in den Aufgaben zu akzeptieren, was die Interaktionsmöglichkeiten mit dem KI-Agenten erheblich erweitert. Wir mussten auch Herausforderungen wie Sicherheit und Aufgabenkomplexität bewältigen. Beispielsweise ist die Datumsauswahl für die KI immer noch ein Problem. Ein kleines Team hat durch sorgfältige Datenselektion einen Durchbruch erzielt, was zeigt, dass die Entwicklung der KI in eine neue Phase eintritt, in der Produktkenntnisse genauso wichtig sind wie Rechenleistung.

Fulford: ChatGPT Agent kann komplexe Aufgaben ausführen, die für Menschen viel Zeit in Anspruch nehmen. Wir haben ihm eine virtuelle Computerumgebung gegeben, die verschiedene Tools enthält: Einen Textbrowser (ähnlich dem Deep Research-Tool), um effizient Online-Informationen zu erhalten; einen visuellen Browser (ähnlich dem Operator-Tool), der mit grafischen Benutzeroberflächen interagieren kann und Aktionen wie Klicken, Eingeben in Formulare, Scrollen und Ziehen unterstützt; sowie ein Terminaltool, um Code auszuführen, Dateien zu analysieren, Tabellenkalkulationen oder Präsentationen zu erstellen.

Darüber hinaus kann ChatGPT Agent über API-Integration auf Dienste wie GitHub, Google Drive und SharePoint zugreifen. Alle Tools teilen den Zustand, ähnlich wie Anwendungen auf einem menschlichen Computer das Dateisystem teilen. Diese Gestaltung ermöglicht es ChatGPT Agent, flexibel auf komplexe Aufgaben zu reagieren und den Benutzern starke Unterstützung zu bieten.

Moderator: Können Sie den Prozess der Kombination ausführlicher beschreiben? Wie wurde das Ergebnis von "1 + 1 > 2" erreicht?

Casey Chu: Unser Team hat Operator und Deep Research getrennt entwickelt. Operator ist gut darin, visuelle Interaktionen zu handhaben, wie z.B. das Klicken oder Ausfüllen von Formularen auf Webseiten, aber schlecht darin, lange Artikel zu lesen. Deep Research ist gut darin, Texteinformationen effizient zu browsen und zu synthetisieren, aber hat Schwierigkeiten, stark interaktive visuelle Elemente zu handhaben. Wir bemerkten, dass Benutzer auf Operator Aufgaben vom Deep Research-Typ versuchten, wie z.B. "Reise recherchieren und dann buchen".

Daher war die Kombination beider Produkte eine natürliche Wahl. Wir haben nicht nur diese beiden Tools integriert, sondern auch ein Terminaltool, ein Bildgenerierungstool und API-Aufrufe hinzugefügt, damit ChatGPT Agent eine breitere Palette von Aufgaben ausführen kann. Beispielsweise kann das Terminaltool Befehle ausführen, um Berechnungen durchzuführen, das Bildgenerierungstool kann visuelle Elemente zu einer Präsentation hinzufügen, und API-Aufrufe können eine PowerPoint-Präsentation generieren.

Edward Sun: Diese Kombination hat die Fähigkeiten von ChatGPT Agent erheblich verbessert. Beispielsweise kann es mit dem Textbrowser effizient Informationen suchen, dann zum visuellen Browser wechseln, um Bilder oder interaktive Elemente anzusehen, und sogar Code im Terminal ausführen, um Ergebnisse zu generieren. Alle Tools teilen den Zustand, was es ChatGPT Agent ermöglicht, nahtlos zwischen verschiedenen Anwendungen zu operieren, wie ein Mensch es würde.

Unser Teammitglied Eric analysierte die Benutzeranfragen auf Operator und stellte fest, dass viele Aufgaben Anforderungen vom Deep Research-Typ enthielten, wie z.B. "Reise recherchieren und dann buchen", was die Notwendigkeit der Kombination weiter bestätigte.

02 Fähigkeiten in verschiedenen Szenarien

Moderator: Welche konkreten Anwendungsgebiete hat ChatGPT Agent? Wie können Benutzer es nutzen?

Fulford: Wir haben absichtlich einen offenen Agenten namens "ChatGPT Agent" entworfen, um die Benutzer anzuregen, sein Potenzial zu erkunden. Wir haben es trainiert, Aufgaben vom Deep Research-Typ auszuführen, wie z.B. die Erstellung von detaillierten Berichten; Aufgaben vom Operator-Typ, wie z.B. das Buche von Flügen oder Online-Shopping; sowie Datenanalyseaufgaben, wie z.B. das Erstellen von Tabellenkalkulationen oder Präsentationen. Seine Flexibilität lässt uns erwarten, dass die Benutzer noch viele unvorhergesehene Anwendungen finden werden.

Beispielsweise entdeckten Benutzer von Deep Research unerwartet eine Codesuchefunktion. Wir hoffen, dass ChatGPT Agent sowohl in Verbraucher- als auch in Unternehmensszenarien nützlich sein wird, z.B. indem es professionellen Benutzern hilft, detaillierte Berichte zu erstellen oder privaten Benutzern bei der Planung von Aktivitäten unterstützt. Es kann sowohl für Verbraucher, die 30 Minuten auf einen detaillierten Bericht warten, als auch für Unternehmensbenutzer, die es in ihrer Arbeit nutzen, eingesetzt werden.

Casey Chu: Ich nutze es persönlich, um Daten in Google Docs zu verarbeiten und Präsentationen zur Darstellung der Daten zu erstellen. Ein weiteres interessantes Beispiel ist, dass ich es benutze, um die neuesten Entwicklungen im Bereich der alten DNA zu recherchieren. Da die Informationen in diesem Bereich verteilt sind und es keine umfassenden Referenzmaterialien gibt, kann ChatGPT Agent Informationen aus dem Internet sammeln und in Berichte oder Präsentationen zusammenfassen, was meine Arbeit erheblich vereinfacht.

Edward Sun: Ich nutze es für Online-Shopping, insbesondere in Szenarien, die visuelles Browsing erfordern, wie z.B. das Ansehen von Warenbildern oder das Auswählen von Stilen über Suchfilter. Es ist auch sehr nützlich bei der Planung von Aktivitäten, wie z.B. der Organisation von Reisen oder Veranstaltungen. Meine Lieblings-Shoppingaufgabe ist das Kauf von Kleidung, da viele Websites einen visuellen Browser benötigen, um Suchfilter zu verarbeiten oder das Aussehen der Waren anzusehen.

Moderator: Sie haben zuvor ein sehr cooles Beispiel gezeigt. Können Sie es teilen?

Fulford: Natürlich! Ein Kollege hat ChatGPT Agent aufgefordert, den Wert von OpenAI basierend auf Internetinformationen zu schätzen und ein Finanzmodell zu erstellen, einschließlich einer Tabellenkalkulation, einer Zusammenfassungsanalyse und einer Präsentation der Ergebnisse. Diese Aufgabe dauerte 28 Minuten und zeigt seine Fähigkeit, langwierige Aufgaben auszuführen. Die Vorhersagen von ChatGPT Agent waren ziemlich mutig, und die Qualität der Präsentation war beeindruckend!

Casey Chu: Dieses Beispiel eröffnet ein neues Paradigma: Der Benutzer gibt eine Aufgabe an und kann dann gehen. ChatGPT Agent liefert nach einer gewissen Zeit einen detaillierten Bericht zurück. Mit zunehmender Autonomie von ChatGPT Agent können die Aufgabenzeiten möglicherweise noch länger werden. Dies ist ein gutes Beispiel dafür.

Moderator: 28 Minuten ist schon lange! Haben Sie noch längere Aufgaben? Wie stellen Sie sicher, dass ChatGPT Agent über einen langen Zeitraum hinweg nicht vom Kurs abkommt?

Edward Sun: Ich habe kürzlich eine Aufgabe von einer Stunde Dauer ausgeführt, was möglicherweise die längste Aufgabe ist, die wir bisher gesehen haben. Um die Stabilität zu gewährleisten, haben wir Tools entwickelt, um die Kontextlänge von ChatGPT Agent zu erweitern, damit es den Fortschritt der Aufgabe aufzeichnet und komplexe Aufgaben schrittweise erledigen kann.

Darüber hinaus haben wir einen flexiblen Mechanismus für die Mensch-Maschine-Interaktion entworfen, damit der Benutzer ChatGPT Agent jederzeit korrigieren, zusätzliche Anweisungen geben oder einen Statusupdate anfordern kann. Beispielsweise kann der Benutzer es bitten, den aktuellen Fortschritt zusammenzufassen oder zusätzliche Anweisungen geben, wie z.B. "Ich möchte nur blaue Turnschuhe".

Fulford: Dieser Kooperationsmodell imitiert die Art und Weise, wie Menschen über Slack kommunizieren. ChatGPT Agent fragt bei Bedarf um Berechtigungen oder Klärungen, z.B. wenn es zerstörerische Aktionen ausführt oder sich anmelden muss, um die Zustimmung des Benutzers einzuholen.

Unser Interface ermöglicht es auch dem Benutzer, die Aktionen von ChatGPT Agent in Echtzeit zu überwachen und sogar nach Abschluss der Aufgabe die virtuelle Computerumgebung zu übernehmen, z.B. um sich bei einem Konto anzumelden oder Kreditkartendaten einzugeben. Dieses "Beobachten des Vorgehens eines Kollegen und Übernehmen der Aufgabe bei Bedarf" ist sehr intuitiv und verstärkt das Kontrollgefühl des Benutzers gegenüber ChatGPT Agent.

03 Training und Durchbrüche

Moderator: Technisch gesehen, wie wird ChatGPT Agent trainiert?

Casey Chu: Wir verwenden die Reinforcement Learning (RL)-Technik und bieten es in einer virtuellen Maschinenumgebung mit Textbrowsern, GUI-Browsern, Terminalen und Bildgenerierungstools usw.

Wir haben komplexe Aufgaben entworfen, damit ChatGPT Agent durch Experimentieren die besten Strategien für die Toolnutzung entdeckt und es basierend auf der Qualität und Effizienz der Aufgabenbewältigung belohnt wird. Beispielsweise kann ChatGPT