Sequoia Capital interviewt das OpenAI-Team: Erstmalige Enthüllung der Geheimnisse hinter der Entwicklung von ChatGPT Agent
Am 23. Juli wurde berichtet, dass Sequoia Capital kürzlich ein Dialoggespräch veranstaltet hat, in dem es sich mit Mitgliedern des OpenAI ChatGPT Agent-Teams eingehend über die technologischen Innovationen und das zukünftige Potenzial dieses Agenten unterhalten hat. Das Gespräch wurde von zwei Partnern von Sequoia Capital, Sonya Huang und Lauren Reeder, gemeinsam moderiert. Teilnehmer waren Isa Fulford, Casey Chu und Edward Sun aus dem OpenAI-Team, die an der Veröffentlichung von ChatGPT Agent beteiligt waren.
Im Verlauf dieses Dialogs haben sie die Entwicklung von ChatGPT Agent erzählt und diskutiert, wie dieser Agent die Stärken von Deep Research und Operator kombiniert, um Aufgaben aus verschiedenen Bereichen effizient auszuführen. Sie haben auch über die Sicherheitsmaßnahmen von ChatGPT Agent und seine breiten Anwendungsmöglichkeiten gesprochen.
Nach den Vorstellungen von OpenAI wird ChatGPT Agent über eine stärkere Fähigkeit zur unabhängigen Urteilsbildung verfügen. Er wird in der Lage sein, auf Basis der Gewohnheiten und Bedürfnisse jedes Benutzers maßgeschneiderte Dienstleistungen anzubieten und verschiedene Kommunikationsformen wie Sprache, Text und Bilder zu unterstützen. In Zukunft plant OpenAI, einen universellen Super-Intelligenten Agenten zu entwickeln, der fast alle Aufgaben, die Menschen auf einem Computer ausführen, bewältigen kann.
Im Folgenden die gekürzte Version des Dialogs:
Moderator: Heute werden wir mit Isa Fulford, Casey Chu und Edward Sun aus dem OpenAI-Team über die Entwicklung von AI-Agenten sprechen. Sie haben den neuen ChatGPT Agent entwickelt. Können Sie uns bitte seine Kernfunktionen und die bedeutenden Durchbrüche erläutern?
Fulford: Vielen Dank für die Einladung zu diesem Gespräch. ChatGPT Agent ist das Ergebnis der Zusammenarbeit zwischen den Teams von Deep Research und Operator. Dieser AI-Agent kann komplexe, mehrstufige Aufgaben ausführen, die bis zu einer Stunde dauern können. Wir haben ihm eine virtuelle Computerenvironment zur Verfügung gestellt, die Funktionen wie Text-Browsing, visuelles Browsing, Terminalzugang und API-Integration umfasst. Alle diese Tools teilen denselben Zustand, ähnlich wie bei Menschen, wenn mehrere Anwendungen auf einem Computer das Dateisystem teilen.
Diese Konstruktion ermöglicht es ChatGPT Agent, verschiedene komplexe Aufgaben flexibel zu bewältigen und verbessert seine Effizienz und Fähigkeiten erheblich. Wir sind besonders zufrieden mit seiner Leistung in mehrfachen Dialogrunden. Er kann Aufgaben kontinuierlich bearbeiten und sich ständig verbessern. In Zukunft möchten wir die Personalisierung und die Gedächtnisfunktion weiter verbessern, damit ChatGPT Agent Aufgaben ausführen kann, ohne dass der Benutzer sie initiieren muss.
1 Entstehung und Entwicklung
Moderator: Können Sie uns die Ursprungsgeschichte dieses Projekts erzählen? Wie hat es begonnen?
Casey Chu: Dieses Projekt ist aus der Kombination von zwei Produkten, Deep Research und Operator, entstanden. Im Januar 2025 haben wir Operator veröffentlicht, der Internetaufgaben wie Online-Einkäufe ausführen kann.
Zwei Wochen später haben wir Deep Research vorgestellt, das sich auf das Browsing und die Zusammenfassung von Informationen im Internet konzentriert und detaillierte Forschungsberichte mit Zitaten erstellt. Bei der Planung der zukünftigen Entwicklung haben wir festgestellt, dass diese beiden Produkte komplementär zueinander sind.
Operator ist gut darin, visuelle Interaktionen zu handhaben, wie z.B. das Klicken auf Webseitenelemente, während Deep Research besser darin ist, Texte zu verarbeiten, wie z.B. das Lesen langer Artikel. Die Benutzerfeedback hat gezeigt, dass sie möchten, dass Deep Research auf kostenpflichtigen Inhalt zugreifen kann, was Operator bereits kann. Daher war die Kombination der beiden Produkte eine naheliegende Wahl.
Edward Sun: Unser Team hat durch die Vereinheitlichung der Architekturen von Deep Research und Operator einen großen Sprung in der Leistung erzielt. Alle Tools teilen denselben Zustand, und Benutzer können nahtlos zwischen Textanalyse, visuellem Browsing und Codeausführung wechseln. Wir haben keine vordefinierten Nutzungsmuster für die Tools programmiert, sondern haben stattdessen durch verstärktes Lernen ermöglicht, dass das Modell in Tausenden von virtuellen Maschinen die besten Strategien selbst entdeckt.
Diese Methode ermöglicht es ChatGPT Agent, mehrere Stunden lang mit Benutzern zusammenzuarbeiten, Klärungsfragen zu stellen und Korrekturen während der Aufgabe zu akzeptieren, was die Interaktionsmöglichkeiten mit AI-Intelligenten Agenten erheblich erweitert. Wir haben auch Herausforderungen wie Sicherheit und Aufgabenkomplexität zu bewältigen. Beispielsweise ist die Datumsauswahl für AI immer noch eine schwierige Aufgabe. Ein kleines Team hat durch sorgfältige Datenselektion einen Durchbruch erzielt, was zeigt, dass die Entwicklung von AI in eine neue Phase eingetreten ist, in der Produkterkenntnisse genauso wichtig sind wie Rechenleistung.
Fulford: ChatGPT Agent kann komplexe Aufgaben ausführen, die für Menschen viel Zeit in Anspruch nehmen würden. Wir haben ihm eine virtuelle Computerenvironment mit verschiedenen Tools zur Verfügung gestellt: einen Textbrowser (ähnlich dem Deep Research-Tool), um effizient Online-Informationen zu erhalten; einen visuellen Browser (ähnlich dem Operator-Tool), der mit grafischen Benutzeroberflächen interagieren kann und Aktionen wie Klicken, Formularausfüllen, Scrollen und Ziehen unterstützt; sowie ein Terminaltool, um Code auszuführen, Dateien zu analysieren und Produkte wie Tabellenkalkulationen oder Präsentationen zu generieren.
Darüber hinaus kann ChatGPT Agent über API-Integration auf Dienste wie GitHub, Google Drive und SharePoint zugreifen. Alle Tools teilen denselben Zustand, ähnlich wie Anwendungen auf einem menschlichen Computer das Dateisystem teilen. Diese Konstruktion ermöglicht es ChatGPT Agent, flexibel auf komplexe Aufgaben zu reagieren und den Benutzern starke Unterstützung zu bieten.
Moderator: Können Sie uns ausführlicher über den Prozess der Kombination erzählen? Wie gelingt es, das Ergebnis von "1 + 1 > 2" zu erzielen?
Casey Chu: Unser Team hat Operator und Deep Research separat entwickelt. Operator ist gut darin, visuelle Interaktionen zu handhaben, wie z.B. das Klicken auf Webseiten oder das Ausfüllen von Formularen, aber schlecht darin, lange Artikel zu lesen. Deep Research hingegen ist gut darin, Texte effizient zu durchsuchen und zusammenzufassen, hat aber Schwierigkeiten, interaktive visuelle Elemente zu verarbeiten. Wir haben bemerkt, dass Benutzer auf Operator versuchen, Aufgaben vom Deep Research-Typ auszuführen, wie z.B. "Reisen recherchieren und dann buchen".
Daher war die Kombination der beiden Produkte eine natürliche Wahl. Wir haben nicht nur diese beiden Tools integriert, sondern auch ein Terminaltool, ein Bildgenerierungstool und API-Aufruf-Funktionen hinzugefügt, damit ChatGPT Agent eine breitere Palette von Aufgaben ausführen kann. Beispielsweise kann das Terminaltool Befehle ausführen, um Berechnungen durchzuführen, das Bildgenerierungstool kann visuelle Elemente für Präsentationen hinzufügen, und API-Aufrufe können PowerPoint-Präsentationen generieren.
Edward Sun: Diese Kombination hat die Fähigkeiten von ChatGPT Agent erheblich verbessert. Beispielsweise kann er mit dem Textbrowser effizient Informationen suchen, dann zum visuellen Browser wechseln, um Bilder oder interaktive Elemente zu betrachten, und sogar im Terminal Code ausführen, um Produkte zu generieren. Alle Tools teilen denselben Zustand, sodass ChatGPT Agent wie ein Mensch nahtlos zwischen verschiedenen Anwendungen wechseln kann.
Unser Teammitglied Eric hat die Anweisungen von Benutzern auf Operator analysiert und festgestellt, dass viele Aufgaben Bedürfnisse vom Deep Research-Typ beinhalten, wie z.B. "Reisen recherchieren und dann buchen", was die Notwendigkeit der Kombination weiter bestätigt.
2 Fähigkeiten in verschiedenen Szenarien
Moderator: Welche konkreten Anwendungsszenarien hat ChatGPT Agent? Wie können Benutzer ihn nutzen?
Fulford: Wir haben bewusst einen offenen Agenten namens "ChatGPT Agent" entwickelt, um Benutzer zu ermutigen, sein Potenzial zu erkunden. Wir haben ihn trainiert, um Aufgaben von Deep Research auszuführen, wie z.B. die Erstellung detaillierter Berichte; Operator-Aufgaben, wie z.B. das Buche