Kürzlich hat OpenAI seinen eigenen Agenten-Modus, den Manus Style, veröffentlicht.
Es ist ein Konsens, dass das große Thema der KI in diesem Jahr Agenten ist.
Wenn wir uns in der Vergangenheit an das "Reden" der KI gewöhnt haben, dann beginnt nun die Ära des "Tuns" der KI. Schließlich, wenn die KI verstehen und intelligent genug ist, warum sollte sie nicht auch die Aufgaben direkt erledigen können?
Am Anfang der zweiten Jahreshälfte 2025 hat OpenAI, das immer wieder die KI neu definiert, plötzlich ihre Antwort in Form von Agenten präsentiert. Interessanterweise sieht es auf den ersten Blick erstaunlich ähnlich aus wie das vor einigen Monaten hochpopularisierte Manus - Modell.
Am frühen Morgen des 18. Juli haben Sam Altman und vier OpenAI - Forscher in einer Live - Übertragung das kommende Agenten - Modell von OpenAI vorgestellt.
Einfach ausgedrückt, im Agenten - Modus können Sie ChatGPT direkt Anforderungen stellen: "Ich fehlt ein Paar Schuhe für die Hochzeit, kauf sie mir auf einer E - Commerce - Plattform"; oder "Entwerfe mir ein Haustier - Zubehör und bestelle es direkt zum Druck"; "Sammle Informationen und erstelle direkt eine Präsentation". Dann wird ChatGPT eine virtuelle Maschine öffnen und Schritt für Schritt vorgehen.
In der Demonstration brauchte es für eine komplexe Aufgabe etwa 10 Minuten. Aber das Ergebnis war sehr gut. ChatGPT kann im virtuellen Umfeld einen Text - Browser, einen visuellen Browser und ein Terminal aufrufen. Über das Terminal kann es auch Cloud - Dienst - APIs, Bildgeneratoren aufrufen und Code ausführen.
Am wichtigsten ist, dass OpenAI diesmal nicht mehr nur Pro - Benutzer bevorzugt. Auch Plus - und Team - Benutzer können es bald nutzen und haben monatlich 40 Nutzungen zur Verfügung. Reicht für alle Bedürfnisse.
Mit seinem charakteristischen ehrlichen Blick sagte Sam Altman in Richtung des Bildschirms: "Dies ist ein neues Paradigma. So wie wir gelernt haben, im Internet zu surfen und schließlich auch, wie man Betrugsinformationen erkennt, muss jetzt die ganze Gesellschaft lernen, wie man sicher mit Agenten interagiert und koexistiert."
01 Was kann das Agenten - Modus tun?
Wer direkt die Demonstration des Agenten - Modus von OpenAI ansieht, wird feststellen, dass die intuitive Erfahrung stark mit dem vor einigen Monaten hochpopularisierten Manus übereinstimmt.
Nachdem der Benutzer eine Anforderung gestellt hat, wird automatisch eine virtuelle Maschine gestartet, um einige Aufgaben auszuführen. Während des Ausführungsvorgangs wird der Agent wiederholt um Bestätigung des Benutzers bitten und es ist jederzeit möglich, die Kontrolle manuell zu übernehmen. Gleichzeitig kann der Benutzer auch neue Anforderungen einfügen und in Echtzeit interagieren.
In der OpenAI - Präsentation kann das Agenten - Modus drei Werkzeuge aufrufen: einen Text - Browser, einen visuellen Browser und ein Terminal. Das Modell kann selbständig zwischen den verschiedenen Werkzeugen wechseln.
Das Design dieser Werkzeugkombination ist sehr raffiniert: Der Text - Browser ist für das umfangreiche Durchsuchen von Texten und das Suchen nach Informationen zuständig, während der visuelle Browser nach der Lokalisierung der Informationen direkt einige Maus - und Tastaturinteraktionen simuliert oder zur Lesung von Bildinformationen verwendet wird.
Das Terminal kann Code ausführen, Dateien wie Präsentationen und Tabellen erstellen und einige Cloud - APIs aufrufen.
In der ersten Demonstration von OpenAI hat ein Forscher die Planung für die Teilnahme an der Hochzeit eines Freundes gefordert, einschließlich der Auswahl eines Anzugs, der den Kleiderrichtlinien entspricht (unter Berücksichtigung des Ortes, des Wetters und eines mittleren bis höheren Preissegments), der Buchung eines Hotels und der Vorschläge für Geschenke.
Der Forscher hat zunächst in ChatGPT auf den Agenten - Modus umgeschaltet und die obigen Anforderungen gesendet. Der Agent hat den virtuellen Computer gestartet und die Umgebung geladen (etwa einige Sekunden).
Dann hat ChatGPT zunächst den Text - Browser verwendet, um die vom Benutzer gegebene Website zu öffnen und Informationen über die Hochzeit, die Kleiderrichtlinien, das Wetter usw. zu suchen. Als es feststellte, dass das Hochzeitstermin noch zu bestätigen war, hat das Modell auch um Klarstellung gebeten, aber der Benutzer hat es entschieden, dass es selbst weiterdenken sollte.
Nachdem es die Wetter - und Ortsinformationen gefunden hatte, hat die KI geeignete Anzüge empfohlen und auf den visuellen Browser umgeschaltet, um die Wirkung der Anzüge zu prüfen. Nach Abschluss dieser Aufgabe hat es weiter nach Hotels und Geschenken gesucht.
Man kann sehen, dass der abschließende Reisebericht für die Hochzeit sehr lang und detailliert war, der Kleidung, Hotel und Geschenke umfasste. Es waren sogar sehr viele Links beigefügt, und bei der Abfrage der Hotelverfügbarkeit war sogar ein Screenshot der Online - Buchungswebsite beigefügt.
Um einen solchen Bericht zu erstellen, hat die KI nur zehn Minuten gebraucht. Im Vergleich zu unserem gewohnten Fragen - und - Antwort - Format scheint es viel länger zu dauern, aber im Vergleich zur tatsächlichen Arbeitsmenge ist die KI den Menschen weitaus effizienter.
Wenn die erste Demonstration eher die Forschungskapazität zeigt, zeigt die andere Demonstration direkt die Handlungsfähigkeit.
Ein Forscher hat gefordert, dass für das Team - Maskottchen (ein süßer Hund mit dem Spitznamen Bernie) ein Satz Notizbuch - Aufkleber erstellt und 500 Stück bestellt werden sollen.
Der Agent hat direkt die Terminal - Funktion genutzt, um ein Bildgenerierungs - Werkzeug (Image Gen API) aufzurufen und ein animiertes Bild des Hundes als Design für die Aufkleber zu erstellen.
Dann hat der Agent den Browser geöffnet, die Website Sticker Mule besucht, das entworfene Bild hochgeladen, die Anzahl und Größe der Aufkleber eingegeben und die Ware in den Warenkorb gelegt.
Abschließend hat es den Benutzer gefragt, ob er dieses Bild verwenden möchte, ob er die Bestellung fortsetzen möchte und ob er selbst die Kreditkartendaten eingeben möchte oder es dem Agenten überlassen möchte.
Die Aufgabe blieb beim Eingeben der Kreditkartendaten des Benutzers stehen und dauerte sieben Minuten.
Mit derselben Fähigkeit hat der Agent auch die Google Drive API (ähnlich wie ein Cloud - Speicher in China) verbunden, nach dem Lesen von Dateien eine Präsentation erstellt.
Es hat den Spielplan einer Saison recherchiert und eine detaillierte Reise - Tabellenkalkulation sowie eine Reise - Anleitung mit markierter Karte erstellt. Diese Aufgabe war komplexer und der Agent hat etwa 25 Minuten benötigt, um sie abzuschließen.
02 Leichtfertig: Die Fähigkeiten der KI haben sich verbessert
Das neue Agenten - Modus von OpenAI ist eigentlich keine völlig neue Innovation, sondern eine Kombination von zwei Werkzeugen, die OpenAI im ersten Halbjahr dieses Jahres vorgestellt hat: Operator und Deep Research.
Operator war ursprünglich ein Browser - Agenten - Werkzeug, das nur Pro - Benutzern zur Verfügung stand und in der Lage war, grafische Bedienoberflächen zu analysieren und bestimmte Aktionen auszuführen.
Deep Research ist ein Analysewerkzeug für tiefergehende Forschungen, das viele Webseiten lesen und direkt einen Forschungsbericht erstellen kann.
OpenAI hat festgestellt, dass während der Einführung der beiden Werkzeuge viele Benutzer von Operator tatsächlich Aufgaben wie "Reise planen und buchen" gestellt haben, die eher in den Bereich von Deep Research fallen. Andererseits haben Benutzer von Deep Research dringend die Fähigkeit zur "Anmeldung auf Webseiten und Zugang zu geschützten Ressourcen" gefordert, was Operator bereits lange können kann. Deshalb hat das Team beschlossen, die beiden Produkte zu fusionieren.
Dies entspricht auch der Teamkultur von OpenAI, wie es von einem kürzlich entlassenen OpenAI - Ingenieur preisgegeben wurde: Innerhalb von OpenAI wird die Eigeninitiative der Ingenieure sehr geschätzt. Oft werden mehrere ähnliche Projekte gleichzeitig vorangetrieben, und wer will, kann vorankommen.
Die Fusion von Operator und Deep Research scheint sehr erfolgreich zu sein. Zwei Agenten - Projekte, die aus verschiedenen Perspektiven vorangetrieben wurden, haben schließlich eine wunderbare chemische Reaktion ausgelöst und die Ineffizienz beim Lesen von Textdokumenten nur über die grafische Benutzeroberfläche des Browsers vermieden, so dass die Zeit zur Erstellung eines tiefgehenden Berichts nicht mehr so lang ist.
OpenAI hat auch erwähnt, wie man das Modell trainiert, nachdem man es mit mehreren Werkzeugen ausgestattet hat.
Es wird immer noch die verstärkte Lernmethode verwendet. Anfangs wird das Modell "klobig" versuchen, alle Werkzeuge zu verwenden, um ein relativ einfaches Problem zu lösen. Das heißt, es kann zunächst nicht beurteilen, welches Werkzeug am besten geeignet ist.
Indem man es für effizientere und vernünftigere Verhaltensweisen belohnt, kann das Modell allmählich lernen, wie man diese Werkzeuge verwendet und in welchen Situationen welches Werkzeug am besten geeignet ist.
Wenn es um die Erstellung kreativer Werke geht, wird es zunächst öffentliche Ressourcen durchsuchen, dann mit dem Terminal Code schreiben und das Werk kompilieren und schließlich den visuellen Browser verwenden, um das Ergebnis zu überprüfen.
Unter vielen Demos hat OpenAI auch leichfertig ein neues Benchmark - Ergebnis präsentiert.
Im Humanities Last Exam (der letzten großen Prüfung der Menschheit) hat das Agenten - Modus - Modell, das Browser, Computer und Terminal verwenden kann, bereits 42 % erreicht, was im Vergleich zum o3 - Modell, das keine Werkzeuge verwendet, eine Verdopplung darstellt.
Und es ist auch weltweit führend - Grok hat angekündigt, dass das Grok 4 Heavy mit Werkzeugen in der Prüfung 45 % erreicht hat.
Die Fähigkeit zur fortgeschrittenen mathematischen Deduktion nach der Verwendung von Werkzeugen hat sich auch verbessert.
Unter den veröffentlichten Benchmarks gibt es zwei, die mit den Menschen verglichen werden.
Eine ist die Fähigkeit zur Webseiten - Bedienung (WebArena), und die andere ist die Fähigkeit zur Tabellenkalkulation (SpreadsheetBench). Man kann sehen, dass in beiden Benchmarks das Agenten - Modus immer noch hinter den Menschen zurückbleibt, aber bei der Webseiten - Bedienung hat es sich den Menschen bereits annähert.
Dies bedeutet, dass selbst wenn man nur Werkzeuge integriert, die noch nicht so gut wie die Menschen sind, kann das große Modell eine deutliche Verbesserung seiner Fähigkeiten erzielen. In der Agenten - Ära gibt es offenbar noch viel Potential für die Verbesserung der Fähigkeiten großer Modelle.
03 Die Zeit des Zusammenlebens mit Agenten ist tatsächlich da
Es ist unbestritten, dass Agenten der absolute Höhepunkt im Bereich der KI in 2025 sind.
Aber hinter dem Hype ist die reale Erfahrung der Benutzer oft nicht perfekt: Die Ausführungszeit der Aufgaben ist zu lang, und bei etwas komplexeren Aufgaben treten häufig Fehler auf. Ein früherer Benutzer von Operator hat kommentiert: "Jedes Klicken und Scrollen fühlt sich an wie Schwimmen an einem heißen Sommertag."
Die Fusion von Operator und Deep Research durch OpenAI könnte genau dazu dienen, diese "Zähigkeit" zu lindern und den Agenten wirklich zum Laufen zu bringen.
Wenn OpenAI selbst in das Spiel eingreift, stellt sich eine direktere Frage für alle Drittentwickler ähnlich wie Manus: Wird dies eine blühende Agenten - Anwendungs - Ökosystem hervorbringen oder werden alle Start - Ups direkt überrollt? Die Antwort ist noch unklar.
Für die Benutzer stellt sich eine noch persönlichere Herausforderung: Datenschutz und Sicherheit.
Wenn die KI in einer unsichtbaren virtuellen Maschine eine Webseite öffnet und unsere persönlichen Informationen eingibt, wer garantiert die Sicherheit?
Wenn es von einer Phishing - Website unser Kreditkartennummer stehlen lässt, wer trägt die Verantwortung?
OpenAI hat darauf geantwortet, dass sie äußerst strenge Prüfungs - und Sicherheitsmaßnahmen ergreifen werden, aber es hofft auch, dass die ganze Gesellschaft Zeit nimmt, sich an die neuen Verhältnisse zu gewöhnen und Regeln aufzustellen.
Die Agenten - Ära ist tatsächlich eine völlig andere Phase nach der Chat - Ära.
In der Chat - Ära haben wir gelernt, mit dem "Mund" der KI umzugehen - wir haben uns allmählich an ihre Halluzinationen gewöhnt und gelernt, die Wahrheit aus ihren schmeichelhaften Worten zu filtern. Dies war eine Herausforderung bezüglich der "Vertrauenswürdigkeit der Informationen".
In der Agenten - Ära wendet sich die Herausforderung vollständig auf die "Hände" der KI. Wir müssen eine Reihe neuer Fragen beantworten: Wie viel vertrauen wir der KI tatsächlich? Wie viel Macht und wie viele Aufgaben in der realen Welt sind wir bereit, ihr zu überlassen?
Und unsere Beziehung zur KI wird dadurch neu definiert.
Aus einer makroskopischen Perspektive bringt der Ausbruch der Agenten auch wieder ein altes Problem aufs Schärfste vor uns: Was passiert mit unseren Jobs, wenn die KI tatsächlich "arbeiten" kann?
Wenn die KI in der Lage ist, einen komplexen Bericht mit Datenrecherche und Bildprüfung zu erstellen und direkt Online - Buchungen