OpenAI bringt legendäre GPT-5.4-Version heraus: Harness wie bei Codex vollständig zugänglich

GPT-5.4s wirkliches Mordschlag ist endlich angekommen! OpenAI hat in aller Eile seine Infrastruktur neu geschrieben und sieben Sandboxen nativ integriert, um den Weg für Drittanbieter-Frameworks vollständig zu versperren. Die Chat-Spielereien der alten Zeit sind verworfen, und die industrietauglichen Agenten sind vollständig erwacht.

OpenAI hat still und leise einen weiteren gewaltigen Schachzug gemacht.

Gerade jetzt hat das Agents SDK eine vollständige Architekturüberarbeitung erfahren.

Native Harness, natives Sandbox, Dateisystemwerkzeuge auf Codex - Niveau und die Möglichkeit, sieben führenden Sandbox - Anbietern mit einem Klick beizutreten.

Anfang März, als GPT - 5.4 mit nativem Computergebrauch (Computer Use) auf die Bühne trat, haben die Entwickler bereits über etwas geklagt.

Das Modell kann nun den Computer bedienen, aber auf welchem Computer der Agent läuft und wie sichergestellt wird, dass alles reibungslos funktioniert, musste man sich bisher noch selbst zusammenbauen.

Heute Abend hat OpenAI diese Lücke selbst geschlossen.

Kurz gesagt, hat OpenAI das Agents SDK von einem „Spielzeug für Chatbots“ in eine „Produktionsstufe für Agenten“ verwandelt.

Harness ist für den Steuerfluss, den Modellaufruf, die Werkzeugrouting, das Pausieren und Fortsetzen verantwortlich; Sandbox ist für das Lesen und Schreiben von Dateien, das Installieren von Abhängigkeiten und das Ausführen von Code zuständig. Die beiden Ebenen sind vollständig entkoppelt.

Was noch schlimmer ist, trifft dies auch auf Drittanbieter - Agentenframeworks wie LangChain, CrewAI und LangGraph zu.

OpenAI hat die Infrastrukturebene übernommen, und der Raum für Drittanbieter wird offensichtlich enger.

Von „Spielzeug für Chatbots“ zur Produktionsstufe

Bevor wir uns diese Aktualisierung ansehen, müssen wir verstehen, wie das ursprüngliche Agents SDK aussah.

Im März 2025 hat OpenAI das Agents SDK zum ersten Mal vorgestellt, das sich durch Leichtigkeit, wenig Abstraktion und die Möglichkeit auszeichnet, mit nur wenigen Zeilen Python - Code lauffähig zu sein.

Diese Version des SDK war jedoch im Wesentlichen für Chatbot - Szenarien entwickelt.

Seit einem Jahr hat sich die Leistung der Modelle gewaltig verbessert - sie können nun mehrere Stunden, Tage oder sogar Wochen lang laufen.

Das alte, für Chatbots entwickelte SDK kann daher nicht mehr mit der Zeit mithalten.

Bei dieser Überarbeitung wurden hauptsächlich zwei Dinge getan.

Erstens: Ein vollständiges Laufzeitframework - Harness - für das Modell.

Konfigurierbares Gedächtnis, Orchestrierung der Sandbox - Wahrnehmung, Dateisystemwerkzeuge ähnlich Codex, Werkzeugaufruf über MCP, schrittweise Informationseingabe über Skills, benutzerdefinierte Anweisungen über AGENTS.md, Codeausführung mit Shell - Werkzeugen, Dateibearbeitung mit Apply - Patch - Werkzeugen - alles wird nativ vom SDK unterstützt.

Entwickler, die mit Claude Code und Codex vertraut sind, werden diese Liste sehr vertraut finden.

Ja, OpenAI hat die Probleme, die es im letzten Jahr mit Codex hatte, und die besten Praktiken, die es gesammelt hat, einfach in das SDK integriert.

Zweitens: Die vollständige Trennung von Harness und Compute.

Harness läuft in Ihrer vertrauenswürdigen Infrastruktur und ist für den Modellaufruf, die Genehmigung, die Verfolgung und den Laufzustand verantwortlich. Compute ist eine unabhängige Sandbox, die sich speziell um das Lesen und Schreiben von Dateien, das Ausführen von Befehlen, das Installieren von Paketen und die Erzeugung von Produkten kümmert.

Die Schnittstelle zwischen den beiden Ebenen ist standardisiert, und API - Schlüssel und sensible Anmeldeinformationen gelangen nie in die Umgebung, in der der vom Modell generierte Code tatsächlich ausgeführt wird.

Das Ergebnis ist, dass in der Sandbox weder API - Schlüssel noch sensible Anmeldeinformationen vorhanden sind. Die Sandbox ist vollständig isoliert und kann sogar vom Netzwerk getrennt werden, ohne jeglichen Ausgangsverkehr.

Dies ist keine kleine Verbesserung der Sicherheit. Dies ist ein Paradigmenwechsel in der gesamten Agent - Architektur.

100 % Extraktion aus einem 900 - Seiten - Versicherungsvertrag, die Hälfte der PRs von Agenten

Das erste Ergebnis der Trennung von Harness und Compute ist, dass die Ökosystemkarte der Sandbox - Anbieter über Nacht erweitert wurde.

Bei dieser Veröffentlichung wurden die sieben Sandbox - Anbieter Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop und Vercel gleichzeitig in die offizielle Unterstützungsliste aufgenommen.

Der Schlüssel zur gleichzeitigen Anbindung der sieben Anbieter liegt in einer von OpenAI bereitgestellten Abstraktionsebene namens Manifest - eine Konfigurationsliste, die den Arbeitsbereich des Agenten beschreibt.

Welche lokalen Dateien eingebunden werden sollen, aus welchem Cloud - Speicher Daten abgerufen werden sollen und wohin die Produkte geschrieben werden sollen, wird alles in diesem Manifest festgelegt. AWS S3, Google Cloud Storage, Azure Blob Storage und Cloudflare R2 werden vollständig abgedeckt.

Das Wichtigste ist, dass dieses Manifest von den konkreten Sandbox - Anbietern entkoppelt ist.

Ein Agent, der heute mit E2B geschrieben wurde, kann morgen problemlos auf Modal umgestellt werden, ohne den Code neu zu schreiben, sondern nur eine Zeile in der Konfiguration zu ändern. Man kann einfach zwischen den Sandbox - Anbietern wechseln, je nachdem, wer am günstigsten ist oder am nächsten an den Daten liegt.

OpenAI hat ein minimales Beispiel gegeben. Ein Agent wird in eine lokale Sandbox geladen, ein Verzeichnis mit Jahresabschlüssen wird eingebunden, und drei Finanzindikatoren von FY2025 und FY2024 werden verglichen. Der Kerncode umfasst weniger als 20 Zeilen.

Zwei weitere neue Funktionen, die für Langzeitaufgaben besonders wichtig sind, sind die Snapshot - und Statuswiederherstellung, die es ermöglicht, einen Sandbox - Container auch nach einem Absturz von einem Checkpoint aus fortzusetzen, und die Parallelexecution mehrerer Sandboxen + isolierte Umgebung für Sub - Agenten, die das Skalierungsproblem löst.

So hat der Agent erstmals die nativen Fähigkeiten, „nach einem Ausfall fortzusetzen“ und „mit mehreren Instanzen zu arbeiten“.

In einem ausführlichen technischen Artikel hat Erik Dunteman vom Technikteam von Modal ein Detail preisgegeben:

Ramp hat bereits eine Armee von Hintergrund - Codierungsagenten mit Modal betrieben, und mehr als die Hälfte der Pull - Requests des Unternehmens wurden von diesen Agenten selbst erstellt.

Darüber hinaus hat Stripe bereits Anfang dieses Jahres bekannt gegeben, dass die internen AI - Agenten wöchentlich über 1000 Pull - Requests generieren.

Beide Unternehmen haben gemeinsam, dass die Produktivität ihrer Geschäftsteams nach der Einführung einer soliden Agent - Infrastruktur sprunghaft gestiegen ist.

Jetzt hat OpenAI diese Infrastruktur, die bisher nur von führenden Unternehmen aufgebaut werden konnte, in das SDK als Standardkonfiguration integriert.

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk

Dem CTO von FurtherAI, Sashank Gondala, zufolge hat ihr Agent eine über 900 - Seiten - Versicherungsansprüchsaufzeichnung verarbeitet, mit einer Extraktionsrate von 100 %.

Wer in der Versicherungsbranche tätig ist, weiß, wie schwer es ist, eine über 900 - Seiten - Versicherungsansprüchsaufzeichnung zu verarbeiten. Früher war es normal, dass der Prozess irgendwo in der Mitte abstürzte.

Douglas Adams, ein Entwicklungsingenieur von Tomoro AI, hat angegeben, dass die Codeanzahl für einen Agenten mit gleicher Fähigkeit um das Sechsfache reduziert wurde.

Carter Rabasa, der Leiter der Entwicklerbeziehungen bei Box, hat Geschäftsdaten zusammen mit bash/python - Werkzeugen übermittelt und den Agenten in der Sandbox durch einen gesamten Rechnungsabgleichsprozess laufen lassen.

Überraschenderweise hat der erste Testlauf funktioniert.

Die Sandbox ist perfekt für die Ausführung von Code, der von Agenten generiert wird.

OpenAI baut Infrastruktur, LangChain und Co. haben keine Zuflucht

An dieser Stelle wird der wirkliche Einfluss dieser Veröffentlichung auf die Branche deutlich.

Drittanbieter - Agentenframeworks wie LangChain, LangGraph, CrewAI und AutoGen haben sich in den letzten Jahren dadurch ernährt, dass sie die Lücken des OpenAI - SDKs in Bezug auf die „Produktionsreife“ geschlossen haben.

Orchestrierung, Gedächtnisverwaltung, Sicherheitsmechanismen, Verfolgung und Zusammenarbeit mehrerer Agenten sind die Hauptfelder dieser Drittanbieter - Frameworks.

Jetzt hat OpenAI all diese Felder auf einmal übernommen.

OpenAI will die Infrastrukturebene in der Welt der Agenten bilden. Drittanbieter - Frameworks müssen sich entweder auf höhere Ebenen (Orchestrierung, vertikale Szenarien) oder auf tiefere Ebenen (spezielle Sandboxen, spezielle Werkzeuge) konzentrieren, denn der Mittelbereich ist von OpenAI selbst besetzt.

Außerdem bedeutet die Behauptung von OpenAI, „alle Sandbox - Anbieter zu unterstützen“, dass die Sandbox - Anbieter in das Ökosystem von OpenAI integriert werden.

Heute kann ein Unternehmen

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

OpenAI hat die legendäre Version GPT-5.4 herausgebracht, und das Harness, dasselbe wie bei Codex, ist nun vollständig zugänglich.

Von „Spielzeug für Chatbots“ zur Produktionsstufe

100 % Extraktion aus einem 900 - Seiten - Versicherungsvertrag, die Hälfte der PRs von Agenten

OpenAI baut Infrastruktur, LangChain und Co. haben keine Zuflucht