StartseiteArtikel

Das ist zu brutal! Ultraman hat GPT-5.2 persönlich "ausgeschaltet", und OpenAI hat die stärkste Programmier-KI vorgestellt.

新智元2025-12-19 14:08
Das stärkste KI-Intelligenz-Programmier-Modell GPT-5.2-Codex taucht auf! Mit Kontextkompression ist es noch stärker in der Verarbeitung von Langzeitaufgaben und versteht auch Netzwerksicherheit.

GPT-5.2-Codex greift in der Nacht an!

Es ist das stärkste AI-Programmier-Modell von OpenAI bisher, speziell für komplexe Softwareentwicklung in der realen Welt entwickelt.

Aus dem Namen ist ersichtlich, dass GPT-5.2-Codex eine weiter optimierte Version auf Basis von GPT-5.2 ist. Es hat in mehreren Fähigkeiten entscheidende Verbesserungen erzielt:

· Kontextkompression, die die Fähigkeit zur Bearbeitung von langfristigen Aufgaben verbessert hat

· Stärkere Leistung bei großen Code-Änderungen, wie z. B. Refactoring und Migration

· Signifikant verbesserte Programmierfähigkeit in der nativen Windows-Umgebung

· Stärkste Netzwerksicherheitsfähigkeit

Altman behauptet, dass die Leute bei OpenAI es bereits einsetzen und sehr gute Ergebnisse erzielen.

In Benchmark-Tests hat GPT-5.2-Codex in der Softwareentwicklung und Terminal-Tests 5.1-Codex-Max, GPT-5.2 und GPT-5.1 geschlagen.

OpenAI betont in mehreren Blog-Posts, dass GPT-5.2-Codex in Bezug auf die Netzwerksicherheit bisher das höchste Niveau erreicht hat.

Letzte Woche hat ein Sicherheitsforscher mit GPT-5.1-Codex-Max + Codex CLI direkt eine React-Schwachstelle entdeckt, die zur Quellecode-Offenlegung führte.

Ab heute können alle bezahlenden Benutzer GPT-5.2-Codex nutzen. Die API wird in den nächsten Wochen freigegeben.

GPT-5.2-Codex programmierteift und hält auch im Langlauf durch

Das neue AI-Programmier-Modell GPT-5.2-Codex ist einfach gesagt eine „Stärkevereinigung“.

Es erbt nicht nur die von GPT-5.2 ursprünglich beherrschte „Fähigkeit zur Bearbeitung professioneller Aufgaben“, sondern hat auch die Fähigkeiten von 5.1-Codex-Max in Bezug auf AI-Programmierung und Terminal-Betrieb gelernt.

So hat es echte Fortschritte gemacht –

Es hat in der Langzeit-Kontextverstehen, Werkzeugaufruf, Tatsachengenauigkeit, nativer Kontextkompression usw. signifikante Verbesserungen erzielt.

Somit kann GPT-5.2-Codex langlaufende Programmieraufgaben stabil unterstützen und verbraucht bei der Inferenz weniger Token.

In branchenüblichen Benchmark-Tests hat 5.2-Codex in SWE-Bench Pro und Terminal-Bench 2.0 die bisherigen Bestwerte (SOTA) verbessert.

Im Vergleich zu 5.1-Codex ist die Leistung um etwa 6 % verbessert.

Diese beiden Tests dienen speziell zur Bewertung der Fähigkeit eines Modells, als Agent in einer realen Terminal-Umgebung verschiedene Aufgaben zu bearbeiten.

Außerdem hat es in der nativen Windows-Umgebung seine Fähigkeiten in der Agentenprogrammierung signifikant verbessert und die von GPT-5.1-Codex-Max eingeführten Fähigkeiten weiter ausgebaut.

Dank dieser Verbesserungen kann Codex in großen Code-Bibliotheken über einen langen Zeitraum arbeiten und den gesamten Kontext immer im Blick behalten.

Das bedeutet, dass GPT-5.2-Codex komplexe Aufgaben wie umfangreiche Refactoring, Code-Migration und Funktionsentwicklung zuverlässig erledigen kann.

– Selbst wenn es währenddessen zu Planänderungen oder fehlgeschlagenen Versuchen kommt, kann es kontinuierlich weiterentwickeln, ohne den Faden zu verlieren.

Darüber hinaus hat GPT-5.2-Codex eine bessere „Sehkraft“.

Beim Programmieren kann man es einfach mit Screenshots, technischen Skizzen, Diagrammen und verschiedenen Benutzeroberflächen versorgen, und es versteht diese genauer.

Noch beeindruckender ist, dass es direkt Designvorlagen lesen und schnell in lauffähige Funktionsprototypen umwandeln kann.

Entwickler können außerdem mit Codex zusammenarbeiten, um diese Prototypen Schritt für Schritt zu verfeinern, bis sie für die Produktion bereit sind.

Drei Sprünge: AI hat die reale Welt „erobert“

In einer Kernbewertung der Netzwerksicherheit von OpenAI ist der „Fähigkeitssprung im Laufe der Zeit“ deutlich zu erkennen –

· GPT-5-Codex hat den ersten signifikanten Anstieg gebracht,

· GPT-5.1-Codex-Max den zweiten,

· und GPT-5.2-Codex hat den dritten Sprung erzielt.

OpenAI geht davon aus, dass zukünftige AI-Modelle weiterhin diesen Trend fortsetzen werden.

Bei der Planung und Fähigkeitsbewertung gehen sie immer davon aus, dass jedes neue Modell das Potenzial hat, das in der „Preparedness Framework“ definierte „hohe“ Niveau der Netzwerksicherheit zu erreichen.

GPT-5.2-Codex hat diesen Stand bisher jedoch noch nicht erreicht.

Wie verhält sich OpenAIs Agentenprogrammierung-Modell in der realen Welt?

In einer Woche eine hochgefährliche React-Schwachstelle entdeckt

Am 11. Dezember hat das React-Team bekannt gegeben, dass es drei Sicherheitslücken in React Server Components gibt.

Andrew MacPherson, der leitende Sicherheitsingenieur der von Stripe gegründeten Firma Privy, hat beschlossen, diese Schwachstellen zu nutzen, um zu „testen“, wie leistungsfähig die aktuellen AI-Modelle sind.

Er hat GPT-5.1-Codex-Max + Codex CLI und andere Programmier-Agenten verwendet. Überraschenderweise hat er während des Wiederholens und Untersuchens der Schwachstellen eine entscheidende React-Schwachstelle entdeckt.

Der genaue praktische Prozess war wie folgt –

Zuerst hat er mehrmals Null-Sample-Learning-Analysen versucht, indem er direkt das Modell aufforderte, die Patches zu überprüfen und die Art der behobenen Schwachstellen zu bestimmen. Dies hat jedoch keine Ergebnisse gebracht.

Anschließend hat er sich höherfrequenten, iterativen Hinweisen gewandt. Nachdem diese Methoden ebenfalls nicht funktionierten, hat er Codex angewiesen, nach einem standardmäßigen defensiven Sicherheitsverfahren zu arbeiten – lokale Testumgebungen aufzubauen, potenzielle Angriffsflächen zu analysieren und durch Fuzzing anomale Eingaben in das System zu injizieren.

Während des Versuchs, das ursprüngliche React2Shell-Problem zu reproduzieren, hat Codex einige anomale Verhaltensweisen entdeckt, die einer eingehenden Untersuchung wert sind.

Schließlich hat dieser Prozess innerhalb von nur einer Woche zur Entdeckung einer bisher unbekannten Schwachstelle geführt, die auf verantwortungsvolle Weise an das React-Team gemeldet wurde.

Dieses Beispiel zeigt deutlich, wie fortschrittliche AI-Systeme die defensive Sicherheitsforschung in realen, weit verbreiteten Softwareprodukten erheblich beschleunigen können.

Netzuser-Tests

Ein Entwickler hat GPT-5.2-Codex getestet, indem er es aufforderte, ein Programm zu schreiben, das das Zusammenspiel von Fahrzeugen und Ampeln auf einer Straße simuliert. Das Ergebnis war ein Misserfolg.

Einige Leute sind der Meinung, dass es jedoch dieselben ansprechenden Animationseffekte wie Gemini 3 Flash und Pro hat.

GPT-5.2-Codex hat sich beim Erstellen eines Counter-Strike-Spiels hervorragend bewährt.

Insgesamt hält OpenAI die Veröffentlichung von GPT-5.2-Codex für einen weiteren großen Schritt der AI in der realen Softwareentwicklung und Netzwerksicherheit.

Es ermöglicht es Entwicklern, komplexe und zeitaufwändige Aufgaben mühelos zu bewältigen und unterstützt gleichzeitig die Netzwerksicherheitsforschung mit besseren Tools.

Quellen:

https://openai.com/index/introducing-gpt-5-2-codex/

https://openai.com/index/gpt-5-2-codex-system-card/

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Autor: New Intelligence Yuan, Redakteur: Taozi Hao Kun. Veröffentlicht von 36Kr mit Genehmigung.