Umsturz in GPT - 5 Programmierbewertung: Scheinbar durchgefallen, tatsächlich 63,1 % Aufgaben nicht abgegeben

GPT-5, Claude und Gemini haben alle Fehltritte, aber GPT-5 hat dennoch einen kleinen Sieg errungen.

Bei der neuen Software-Engineering-Benchmark SWE-BENCH PRO von Scale AI hat sich die Situation umgedreht!

Auf den ersten Blick scheitern die sogenannten "Top Drei" kollektiv. Keines von ihnen erreicht eine Lösungswahrscheinlichkeit von über 25%:

GPT-5, Claude Opus 4.1 und Gemini 2.5 erreichen Lösungswahrscheinlichkeiten von 23,3%, 22,7% und 13,5% und "bestehen" damit auf den ersten drei Plätzen.

Wenn man jedoch tiefer in die Daten eindringt, verbirgt sich dahinter eine Geheimnis.

Der ehemalige OpenAI-Forscher Neil Chowdhury erklärt, dass GPT-5 bei den eingereichten Aufgaben eine Genauigkeit von 63% erreichen kann, fast doppelt so hoch wie die 31% von Claude Opus 4.1!

(Das kann doch nicht anders heißen, als dass G wieder gewinnt!)

Mit anderen Worten, GPT-5 bleibt bei den Aufgaben, auf die es spezialisiert ist, weiterhin zuverlässig. Der Unterschied zur alten Benchmark SWE-Bench-Verified mit 74,9% ist nicht groß, während Claude und andere Modelle dagegen komplett versagen.

Was für eine Benchmark-Testung kann es also sein, die diese Spitzenmodelle so in die Enge treibt?

SWE-BENCH PRO

Zunächst die Zusammenfassung: Die Modelle werden nicht schlechter, sondern die Aufgaben werden schwieriger.

Im Vergleich zu SWE-Bench-Verified mit einer durchschnittlichen Genauigkeit von bis zu 70% ist SWE-BENCH PRO um einiges strenger.

Einerseits wurde der Testdatensatz von SWE-Bench-Verified von OpenAI im August 2024 veröffentlicht. Viele Code-Bibliotheken in diesem Datensatz wurden bereits als Voreinarbeitungsmaterial für große Sprachmodelle verwendet, was das Risiko einer Datenkontamination birgt.

Andererseits enthält SWE-Bench-Verified auch viele triviale Probleme. Beispielsweise müssen von 500 Problemen 161 nur mit ein oder zwei Zeilen Code änderungen gelöst werden.

Dies weicht stark von den Szenarien in der industriellen Software-Engineering ab, bei denen normalerweise Änderungen über mehrere Dateien und Hunderte von Codezeilen erforderlich sind. Somit kann diese Benchmark nicht die realen Herausforderungen in der Softwareentwicklung widerspiegeln.

Deshalb konzentriert sich SWE-BENCH PRO auf neue Aufgaben, um sicherzustellen, dass die Modelle während der Trainingsphase noch nie mit den Testinhalten in Kontakt gekommen sind. So kann die reale Fähigkeit der Modelle besser getestet werden.

Eine vielfältige Code-Bibliothek mit 1865 kommerziellen Anwendungen, B2B-Diensten und Entwicklertools

Genauer gesagt, baut SWE-BENCH PRO diese Code-Bibliotheken in die folgenden drei Teilmengen auf:

Öffentliche Menge: 731 Probleme aus 11 öffentlichen Code-Bibliotheken mit Copy-left-Lizenzen.

Kommerzielle Menge: 276 Probleme aus Code-Bibliotheken von Start-up-Unternehmen.

Reservierte Menge: 8

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Umsturz in der Programmierbewertung von GPT-5: Scheinbar nicht bestanden, tatsächlich 63,1 % der Aufgaben nicht abgegeben. Wenn alles berücksichtigt wird, ist die Leistung doppelt so gut wie die von Claude.

SWE-BENCH PRO

Eine vielfältige Code-Bibliothek mit 1865 kommerziellen Anwendungen, B2B-Diensten und Entwicklertools