StartseiteArtikel

Tiefgehende Enthüllung: Wie OpenAI GPT-5 technisch über Claude hinausführt – stillschweigend die 23 schwierigsten Aufgaben überspringt

新智元2025-08-20 10:05
OpenAI hat in der SWE - bench Verified Programmiertest nur 477 Aufgaben gelöst, hat aber eine hohe Punktzahl von 74,9 % veröffentlicht. Im Vergleich dazu hat Claude von Anthropic alle 500 Aufgaben abgeschlossen.

Einige Tage ago hat Altman bei der OpenAI-Pressemitteilung angekündigt, dass GPT-5 die Spitze erreicht habe und es behauptet wird, dass es die weltweit beste Codefähigkeit habe.

Aber bei der Pressemitteilung gab es einen großen Unsinn: 52,8 > 69,1 = 30,8?

Also ist eine Tabelle, die von den Genies bei OpenAI mit Jahressalaren von hunderten von Millionen erstellt wurde, weltweit berühmt geworden (links).

Obwohl diese Tabelle zunächst auf OpenAIs offizieller Social-Media-Seite korrekt war, gab es bei der weltweiten Liveübertragung einen so großen Fehler.

Abgesehen von diesem Unsinn ist eine wichtigere, aber von den Menschen vernachlässigte Sache, dass GPT-5 bei der SWE-bench Verified-Referenz eine Durchfallquote von 74,9% erreicht hat.

Dieser Wert liegt etwas höher als der von Anthropics Claude Opus 4.1 mit 74,5%.

Damit wird GPT-5 plötzlich das führende Modell bei den aktuellen Softwareentwicklungstask-Referenzen.

Aber warte mal, dieser Wert... scheint etwas verdächtig zu sein.

OpenAI hat nicht alle 500 Testaufgaben von SWE-bench Verified durchgeführt, sondern 23 Aufgaben, die nicht ausgeführt werden konnten, übersprungen und den Wert nur auf Grundlage von 477 Aufgaben berechnet.

SemiAnalysis hat speziell einen Beitrag über dieses Problem geschrieben.

Anthropic hat dieses Problem auch in seinem Blog angedeutet.

Es gibt insgesamt 500 Aufgaben in SWE-bench Verified, aber GPT-5 hat nur 477 Aufgaben bearbeitet und die anderen 23 Aufgaben einfach übersprungen!

Und was ist mit dem Konkurrenten Claude? Es hat alle 500 Aufgaben korrekt bearbeitet.

Jetzt hat sich die Sache komplett verändert.

Natürlich hat OpenAI diese Sache zugegeben.

Seit GPT-4.1 haben sie in den "Anmerkungen" erklärt, dass OpenAIs Infrastruktur diese 23 Aufgaben nicht ausführen kann. (Es ist wirklich interessant, welche Aufgaben die Genies bei OpenAI nicht ausführen können.)

Wenn man diese 23 nicht ausführbaren Aufgaben mit 0 Punkten bewertet, würde der Wert von GPT-4.1 von 54,6% auf 52,1% sinken.

Daraus lässt sich vermuten, dass wenn man auch die 23 Aufgaben von GPT-5 als fehlerhaft ansieht, die tatsächliche Durchfallquote bei allen 500 Aufgaben etwa 71,4% beträgt (74,9% × 477/500, beachten Sie, dass dies eine stark vereinfachte Berechnung ist), was deutlich unter dem Wert von Claude Opus 4.1 mit 74,5% bei 500 Aufgaben liegt.

Es muss betont werden, dass diese 23 übersprungenen Aufgaben für GPT-5 nicht "unwichtig" sind.

Im Gegenteil, die meisten von ihnen sind die schwierigsten Aufgaben in der Verified-Sammlung.

Laut einer unabhängigen Analyse können die meisten Modelle keine der Aufgaben in der "Bearbeitungszeit > 4 Stunden"-Kategorie der Verified-Datenmenge lösen.

Die Leistung der Modelle sinkt deutlich bei den "schwierigen" Aufgaben, die länger als 1 Stunde benötigen.

Nur ClaudeSonnet4 (nicht im Nachdenkmodus), o3 und GPT4.1 können einige Aufgaben, die länger als 4 Stunden benötigen, lösen (jeweils 33%).

Diese extrem schwierigen Aufgaben stellen eine schwere Prüfung für die umfassende Fähigkeit der Modelle dar.

Wenn GPT-5 diese Aufgaben nicht ausführen kann, dann kann es möglicherweise noch nicht wirklich Claude 4.1 in Bezug auf die umfassende Fähigkeit übertreffen.

Nach den Informationen von Anthropic hat Claude 4.1 wahrscheinlich auch diese Aufgaben versucht (Anthropic hat nicht behauptet, dass sein Modell irgendwelche Aufgaben in der Verified-Sammlung übersprungen hat), daher enthält sein Wert von 74,5% die Prüfung aller schwierigen Aufgaben.

Der Wert von 74,9% von GPT-5 ist hingegen das Ergebnis nach dem Entfernen dieser "Hindernisse".

Der Hauptstreitpunkt, der sich aus diesem Unterschied ergibt, liegt in der Vergleichbarkeit der Bewertungen und der Transparenz der Berichtsmethode.

Sogar die SWE-bench Verified-Datenmenge, die als Richter fungiert, wurde von OpenAI selbst erstellt.

SemiAnalysis ist der Meinung, dass die offizielle SWE-bench-Tabelle auf swebench.com möglicherweise die klarste Beschreibung der Leistung der aktuellen Modelle bei dieser Referenztestung ist, wenn man die Modelle "fair" vergleichen möchte.

Es gibt keine "Verifizierte" Teilmenge, die Nutzung von Tools ist eingeschränkt (nur bash) und der größte Teil des Gerüstcodes ist öffentlich einsehbar.

Bei der Referenztestung unter diesen Voraussetzungen hat der Claude 4 Opus-Checkpoint vom 14. Mai (67,6) eine bessere Leistung als GPT-5 (65).

Die nächste Frage ist, was SWE-bench ist, was die "Verifizierte" Teilmenge ist und warum es eine zusätzliche SWE-bench Verified gibt?

SWE-bench: Das "Programmierabitur" in der KI-Welt

SWE-bench kann man sich als das "Programmierabitur" in der KI-Welt vorstellen.

Es geht um echte Codeprobleme aus der realen Welt.

Will man eine gute Note bekommen? Man muss nicht nur die Fehler beheben, sondern auch keine neuen Fehler einführen. Die Standards sind unglaublich streng.

Es war einmal so, dass die KIs nur 20 bis 30 Punkte erzielten. Es war schrecklich.

Beispielsweise erreichte bis zum 5. August 2024 der höchste Wert eines Codierungsagenten bei SWE-bench laut der SWE-bench-Tabelle 20%.

Bei SWE-bench Lite war es etwas besser, nämlich 43%.

Aber jetzt sind die KIs stark geworden. Immerhin können die ersten zehn Modelle alle über 50 Punkte erreichen.

OpenAI findet, dass SWE-bench zu schwierig ist. Einige Aufgaben können überhaupt nicht gelöst werden, sodass es schwierig ist, die Fähigkeit der Modelle zu bewerten.

Kurze Einführung in SWE-bench

Jede Stichprobe in der SWE-bench-Testmenge stammt aus den gelösten GitHub-Problemen von 12 Open-Source-Python-Repositories auf GitHub.

Jede Stichprobe hat eine zugehörige Pull-Anfrage (PR), die den Lösungscode und Unit-Tests enthält, um die Richtigkeit des Codes zu überprüfen.

Diese Unit-Tests scheitern, bevor der Lösungscode in der PR hinzugefügt wird, aber funktionieren danach. Daher werden sie FAIL_TO_PASS-Tests genannt.

Jede Stichprobe hat auch zugehörige PASS_TO_PASS-Tests, die sowohl vor als auch nach der Zusammenführung der PR funktionieren, um zu überprüfen, ob die PR keine bestehenden und nicht verwandten Funktionen in der Codebasis zerstört.

Für jede Stichprobe in SWE-bench erhält der Agent den ursprünglichen Text aus dem GitHub-Problem, d. h. die Problembeschreibung, und hat Zugang zur Codebasis.

Daraufhin muss der Agent die Dateien in der Codebasis bearbeiten, um das Problem zu lösen. Die Testfälle werden dem Agent nicht gezeigt.

Die von dem Modell vorgeschlagenen Änderungen werden durch das Ausführen der FAIL_TO_PASS- und PASS_TO_PASS-Tests bewertet.

Wenn der FAIL_TO_PASS-Test erfolgreich ist, bedeutet dies, dass das Modell das Problem gelöst hat.

Wenn der PASS_TO_PASS-Test erfolgreich ist, bedeutet dies, dass die Bearbeitung keine nicht verwandten Teile der Codebasis versehentlich zerstört hat.

Das Problem kann erst dann vollständig gelöst werden, wenn beide Testgruppen erfolgreich sind.

Das ist es, was oben gesagt wurde: Man muss nicht nur die Fehler beheben, sondern auch keine neuen Fehler einführen.

SWE-bench Verified: Eine von Menschen ausgewählte Teilmenge

SWE-bench Verified ist eine von Menschen überprüfte Teilmenge der SWE-bench-Referenz, die im August 2024 von OpenAI in Zusammenarbeit mit den Autoren von SWE-bench veröffentlicht wurde.

OpenAI hat mit 93 Python-Experten zusammengearbeitet, um die Qualität der SWE-bench-Stichproben manuell zu prüfen.

Zuerst wurden 1699 zufällige Stichproben aus der SWE-bench-Testmenge "bewertet".

Vier Bewertungen:

0: Die Problembeschreibung ist klar und die Bedingungen für eine erfolgreiche Lösung sind ebenfalls eindeutig.

1: Es gibt noch einige Lücken in der Problembeschreibung, aber es gibt eine vernünftige Interpretation der erforderlichen Lösung.

2: Die Problembeschreibung ist unklar und es gibt Raum für Mehrdeutigkeiten. Es ist nicht klar, welche Merkmale eine erfolgreiche Lösung haben sollte.

3: Ohne weitere Informationen ist es fast unmöglich, zu verstehen, was man tun muss.

Die Aufgaben mit einer Bewertung von 2 und 3 werden direkt verworfen, nur die Aufgaben mit einer Bewertung von 0 und 1 bleiben übrig.

Obwohl diese Methode eine hohe Fehlalarmrate bei der Entfernung von Stichproben verursacht, hilft es, das Vertrauen in die Qualität der Stichproben der endgültigen Datenmenge zu erhöhen.

Dann werden aus den Aufgaben mit einer Bewertung von 0 und 1 erneut 500 Aufgaben zufällig ausgewählt. Dies ist die endgültige SWE-ben