StartseiteArtikel

GPT-5 liegt nur bei 23,3%. Künstliche Intelligenzen weltweit bestehen die Prüfung insgesamt nicht. Es ist eine Programmierprüfung von Höllenklasse, und das Siegesmythos bricht zusammen.

新智元2025-09-22 19:25
In der Codierwelt wird ein hartnäckiger Test benötigt.

Programmier-Test der Extraklasse: Weltklasse-LLMs nehmen die Goldmedaille, sind sie wirklich unbesiegbar? Der schwierigste Codierungs-Testbench SWE-Bench Pro ist da, der schwere Probleme mit durchschnittlich über 100 Codezeilen zusammengestellt hat. Überraschenderweise scheiterten die besten LLMs nacheinander. GPT-5 erreichte nur 23,3 %.

Ein Bild, das alle globalen Großen Modelle auf einen Blick zeigt! Ein Juwel zur zehnten Gründungstag von New Intelligence Yuan. Der 37-seitige Bericht über die neuesten Trends in der künstlichen Superintelligenz (ASI) 2025 wird erstmals veröffentlicht.

Nach dem Sieg bei der Internationalen Mathematik-Olympiade (IMO) 2025 errangen die Modelle von Google und OpenAI erneut die Goldmedaille bei der International Collegiate Programming Contest (ICPC).

Die ICPC gilt als eine der herausforderndsten Programmierwettbewerbe für Studierende weltweit.

OpenAI und Google haben nicht nur alle 12 Aufgaben gelöst, sondern auch unter den menschlichen Teilnehmern den ersten Platz belegt. Kann die KI-Programmierung wirklich unschlagbar sein?

Ein neues Benchmark-Test direkt widerspricht allen Weltklasse-Modellen.

Es ist der SWE-Bench Pro, ein neues Benchmark-Test speziell für die Bewertung von KI-Programmieragenten, der sich direkt mit realen Unternehmensaufgaben auseinandersetzt.

Im Vergleich zum Vorgänger SWE-Bench bringt die Pro-Version drei wesentliche Verbesserungen:

  • Allgemeine Erhöhung der Schwierigkeit der Aufgaben
  • Stärkere Resistenz gegen Datenkontamination
  • Unendliche Annäherung an die echten Code-Bibliotheken

Diese Version kann als die "letzte menschliche Prüfung" im Bereich der Programmierung angesehen werden. Bei den praktischen Tests (Öffentliche Sammlung) scheiterten fast alle Weltklasse-Modelle.

Obwohl GPT-5 den ersten Platz belegte, betrug seine Punktzahl nur 23,3 %. Claude Opus 4.1 belegte mit 22,7 % den zweiten Platz.

Keines der anderen Modelle war wirklich leistungsfähig, alle erreichten weniger als 15 %.

Das bedeutet, dass die Fähigkeit der LLMs zur langfristigen Programmierung immer noch ein Schwachpunkt bei den realitätsnäheren Programmieraufgaben ist.

Der neueste 21-seitige technische Bericht gibt detaillierte Informationen über die Gestaltung des SWE-Bench Pro preis.

Link zum Bericht: https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf

Der Programmierbereich braucht eine harte Prüfung

In der Vergangenheit wurden Benchmarks wie SWE-Bench zu wichtigen Kriterien für die Bewertung von LLMs in der Softwareentwicklung.

Bei diesen Tests wird normalerweise von der KI erwartet, dass sie auf der Grundlage einer vollständigen Code-Bibliothek und einer natursprachlichen Beschreibung Code-Patches erzeugt.

Nehmen wir beispielsweise SWE-Bench Verified. Die besten LLMs haben bereits eine Erfolgsrate von über 70 % erreicht, was wirklich beeindruckend klingt.

Aber dies bringt auch ein Problem ans Licht:

In den nächsten 6 bis 12 Monaten könnten die bestehenden Benchmarks "gesättigt" sein und nicht mehr in der Lage sein, den Fortschritt der KI effektiv zu messen.

Daher hat Scale AI offiziell den SWE-Bench Pro veröffentlicht.

Er bietet ein realistischeres und herausfordernderes "Prüfungsumfeld" und löst die Probleme der bestehenden Benchmarks direkt an.

Datenkontamination und Abgrenzung von der Realität

Derzeit gibt es zwei wesentliche Mängel bei den bestehenden Codierungs-Benchmark-Tests.

Einerseits besteht ein hohes Risiko der Datenkontamination. Viele Benchmarks basieren auf offenen GitHub-Repositories, aber diese Repositories, insbesondere die Projekte unter der MIT- oder Apache-Lizenz, können leicht von den Trainingsdaten der LLMs "gekrochet" werden.

Somit besteht die Möglichkeit, dass die KI bei den Tests "schummelt", vielleicht hat sie ähnliche Probleme bereits gesehen.

Andererseits sind die Aufgaben der bestehenden Benchmarks zu einfach und erreichen nicht das "industrielle Niveau".

Nehmen wir wieder SWE-Bench Verified als Beispiel. Unter den 500 Aufgaben mussten 161 Aufgaben nur 1 - 2 Codezeilen geändert werden.

Dies mag im Labor funktionieren, aber in einem Unternehmensumfeld sind oft komplexe Änderungen an mehreren Dateien und Hunderten von Codezeilen erforderlich.

Ein solcher Benchmark kann überhaupt nicht das Verhalten der KI in realen Entwicklungsszenarien widerspiegeln.

Die Codierungsprüfung ist nicht das endgültige Ziel der KI-Agenten, aber ein härterer Benchmark kann die LLMs wirklich bewerten, ob sie die Standards für die industrielle Anwendung erfüllen.

SWE-Bench Pro: Probleme mit über 100 Codezeilen

Bei der Gestaltung des SWE-Bench Pro sind insgesamt 1865 manuell verifizierte und verbesserte Probleme enthalten, die in drei Untergruppen unterteilt sind - Öffentliche Sammlung, Geschäftliche Sammlung und Reservierte Sammlung.

Im Bericht stellte das Forschungs-Team drei wesentliche Beiträge des SWE-Bench Pro vor:

Geniale Sammlung und Gestaltung, um das Risiko der Datenkontamination zu verringern

Der SWE-Bench Pro hat eine innovative Strategie für die Datensammlung entwickelt, um die Fallstricke der Kontamination zu vermeiden.

(1) Es werden nur Code-Bibliotheken mit einer starken Kopierlizenz (GPL) verwendet, um die Öffentliche Sammlung (11 Code-Bibliotheken) und die Reservierte Sammlung (12 Code-Bibliotheken) aufzubauen;

(2) Es werden geschäftliche Codes von echten Start-up-Unternehmen gewonnen, um die Geschäftliche Sammlung (18 Code-Bibliotheken) aufzubauen, um so Unternehmensprobleme zu erfassen.

• Öffentliche Sammlung: 731 Beispiele werden auf HuggingFace öffentlich veröffentlicht, und die relevanten Statistiken und die Leistung der Modelle werden in diesem Artikel berichtet. Diese Beispiele stammen aus öffentlichen Code-Bibliotheken mit einer Kopierlizenz (Copyleft-Lizenz).

• Geschäftliche Sammlung: 276 Probleme aus der Geschäftlichen Sammlung stammen aus den Code-Bibliotheken von Start-up-Unternehmen. Dies ist die einzige Sammlung, die die proprietären Code-Bibliotheken von Start-up-Unternehmen enthält und aufgrund gesetzlicher Beschränkungen nicht öffentlich zugänglich ist.

• Reservierte Sammlung: Es werden 858 Probleme reserviert, die strukturell der Öffentlichen Sammlung entsprechen, aber andere Code-Bibliotheken verwenden.

Aufgaben-Upgrade, herausfordernder, vielfältiger und naher am Industriestandard

Um die Komplexität der Aufgaben sicherzustellen, hat Scale AI alle Aufgaben mit "kleinen Reparaturen" von 1 - 10 Codezeilen ausgeschlossen und nur die Probleme behalten, die mehrere Dateien und wesentliche Änderungen erfordern.

Die durchschnittliche Referenzlösung betrifft 4,1 Dateien und 107,4 Codezeilen. Alle Aufgaben erfordern mindestens 10 geänderte Zeilen, und über 100 Aufgaben erfordern über 100 geänderte Zeilen.

Außer der Komplexität werden alle ausgewählten Code-Bibliotheken aktiv gewartet und decken mehrere Bereiche wie Verbraucher-Apps, B2B-Dienste und Entwickler-Toolplattformen ab.

Außerdem hat jede Code-Bibliothek 50 - 100 Beispiele beigetragen (oberer Grenzwert 100), um die Abhängigkeit von einer einzigen Bibliothek zu vermeiden.

Verifizierung durch Mensch-Maschine-Kooperation, um die Lösbarkeit der Aufgaben sicherzustellen

Die obigen schwierigen Probleme reichen noch nicht aus. Im letzten Schritt muss sichergestellt werden, dass sie lösbar sind.

Dafür hat der SWE-Bench Pro einen menschzentrierten Prozess zur verbesserten Verifizierung eingeführt, der in einen dreistufigen Prozess der Mensch-Maschine-Kooperation aufgeteilt ist.

Einerseits kann er unklare Informationen klären und fehlende Kontexte ergänzen; andererseits kann er den Lösungsraum einschränken, um gleichzeitig Flexibilität zu wahren und falsche Negative zu vermeiden.

Claude führt im Unternehmensbereich an und erreicht nur 17,8 % "höchste Punktzahl"

Die Leistung verschiedener Weltklasse-Modelle auf dem SWE-Bench Pro ist in der folgenden Tabelle 1 aufgeführt.

Unter Verwendung von Pass@1 als Indikator für die Problemlösungsrate führten GPT-5 und Claude Opus 4.1 mit einer Lösungsrate von 23,3 % bzw. 22,7 % an.

Frühere Modelle, wie DeepSeek Qwen - 3 32B und GPT - 4o, lagen deutlich hinter und erreichten nur 3,4 % bzw. 3,9 %.

Außerdem gibt es einen signifikanten Leistungsunterschied zwischen der Öffentlichen Sammlung und der Geschäftlichen Sammlung.

Die besten Modelle erreichten in der Geschäftlichen Sammlung weniger als 20 %, was indirekt die Herausforderung bei der Verarbeitung von Unternehmens-Code-Bibliotheken bestätigt.