Stanfords Agenten-Validierungsframework übertrifft Claude, Mythos und GPT - 5.5, gewinnt SOTA; Transformer

Durch die Erhöhung des Rechenaufwands in der erweiterten Validierungsphase wird die Gesamtleistung des Agenten erheblich verbessert.

Die Autoren der Transformer - Studie, Lukasz Kaiser, und der Autor von GAN, Bing Xu, haben sich für ein Projekt interessiert und es weitergeleitet –

LLM-as-a-Verifier - ein Verifizierungsrahmen. Diese Methode ist ein universelles Verifizierungsverfahren, das mit jedem Agent Harness und Modell kombiniert werden kann.

Es wurde von Stanford, Berkeley und NVIDIA gemeinsam entwickelt.

Studien haben gezeigt, dass durch die Erhöhung der Rechenleistung in der Verifizierungsphase (scaling verification compute) die Gesamtleistung des Agenten deutlich verbessert werden kann und dass es auf dem einflussreichsten Benchmark für AI - Programmierung, Terminal - Bench, Claude Mythos und GPT - 5.5 übertrifft!

LLM - as - a - Verifier hat auf den AI - Coding - Benchmarks Terminal - Bench und SWE - Bench Verified die aktuell beste (SOTA) Leistung erzielt.

Methode

Die meisten Agent Harness verfügen bereits über die Fähigkeit, Probleme zu lösen.

Wenn wir denselben Agenten mehrmals ausführen (z. B. 100 Mal), kann er in der Regel bei einem der Versuche die richtige Antwort generieren.

Das Problem besteht jedoch darin, dass sie nicht entscheiden können, welche Antwort die richtige ist.

Dieses Problem ist bei langfristigen Aufgaben (long - horizon tasks) besonders gravierend.

LLM - as - a - Verifier verbessert die Verifizierungsfähigkeit deutlich und erhöht die Erfolgsrate bei nachgelagerten Aufgaben durch die Verfeinerung der Granularität der Bewertungstoken (score granularity), mehrfache Bewertungen (repeated verification) und Zerlegung der Bewertungskriterien (criteria decomposition).

Darüber hinaus hat das Team festgestellt, dass sich mit zunehmender Granularität der Bewertungstoken der Unterschied zwischen den Bewertungen von positiven und negativen Beispielen vergrößert.

Das Kernproblem: Die Einschränkungen von LLM - as - a - Judge

Der Standard - LLM - as - a - Judge fordert das Modell auf, ein Bewertungsergebnis auszugeben (z. B. eine Punktzahl zwischen 1 und 8) und wählt die Punktzahl mit der höchsten Wahrscheinlichkeit als endgültige diskrete Punktzahl aus.

Allerdings hat diese Methode oft das Problem, dass die Bewertungsgranularität zu grob ist.

Beim Vergleich von langfristigen Agent - Trajektorien (trajectories) weist der LLM - as - a - Judge in der Regel denselben Wert für verschiedene Trajektorien zu (z. B. werden beide Trajektorien mit 4 Punkten bewertet), was zu einem Unentschieden führt und es unmöglich macht, sie effektiv zu unterscheiden.

Dieses grobe Bewertungsverfahren führt auf Terminal - Bench in 27% der Fälle zu einem Unentschieden, was die Genauigkeit und Unterscheidungsfähigkeit der Bewertung einschränkt.

LLM - as - a - Verifier: Der Paradigmenwechsel von der Bewertung zur Verifizierung

Definitionsmäßig ist ein Judge (Schiedsrichter) jemand, der eine Gesamtbeurteilung der Situation trifft und ein Ergebnis festlegt; ein Verifier (Verifizierer) hingegen überprüft die Wahrheit und Richtigkeit konkreter Dinge und erfordert daher eine detailliertere und spezifischere Bewertung.

Dafür hat das Team LLM - as - a - Verifier entwickelt. Es bietet detaillierte Rückmeldungen, indem es die folgenden drei Dimensionen erweitert:

Die Granularität der Bewertungstoken (granularity of score tokens)

Die Anzahl der wiederholten Verifizierungen (repeated verifications)

Die Zerlegung der Bewertungskriterien (decomposition of evaluation criteria)

Gegeben sei eine Aufgabe t und zwei Kandidaten - Trajektorien

und

. LLM - as - a - Verifier erstellt einen Bewertungsprompt und erhält die entsprechende bedingte Verteilung, indem es die toplogprobs aus <score_A> und <score_B> extrahiert:

LLM - as - a - Verifier stellt die Belohnung einer Trajektorie wie folgt dar:

Hierbei gilt:

C = Anzahl der Bewertungskriterien

K = Anzahl der wiederholten Verifizierungen

G = Anzahl der Bewertungstoken (Granularitätsstufe)

ist die Wahrscheinlichkeit des Modells für ein Bewertungstoken

= Funktion, die jedes Bewertungstoken in einen skalaren Wert abbildet

= Menge der diskreten Bewertungstoken

Beim Auswählen der besten Trajektorie verwenden wir ein Turniersystem (round - robin tournament): Für jedes Paar von Kandidaten - Trajektorien (i, j) berechnet der Verifizierer die Belohnung mithilfe der obigen Formel.

Die Trajektorie mit der höheren Belohnung gewinnt, und die Trajektorie mit der meisten Siege in allen Vergleichen wird als endgültiges Ergebnis ausgewählt.

Experimentelle Ergebnisse

Bei komplexen langfristigen Benchmark - Aufgaben wie Terminal - Bench 2.0 und SWE - Bench Verified hat LLM - as - a - Verifier die führenden Modelle übertroffen und die aktuell beste (SOTA) Leistung erzielt. Alle experimentellen Ergebnisse stammen aus der offiziellen Rangliste.

LLM - as - a - Verifier kann nahtlos in verschiedene Agent Harness - Frameworks integriert werden. Seine Universalität wurde anhand der folgenden drei Benchmark - Aufgaben verifiziert:

ForgeCode: Die Verifizierungsgenauigkeit stieg auf 86,4 %;

Terminus - Kira: Die Genauigkeit stieg auf 79,4 %;

Terminus 2: Die Genauigkeit erhöhte sich auf 71,2 %.

Dies zeigt, dass diese Verifizierungsmethode unabhängig vom Agent Harness oder Modell effizient kompatibel ist und die Leistung verbessern kann.

LLM - as - a - Verifier führt in Bezug auf die Verifizierungsgenauigkeit und die Beseitigung von Unentschiedenheit gegenüber dem traditionellen LLM - as - a - Judge. Selbst wenn die Anzahl der wiederholten Verifizierungen erhöht wird (z. B. k = 16), behält die Verifier - Methode immer noch einen Vorteil von mindestens 7 % bei der Verifizierungsgenauigkeit.

Darüber hinaus beseitigt es die Unentschiedenheit vollständig.

Die experimentellen Ergebnisse zeigen, dass sowohl die Erhöhung der Granularität der Bewertungstoken (granularity) als auch die Erhöhung der Anzahl der wiederholten Verifizierungen (repeated verifications) die Verifizierungsgenauigkeit deutlich verbessern.

Darüber hinaus wird bei der feineren Einteilung der Bewertungstoken (1 → 20) der Quantisierungsfehler erheblich verringert, was der realen Belohnung näher kommt.

LLM - as - a - Verifier verzichtet auf das traditionelle Einfach - Bewertungssystem und zerlegt die Trajektorienverifizierung in drei kombinierbare Bewertungskriterien:

Spezifikationskonformität (Specification): Befriedigt die Trajektorie alle Aufgabenanforderungen (Pfad, Benennung usw.).

Ausgabeformat (Output Format): Überprüft, ob das Ausgabeformat den erwarteten Ergebnissen entspricht.

Fehlererkennung (Error Checking): Gibt es in der Trajektorie offensichtliche Fehlersignale.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Übertrifft Claude Mythos und GPT-5.5, das Agenten-Validierungsframework von Stanford gewinnt SOTA, und der Autor von Transformer teilt es weiter.

Methode

Das Kernproblem: Die Einschränkungen von LLM - as - a - Judge

LLM - as - a - Verifier: Der Paradigmenwechsel von der Bewertung zur Verifizierung

Experimentelle Ergebnisse