Verstehen Sie in einem Artikel die Stärken von GPT-5, die verborgenen Waffen, die die Zukunft der KI bestimmen
Vor der Veröffentlichung von GPT-5 berichtete Information, dass die Leistungssteigerung von GPT-5 hauptsächlich auf dem von ihm entwickelten "Universal Verifier" beruhe.
Obwohl die nachfolgende Fähigkeitsverbesserung von GPT-5 nicht die Erwartungen erfüllte, ist der Universal Verifier zum nächsten "Heiligtum" der großen Modelle geworden und in letzter Zeit eines der heißesten Themen in der KI-Branche.
Warum ist er so wichtig?
Das liegt hauptsächlich daran, dass die Technologie, auf der die letzte Welle der Modellleistungssteigerung beruhte, das "Reinforcement learning with verifiable rewards" (RLVR) war. Einfach ausgedrückt, begann man mit Problemen aus dem Bereich Mathematik und Programmierung, die eindeutige Lösungen haben: Bei richtigen Antworten gab es Punkte, bei falschen Abzüge, und die Trainingsergebnisse waren augenblicklich sichtbar.
Die reale Welt ist jedoch weitaus komplexer als einfach "richtig" oder "falsch". In Bereichen wie Medizin, Bildung und Kreativität gibt es viele Probleme, die keine eindeutige Lösung haben. Eine "gute" Antwort muss möglicherweise sowohl fachlich zuverlässig sein als auch Kommunikation und Empathie zeigen. RLVR ist in diesen Szenarien an seine Grenzen gestoßen und hat sogar dazu geführt, dass das Modell bei offenen Fragen schlechter geworden ist.
Um das Modell weiter zu entwickeln, muss man die Beschränkungen der "richtig/falsch"-Belohnung überwinden und die KI in die Lage versetzen, wie ein Experte in verschiedenen Bereichen die Qualität zu bewerten und unstrukturierte Erfahrungsdaten in effektive Lernsignale umzuwandeln. Der Universal Verifier wurde genau für diesen Zweck entwickelt und wird als möglicher Auslöser der nächsten Paradigmenwende im Bereich des Reinforcement Learnings angesehen.
Heute wollen wir in einem Artikel die Kernlösungsansätze für das wichtigste Problem in der Welt der großen Sprachmodelle verstehen, in denen möglicherweise die nächste Paradigmenwende im Reinforcement Learning steckt.
Dieser Artikel ist ziemlich lang, etwa 8.000 Wörter. Aber erst wenn Sie den "Universal Verifier" verstehen, können Sie wirklich verstehen, worum es bei GPT-5 und den kommenden KI-Technologiewettbewerben geht. Bitten Sie sich etwas Geduld mit diesem Artikel.
Erster Weg: Das Modell als Richter, aber mit komplexeren Kriterien
Die Logik des ersten Wegs ist äußerst einfach. Da es sich um einen universellen Beurteiler handelt, warum nicht einfach ein großes Modell mit universeller Urteilsfähigkeit als Verifier verwenden?
Diese Idee existiert bereits seit langem. Das Konzept von "LLM-as-a-Judge" gab es bereits Anfang 2024.
Vor der jüngsten Umstellung des Reinforcement Learning-Paradigmas wurde es als ein objektives Instrument zur Bewertung der KI-Fähigkeiten angesehen.
Damals bot es zwar einen wertvollen Drittparteien-Sichtweise, aber es trat nicht wirklich in den Trainingsbereich ein und wurde nicht mit dem als Kernmotor fungierenden Reward Model verbunden. Es konnte zwar richtig und falsch unterscheiden, aber seine Urteile wurden nicht direkt in Echtzeit-Feedbacksignale umgewandelt, die das Modell iterativ optimieren sollten.
Aber diese Verbindung wurde bald entdeckt. Im August 2024 versuchte die DeepMind-Publikation "Generative Verifier" erstmals, ein Sprachmodell direkt als Verifier für das Reinforcement Learning zu trainieren.
Damals war der Anwendungsbereich von GenRM hauptsächlich auf logisch starke und schrittweise klare Bereiche wie Mathematik und Algorithmeninferenz konzentriert. Seine stärkste Version, GenRM-CoT, analysierte eine Lösung durch die Generierung einer "Chain-of-Thought". Sein Kernvorteil lag darin, dass es schrittweise Fehler im Rechenprozess präzise identifizieren konnte.
Mit dem Aufkommen von o1 und RLVR scheint der Glanz von GenRM jedoch vorübergehend verblasst zu sein. In Bereichen wie Mathematik und Programmierung, die eindeutige Lösungen haben, enthalten die Trainingsdaten selbst die zuverlässigsten "Verifizierungs"-Informationen. In diesem Kontext erschien es etwas überflüssig, einen so komplexen und selbst inferierenden Verifier wie GenRM aufzubauen. Daher war dieser Weg für eine Zeit in Stagnation geraten.
Wenn es jedoch um die Bereiche geht, in denen RLVR versagt, also die breiteren und subjektiven offenen Bereiche (wie kreatives Schreiben, komplexe Gespräche, humanistische Analysen), wird der Weg von GenRM wieder in den Fokus gerückt.
Die folgenden Artikel basieren im Wesentlichen auf diesem Weg und vertiefen und stärken ihn in Bezug auf die Komplexität der offenen Bereiche. Dies ist derzeit die vorherrschende Richtung bei der Konstruktion des "Universal Verifiers".
1. Da die Bewertung der meisten Dinge komplex ist, machen wir auch unsere Verifizierungskriterien komplexer
Da die meisten Bereiche keine eindeutige Lösung wie Programmierung und Mathematik haben, bauen wir einfach ein mehrdimensionales, listenähnliches "Rubric" auf, das die Elemente einer hochwertigen Antwort aufteilt. Dieses Rubric dient als universeller Verifier für die Belohnung.
Das am 23. Juli veröffentlichte Papier "Rubrics as Rewards" von ScaleAI zeigt systematisch die Forschungsfortschritte in dieser Richtung.
Das von dieser Studie vorgeschlagene RaR-Framework gibt eine konkrete Methode für das Aufbauen eines strukturierten, mehrdimensionalen "Wertsystems" für die KI an.
Die Kernlogik kann in drei Schritte unterteilt werden: Expertengesetzgebung, Modellgesetzinterpretation, KI-Gesetzvollstreckung.
Welche Dimensionen sollte eine gute Antwort haben? Diese Frage kann nicht vom Modell selbst aus der Luft gegriffen werden.
Der erste Schritt des RaR-Frameworks besteht darin, dass menschliche Experten und ein großes Sprachmodell zusammen ein Bewertungs-"Metaframework" für einen bestimmten Bereich (z. B. Medizin, Wissenschaft) definieren.
Beispielsweise erwähnen menschliche Experten im Bereich Medizin im Framework: "Das Rubric kann Aspekte wie Sachrichtigkeit, Merkmale einer idealen Antwort, Stil, Vollständigkeit, Hilfsbereitschaft, Harmlosigkeit, patientenzentrierte Herangehensweise, Tiefe der Argumentation, Situationsrelevanz und Empathie umfassen."
Die Experten definieren auch im Voraus die Wichtigkeitsebene und verlangen, dass das Modell die Kategorien "Essential Criteria", "Important Criteria", "Optional Criteria" oder "Pitfall Criteria" verwenden muss.
Der Grund, warum Modelle in der Vergangenheit RLVR gewählt haben, war, dass die Belohnungskriterien sehr klar waren und es einfach war, die Wirkung mit einer großen Anzahl von Problemen zu verstärken. In RaR wäre es jedoch äußerst schwierig, die Skalierbarkeit zu erreichen, wenn für jedes Problem die Experten das Rubric schreiben müssten. Daher bietet RaR eine Lösung: Obwohl die Metaregeln von menschlichen Experten geschrieben werden, wird das konkrete Bewertungssystem von einem Modell skaliert.
In dieser Phase erhält ein starkes Modell das von den Experten festgelegte "Metaframework" und kombiniert es mit einem konkreten "Fallbeispiel" (d. h. einer Frage und einer von einem Experten gegebenen Musterantwort), und dann generiert es automatisch eine detaillierte, handlungsfähige Liste mit 7 bis 20 Bewertungspunkten.
Jeder Punkt wird mit einer Kategoriewichtigkeit versehen, um seine Wichtigkeit für die richtige Antwort zu bestimmen. Beispielsweise würde es für die Frage "Wie diagnostiziert man Nierensteine?" automatisch die konkrete Klausel "Essential Criteria: Angabe der Sensitivität der nicht-kontrastierten Spiral-CT" generieren.
Dieser Schritt ist der Schlüssel für die Skalierbarkeit. Er macht die Anstrengungen der Experten, "ein Musterbeispiel zu schreiben", zu Tausenden von verschiedenen Kriterien, die für die automatisierte Bewertung unterschiedlicher Szenarien verwendet werden können.
Mit dieser detaillierten "Gesetzgebung" (Rubric) beginnt der Trainingsvorgang mit der Reinforcement Learning (RL)-Schleife. Das zu lernende "Schülermodell" (Qwen2.5 - 7B) generiert mit einer ähnlichen Methode wie GPRO explorativ mehrere unterschiedliche Antworten auf die Frage.
Ein anderes "Richtermodell" (LLM Judge, GPT - 4o - mini) gibt dann jedem dieser Antworten des "Schüler-AI" einen genauen Punktwert gemäß dem Rubric.
Das "Schüler-AI" optimiert schließlich seine Generierungsstrategie ständig anhand dieser dichten und klaren Rückmeldungspunkte und lernt, wie es Antworten schreiben kann, die dauerhaft hohe Punktzahlen erzielen.
Das mit diesem RaR-Framework trainierte Modell hat tatsächlich bemerkenswerte Erfolge erzielt. Im medizinischen Bereich stieg der Punktwert von Qwen2.5 - 7B nach der RaR-Trainingsmethode von 0,0818 auf 0,3194 an, was einer fast vierfachen Leistungssteigerung entspricht. Im Vergleich zur stärkeren instruktionsfeingestellten Basislinie Qwen2.5 - 7b - Instruct stieg der Punktwert ebenfalls von 0,2359 auf 0,3194 an, was einer relativen Leistungssteigerung von etwa 35 % entspricht.
Die Autoren verglichen auch die Verbesserung dieser Methode im Vergleich zu anderen allgemeinen Methoden des "LLM as Judge".
Beispielsweise erreichte RaR im Gesundheitsbenchmark HealthBench - 1k eine relative Leistungssteigerung von bis zu 28 % im Vergleich zur einfachen Methode, bei der das Modell die Antworten direkt mit einer Punktzahl von 1 bis 10 bewertet (Simple - Likert-Frage). Das Leistungsvermögen von RaR kann das der Methode, bei der Experten eine Musterantwort für eine einzelne Frage schreiben und das Modell dann diese Musterantwort als Referenz zur Bewertung verwendet (Reference - Likert), erreichen oder sogar übertreffen. Diese Methode ist jedoch überhaupt nicht skalierbar, und RaR hat deutliche Vorteile.
Im Vergleich zur grundlegenderen Methode des Feinabstimmens mit Expertenantworten (SFT) liegt die Leistung von RaR um mehr als 30 % höher.
Alle diese Ergebnisse zeigen, dass das Modell durch das strukturierte Rubric RaR genauere Belohnungssignale erhält und somit in komplexen Inferenztasks besser abschneidet.
Das einzige Problem dieser Methode als universelle Verifizierungsmethode besteht möglicherweise darin, dass für jeden Bereich die Experten ein Metabewertungsrahmen für diesen Bereich schreiben müssen. Daher ist es noch schwer zu sagen, dass es "universell" ist, bevor dies abgeschlossen ist. Aber zumindest ist diese Methode zur Verifizierung von erweiterten Bereichen universell. Sie bietet ein skalierbares und effizientes Blueprint und Werkzeugkasten für das "Auffüllen aller Bereiche".
2. Rubicon: Beseitigen des Seesaw-Effekts im Reinforcement Learning, um universelle Leistung ohne Schwachstellen zu erreichen
Nach diesem Artikel veröffentlichte am 18. August die Ant Group in Zusammenarbeit mit der Zhejiang University ebenfalls ein Papier über das Reinforcement Learning auf der Grundlage des "Rubric", das in die gleiche Richtung geht, aber noch einen Schritt weiter geht.
Obwohl der grundlegende Rubric-Rahmen und die Logik ähnlich dem RaR-System sind, hat das Rubicon-Team hier ein großes System mit über 10.000 Bewertungskriterien aufgebaut, um die Leistung des Modells in subjektiven Bereichen wie Humanwissenschaften, Kreativität, Sozialität und allgemeinen Gesprächen umfassend zu verbessern. Sie trainierten das Qwen - 30B - A3B - Modell nur mit etwas über 5.000 Trainingsbeispielen und erzielten auf verschiedenen offenen Benchmarktests (insbesondere bei auf Humanwissenschaften ausgerichteten Aufgaben) eine absolute Verbesserung von 5,2 %, sogar 2,4 % höher als das viel größer dimensionierte 671B DeepSeek - V3 - Modell.