HLE "Letzter menschlicher Test": Erstmalig über 60 Punkte! Eigen-1 auf Basis von DeepSeek V3.1 liegt weit vor Grok4 und GPT-5

Drei technologische Innovationen ermöglichen den Sprung über die 60-Punkte-Marke.

Für das erste Mal hat ein System die Marke von 60 Punkten beim Expertenvalidierungsset der HLE ("Humanity's Last Exam") überschritten!

Gerade kürzlich hat das von Teams wie denen von Xiangru Tang und Yujie Wang aus der Yale University, Wanghan Xu aus der Shanghai Jiao Tong University, Guancheng Wan aus der UCLA, Zhenfei Yin aus der Universität Oxford sowie Di Jin und Hanrui Wang von Eigen AI gemeinsam entwickelte Eigen-1 Multi-Agent-System einen historischen Durchbruch erzielt:

Beim HLE Bio/Chem Gold Testset erreichte die Pass@1-Genauigkeit 48,3 %, und die Pass@5-Genauigkeit stieg sogar auf 61,74 %, was erstmals die Marke von 60 Punkten überschritt. Diese Leistung übertraf bei weitem die von Google Gemini 2.5 Pro (26,9 %), OpenAI GPT-5 (22,82 %) und Grok 4 (30,2 %).

Das Erfreulichste ist, dass dieser Erfolg nicht auf einem proprietären Super-Modell beruht, sondern vollständig auf der Open-Source-Plattform DeepSeek V3.1 aufgebaut ist.

Auf dieser Open-Source-Basis hat das Forschungsteam durch die Integration von drei innovativen Mechanismen - Monitor-based RAG (implizite Wissensverstärkung), HSR (hierarchische Lösungskorrektur) und QAIR (qualitätsorientierte iterative Inferenz) - einen qualitativen Sprung erzielt.

Im Folgenden wird dies ausführlicher erläutert:

Technologische Innovation: Drei Pfeiler für den 60-Punkte-Durchbruch

Wenn KI die ultimative Grenze des menschlichen Wissens herausfordert, beginnt ein beispielloser Wettlauf.

Als die großen Modelle bei traditionellen Benchmarks wie MMLU und GPQA alle "auf 90 Punkte aufgestockt" wurden, verloren diese Tests zunehmend an Unterscheidungsvermögen. Um den echten Fortschritt der KI in der wissenschaftlichen Inferenz zu verfolgen, haben das Center for AI Safety und Scale AI die "Humanity's Last Exam" (HLE) eingeführt:

Es umfasst über 3.000 Doktoratsaufgaben aus mehr als 100 Bereichen wie Mathematik, Naturwissenschaften, Ingenieurwesen und Geisteswissenschaften und gilt als die ultimative Prüfung für die Wissensinferenz von KI.

Das HLE Bio/Chem Gold ist das Goldstandard-Set der HLE und enthält 149 Aufgaben, die von Fachleuten manuell überprüft und korrigiert wurden.

Im Vergleich zum ursprünglichen HLE-Datensatz werden in diesem Set Fragen mit möglicherweise mehrdeutigen oder falschen Antworten ausgeschlossen, um die Genauigkeit und Zuverlässigkeit der Labels sicherzustellen. Daher ist es der vertrauenswürdigste Benchmark für die Bewertung der wissenschaftlichen Inferenzfähigkeit von KI.

Genau beim HLE Bio/Chem Gold-Set hat das Eigen-1-System erstmals die Marke von 60 Punkten überschritten, und dahinter stehen drei innovative Mechanismen.

1. Monitor-based RAG: Implizite Suchverstärkung ohne "Tool Tax"

Ein traditionelles Retrieval-Augmented Generation (RAG)-System ist wie ein Video-Player, der ständig anhält - jedes Mal, wenn es externes Wissen benötigt, muss es den Inferenzprozess unterbrechen, eine Abfrage erstellen, die Ergebnisse verarbeiten und dann den Kontext neu integrieren.

Das Forschungsteam hat diesen Aufwand bildlich als "Tool Tax" bezeichnet - jedes Mal, wenn ein Tool aufgerufen wird, wird der Denkprozess unterbrochen, was zum Verlust des Kontexts führt.

Das Problem der "Tool Tax" eines traditionellen RAG-Systems wird im untenstehenden Beispiel aus der Populationsgenetik deutlich. Auf der linken Seite sieht man, dass das Modell übermäßig selbstbewusst eine falsche Formel verwendet, während auf der rechten Seite gezeigt wird, dass selbst wenn es durch explizites RAG die richtige Formel erhält, die Unterbrechung des Inferenzprozesses es verhindert, das Wissen in die ursprüngliche Aufgabe zu integrieren.

Das Monitor-based RAG von Eigen-1 hat dieses Paradigma grundlegend verändert:

Implizite Überwachung: Der Monitor überwacht kontinuierlich die Unsicherheit im Inferenzstrom, wie ein aufmerksamer Assistent, der stumm im Hintergrund auf jeden Moment achtet, an dem möglicherweise Hilfe benötigt wird. Er scannt die Inferenztrajektorie, um bei Unsicherheit das RAG auszulösen.

Präzise Abfrage: Der Querier extrahiert bei der Erkennung von Unsicherheit präzise die kleinste Menge an Schlüsselwörtern, um eine unnötige Erweiterung des Suchraums zu vermeiden.

Nahtlose Integration: Der Injector integriert das gesuchte Wissen nahtlos in den Inferenzstrom, wie wenn man in einem Gespräch Hintergrundinformationen natürlich hinzufügt, anstatt eine Zitierung starr einzufügen.

Die experimentellen Daten zeigen, dass im Vergleich zum expliziten RAG das Monitor-based RAG den Token-Verbrauch um 53,5 % und die Anzahl der Workflow-Iterationen um 43,7 % reduziert, während es gleichzeitig eine höhere Genauigkeit aufrechterhält.

Im untenstehenden Beispiel der Haplotypzählung erkennt der Monitor die Unsicherheit bezüglich der Rekombinationsbeschränkung, der Querier erstellt eine gezielte Abfrage und der Injector integriert zwei Schlüsselfakten, sodass das Modell die ungültigen Fälle ausschließen und die richtige Antwort von 30 Haplotypen erhalten kann.

2. Hierarchical Solution Refinement (HSR): Vom "demokratischen Abstimmen" zum "hierarchischen Verfeinern"

Außer der impliziten Wissensverstärkung hat Eigen-1 auch das Kooperationsmodell von Multi-Agent-Systemen revolutioniert.

Ein traditionelles Multi-Agent-System verwendet ein "demokratisches Abstimmungs"-Mechanismus, bei dem alle Kandidatenlösungen gleich behandelt werden, was dazu führt, dass die optimale Lösung "verdünnt" wird.

Das von Eigen-1 eingeführte Hierarchical Solution Refinement (HSR) bricht mit dieser Annahme. HSR verwendet eine "Anker-Korrektur"-Struktur: Ein Kandidat dient als Anker, und die anderen werden nacheinander als Referenz korrigiert, um eine hierarchische Zusammenarbeit zu bilden.

Im Rahmen von HSR fungiert jeder Kandidatenlösung einmal als "Anker", während die anderen Lösungen als "Referenz" für die gezielte Korrektur dienen. Diese Gestaltung ermöglicht es starken Lösungen, wertvolle Einsichten aus schwächeren Lösungen zu übernehmen, anstatt einfach einen Durchschnitt zu bilden.

Insbesondere gibt es vier Korrekturdimensionen: Logische Ergänzung (Ausfüllen fehlender Inferenzschritte), Numerische Korrektur (Korrektur von Rechenfehlern), Methodenersetzung (Ersetzen schwacher Methoden durch bessere Strategien) und Formulierungsoptimierung (Verbesserung der Klarheit ohne Änderung des Wesens).

Diese Gestaltung ermöglicht es guten Lösungen, wertvolle Einsichten aus anderen Lösungen zu übernehmen, anstatt einfach einen Durchschnitt zu bilden.

Das untenstehende Bild zeigt anhand einer Bilderkennungsaufgabe lebendig, wie HSR funktioniert.

Bei einer kombinierten Aufgabe der Insektenerkennung und der Blumenzählung wählt die Ankerlösung zunächst ResNet (Option C), aber es gibt einen Fehler bei der Berechnung der Bereitstellungszeit. Indem andere Lösungen als Referenz eingeführt werden, führt das System vier Arten von gezielten Korrekturen durch.

3. Quality-Aware Iterative Reasoning (QAIR): Qualitätstreibende iterative Optimierung

Die Quality-Aware Iterative Reasoning (QAIR) kann die Iterationstiefe adaptiv an die Qualität der Lösung anpassen: Lösungen hoher Qualität können früher konvergieren, während Lösungen niedriger Qualität mehr Explorationen auslösen, um so ein Gleichgewicht zwischen Effizienz und Genauigkeit zu erreichen.

Dieser Mechanismus bewertet jede Lösung anhand dreier Dimensionen: Logik, Antwortkorrektheit und Erklärungskomplettheit. Nur Lösungen, die nicht die Standards erreichen, gehen in die nächste Korrekturrunde ein, um Rechenressourcen bei niedrigwertigen Kandidaten zu sparen.

Überragende Leistung: Nicht nur bei der HLE

Die Stärken von Eigen-1 beschränken sich nicht auf die HLE:

1. HLE Bio/Chem Gold (149 Aufgaben)

Pass@1: 48,30 % (13,4 Prozentpunkte vor SciMaster)

Pass@5: 61,74 % (erstmals über 60 %)

2. SuperGPQA Biologie (Hard-Version)

Pass@1: 69,57 %

Pass@5: 78,26 %

3. TRQA Literaturverständnis

Pass@1: 54,65 %

Pass@5: 79,07 %

Tiefere Einsichten: Die Regeln hinter dem Erfolg

Analyse der Fehlermuster

Das Tortendiagramm in Abbildung 7 zeigt einen wichtigen Einblick: 92,78 % der Fehler betreffen Probleme im Inferenzprozess, 88,66 % betreffen Probleme bei der Wissensanwendung, und es gibt eine erhebliche Überlappung zwischen den beiden.

Dies zeigt, dass die Kernherausforderung der wissenschaftlichen Inferenz nicht in der reinen Wissenssuche oder der logischen Inferenz liegt, sondern darin, wie man Wissen und Inferenz nahtlos integriert.

Im Vergleich dazu machen die Fehler bei der Ausführung und Befolgung (13,40 %) und die Verständnisfehler (9,28 %) einen kleineren Anteil aus, was zeigt, dass das Modell auf den Ebenen des Befehlsverständnisses und der Ausführung bereits relativ reif ist.

Präzise Quantifizierung des Beitrags der Komponenten

Das Team hat den Beitrag jeder Komponente durch inkrementelles Aufbauen und Ablationsversuche präzise quantifiziert.

Das Basissystem kann ohne jegliches externes Wissen nur eine Genauigkeit von 25,3 % erreichen und verbraucht 483,6 K Tokens. Nach der Hinzufügung des expliziten RAG steigt die Genauigkeit auf 41,4 %, aber der Preis dafür ist, dass die Anzahl der Workflow-Schritte von 43,4 auf 94,8 sprengt, was genau die "Tool Tax" widerspiegelt.

Nach der Einführung der Monitor-Komponente sinkt die Genauigkeit zwar leicht auf 34,5 %, aber der Token-Verbrauch fällt auf 218,4 K, und die Anzahl der Workflow-Schritte sinkt auf 51,3.

Mit der Hinzufügung von Querier und Injector steigt die Genauigkeit wieder auf 40,3 %. Die Einführung von HSR bringt die Genauigkeit auf 43,7 %, und schließlich bringt QAIR die Genauigkeit des vollständigen Systems auf 48,3 %, während es gleichzeitig eine effiziente Ressourcennutzung aufrechterhält (218,9 K Tokens, 53,4 Schritte).

Die Ablationsversuche bestätigen aus einer anderen Perspektive die Notwendigkeit jeder Komponente. Das Entfernen des Monitors führt zu einem Sprung des Token-Verbrauchs auf 461,3 K und der Anzahl der Workflow-Schritte auf 95,3, was den enormen Wert der impliziten Verstärkung zeigt.

Das Entfernen von HSR oder QAIR führt jeweils zu einer Absenkung der Genauigkeit auf 44,8 % bzw. 43,7 %, was die Wichtigkeit des hierarchischen Verfeinerns und der qualitätsorientierten Iteration beweist.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

HLE "Letzter menschlicher Test" hat erstmals 60 Punkte überschritten. Eigen-1 basierend auf DeepSeek V3.1 liegt deutlich vor Grok4 und GPT-5.