Yao Shunyu's Team at Tencent Unveils First Result Exposing Real Bottlenecks of Large Language Models

Der Technologieblog von Tencent Hunyuan wird erstmals veröffentlicht.

Zhidongxi berichtete am 3. Februar, dass die offizielle Website von Tencent Hunyuan gerade online gegangen ist. Die neuesten Ergebnisse des Teams von Yao Shunyu wurden veröffentlicht, darunter das Benchmark CL-bench, das speziell dazu dient, zu beurteilen, ob große Sprachmodelle aus dem Kontext (Context) neue Kenntnisse lernen und diese richtig anwenden können.

Dies ist das erste veröffentlichte Forschungsergebnis des Teams seit Yao Shunyus Übernahme als Chef-AI-Wissenschaftler bei Tencent Hunyuan und auch die erste öffentliche Präsentation des Tencent Hunyuan-Technologie-Blogs.

Tencent Hunyuan-Technologie-Blog und Dankesbestätigungsteil

Der Schlüsseldifferenz zwischen großen Modellen und Menschen beim Problemlösen besteht darin, dass große Modelle nur auf die statischen Erinnerungen aus der Vortrainingsphase zurückgreifen können, während Menschen in der Lage sind, in Echtzeit anhand der momentanen Situation Aufgaben zu erledigen. Das Tencent Hunyuan-Forschungsteam hat in praktischen Tests festgestellt, dass fast alle aktuellen SOTA-Modelle nicht aus dem Kontext lernen. Selbst das am besten abschneidende GPT-5.1 (high) erreichte nur eine Erfolgsrate von 23,7% bei den Aufgaben.

Basierend auf diesen Erkenntnissen hat das Team das CL-bench mit einem einzigen Kernziel entwickelt: Das Modell muss bei der Lösung jeder Aufgabe aus dem Kontext neue Kenntnisse lernen, die nicht im Vortraining vorhanden waren, und diese richtig anwenden.

Adresse des Tencent Hunyuan-Technologie-Blogs:

https://hy.tencent.com/research

Projekt-Homepage:

www.clbench.com

01. Große Modelle sollen nicht mehr nur auswendig lernen - Das neue Benchmark umfasst 500 komplexe Kontextaufgaben

In den letzten Jahren haben sich große Sprachmodelle rasant entwickelt. Sie können Mathematikrätsel von Olympiade-Niveau lösen, komplexe Programmierlogiken ableiten und sogar Fachprüfungen bestehen, die Menschen nur nach Jahren intensiver Vorbereitung meistern können. Aber dahinter verbirgt sich ein entscheidender Hürde: Selbst wenn ein großes Modell in der Prüfung eine volle Punktzahl erzielt, bedeutet dies nicht unbedingt, dass es in der realen Welt einsetzbar ist.

Menschen können in Echtzeit während der Aufgabe aus der momentanen Umgebung lernen. Große Sprachmodelle hingegen verlassen sich hauptsächlich auf "parametrisierte Kenntnisse", also die statischen Erinnerungen, die während der Vortrainingsphase in die Modellgewichte komprimiert wurden. Bei der Inferenz greift das Modell eher auf diese gespeicherten internen Kenntnisse zurück, anstatt aktiv aus den neuen Eingabeinformationen zu lernen.

Deshalb sind die derzeit optimierten Modelle gut darin, über Dinge zu schließen, die sie "bereits kennen". Die Nutzer möchten aber, dass die Modelle Aufgaben lösen können, die auf ungeordneten, dynamisch veränderlichen Kontexten beruhen.

Basierend auf diesen Überlegungen möchten die Hunyuan-Forscher diese Lücke schließen und die Optimierungsrichtung der Modelle grundlegend ändern. Sie haben daher das Benchmark CL-bench entwickelt, um zu beurteilen, ob große Sprachmodelle aus dem Kontext neue Kenntnisse lernen und diese richtig anwenden können.

Paradigmenwechsel bei großen Sprachmodellen

Das CL-bench umfasst 500 komplexe Kontexte, 1.899 Aufgaben und 31.607 Validierungskriterien, die von Experten erstellt wurden. Die Anforderung an das Modell lautet: Es muss bei der Lösung jeder Aufgabe aus dem Kontext neue Kenntnisse lernen, die nicht im Vortraining vorhanden waren, und diese richtig anwenden.

Die Kenntnisse, die das Modell lernen muss, sind sehr vielfältig. Dazu gehören neue Fachkenntnisse, unbekannte Regelsysteme, komplexe Produktworkflows und sogar Gesetze oder Schlussfolgerungen, die aus experimentellen Daten abgeleitet werden müssen.

Alle diese Kenntnisse wurden entweder vollständig neu von Fachexperten erstellt oder stammen aus Nischen- oder Langschwanzquellen, die in den Trainingsdaten aktueller Spitzenmodelle kaum vertreten sind. Deshalb können die Modelle die Aufgaben nicht durch das Abrufen statischer parametrisierter Kenntnisse lösen, sondern müssen aus dem bereitgestellten Kontext lernen und anwenden.

Konkret umfasst das CL-bench vier breite reale Szenarien für Kontextlernen:

Kontextklassifikationssystem des CL-bench

Fachwissensinferenz: Der Kontext liefert spezifisches Fachwissen, wie z. B. ein fiktives Rechtssystem, innovative Finanzinstrumente oder Nischenfachkenntnisse. Das Modell muss diese Kenntnisse nutzen, um spezifische Probleme zu lösen.

Regelsystemanwendung: Der Kontext bietet ein neu definiertes formales System, wie z. B. ein neues Spielmechanik, eine mathematische Formalismus, eine Programmiersyntax oder einen technischen Standard. Das Modell muss diese Regeln verstehen und anwenden, um die Aufgabe auszuführen.

Prozedurale Aufgabenausführung: Der Kontext liefert ein komplexes Prozesssystem, wie z. B. einen Workflow, ein Produktmanual oder eine Bedienungsanleitung. Das Modell muss diese prozeduralen Informationen verstehen und anwenden, um die Aufgabe zu erfüllen.

Erfahrungsfindung und Simulation: Der Kontext bietet experimentelle Daten, Beobachtungsaufzeichnungen oder eine Simulationsumgebung in einem komplexen System. Im Gegensatz zu den vorherigen Kategorien, die deduktives Denken betreffen, konzentriert sich diese Kategorie auf induktives Denken. Das Modell muss aus den Daten potenzielle Gesetze oder Schlussfolgerungen entdecken und diese anwenden, um die Aufgabe zu lösen.

Beispiel des CL-bench - Die Lösung dieser Aufgaben erfordert, dass das große Sprachmodell aus dem bereitgestellten Kontext lernt

Diese Kategorien umfassen die meisten deduktiven und induktiven Aufgaben, die in der realen Welt vorkommen, und können die Kontextlernfähigkeit des Modells messen.

02. Die Erfolgsrate der Modelle liegt nur bei 17,2% - Fünf Schlussfolgerungen

Die Forscher haben zehn führende große Sprachmodelle auf dem CL-bench evaluiert.

Durchschnittlich haben die Modelle nur 17,2% der Aufgaben gelöst. Das GPT-5.1 (High) hat 23,7% der Aufgaben gelöst.

Mit anderen Worten: Obwohl der Kontext alle Informationen zur Lösung jeder Aufgabe enthält, scheitern die Modelle bei den meisten Aufgaben. Dies zeigt, dass fast alle aktuellen SOTA-Modelle nicht aus dem Kontext lernen können.

Aufgabenlösungsrate von zehn Spitzenmodellen auf dem CL-bench

Das Hunyuan-Forschungsteam hat einige Schlussfolgerungen gezogen:

1) Die Ignorierung oder Fehlanwendung des Kontexts ist die Hauptursache für das Scheitern.

Viele Fehler resultieren nicht aus fehlenden Informationen, sondern daraus, dass das Modell wichtige Details im Kontext ignoriert oder falsch anwendet. In vielen Fällen greift das Modell nur auf die statischen Kenntnisse aus dem Vortraining zurück, auch wenn der Kontext neue Regeln, Konzepte oder Prozeduren definiert.

Verteilung der Fehlertypen der verschiedenen Modelle

2. Langkontextinferenz und Befehlseinhaltung sind notwendig, aber nicht hinreichend.

Fallstudien zeigen, dass Modelle, die Schwierigkeiten haben, Abhängigkeiten über lange Kontexte hinweg zu verfolgen oder genaue Einschränkungen einzuhalten, in der Regel schlechter abschneiden. Aber selbst Modelle, die lange Eingaben verarbeiten und Befehle zuverlässig befolgen können, scheitern bei vielen Aufgaben. Die Fähigkeit zum Kontextlernen erfordert mehr als nur die Fähigkeit zur Langkontextverstehen und Befehlseinhaltung.

3. Induktives Denken aus experimentellen Daten und Umgebungssimulationen ist schwieriger als deduktive Anwendung.

Deduktive Aufgaben verlangen, dass das Modell Regeln und Prozesse aus dem Kontext anwendet. Aufgaben aus der Kategorie "Erfahrungsfindung und Umgebungssimulation" erfordern induktives Denken, also die Ableitung von Mustern aus Daten oder die Exploration in einer virtuellen Umgebung. Die Modelle schneiden bei diesen Aufgaben deutlich schlechter ab, die Aufgabenlösungsrate liegt in der Regel unter 10% und die Ergebnisse schwanken stark. Dies zeigt, dass die Entdeckung von Mustern schwieriger ist als die Anwendung von Regeln.

Vergleich der Leistung des GPT-5.1 in verschiedenen Inferenzstärken für verschiedene Unterkategorien

4. Höhere Inferenzstärke verbessert in der Regel das Kontextlernen.

Für einige Modelle kann die Erhöhung der Inferenzstärke die Leistung verbessern und das Modell befähigen, komplexe Kontexte besser zu verstehen. Beispielsweise hat das GPT-5.1 bei Verwaltungsaufgaben und Aufgaben mit experimentellen Daten eine Verbesserung von etwa 6% erzielt. Bei anderen Modellen ist die Verbesserung jedoch begrenzt oder es kann sogar eine Verschlechterung geben. Dies zeigt, dass mehr Inferenz allein nicht ausreicht, das Modell muss auch in der Lage sein, die Kontextinformationen richtig aufzunehmen und zu organisieren.

Änderungstendenz der Kontextlernleistung der Modelle bei verschiedenen Eingabelängen

5. Die Schwierigkeit des Kontextlernens hängt von der Kontextlänge ab, aber kurze Kontexte können auch komplex sein.

Längere Kontexte machen die Aufgaben für alle Modelle in der Regel schwieriger. Dies bestätigt, dass die Verarbeitung langer Kontexte immer noch ein kritischer Engpass ist. Aber auch kurze Kontexte können schwierig sein, wenn sie informationenreich, regelnimplizit, abhängigkeitskomplex oder einschränkungsstark sind. Dies zeigt, dass die Schwierigkeit des Kontextlernens nicht nur von der Länge, sondern auch von der Komplexität des Kontexts abhängt.

Das CL-bench erklärt deutlich, warum große Sprachmodelle in der realen Welt so oft fehlschlagen: Selbst wenn das Modell mit einem passenden Kontext versehen wird, kann es immer noch scheitern. Wenn das Modell nicht wirklich aus dem Kontext lernt, reicht es nicht, nur den Kontext bereitzustellen. Die Fähigkeit zum Kontextlernen, eine grundlegende Lernfähigkeit von Modellen, wird weitgehend vernachlässigt.

03. Jeder Kontext ist selbständig - Die Testaufgaben sind kontaminationsfrei konzipiert

Jeder Kontext im CL-bench ist vollständig selbständig (Self-contained). Alle Informationen, die zur Lösung der Aufgabe erforderlich sind, sind explizit im Kontext enthalten: Es ist keine externe Suche erforderlich und es sind keine verborgenen Annahmen erlaubt.

Die Lösung der Aufgaben im CL-bench erfordert, dass das Modell aus dem entsprechenden Kontext neue Kenntnisse lernt

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade eben hat das Team von Yao Shunyu von Tencent sein erstes Ergebnis veröffentlicht, das die echten Engpässe von Large Language Models aufdeckt.

01. Große Modelle sollen nicht mehr nur auswendig lernen - Das neue Benchmark umfasst 500 komplexe Kontextaufgaben

02. Die Erfolgsrate der Modelle liegt nur bei 17,2% - Fünf Schlussfolgerungen

03. Jeder Kontext ist selbständig - Die Testaufgaben sind kontaminationsfrei konzipiert