Wer sagt, dass die Skalierungsgesetze (Scaling Law) an ihre Grenzen stoßen? Neue Forschungsergebnisse: Jede kleine Verbesserung in jedem Schritt führt zu einem exponentiellen Wachstum.
Viele Menschen sind der Meinung, dass das Scaling Law zunehmend an Rentabilität verliert und die Fortsetzung der Modelltraining durch die Erhöhung der Rechenleistung in Zweifel gezogen wird. Neuere Beobachtungen legen jedoch eine andere Schlussfolgerung nahe. Die Forschung hat gezeigt, dass selbst wenn die Verbesserung der Genauigkeit des Modells bei "Einzelschrittaufgaben" immer langsamer wird, sich diese kleinen Fortschritte kumulieren können und dazu führen, dass die Länge der vom Modell erledigten Aufgaben "exponentiell wächst". Dies könnte in der Praxis von größerem wirtschaftlichen Wert sein.
Wenn die Grenznutzen bei weiterer Erhöhung der Rechenleistung abnehmen, ist es für Unternehmen noch immer eine vernünftige Entscheidung, Geld in das Training noch größerer Modelle zu investieren? Seit etwa letztem Jahr wird diese Frage in der KI-Branche heiß diskutiert.
Kürzlich hat eine Studie eine interessante These aufgestellt: Obwohl das Scaling Law zeigt, dass bei großen Sprachmodellen (LLMs) in Hinblick auf Indikatoren wie Testverlust die Rendite sinkt, ergibt sich der Wert eines Modells in der realen Welt oft aus der Länge der Aufgaben, die ein Agent bewältigen kann. Aus dieser Perspektive gesehen, führt das Training eines größeren Modells nicht zu einer Abnahme der Rendite, sondern kann vielmehr die kleinen Verbesserungen der Einzelschrittgenauigkeit kumulativ vergrößern und so zu einem exponentiellen Sprung in der Länge der erledigbaren Aufgaben führen.
- Titel der Studie: The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
- Link zur Studie: https://arxiv.org/pdf/2509.09677
- Link zum Code: https://github.com/long-horizon-execution/measuring-execution
- Link zum Datensatz: https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution
Diese Studie stammt von Institutionen wie der Universität von Cambridge. Die Studie weist darauf hin, dass die Bewältigung von Langzeitaufgaben seit langem eine Schwachstelle des Deep Learnings ist. Selbst wenn die Demos von autonom fahrenden Fahrzeugen beeindruckend sind, hat es über zehn Jahre gedauert, bis diese Fahrzeuge tatsächlich auf langen Strecken eingesetzt werden konnten. KI kann beeindruckende Bilder generieren, aber die Erstellung eines zusammenhängenden und kohärenten langen Videos ist bis heute eine Herausforderung. Unternehmen wünschen sich heute, dass KI bei der Bearbeitung ganzer Projekte hilft, nicht nur bei der Beantwortung einzelner Fragen. Aber hier stellt sich die zentrale Frage: Wie können wir messen, wie viele Schritte eines Jobs ein LLM zuverlässig ausführen kann?
Das Scheitern von LLMs bei einfachen Langzeitaufgaben wird als grundlegender Mangel an logischem Denken angesehen. Obwohl LLMs bei komplexen logischen Tests enorme Fortschritte gemacht haben, behauptet eine andere Studie, dass Denkmodelle nur die "Illusion des Denkens" erwecken (arXiv:2506.06941), da sie letztendlich scheitern, wenn die Aufgaben länger werden.
Diese Ergebnisse haben in der Community heftige Debatten ausgelöst. Die Autoren dieser Studie sind der Meinung, dass wir dieses Problem lösen können, indem wir die Anforderungen an die Planung (Planning) und die Ausführung (Execution) bei logischen Aufgaben oder Agentenaufgaben entkoppeln.
Die Planung beinhaltet die Entscheidung, welche Informationen abgerufen werden sollen oder welches Werkzeug verwendet werden soll und in welcher Reihenfolge. Die Ausführung setzt die Planung dann in die Tat um. In der Studie "The Illusion of Thinking" weiß das LLM offensichtlich, wie es planen soll, da es zunächst viele Schritte korrekt ausführt. Die Forscher dieser Studie sind der Ansicht, dass das endgültige Scheitern auf der Ausführung beruht - je länger die Aufgabe wird, desto wahrscheinlicher macht das Modell Fehler bei der Umsetzung der Planung. Obwohl die Planungsfähigkeit von LLMs stark im Fokus steht, bleibt die Ausführung immer noch eine wenig erforschte Herausforderung. Mit der zunehmenden Verwendung von LLMs bei Langzeitlogik und Agentenaufgaben wird diese Richtung immer wichtiger.
In dieser Studie haben die Autoren die Fähigkeit von LLMs zur Langzeitausführung in einer kontrollierten Umgebung gemessen. Sie haben die Ausführungskapazität der LLMs isoliert, indem sie die erforderlichen Kenntnisse und Pläne explizit zur Verfügung gestellt haben. Indem sie die Anzahl der Runden und die Anzahl der Schritte pro Runde kontrolliert haben (zusammen bilden sie die Aufgabenlänge), haben sie Einblicke in die Langzeitausführungskapazität von LLMs gewonnen:
1. Gibt es abnehmende Renditen beim Scaling?
Die Autoren haben beobachtet, dass obwohl die Verbesserung der Einzelschrittgenauigkeit abnimmt, sich die kleinen Verbesserungen der Genauigkeit kumulativ vergrößern können, was wiederum zu einem exponentiellen Wachstum der Länge der vom Modell erledigbaren Aufgaben führt.
In der Vergangenheit hielt man es für sinnvoll, die Größe des Modells zu skalieren, da dies die Fähigkeit des Modells verbessern würde, parametrisierte Kenntnisse zu speichern oder Pläne zu suchen.
Die Autoren haben jedoch in ihren Experimenten festgestellt, dass nach expliziter Bereitstellung der erforderlichen Kenntnisse und Pläne die Skalierung der Modellgröße die Anzahl der erfolgreich ausgeführten Runden des Modells erheblich verbessern kann. Dies zeigt, dass der Wert des Skalierens von Modellen nicht nur darin besteht, dass das Modell mehr Kenntnisse speichern oder besser nach Lösungen suchen kann.
2. Der Effekt der Selbstbedingungen (Self - Conditioning)
Man könnte meinen, dass das Scheitern bei Langzeitaufgaben einfach auf die stetige Akkumulation kleiner, konstanter Fehler pro Schritt zurückzuführen ist. Die Autoren haben jedoch festgestellt, dass die Fehlerrate pro Schritt mit fortschreitender Aufgabe ansteigt. Dies steht im Gegensatz zu Menschen, die beim Ausführen von Aufgaben normalerweise durch Übung besser werden.
Die Autoren vermuten, dass da ein Großteil des Modelltrainings darin besteht, das wahrscheinlichste nächste Token basierend auf dem Kontext vorherzusagen, die Selbstbedingungen des Modells auf seiner fehleranfälligen Vergangenheit die Wahrscheinlichkeit zukünftiger Fehler erhöhen. Sie haben dies getestet, indem sie die Fehlerrate in der dem Modell gezeigten Vergangenheit kontrolliert haben. Mit zunehmender Fehlerrate in der Vergangenheit haben sie beobachtet, dass die Genauigkeit der folgenden Schritte stark abnimmt, was bestätigt, dass das Modell Selbstbedingungen setzt.
Die Autoren zeigen, dass neben dem bereits bekannten Problem des langen Kontexts die Selbstbedingungen auch zu einer Verschlechterung der Leistung des Modells bei Langzeitaufgaben führen können. Im Gegensatz zum Problem des langen Kontexts kann diese Leistungseinbuße jedoch nicht durch die Vergrößerung der Modellgröße gemildert werden.
3. Der Einfluss des Denkens
Die Autoren haben festgestellt, dass neuere Denkmodelle nicht von vorherigen Fehlern beeinflusst werden und die Einschränkungen der Selbstbedingungen korrigieren können. Darüber hinaus hat die signifikante Erhöhung der Rechenleistung bei sequentiellen Tests die Länge der Aufgaben, die das Modell in einer einzigen Runde ausführen kann, erheblich verbessert. Ohne die Denkkette (Chain of Thought, CoT) kann ein führendes großes Sprachmodell wie DeepSeek V3 selbst zwei Schritte nicht ausführen, während seine denkfähige Version R1 200 Schritte ausführen kann. Dies unterstreicht die Wichtigkeit des logischen Denkens vor der Aktion.
Die Autoren haben führende Denkmodelle getestet und festgestellt, dass die denkfähige Version von GPT - 5 (Codename Horizon) über 1000 Schritte ausführen kann, weit vor dem nächsten Konkurrenten - Claude - 4 - Sonnet, das 432 Schritte ausführen kann.
Die uneinheitlichen Fähigkeiten von LLMs sind sowohl faszinierend als auch verwirrend. Im Gegensatz zu herkömmlichen Maschinen neigen große Sprachmodelle bei der Ausführung wiederholender Aufgaben eher zum Ausfall. Die Autoren sind daher der Meinung, dass das Scheitern bei Langzeitaufgaben nicht als Mangel an logischem Denken oder Planungsfähigkeit missverstanden werden sollte. Sie haben festgestellt, dass die Langzeitausführungskapazität des Modells durch die Vergrößerung der Modellgröße und die Erhöhung der Rechenleistung bei sequentiellen Tests erheblich verbessert werden kann. Wenn die Länge der vom Modell erledigbaren Aufgaben seinen wirtschaftlichen Wert widerspiegelt, könnte die kontinuierliche Investition in die Erhöhung der Rechenleistung lohnen, auch wenn Kurzzeitaufgaben - Benchmarks den Anschein von verlangsamten Fortschritten erwecken.
Diese Studie hat viele Menschen inspiriert, und einige haben vorgeschlagen, dass wir mehr Benchmarks für die Ausführungstiefe der Modelle entwickeln sollten, um die Gewinne durch die Skalierung der Modelle besser zu messen.
Im Folgenden finden Sie die ausführlichen Inhalte der Studie.
Detaillierte Erläuterung der Methoden der Studie
In der Studie haben die Autoren ausführlich beschrieben, wie sie zu ihren Schlussfolgerungen gelangt sind.
Obwohl die Rendite der Einzelschrittgenauigkeit abnimmt, hat das Scaling immer noch Wert
Die Autoren haben zunächst die Beziehung zwischen der Einzelschrittgenauigkeit des Modells und der Länge seines Vorhersagehorizonts analysiert. Um eine mathematische Beziehung herzustellen, haben sie zwei vereinfachende Annahmen gemacht, die denen von LeCun (2023) ähneln. Erstens haben sie angenommen, dass die Schrittgenauigkeit des Modells während der Aufgabe konstant bleibt. Zweitens haben sie angenommen, dass das Modell sich nicht selbst korrigiert, was bedeutet, dass jeder einzelne Fehler zur Aufgabe zum Scheitern führt. Sie haben diese Annahmen nur für diese Analyse gemacht, die nützliche Intuitionen liefern kann. Ihre empirische Analyse geht jedoch weiter und untersucht auch, wie LLMs in der Realität keine stabile Schrittgenauigkeit bei der Langzeitausführung von Aufgaben aufweisen und wie sie möglicherweise Fehler korrigieren können.
Satz 1: Unter der Annahme, dass die Schrittgenauigkeit p konstant ist und keine Selbstkorrektur erfolgt, wird die Aufgabenlänge H, bei der das Modell eine Erfolgsrate s erreicht, durch die folgende Formel gegeben:
Die Autoren haben in Abbildung 2 diese Wachstumsfunktion für s = 0.5 aufgetragen. Beachten Sie, dass wenn die Schrittgenauigkeit über 70 % steigt, führt eine kleine Verbesserung der Schrittgenauigkeit zu einer schnelleren als exponentiellen Verbesserung der Aufgabenlänge. Diese Herleitung zeigt, dass selbst wenn die Verbesserung der Genauigkeit in Frage - und - Antwort - Benchmarks, die normalerweise kurze Aufgaben enthalten, zu verlangsamen scheint, man von einem mathematischen Standpunkt aus immer noch signifikante Gewinne bei längeren Aufgaben erwarten kann.
Beispielsweise haben Kwa et al. (2025) in der Softwareentwicklung empirisch beobachtet, dass die Länge der erledigbaren Aufgaben von führenden Modellen bei s = 0.5 exponentiell wächst und alle sieben Monate verdoppelt wird. Unter Verwendung der obigen Ergebnisse zeigen die Autoren in Abbildung 1, dass dieses exponentielle Wachstum der Aufgabenlänge auch unter der Abnahme der Rendite der Schrittgenauigkeit auftritt. Wenn man s = 0.5 setzt, erhält man
. Um also das exponentielle Wachstum von H_0.5 über die Zeit (x) aufrechtzuerhalten, ist die erforderliche Schrittgenauigkeit p
, was tatsächlich eine abnehmende Funktion ist.