StartseiteArtikel

GPT 5.4 braucht 80 Dollar, um ein "hi" zurückzusenden. OpenAI sollte sich diesen neuen Artikel von Google ansehen.

36氪的朋友们2026-03-07 13:29
Die Kosten für die KI-Inferenz steigen sprunghaft, und eine zu lange Denkkette führt zu übermäßigem Nachdenken. Google hat einen neuen Indikator für die Tiefe des Nachdenkens vorgeschlagen.

In den letzten Jahren hat die fortschrittlichere und effizientere Infrastruktur (Infra) ständig die Token - Kosten der Künstlichen Intelligenz gesenkt. Alle Unternehmen sind auf dem Weg, die Preise zu senken.

Neuerdings sind jedoch Phänomenanwendungen wie OpenClaw mit starker Agent - Fähigkeit extrem populär geworden, und die API - Rechnungen (Anwendungsprogrammschnittstellen) sind dagegen rasant gestiegen. Abgesehen von der riesigen Menge an Kontextstapeln, die durch den Betrieb des Agenten selbst verursacht werden, gibt es noch ein verstecktes Geldfressermonster, nämlich die immer längeren und sogar außer Kontrolle geratenen "Denkketten" (Chain - of - Thought, CoT).

Seit die o1 - Modelle von OpenAI die Revolution des Test - time - Compute eingeleitet haben, scheint es, dass ein längerer Denkprozess besser ist und die universelle Künstliche Intelligenz zugänglich zu machen. Heute, wenn wir Spitzen - Inferenzmodelle aufrufen, steigt die Denkzeit im Hintergrund exponentiell, und die Modelle geben oft Tausende von Wörtern an inneren Monologen aus. OpenAI hat in der Gewinnberichtskonferenz im Januar 2025 angegeben, dass der durchschnittliche Tokenverbrauch pro Anfrage der o1 - Serie 2,7 Mal höher ist als der von GPT - 4o, und bei einigen Programmieraufgaben kann dieser Faktor sogar auf fünf oder höher steigen.

Und dieser Trend zeigt keine Anzeichen eines Stopps. Beispielsweise hat das neu veröffentlichte GPT 5.4 Pro 5 Minuten und 18 Sekunden und 80 US - Dollar gebraucht, um auf eine einfache Begrüßung "Hi" zu antworten.

Ist eine so lange Denkette wirklich nützlich? Wann ist sie nützlich? Wie können wir es schaffen, dass das Modell weniger, aber präziser denkt? Diese Fragen plagten die Forscher seit der Entstehung von o1. Es gab zwar Erklärungen und Lösungsansätze, aber das Problem, wie man effektive Denktokens auswählt, wurde noch nicht vollständig gelöst. Bislang ist die Hauptmethode in der Branche immer noch die Routing - Methode, bei der das Modell selbst entscheidet, ob es denken muss.

Im Februar 2026 hat ein Papier von Google mit dem Titel "Think Deep, Not Just Long" eine grundlegendere Lösungsmethode vorgeschlagen.

Einfach ausgedrückt: Um zu sehen, ob das Denken des Modells nützlich ist, muss man sehen, wie tief es denkt.

01 Mehr ist nicht immer besser

Die Denkkette (Chain - of - Thought) ist sogar früher als GPT aufgetaucht. Im Jahr 2022 haben die Forscher von Google in zwei Papiere fast gleichzeitig die Position der CoT als Inferenzparadigma festgelegt. Das erste Papier "Chain - of - Thought Prompting" hat gezeigt, dass durch das Hinzufügen von Denkketten in few - shot - Beispielen die Leistung großer Modelle bei Aufgaben wie Arithmetik, Allgemeinwissen und Symbolinferenz sprunghaft verbessert werden kann. Unter bestimmten Einstellungen kann die Genauigkeit von fast Null auf über 60 % steigen. Das zweite Papier "Zero - shot CoT" hat den berühmten Hinweis "Let's think step by step" vorgeschlagen. Wenn man diesen Hinweis hinter dem Prompt hinzufügt, kann man die mehrstufige Inferenzfähigkeit des Modells aktivieren.

Diese beiden Entdeckungen sind schnell zur Branchenkonvention geworden, und fast alle Anwendungen, die komplexe Inferenz erfordern, verwenden standardmäßig CoT. Die Forscher nahmen natürlich an, dass, wenn CoT effektiv ist, eine längere CoT noch effektiver sein sollte.

Von 2023 bis zum ersten Halbjahr 2024 konzentrierten sich viele Arbeiten darauf, wie man das Modell dazu bringt, längere und detailliertere Denkketten zu generieren. Einige haben durch Prompt - Engineering eine detailliertere Aufgliederung induziert, andere haben durch Reinforcement Learning längere CoT - Ströme belohnt, und wieder andere haben beim Training kleine Modelle mit langen Denkketten, die von großen Modellen generiert wurden, distilliert. Dieser Drang nach Länge erreichte seinen Höhepunkt mit der Veröffentlichung von o1, deren Kern der Test - time - Compute - Revolution darin bestand, während der Inferenz längere innere Gedanken zu generieren.

Problemerkennung

Im Sommer 2024, also noch sechs Monate vor der Veröffentlichung von o1, begannen Forscher aus verschiedenen Institutionen die Wirksamkeit dieser Gedanken in Frage zu stellen.

Beispielsweise bemerkte ein Team von Stanford bei der Analyse des Inferenzverhaltens von o1 und Claude, dass für einfache Grundschularithmetikaufgaben diese Modelle oft Hunderte oder sogar Tausende von Tokens an Inferenztexten generieren, von denen der Großteil aus wiederholten Prüfungen, Selbstzweifeln und Versuchen verschiedener Lösungen besteht, während Menschen diese Aufgaben nur mit ein paar mentalen Rechenschritten lösen können.

Als sie diese langwierigen Inferenzen manuell kürzten, sank die Genauigkeit der Antworten nicht, sondern stieg manchmal sogar leicht an. Dies zeigt, dass das Modell möglicherweise nicht wirklich so viel Denken benötigt, sondern einfach durch die Nach - Training - Belohnungen dazu gebracht wird, ständig zu generieren.

Im Mai 2025 hat ein Papier mit dem Titel "When More is Less" eine genauere Beschreibung dieses Phänomens geliefert. Durch kontrollierte Experimente wurden Denkketten unterschiedlicher Länge erstellt, und es wurden Längen - Genauigkeits - Kurven für Aufgaben mit verschiedenen Schwierigkeitsgraden gezeichnet. Sie fanden heraus, dass es zwischen der Länge der Denkette und der Genauigkeit des Endergebnisses tatsächlich eine umgekehrte U - Kurve gibt.

Das Hinzufügen von Denkschritten innerhalb des Intervalls, das nicht über den Hochpunkt der U - Kurve hinausgeht, ist tatsächlich hilfreich, aber nach Überschreiten dieses Intervalls sinkt die Genauigkeit monoton. Außerdem ändert sich die optimale Länge je nach Schwierigkeitsgrad der Aufgabe und der Fähigkeit des Modells. Bei schwierigeren Aufgaben verschiebt sich die optimale Länge nach rechts; bei leistungsfähigeren Modellen verschiebt sie sich jedoch nach links, was darauf hinweist, dass leistungsfähigere Modelle besser verstehen, wann sie aufhören sollten.

Die Autoren des Papiers nennen dieses Phänomen "Simplicity Bias". Wenn das Modell bereits die Essenz der Lösung erfasst hat, führt das weitere Generieren nur zu einer Akkumulation von Rauschen und Störungen. Sobald ein bestimmter Schwellenwert überschritten wird, gerät das Modell in eine Sackgasse, die als "Overthinking" bezeichnet wird. In diesem Bereich der inversen Skalierung (Inverse Scaling) verringert der Kauf von überflüssigen Tokens nicht nur die Intelligenz, sondern auch die Genauigkeit.

Analyse der CoT

Wo also werden diese oft tausendfachen Tokens tatsächlich ausgegeben?

Die Entstehung langer Denkketten erfolgt hauptsächlich in drei Modi, und alle drei können das Problem des Overthinking haben.

Der erste ist die lineare Entwicklung. Das Modell arbeitet Schritt für Schritt voran und generiert bei jedem Schritt neue Zwischenergebnisse, ähnlich wie beim Schreiben auf einem Zettel. Dies ist die klassischste Form der CoT. Das Overthinking - Problem tritt hier hauptsächlich darin auf, dass das Modell oft nicht weiß, wann es aufhören soll. Es prüft weiterhin, nachdem es die Antwort bereits berechnet hat, oder löst dieselbe Aufgabe dreimal mit verschiedenen Methoden.

Der zweite ist die Reflexionsschleife. Nachdem das Modell eine vorläufige Antwort generiert hat, löst es einen Selbstzweifelmechanismus aus und generiert ständig Texte zur Selbstkorrektur. Dies ist bei komplexen Problemen tatsächlich wertvoll, aber bei einfachen Problemen führt dies zu Overthinking.

Der dritte ist die Mehrpfad - Sampling - Methode. Um die Robustheit zu verbessern, lässt das System das Modell ein Dutzend oder sogar Dutzende verschiedener Inferenzpfade generieren und wählt am Ende durch Abstimmung die übereinstimmendste Antwort aus. Diese Methode ist bei der Lösung besonders komplexer Probleme tatsächlich effektiv, aber der Preis dafür ist, dass die Kosten geometrisch steigen. Und ein beträchtlicher Teil dieser Kandidaten - Inferenzpfade ist ziemlich unzuverlässig, und die Unfähigkeit, sie effektiv auszuschließen, führt zu Overthinking.

Die Autoren von "When More is Less" haben bei der Analyse der rechten Hälfte der umgekehrten U - Kurve festgestellt, dass in über 90 % der Stichproben mit sinkender Genauigkeit eine große Menge an wiederholten Prüfungen und ineffektiven Reflexionen enthalten ist. Dies bedeutet, dass das Wesen des Overthinking in der Wiederholung liegt. Das Modell wird von dem Trainingsmechanismus dazu gebracht, ständig Varianten zu generieren und Bestätigungen zu suchen, obwohl es bereits die Antwort kennt, und diese Redundanzen sind der Hauptgrund für die Abnahme der Genauigkeit.

Um gezielte Steuerungsstrategien entwickeln zu können, muss man diese drei Mechanismen und ihre Ausfallmuster verstehen.

Versuche zur Längensteuerung

Bis Mitte 2025 war in der akademischen und industriellen Welt ein Konsens über das Overthinking erreicht. Die Frage hat sich von "Gibt es Overthinking?" zu "Wie kann man es präzise erkennen und steuern?" gewandelt.

Die direkteste Methode ist die Einstellung einer starren Grenze. Methoden wie "Token - Budget - Aware LLM Reasoning" sagen dem Modell im Prompt explizit, dass es nur eine bestimmte Anzahl von Wörtern verwenden darf, und zwingen es so, sich zu kürzen. Aber diese einfache und grobe Methode hat ein fatales Problem: Schwierige Aufgaben können nicht gelöst werden.

Eine bessere Lösung besteht darin, dass das System dynamisch entscheidet, wann es aufhören soll. Die von "REFRAIN: Reasoning Efficiency via Fine - grained Reflection and Adaptive Inference" vorgeschlagene Methode besteht darin, während des Inferenzprozesses Redundanzsignale in Echtzeit zu überwachen. Wenn das Modell beginnt, wiederholt zu prüfen, in Reflexionsschleifen zu verfallen oder in Selbstzweifel zu geraten, stoppt das System es entschlossen. Diese Stoppstrategie kann den Tokenverbrauch um 20 % bis 55 % reduzieren, ohne das Modell selbst zu ändern, und gleichzeitig die Genauigkeit beibehalten oder sogar verbessern.

Ein weiterer Ansatz ist das Routing. Rahmenwerke wie DynaThink und DAST bewerten jedes Problem schnell. Bei einfachen Aufgaben wie "Was ist 2 + 3?" geben sie direkt die Antwort aus; bei komplexen Mathematikaufgaben starten sie die vollständige Inferenzkette und die Mehrpfad - Sampling - Methode. Aber die katastrophale Leistung von GPT 5 nach der Implementierung des Routings zeigt, dass diese Methode auch nicht perfekt ist.

Für Hochleistungs - Muster, die auf vielfältigem Sampling und Abstimmung beruhen, haben die Forscher einen Früherstoppmechanismus entwickelt. "Early - Stopping Self - Consistency" (ESC) überwacht während des Samplingprozesses kontinuierlich, und sobald mehrere Antworten eine stabile Konsensus bilden, ist es nicht mehr notwendig, weitere Samples zu generieren und somit Rechenleistung zu verschwenden. Bei mathematischen Benchmarks wie GSM8K kann dies die Anzahl der Samples um 80 % reduzieren.

Eine radikalere Methode besteht darin, das Modell selbst von Grund auf zu verändern. Einige Forscher setzen ihre Hoffnungen auf das Nach - Training. Beispielsweise hoffen sie in dem Papier "Let's Verify Step by Step", dass das Prozess - Reward - Modell (PRM) alle Probleme lösen kann. Wenn das Modell trainiert wird, die Antworten nach der optimalen Lösungsmethode zu geben, wird es natürlich keine unnötigen Worte schreiben. Oder man kann das Modell mit einer ausgewählten, kurzen aber richtigen Methode feinabstimmen, um die Ausgabe näher an die optimale Lösung zu bringen. Aber das Design des PRM oder die Distillation und Feinabstimmung sind bis jetzt noch sehr schwierig zu kontrollieren.

Obwohl es viele Methoden gibt, alle diese Methoden stehen vor einem gemeinsamen Problem: Sie haben keine zuverlässigen Signale, um zu entscheiden, "wann das Weiterdenken wertvoll ist und wann es nur um die Anhäufung von nutzlosen Texten geht".

Die derzeitigen Lösungen basieren meist auf Oberflächenmerkmalen wie Wiederholungsmustern, Vertrauensgradänderungen, Konsistenzkonvergenz und historischen Statistiken. Dies sind indirekte Indikatoren, die eher wie ein Außenstehender betrachtet werden.

Was ist also der wesentliche Indikator, um effektives Denken von ineffektiver Redundanz zu unterscheiden?

02 Suche nach nützlichem Denken

Das von Google vorgeschlagene Papier bietet die Methode, dass, um direkt die Beweise für effektives Denken zu finden, man einfach eine Sonde in die Tiefe der Transformer - Architektur einführen und beobachten muss, ob das Modell tatsächlich nachdenkt, wenn es jedes Wort generiert.

Wenn ein großes Modell ein Token generiert, muss dieses Signal in seinem Inneren durch Dutzende oder sogar Hunderte von Schichten (Layers) des neuronalen Netzwerks geleitet und berechnet werden. Die Forscher dieses Papiers haben festgestellt, dass die Schwierigkeit, die das Modell beim Generieren verschiedener Wörter in seinem Inneren erlebt, völlig unterschiedlich ist.

Für einfache grammatikalische Wörter, Stockphrasen oder allgemeine Kenntnisse, die das Modell bereits auswendig kennt, wie "and", "is" oder das Gleichheitszeichen "=" in mathematischen Formeln, ist die Vorhersagewahrscheinlichkeit bereits in den äußerst oberflächlichen Schichten des Transformers festgelegt. Die anschließenden Dutzende von Schichten mit enormer Rechenleistung sind für dieses Wort nur eine Formität, und es findet keine wesentliche Berechnungsänderung statt.

Aber für die wirklich wichtigen Tokens, die eine Inferenz erfordern, wie Zahlen in einer Formel, logische Beziehungswörter oder die Antwort selbst, wird die Vorhersage des Modells bis in sehr tiefe Schichten hinunter korrigiert, bevor sie konvergiert.