StartseiteArtikel

Nicht alle Token sind gleich. Google bringt eine echte "Tiefenbetrachtung" hervor: Eine lange Gedankenkette ist nicht gleichbedeutend mit tiefgreifender Inferenz.

量子位2026-02-25 20:21
Es besteht keine positive Korrelation zwischen der Anzahl der Token und der Inferenzqualität.

Es scheint, dass auch KI die Anzahl der Tokens unnötig aufpumpen kann.

Steigt die Denkkette eines Großen Modells, steigt auch die Inferenzfähigkeit? Google sagt Nein –

Es gibt keine positive Korrelation zwischen der Anzahl der Tokens und der Inferenzqualität, denn nicht alle Tokens sind gleich. Einige dienen nur der Füllung, während Tiefdenk-Tokens wirklich nützlich sind.

Eine neue Studie lässt die Denkweise der Tokenanzahl fallen und präsentiert einen neuen Standard DTR zur Messung der Inferenzqualität von Modellen, um zu prüfen, ob ein Modell wirklich denkt oder die Anzahl der Tokens unnötig erhöht.

Auf der Grundlage des DTR wird auch die Think@n-Strategie vorgeschlagen, die es Inferenzmodellen wie GPT-OSS und DeepSeek-R1 ermöglicht, die Genauigkeit bei Halbierung der Rechenleistungskosten zu halten.

Lange Logik bedeutet nicht zwangsläufig gute Inferenz

Seit langem ist die Ansicht weit verbreitet, dass eine längere Denkkette besser ist.

Die Logik dieser Denkweise ist relativ einfach: Mehr Inferenzschritte = gründlicheres Denken = genauere Antworten.

Deshalb haben viele Entwickler begonnen, Rechenleistung zu erhöhen, um lange Inferenztrajektorien zu erreichen.

Das Google-Forschungsteam hat acht Modellvarianten wie GPT-OSS, DeepSeek-R1 und Qwen3 anhand von vier Datensätzen (AIME2024/2025, HMMT 2025, GPQA-Diamond) getestet;

Das Ergebnis zeigt, dass der durchschnittliche Korrelationskoeffizient zwischen der Tokenlänge und der Genauigkeit -0,54 beträgt … eine negative Korrelation.

Das bedeutet, dass in einigen Fällen eine längere Denkkette dazu führt, dass die Inferenz von der richtigen Richtung abweicht, oder dass das Modell sogar in logische Tautologien oder Überinferenzen gerät.

Die Frage ist also: Wenn die Länge nicht zuverlässig ist, wie kann man dann prüfen, ob ein Modell wirklich denkt?

Google hat einen interessanten Ansatz gewählt: Anstatt sich auf die Oberflächeneingabe zu verlassen, hört es sich direkt die Gedanken jeder Ebene des Modells an.

Die Studie zeigt, dass die von einem Modell generierten Tokens in zwei Kategorien unterteilt werden können:

  • Funktionale Wörter wie "und", "ist", "des" werden vom Modell in den oberen Netzwerkebenen schnell festgelegt und sind daher oberflächliche Wörter, die kein Tiefdenken erfordern;
  • Tiefdenk-Wörter wie "Das Rechenergebnis ist 10" oder "Die Option ist A" werden in den tieferen Netzwerkebenen ständig korrigiert, und die Vorhersageverteilung ändert sich kontinuierlich, was zeigt, dass das Modell wirklich über das Problem nachdenkt.

Das Team misst die Unterschiede in den Vorhersageverteilungen jeder Ebene mit der JSD. Wenn die Vorhersage eines Tokens erst in den tieferen Netzwerkebenen stabil wird, wird es als Tiefdenk-Wort eingestuft.

Auf dieser Grundlage wird der Deep Thinking Ratio (Tiefdenk-Ratio) vorgeschlagen, der das Verhältnis von Tiefdenk-Wörtern in der gesamten generierten Sequenz angibt.

Je höher dieser Anteil ist, desto stärker konzentriert sich das Modell auf die Kerninferenz und verschwendet keine Rechenleistung auf bedeutungslose Inhalte.

Wahrhaftiges Tiefdenken senkt Kosten und erhöht Effizienz

An vier Inferenztestsätzen beträgt der Korrelationskoeffizient zwischen DTR und Inferenzgenauigkeit 0,82.

Im Vergleich zu -0,54 bei der Tokenlänge spiegelt der DTR die Inferenzqualität besser wider.

Google hat auf der Grundlage des DTR auch die Think@n-Strategie entwickelt, die in der Anfangsphase der Inferenz niedrigwertige Redewendungen erkennt und die Rechenressourcen auf wirklich tiefgründige Stichproben konzentriert.

Konkret werden für jede Frage mehrere Inferenzstichproben genommen, der DTR-Wert wird anhand eines kurzen Präfixes von 50 Tokens schnell geschätzt, die besten 50 % der Stichproben werden ausgewählt, und die endgültige Antwort wird durch Mehrheitsentscheid ermittelt;

So wird die Generierung von niedrigwertigen Stichproben mit niedrigem DTR in der Anfangsphase der Inferenz gestoppt, und die Verschwendung von bedeutungslosen Tokens wird direkt reduziert.

Bei Tests an mehreren gängigen Modellen ist die Inferenzgenauigkeit der Think@n-Strategie mit der herkömmlichen Strategie vergleichbar oder sogar etwas höher.

Beispielsweise erreicht GPT-OSS-120B-medium auf dem AIME 2025-Datensatz eine Genauigkeit von 94,7 %, höher als die 92,7 % der herkömmlichen Strategie;

Außerdem wird die Rechenleistungskosten fast halbiert, und der Verbrauch von Inferenztokens sinkt von 355,6k auf 181,9k, was bedeutet, dass die Leistung beibehalten und die Kosten halbiert werden.

Der erste Autor dieser Studie, Wei-Lin Chen, ist ein Doktor der Informatik an der Universität von Virginia und setzt sich für die Messung und Bewertung der Inferenzfähigkeit von Large Language Models (LLM) ein. Er war zuvor als Studentenforscher bei Google tätig.

Der Mitautor Liqian Peng ist ein Alumni der Universität von Wissenschaft und Technologie Chinas und arbeitet jetzt als Forschungsingenieur bei Google.

Der Betreuer der Studie, Yu Meng, ist ein Assistentprofessor für Informatik an der Universität von Virginia. Seine Forschungsgebiete umfassen Trainingsmethoden, Daten- und Inferenzeffizienz sowie Repräsentationsgrundlagen. Er hat zuvor auch mit der Spitzenforscherin Danchen Qi im Bereich der natürlichen Sprachverarbeitung (NLP) zusammengearbeitet.

Es scheint, dass auch bei der Inferenz von Großen Modellen das Aufpumpen der Tokenanzahl nicht mehr in Mode ist. Nur wahrhaftiges Tiefdenken kann Kosten senken und Effizienz erhöhen.

Dieser Artikel stammt aus dem WeChat-Account „QbitAI“. Verfasser: Verfolgt die neuesten Technologien. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.