StartseiteArtikel

Wo kommt die Inferenzintelligenz von DeepSeek-R1 her? Neue Forschung von Google: Mehrere Rollen im Inneren des Modells streiten sich heftig.

机器之心2026-01-26 17:12
Ist das Wesen der logischen Denkfähigkeit wirklich nur darin begründet, einige Schritte mehr zu berechnen?

In den letzten zwei Jahren hat es einen deutlichen Sprung bei der Inferenzfähigkeit von Large Language Models (LLMs) gegeben. Bei komplexen Aufgaben wie Mathematik, Logik und mehrstufiger Planung beginnen Inferenzmodelle wie OpenAIs o-Serie, DeepSeek-R1 und QwQ-32B, stetig Abstand von traditionellen, nur auf Anweisungen feingestimmten Modellen zu gewinnen. Anschaulich gesehen scheinen sie nur länger zu überlegen: Längere Chains-of-Thought und höhere Rechenleistung zur Testzeit werden am häufigsten als Erklärung zitiert.

Aber wenn wir die Frage tiefer gehen lassen: Ist die Essenz der Inferenzfähigkeit wirklich nur das Mehrmalige Rechnen?

Eine kürzlich von Forschern aus Google, der Universität von Chicago und anderen Institutionen veröffentlichte Studie gibt eine strukturiertere Antwort. Die Verbesserung der Inferenzfähigkeit rührt nicht allein von der Erhöhung der Rechenschritte her, sondern daraus, dass das Modell während des Inferenzprozesses implizit eine komplexe, multiagentenähnliche Interaktionsstruktur simuliert, die sie "Gesellschaft des Denkens" (society of thought) nennen.

Einfach ausgedrückt, hat diese Studie gezeigt, dass Inferenzmodelle manchmal interne Dialoge zwischen verschiedenen Rollen simulieren, um schwierige Probleme zu lösen, ähnlich wie eine Debattenteam in ihrem digitalen Gehirn. Sie streiten, korrigieren einander, äußern Überraschung und vermitteln zwischen verschiedenen Ansichten, um die richtige Antwort zu finden. Es ist sehr wahrscheinlich, dass menschliche Intelligenz durch soziale Interaktionen entwickelt wurde, und ein ähnlicher Intuition scheint auch bei Künstlicher Intelligenz zu gelten!

Durch die Klassifizierung der Inferenzausgaben und die Anwendung von interpretierbaren Methoden auf die Inferenztrajektorien hat die Studie gezeigt, dass Inferenzmodelle wie DeepSeek-R1 und QwQ-32B im Vergleich zu Basismodellen und nur auf Anweisungen feingestimmten Modellen eine deutlich höhere Perspektivendiversität aufweisen. Während des Inferenzprozesses aktivieren sie breitere, heterogenerere Merkmale, die mit Persönlichkeit und Fachwissen zusammenhängen, und es kommt zu stärkeren Konflikten zwischen diesen Merkmalen.

Diese multiagentenähnliche interne Struktur äußert sich in einer Reihe von dialogischen Verhaltensweisen, einschließlich Fragestellungs-Antwort-Sequenzen, Perspektivwechseln und der Integration von widersprüchlichen Ansichten; sie spiegelt sich auch in sozialen Emotionsrollen wider, die heftige Wechselwirkungen beschreiben. Diese Verhaltensweisen fördern gemeinsam die Funktion von Schlüsselkognitionsstrategien auf direktem und indirektem Weg, was die Genauigkeitsvorteile bei Inferenztasks erklärt.

Weitere kontrollierte Experiments mit verstärktem Lernen haben gezeigt, dass selbst wenn nur die Inferenzgenauigkeit als Belohnungssignal verwendet wird, das Basismodell spontan dialogische Verhaltensweisen erhöht. Die Einführung von dialogischem Scaffolding (konversational scaffolding) während des Trainings kann im Vergleich zu nicht feingestimmten Basismodellen und Modellen, die mit monologischen Inferenzmethoden feingestimmt wurden, die Verbesserung der Inferenzfähigkeit deutlich beschleunigen.

Diese Ergebnisse zeigen, dass die soziale Organisation des Denkens eine effizientere Exploration des Lösungsspektrums ermöglicht. Google glaubt, dass Inferenzmodelle auf der Rechenschicht einen Mechanismus etablieren, der der kollektiven Intelligenz in menschlichen Gruppen entspricht: Unter strukturierten Bedingungen kann Diversität zu einer besseren Problemlösungsfähigkeit führen.

Basierend auf diesen Erkenntnissen hat Google eine neue Forschungsrichtung vorgeschlagen, die die "Weisheit der Masse" systematisch durch die Organisation von Agenten nutzt.

Link zur Studie: https://arxiv.org/pdf/2601.10825

Zusätzlich bietet diese Studie einige Anregungen für die Community.

Übersicht über die Methoden

Dialogverhaltensweisen

Diese Studie nutzt das Gemini-2.5-Pro-Modell als Bewertungsinstrument, um aus den Inferenztrajektorien vier Arten von Dialogverhaltensweisen zu identifizieren:

1. Fragestellungs-Antwort-Verhalten: Dies bezieht sich auf Sequenzen in einem Dialog, in denen zuerst eine Frage gestellt und dann eine Antwort gegeben wird, wie "Warum...? Weil..." oder "Was würde passieren, wenn...? Dann..."

2. Perspektivwechsel: Dies ist das Verhalten, bei dem im Verlauf eines Dialogs zu neuen Ideen, Ansichten, Annahmen oder Analysemethoden gewechselt wird.

3. Ansichtsstreit: Dies beinhaltet die Äußerung von Meinungen, die mit anderen Ansichten nicht übereinstimmen, die Korrektur anderer Ansichten oder den Widerspruch zwischen Ansichten, wie "Warte, das kann nicht stimmen..." oder "Das widerspricht..."

4. Ansichtsmittlung: Dies ist der Fall, in dem widersprüchliche Ansichten zu einem kohärenten Schluss integriert oder geordnet werden, wie "Daher könnten beide Ansichten zutreffen, wenn... Bedingungen erfüllt sind", "Unter Berücksichtigung dieser Einsichten..." oder "Das löst den Widerspruch zwischen den Ansichten..."

Für jede Inferenztrajektorie zählt der LLM-Bewertungsalgorithmus die unabhängigen Vorkommen jeder Art von Dialogverhaltensweisen und gibt ein ganzzahliges Zählungsergebnis aus (0, wenn es keine entsprechende Verhaltensweise gibt).

Beim Labeln dieser vier Arten von Dialogverhaltensweisen stimmen die Ergebnisse von Gemini-2.5-Pro und GPT-5.2 in hohem Maße überein. Darüber hinaus stimmen die Labelergebnisse von Gemini-2.5-Pro auch mit manuellen Bewertungen überein.

Soziale Emotionsrollen

Diese Studie basiert auf dem Bales-Interaktionsprozessanalyse (IPA)-Rahmen, um die Darstellung von sozialen Emotionsrollen in Inferenztrajektorien zu analysieren. Dieser Rahmen teilt die Äußerungen in 12 Arten von Interaktionsrollen auf, wobei jede Art durch konkrete Verhaltensbeschreibungen in den Promptwörtern operationell definiert wird. Der LLM-as-judge-Bewertungsalgorithmus, der auf dem Gemini-2.5-Pro-Modell basiert, zählt die unabhängigen Vorkommen dieser 12 Arten von Rollen separat. In der Kernanalyse fasst der Autor diese Zählungsergebnisse weiter in vier höhere Kategorien zusammen, wie folgt:

  • Informationsgebende Rollen: Dies beinhaltet das Geben von Vorschlägen, das Äußern von Meinungen und das Angeben von Leitlinien.
  • Informationsanfordernde Rollen: Dies beinhaltet das Anfordern von Vorschlägen, Meinungen und Leitlinien.
  • Positiv emotionale Rollen: Dies beinhaltet das Zeigen von Solidarität, das Lockerlegen von Spannungen und das Zustimmen.
  • Negativ emotionale Rollen: Dies beinhaltet das Zeigen von Konfrontation, das Zeigen von Spannungen und das Ablehnen von Meinungen.

Bei den vier höheren IPA-Kategorien, die in der Kernanalyse verwendet werden, erreicht die Interrater-Reliabilität ein hohes Niveau.

Um zu untersuchen, ob in den Inferenztrajektorien soziale Emotionsrollen wechselseitig auftreten, berechnet der Autor den Jaccard-Index für zwei Gruppen von Rollenkombinationen. Dieser Index misst, ob das Modell komplementäre Rollen in derselben Inferenztrajektorie koordiniert, anstatt sie isoliert zu verwenden. Ein höherer Jaccard-Index bedeutet, dass das Interaktionsmuster des Modells ausgeglichener und dialogähnlicher ist; ein niedrigerer Index zeigt an, dass der Inferenzprozess eher einseitig und monologisch ist.

Kognitive Verhaltensweisen

Diese Studie nutzt das Gemini-2.5-Pro-Modell als LLM-Bewertungsalgorithmus, um vier Arten von kognitiven Verhaltensweisen zu identifizieren, von denen bereits gezeigt wurde, dass sie die Inferenzgenauigkeit von Sprachmodellen beeinflussen.

Bei der Messung verwendet der Autor die gleichen Promptwörter und Beispiele wie Gandhi et al. Die Wirksamkeit dieses Materials wurde von mehreren manuellen Bewertern bestätigt. Jede Art von kognitiven Verhaltensweisen wird in den Promptwörtern durch konkrete Beispiele operationell definiert, wie folgt:

  • Ergebnisüberprüfung: Dies ist der Fall, in dem im Inferenzketten der aktuelle Ableitungsergebnis mit der Zielantwort verglichen wird. Typische Beispiele in den Promptwörtern sind "Der Ableitungsprozess hat das Ergebnis 1 geliefert, was nicht mit dem Zielwert 22 übereinstimmt" oder "Da das Rechenergebnis 25 nicht mit dem Zielwert 22 übereinstimmt".
  • Wegzurücknahme: Dies ist der Fall, in dem das Modell erkennt, dass der aktuelle Inferenzweg keine richtige Antwort liefert und dann explizit zurückgeht und andere Methoden versucht.
  • Zielzerlegung: Dies ist der Fall, in dem das Modell das ursprüngliche Problem in mehrere kleinere, schrittweise lösbare Zwischenziele zerlegt.
  • Rückwärtsableitung: Dies ist der Fall, in dem das Modell von der Zielantwort ausgeht und rückwärts zur ursprünglichen Frage ableitet.

Beim Labeln dieser vier Arten von kognitiven Inferenzverhaltensweisen stimmen die Ergebnisse von Gemini-2.5-Pro und GPT-5.2 gut bis ausgezeichnet überein. Die Labelergebnisse von Gemini-2.5-Pro stimmen auch mit manuellen Bewertungen in hohem Maße überein.

Die obige Reliabilitätsbewertung basiert auf zwei Arten von Inferenztrajektorienstichproben: 30 Inferenztrajektorien zur Lösung von allgemeinen Inferenzproblemen und 50 Inferenztrajektorien, die vom Qwen-2.5-3B-Modell während des verstärkten Lernens generiert wurden.

Merkmalsintervention

Um die Rolle von Dialogverhaltensweisen im Inferenzprozess zu untersuchen, verwendet der Autor einen sparsamen Autoencoder (SAE), um interpretierbare Merkmale im Aktivierungsraum des Modells zu identifizieren und zu manipulieren. Der SAE kann die Aktivierungen des neuronalen Netzwerks in eine Gruppe von sparsamen linearen Merkmalen zerlegen, sodass bestimmte Verhaltensdimensionen gerichtet beeinflusst werden können, ohne die Modellgewichte zu ändern. Der in dieser Studie verwendete SAE wurde auf der Grundlage der Residualflussaktivierungen der 15. Schicht des DeepSeek-R1-Llama-8B-Modells trainiert.

Aus den Kandidatenmerkmalen hat der Autor schließlich das Merkmal 30939 ausgewählt. Laut der Zusammenfassung des LLM-Bewertungsalgorithmus ist die Definition dieses Merkmals "ein Diskurstoken zur Ausdrucks von Überraschung, Eureka-Moment oder Zustimmung". In Kontexten, die Sprechwechsel und soziale Interaktionen betreffen, wird dieses Merkmal aktiviert, wenn Tokens wie "Oh!" auftreten. Der Dialoganteil des Merkmals 30939 beträgt 65.7% (99. Perzentil aller Merkmale) und es zeichnet sich durch eine hohe Sparsamkeit aus (nur 0.016% der Tokens aktivieren es), was darauf hinweist, dass dieses Merkmal speziell für Dialogphänomene ist und nicht für allgemeine Sprachmuster.

Während der Textgenerierung reguliert der Autor das Merkmal 30939 durch die Aktivierungsadditionsmethode: In jedem Schritt der Token-Generierung wird der Dekodiervektor dieses Merkmals um den Regulierungsintensitätskoeffizienten s skaliert und dann auf die Residualflussaktivierungen der 15. Schicht des Modells addiert.

Experimentelle Ergebnisse

Zuerst die Hauptfolgerungen: Diese Studie hat gezeigt, dass selbst bei ähnlichen Längen der Inferenztrajektorien Inferenzmodelle eine höhere Häufigkeit von dialogischen Verhaltensweisen und sozialen Emotionsrollen aufweisen.

Dialogverhaltensweisen und soziale Emotionsrollen

Im Inferenzprozess von DeepSeek-R1 treten deutlich Perspektivwechsel und Ansichtsstreit auf, die durch soziale Emotionsrollen wie "Stimmt nicht", "Meinung äußern" und "Erklärung geben" ausgedrückt werden, wie "Aber hier ist es Cyclohexa-1,3-dien, nicht Benzol." oder "Eine andere Möglichkeit wäre, dass hohe Temperaturen dazu führen, dass das Keton CO verliert, aber das ist unwahrscheinlich."

Im Gegensatz dazu gibt es in der Inferenztrajektorie von DeepSeek-V3 bei der gleichen Aufgabe weder Perspektivkonflikte noch Perspektivwechsel, auch keine Meinungsverschiedenheiten. Es gibt einfach monologisch nacheinander Meinungen und Erklärungen, ohne Selbstkorrektur und fehlende Inferenzschritte.

Bei einer kreativen Satzumschreibungsaufgabe führt DeepSeek-R1 ebenfalls Diskussionen zwischen verschiedenen Schreibstilen durch Ansichtsstreit an und zeigt soziale Emotionsrollen wie "Stimmt nicht" und "Vorschlag machen" auf, wie "Aber dadurch wird das Wort 'eingewurzelt' eingeführt, das im Originalsatz nicht vorkommt. Wir sollten vermeiden, neue Ideen hinzuzufügen.", "Warte, das ist kein Wort." oder "Beachte aber, dass 'cast' weniger stark ist als 'flung', also sollten wir 'hurled' verwenden."

DeepSeek-V3 zeigt dagegen fast keine Konflikte oder Meinungsverschiedenheiten und gibt nur einige Vorschläge. Es fehlt der Prozess des wiederholten Vergleichs und der schrittweisen Korrektur wie bei DeepSeek-R1.

Wie die Ergebnisse in Ab