Trotz vieler verstandener Wahrheiten: Warum muss die KI immer noch ausrasten?

Selbst wenn die KI alle Weisheiten kennt (Niedriger Bias), ist es dennoch schwer, ein gutes Leben zu führen (Hohe Varianz).

In letzter Zeit diskutieren viele Fachartikel über die gegenwärtigen Schwierigkeiten von Agenten.

Die Schwierigkeiten sind real. Auf der Anwendungsseite ist der Agent derzeit ohne künstliche Hilfsmittel wie Skills bei der Bearbeitung längerfristiger Aufgaben aus der realen Welt einfach nicht zuverlässig.

Diese Schwierigkeiten werden üblicherweise auf zwei Gründe zurückgeführt.

Der erste ist das Kontext-Loch. Wie kürzlich von Yao Shunyu, dem Chef-AI-Wissenschaftler von Tencent, und seinem Team bei der CL-Benchmark gezeigt wurde, ist es möglich, dass das Modell nicht in der Lage ist, komplexe Zusammenhänge zu verstehen und daher auch nicht in der Lage ist, Befehle korrekt auszuführen.

Der zweite Grund ist sogar noch fataler: die Zusammenbruch der Langzeitplanung. Das heißt, sobald die Planungsschritte länger werden, gerät das Modell durcheinander. Es ist wie jemand, der zu viel getrunken hat: Die ersten paar Schritte sind gerade, aber nach zehn Schritten beginnt er, im Kreis zu laufen.

Die Forscher von Anthropic veröffentlichten am Anfang Januar einen wichtigen Artikel namens "The Hot Mess of AI" (Das Durcheinander der KI), in dem sie versuchten, den zweiten Grund zu erklären. Dabei fanden sie heraus, dass sie damit den Achillesferse der autoregressiven Modelle (alle auf Transformer basierenden Modelle) gefunden hatten.

Wir haben alle von Yann LeCuns Äußerungen gehört, dass "autoregressive Modelle nur die Vorhersage des nächsten Tokens (Next Token Prediction) machen und daher weder Verständnis noch allgemeine Künstliche Intelligenz (AGI) erreichen können".

Bisher war dies jedoch nur eine Behauptung oder Überzeugung ohne empirische Beweise. Dieser Artikel liefert einige empirische Belege.

Darüber hinaus deutet er auf eine beängstigende Realität hin, nämlich dass mit zunehmender Stärke des Modells zwar die Intelligenz zunimmt, aber die Unregelmäßigkeit nicht abnimmt.

01 Die Illusion der Fähigkeiten und die Irrtumswahrheit

Die obige These ist eigentlich ziemlich gegen die Intuition. Hat METR nicht kürzlich das neue "Agent-Mooresche Gesetz" vorgeschlagen, wonach die Bearbeitungszeit von KI-Programmieraufgaben alle sieben Monate verdoppelt wird?

In Programmiertests wie SWE-bench setzen die führenden Modelle ständig neue Rekorde. Der geschriebene Code wird länger, und die behobenen Bugs werden schwieriger.

Unsere Intuition sagt uns daher, dass stärker werdende Modelle auch besser in der Lage sind, komplexe, längerfristige Aufgaben zu bewältigen, und dass AGI somit in greifbarer Nähe ist.

Der Artikel von Anthropic interessiert sich jedoch eher dafür, woher die Fehler der Modelle bei längerfristigen Aufgaben eigentlich stammen.

Um diese Frage zu klären, führte das Forschungsunternehmen ein klassisches statistisches Werkzeug ein: die Bias-Variance-Zerlegung.

Die Autoren nutzen hauptsächlich die KL-Divergenz-Zerlegung, um diese beiden Indikatoren zu quantifizieren.

Sie nutzen ein festes Modell und nehmen mehrere Stichproben (indem sie die Eingabebeispiele ändern oder den Sampling-Seed der Ausgabe verändern), um mehrere Antworten des Modells auf dieselbe Frage zu erhalten. Dann nehmen sie den Durchschnitt der Wahrscheinlichkeitsverteilungen der mehrfachen Ausgaben des Modells, um die Verteilung darzustellen, der das Modell am ehesten zustimmt. Die Forscher nennen dies die durchschnittliche Modellvorhersage.

Der Bias quantifiziert die Entfernung zwischen der "durchschnittlichen Vorhersage" des Modells und dem "wahren Ergebnis". Dieser Wert misst, wie weit das Modell im Durchschnitt von der richtigen Antwort entfernt ist. Wenn das Modell jedes Mal sehr entschieden dieselbe falsche Antwort wählt, wird dieser Wert sehr groß sein.

Der Varianz quantifiziert den Erwartungswert der Entfernung zwischen jeder "konkreten Vorhersage" des Modells und seiner eigenen "durchschnittlichen Vorhersage". Dieser Wert misst, wie stark die Leistung des Modells bei jeder Ausgabe von seinem eigenen Durchschnittswert abweicht. Wenn das Modell bei jeder Ausgabe dasselbe liefert (egal ob richtig oder falsch), ist die Varianz 0. Wenn die Ausgabe des Modells jedoch sehr zufällig ist, wird dieser Wert sehr groß sein.

Das ist wie beim Bogenschießen. Wenn Sie ein schlechter Schütze sind, aber jedes Mal zwei Meter links oben vom Zielscheibenmittelpunkt treffen, handelt es sich um Bias. Sie liegen falsch, aber Sie liegen auf eine stabile, systematische Weise falsch.

Wenn Sie an Parkinson leiden und Ihre Hände stark zittern und jedes Mal zufällig um die Zielscheibe herum schießen, handelt es sich um Varianz. Sie liegen falsch, und Ihre Fehler sind nicht vorhersehbar.

Hier stellen die Autoren einen zentralen Indikator vor: die Inkohärenz (Incoherence), die angibt, welchen Anteil der gesamten Fehler durch die Varianz verursacht wird.

Dieser Wert misst, ob ein KI-Fehler auf Dummheit (nicht wissen, was zu tun ist) oder auf Wahnsinn (willkürliches Handeln) zurückzuführen ist.

Das Experiment hatte hauptsächlich zwei Ergebnisse.

Erstens: Je länger die Aufgabe, desto wahnsinniger wird die KI. Sowohl in GPQA (wissenschaftliche Fragen und Antworten) als auch in SWE-bench (Programmierung) steigt die Inkohärenz linear an, wenn die Inferenzkette länger wird oder die Handlungsschritte zunehmen. Dies zeigt, dass die Fehlerquelle der Modelle qualitativ verändert hat. Anfangs waren die meisten Fehler auf Bias zurückzuführen, später auf Varianz.

Bei längerfristigen Aufgaben scheitert die KI nicht mehr daran, dass sie nicht genug Wissen hat, sondern daran, dass sie in einen zufälligen Wahnsinn verfällt.

Zweitens: Je größer das Modell, desto inkohärenter ist es bei schwierigen Aufgaben. Dies ist das am wenigsten intuitiv verständliche Ergebnis. Wir gehen normalerweise davon aus, dass größere Modelle stabiler sind. Bei den schwierigsten Aufgaben zeigt jedoch das Experiment, dass obwohl die Gesamtfehlerrate größerer Modelle sinkt, ihre Inkohärenz steigt.

Große Modelle wie die Qwen3-Familie können bei einfachen Aufgaben die Inkohärenz besser unterdrücken, je größer sie sind. Bei den schwierigsten Aufgaben sinkt der Bias jedoch schnell (das Modell ist tatsächlich sehr intelligent), während die Varianz nur langsam abnimmt (der Wahnsinn wird nicht besser). Dies führt dazu, dass größere Modelle eher aufgrund willkürlicher Entscheidungen fehlschlagen.

Sie mögen denken, dass die Situation nicht so schlimm ist. Wenn die Varianz tatsächlich mit zunehmender Modellgröße sinkt, warum können wir sie dann nicht durch eine weitere Vergrößerung der Modellgröße so weit senken, dass das Modell nie wieder wahnsinnig wird?

Das Forschungsunternehmen führte im Artikel eine Vergleichsanalyse durch: Modellgröße vs. Inferenzlänge, was hat den größeren Einfluss auf die Varianz? Die Antwort ist, dass die Inkohärenz (Entropieerhöhung), die durch jeden zusätzlichen Schritt in der Inferenzkette eingeführt wird, möglicherweise erst durch eine Vergrößerung der Modellgröße um mehrere Größenordnungen ausgeglichen werden kann. Theoretisch könnte die Varianz bei einer unendlich großen Modellgröße gegen Null gehen. Aber die Kosteneffizienz ist zu gering.

Wenn wir uns der AGI nähern, wächst die Komplexität (Länge) der Aufgaben oft exponentiell (von 10 Zeilen Code schreiben bis zu einer Unternehmensleitung). Wenn die Modellgröße die Aufgabenlänge jedoch mit einer noch stärkeren Exponentialfunktion verfolgen muss, wird das Modell in diesem Wettlauf niemals den Aufgabenanforderungen gerecht werden.

Dies ist ein beängstigendes Signal. Es bedeutet, dass das Skalierungsgesetz hier nicht mehr gilt. Ein bloßes Vergrößern des Modells kann diese innere Zufälligkeit nicht beseitigen, sondern kann aufgrund der erhöhten Selbstsicherheit und Variabilität des Modells die Fehler noch weniger vorhersehbar machen.

02 Die ursprüngliche Sünde der Autoregressivität

Warum wird unser geschaffener Superhirn schließlich zu einem Glücksspieler, der Würfel wirft?

Der Artikel gibt eine Erklärung aus physikalischer Perspektive, nämlich den wesentlichen Konflikt zwischen dynamischen Systemen und Optimierern.

Derzeitige LLMs sind im Wesentlichen autoregressiv. Es handelt sich um ein dynamisches System. Seine Arbeitsweise basiert auf dem aktuellen Zustand (Kontext) und der Vorhersage des nächsten Zustands (Token). Es kann zyklisch, chaotisch und divergierend sein, es kann überall hin gehen und muss nicht ein Ziel haben.

Der von uns gewünschte Agent ist ein Optimierer. Wir möchten, dass er ein langfristiges Ziel festlegt und alle Handlungen darauf abzielen, die Verlustfunktion in Bezug auf dieses Ziel zu minimieren. Das System hat einen eindeutigen Tiefpunkt (Ziel/Verlustfunktion), und jede Veränderung muss dazu führen, dass das System diesem Tiefpunkt näher kommt. Sein Verhalten ist strikt durch das Ziel festgelegt und darf nicht willkürlich sein.

Und "in der Menge aller dynamischen Systeme ist das Maß der Teilmenge, die sich wie ein Optimierer mit einer festen Verlustfunktion verhält, Null (measure zero)".

Dies ist ein mathematisches Urteil. Das heißt, dass die Wahrscheinlichkeit, dass ein autoregressives Modell die Arbeit eines Optimierers erledigt, praktisch Null ist.

Um dies zu beweisen, trainierten die Autoren des Artikels von Grund auf eine Reihe von Transformer-Modellen, um sie einem mathematischen Optimierer (Gradientenabstieg) nachzuahmen, um den Tiefpunkt einer Funktion zu finden. Obwohl das Modell größer wurde und der Bias schnell sank, sank die Varianz (wie stabil der Weg ist) dennoch sehr langsam und dominierte in einigen Phasen sogar vollständig die Fehler.

Dies beweist direkt, dass selbst wenn Sie ein autoregressives Modell speziell dafür trainieren, ein Optimierer zu werden, kann die Vergrößerung der Modellgröße nur die Genauigkeit seiner Kognition verbessern, aber nicht die Stabilität seiner Handlungen.

Wenn Sie ein autoregressives Modell dazu bringen, eine längerfristige Aufgabe auszuführen, zwingen Sie tatsächlich ein System, das sich gerne frei bewegt, auf einer Seilbahn zu gehen. Die Welt der dynamischen Systeme ist unendlich groß, während die Welt des Optimierers nur eine winzige Linie darin ist.

Wenn das Modell noch klein ist, kann es die Seilbahn vielleicht gar nicht sehen (hoher Bias). Je größer das Modell wird, expandiert sein Zustandsraum exponentiell. Es sieht die Seilbahn zwar, aber es hat auch mehr Ideen im Kopf. Da der Zustandsraum des Modells mit zunehmender Anzahl der Parameter größer wird, gibt es auch mehr Möglichkeiten. Die kleinen zufälligen Störungen (Varianz) bei jeder Vorhersage werden in der langen Inferenzkette in dem großen Zustandsraum immer stärker verstärkt.

Unsere gegenwärtigen Trainingsmethoden, insbesondere das verstärkte Lernen, versuchen, durch Anpassen der Parameter das

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Trotz vieler verstandener Wahrheiten muss die KI immer noch ausrasten.

01

Die Illusion der Fähigkeiten und die Irrtumswahrheit

02

Die ursprüngliche Sünde der Autoregressivität