StartseiteArtikel

Karpasi lobt den eingebauten Computer von Transformer, der eine Durchsatzrate von 30.000 Tokens pro Sekunde erreicht und das weltweit schwierigste Sudoku löst.

量子位2026-03-17 15:48
LLM berechnet präzise ohne externe Werkzeuge.

Die Inferenz von Large Language Models (LLMs) ist bereits auf dem Spitzenstand, doch die präzise Berechnung hinkt hinterher.

Wie kann man diese Situation lösen?

Hier kommt die von Karpathy gelobte Lösung: Ein eingebauter Computer im Inneren des Large Language Models.

Die neue Methode verzichtet auf die Outsourcing - Methode (sie ist nicht von externen Tools abhängig) und integriert direkt ausführbare Programme in die Transformer - Gewichte.

Und durch das innovative Design der 2 - dimensionalen Attention Heads wird die Inferenz - Effizienz des Large Language Models exponentiell gesteigert.

Es kann auf einem normalen CPU eine Streaming - Ausgabe von über 30.000 Tokens pro Sekunde erreichen.

Ein eingebauter Computer im Transformer

Wir wissen alle, dass es für die aktuell fortschrittlichsten Large Language Models keine Seltenheit mehr ist, bei Olympiaden Goldmedaillen zu gewinnen.

Einige können sogar mathematische und wissenschaftliche Probleme lösen, die bisher von Menschen noch nicht gelöst wurden.

Aber eine unausweichliche Realität ist, dass diese Modelle in präzisen Berechnungsaufgaben mit mehreren Schritten und langem Kontext immer noch schlecht abschneiden.

Um diese Schwäche zu beheben, gibt es derzeit zwei gängige Lösungen in der Branche.

Eine ist die Tool - Nutzung, bei der das Modell Skripte erzeugt, die von einem externen Sandbox - Interpreter ausgeführt werden, und das Ergebnis zurückgegeben wird.

Die andere ist die Agenten - Planung, bei der die Berechnungsaufgaben durch eine externe Zustandsmaschine aufgeteilt werden und das Modell zyklisch für den Kontextverarbeitung aufgerufen wird.

Aber im Wesentlichen handelt es sich bei beiden Methoden darum, dem Modell ein "Extras" zu geben und die Rechenleistung extern anzuhängen.

Die autoregressive Dekodierung des Standard - Transformers verschlimmert das Problem noch weiter -

Bei der Generierung jedes Tokens muss das Modell die gesamte historische Sequenz aufmerksamkeitsbasiert scannen. Die Rechenkosten steigen linear mit der Sequenzlänge, was präzise Berechnungen über lange Trajektorien unmöglich macht.

Die neue Forschung des Percepta - Teams springt über die Extras - Idee hinaus und macht den Transformer direkt zum Computer.

Zunächst haben sie in den Transformer - Gewichten eine moderne RAM - Computer - Architektur und einen WebAssembly - Interpreter implementiert.

WebAssembly kann als eine besonders schnelle und stabile untere Maschinenanweisung verstanden werden. Code, der in Programmiersprachen wie C und C++ geschrieben wurde, kann in WebAssembly kompiliert werden.

Mit diesem Interpreter kann jeder standardisierte Programmcode in eine vom Modell erkennbare Token - Anweisungssequenz kompiliert werden.

Beispielsweise, um 3 + 5 zu berechnen, wird das Modell zunächst so schreiben:

Dann wechselt es in den Schnell - Dekodierungsmodus und führt das Programm Schritt für Schritt im Inneren des Transformers aus. Gleichzeitig wird der Ausführungsvorgang zeilenweise als eine Reihe von Markierungen ausgegeben:

Das Rechenergebnis wird direkt im Token - Ausgabestrom des Modells generiert. Es ist nicht erforderlich, auf das Ergebnis eines externen Tools zu warten, und der gesamte Prozess ist transparent.

Diese Transparenz macht den Berechnungsprozess des Modells von einer schwarzen Kiste (externe Abhängigkeit) zu einer weißen Kiste und ermöglicht die Verifizierbarkeit der Berechnung.

Der eingebauter Computer ist da. Wie kann man die Effizienz verbessern?

Für diese Frage hat das Team ein innovatives Design der 2 - dimensionalen Attention Heads entwickelt.

Im Design der 2 - dimensionalen Attention Heads ist der Key - Vektor jedes historischen Tokens zweidimensional, während der Query - Vektor des aktuellen Schritts als eine Richtung in der zweidimensionalen Ebene betrachtet werden kann.

Hierbei wird das Kernproblem der Attention - Abfrage, den Key zu finden, der am besten mit dem Query übereinstimmt, in ein Problem der konvexen Hülle - Extremwertabfrage in der Computergeometrie umgewandelt. Das heißt, man muss auf der konvexen Hülle in der zweidimensionalen Ebene den am weitesten entfernten Punkt in Richtung des Querys finden.

Mithilfe der Datenstruktur der konvexen Hülle kann das Modell während der Token - Generierung die konvexe Hülle der historischen Keys dynamisch pflegen. Die Attention - Abfrage in jedem Schritt muss nur auf der konvexen Hülle durchgeführt werden.

Dies reduziert die Rechenkomplexität von O (n) auf O (log n).

Das Forschungs - Team hat basierend auf diesem Prinzip den HullKVCache entwickelt.

Dieser Cache erreicht auf einem normalen CPU einen Durchsatz von 31.037 Tokens pro Sekunde und benötigt nur 1,3 Sekunden, um etwa 9.000 Zeilen Anweisungssequenzen abzuarbeiten. Die Effizienz ist im Vergleich zu herkömmlichen KV - Caches um fast das 200 - fache verbessert.

Außerdem basiert dieses Design vollständig auf dem Standard - PyTorch - Transformer. Es ist keine benutzerdefinierte Kernfunktion oder sparse Maske erforderlich und kann durch einfache Konfiguration der Dimension und der Anzahl der Attention Heads realisiert werden.

100 % präzise Lösung des schwierigsten Sudokus

Das Team hat zwei typische langfristige präzise Berechnungsaufgaben ausgewählt, um diese Methode zu validieren.

Diese beiden praktischen Aufgaben sind die 10×10 - minimale Kosten - perfekte Zuordnung und das bekannte weltweit schwierigste Sudoku von Arto Inkala.

Bei der 10×10 - minimalen Kosten - perfekten Zuordnungsaufgabe führt das Modell intern den Ungarischen Algorithmus aus und generiert den gesamten Berechnungsprozess auf autoregressive Weise.

Von der Zeilenzuordnung, der Lösung des Dijkstra - Algorithmus bis zur Aktualisierung der Dualvariablen und der Suche nach erweiternden Pfaden wird jeder Schritt des Berechnungsprozesses und die Kostenakkumulation genau aufgezeichnet. Am Ende wird die optimale Zuordnung präzise gelöst.

Der gesamte Prozess wird auf der CPU abgeschlossen. Die Token - Generierungsgeschwindigkeit erreicht 33.583 Tokens pro Sekunde und die Anweisungsausgabeeffizienz beträgt 7.301 Zeilen pro Sekunde.

Beim Sudoku - Lösungsprozess führt das Modell für das Arto - Inkala - Sudoku mit nur 21 Hinweisen intern einen vollständig korrekten, kompilierten Sudoku - Löser aus.

Der Löser füllt zunächst 21 Zellen durch die Propagierung von Einschränkungen und geht dann in die Suchphase über. Er versucht nacheinander mögliche Zahlenwerte zuzuweisen und führt bei Widersprüchen sofort einen Rücksprung durch.

Jeder Versuch, die Validierung, die Konsistenzprüfung, die Widerspruchsdetektion und der Rücksprungsschritt werden in Form von lesbaren Logzeilen und Token - Trajektorien auf autoregressive Weise erzeugt und ausgegeben.

Am Ende wird in 3 Minuten eine 100 % präzise Lösung erreicht.

Diese Arbeit wurde von Christos Tzamos geleitet und gemeinsam mit anderen Forschern von Percepta durchgeführt.

Christos Tzamos ist Doktor der Massachusetts Institute of Technology (MIT) und derzeit Assistentprofessor für Informatik an der Universität Athen. Er ist auch ein Gründungsforscher von Percepta.

Percepta ist ein AI - Transformationsunternehmen unter der General Catalyst. Das Team besteht aus Talenten aus Institutionen wie Meta FAIR, MIT und Google.

Referenzlinks:

[1]https://x.com/ChristosTzamos/status/2031845134577406426?s=20

[2]https://www.percepta.ai/blog/can-llms-be-computers

Dieser Artikel stammt aus dem WeChat - Account "Quantum Bit", Autor: Wen Le. Veröffentlicht von 36Kr mit Genehmigung.