SpeedupLLM bestätigt: Der große Sprachmodell wird "je mehr man ihn nutzt, desto schneller" und senkt Inferenzkosten um 56 %

Wie kann man einen LLM geschickter machen?

Je länger man große Sprachmodelle (LLMs) nutzt, desto schneller werden sie! Die Emory University hat das SpeedupLLM-Framework entwickelt, das dynamische Ressourcenallokation und ein Gedächtnis-Mechanismus nutzt, um die Inferenzkosten von LLMs bei ähnlichen Aufgaben um 56 % zu senken und die Genauigkeit zu verbessern. Dies bietet neue Ideen für die Entwicklung von KI-Modellen.

In der menschlichen Wahrnehmung bedeutet Übung Schnelligkeit und Effizienz.

Zum Beispiel kann man nach nur wenigen Dutzend Trainingseinheiten das scheinbar komplizierte Rubik's Cube blind lösen. Wenn man eine Mathematikaufgabe mehrmals gelöst hat, kann man oft den Lösungsweg im Kopf schnell reproduzieren und in Sekunden antworten.

Können auch große Sprachmodelle ähnlich werden?

Die Forscher Bo Pan und Liang Zhao von der Emory University haben kürzlich ein aufregendes Ergebnis veröffentlicht: Die Leistung von großen Sprachmodellen hängt tatsächlich von der Übung ab, und sie können tatsächlich "je öfter sie genutzt werden, desto schneller" werden!

Link zur Studie: https://arxiv.org/abs/2505.20643

Die Studie hat erstmals systematisch bestätigt, dass LLMs unter "erfahrenen" Bedingungen nicht nur ihre Leistung beibehalten, sondern auch die Inferenzzeit und die Rechenressourcen erheblich reduzieren können. Dies enthüllt ein neues Paradigma, dass auch KI von Übung profitieren kann.

Wie kann man ein LLM "erfahren" machen?

Um den "Effekt der Übung auf die Beschleunigung" systematisch zu überprüfen, haben die Autoren ein einheitliches Framework vorgeschlagen, das die "Nutzungserfahrung" unter drei Arten von Gedächtnis-Mechanismen konstruiert und quantifiziert.

Dieses Framework besteht aus zwei Teilen: Dynamische Ressourcenallokation während der Inferenz und ein Gedächtnis-Mechanismus.

Bei der dynamischen Ressourcenallokation erweitert die Studie systematisch verschiedene bestehende Test-Zeit-Skalierungs-Methoden zu einer dynamischen Ressourcenallokation, sodass LLMs weniger Rechenressourcen auf bekannte Probleme verwenden können.

Bezüglich des Gedächtnis-Mechanismus führt das Framework einen Gedächtnis-Mechanismus ein, um die aktuelle Inferenz durch vergangene Erfahrungen zu beschleunigen.

Kann ein großes Modell in mehreren Runden wie ein Mensch "durch Erfahrung schneller werden"? Gibt es eine Methode, die die Effizienz systematisch verbessert, anstatt einfach nur die Rechenleistung zu erhöhen?

Highlights der Studie 1: Erfahrung spart Rechenleistung

Während der Inferenz von wiederholten oder ähnlichen Aufgaben haben die Forscher festgestellt, dass LLMs durch die Nutzung früherer Erfahrungen (z. B. memory cache, in-context memory) die Inferenzkosten um bis zu 56 % reduzieren können und die Genauigkeit beibehalten oder sogar verbessern können.

Das bedeutet, dass das Modell bei der Bearbeitung von "vertrauten" Aufgaben weniger Fehlschritte macht und nicht nur genauer, sondern auch schneller antworten kann.

Highlights der Studie 2: Systematische und umfangreiche Experimente

Um die Allgemeingültigkeit zu überprüfen, haben die Forscher untersucht:

Verschiedene Test-Zeit-Skalierungs-Methoden, einschließlich Self-Refine, Best-of-N, Tree-of-Thoughts und die neueste Long Chain-of-Thought (o1-Denken)

Verschiedene Arten von Gedächtnis, einschließlich überwachtes Lernen (Supervised Fine-tuning), das Abrufen vergangener Erfahrungen und drei Arten von Selbstreflexion (Reflection)

Verschiedene Ähnlichkeiten von Aufgaben, einschließlich 1) exakt identischen Aufgaben, 2) Aufgaben mit derselben Bedeutung, aber unterschiedlicher Formulierung, 3) Aufgaben mit demselben Aufgabentyp, aber unterschiedlichen Zahlen und 4) verschiedenen Aufgaben, die dieselben Kenntnisse erfordern.

Alle Mechanismen haben eine signifikante Beschleunigung der Inferenz gezeigt, was die Breite dieses Phänomens demonstriert.

Ergebnisse der Experimente

Bei Aufgaben wie "wiederholte Fragen und Antworten" und "schrittweise Inferenz" ist das Modell desto schneller und effektiver, je mehr "Wiederholungen" es gibt. Dieser Trend wird mit zunehmender Erfahrung noch deutlicher.

Die Experimente haben die folgenden acht Schlüsselerkenntnisse erbracht:

Erkenntnis 1: LLMs können tatsächlich "je öfter sie genutzt werden, desto schneller" werden!

Die Experimente zeigen, dass LLMs bei der Bearbeitung von wiederholten oder ähnlichen Aufgaben unter der Voraussetzung eines geeigneten Gedächtnis-Mechanismus und einer Strategie zur Steuerung des Rechenbudgets durchschnittlich bis zu 56 % der Inferenzkosten einsparen können. In 64 von 80 Experimenten hat es eine signifikante Beschleunigung gegeben, was einer Abdeckung von 80 % entspricht. Dies bestätigt die Allgemeingültigkeit des "Effekts der Erfahrungsbeschleunigung".

Erkenntnis 2: Schneller bedeutet nicht schlechter, sondern genauer!

Überraschenderweise hat die Reduzierung der Inferenzkosten nicht die Genauigkeit beeinträchtigt, sondern im Allgemeinen die Genauigkeit verbessert. Der Pearson-Korrelationskoeffizient zwischen der Reduzierung der Inferenzkosten und der Verbesserung der Genauigkeit beträgt -0,41 (p = 0,0002), was bedeutet, dass "schneller" auch "stabiler" und "genauer" ist.

Erkenntnis 3: Je höher die Ähnlichkeit, desto deutlicher die Beschleunigung

Die Studie hat vier Ähnlichkeitsgrade von vollständig identisch (S1) bis stark verändert (S4) festgelegt. Die Ergebnisse zeigen, dass die Beschleunigung bei S1- und S2-Aufgaben am signifikantesten ist (16,0 % und 15,4 % Einsparung der Rechenleistung), während die Beschleunigung bei S4-Aufgaben aufgrund der strukturellen Unterschiede und der fehlenden direkten Übertragbarkeit des Gedächtnisses am schwächsten ist.

Erkenntnis 4: Bei geringer Ähnlichkeit kann der Gedächtnis-Mechanismus kontraproduktiv sein

Wenn die Unterschiede zwischen den Aufgaben zu groß sind, kann der Gedächtnis-Mechanismus das Modell in die falsche Richtung führen, was zu höheren Inferenzkosten und einer geringeren Genauigkeit führt. Dieses Phänomen tritt in einigen S4-Szenarien signifikant auf, was darauf hinweist, dass nicht immer mehr Gedächtnis besser ist, sondern dass man es "richtig auswählen und geschickt nutzen" sollte.

Erkenntnis 5: Episodisches Gedächtnis ist besser als Reflexionsgedächtnis bei der Beschleunigung der Inferenz

Im Vergleich verschiedener Gedächtnis-Mechanismen hat das episodische Gedächtnis (z. B. SFT und In-Context) bei der Beschleunigung der Inferenz eine bessere Leistung gezeigt. Beispielsweise spart In-Context durchschnittlich 27,4 % der Rechenleistung, während das Reflexionsgedächtnis nur 3,6 % bis 8,8 % einspart. Dies stimmt mit psychologischen Studien überein: Menschen verlassen sich bei der Entwicklung von Fertigkeiten zunächst auf das episodische Gedächtnis konkreter Beispiele.

Erkenntnis 6: In-Context ist effizienter als SFT

In Szenarien mit wenigen Beispielen (1 - 3 Runden) hat das In-Context-Lernen im Vergleich zu SFT eine bessere Generalisierungsfähigkeit und weniger Überanpassung. Insbesondere in Bezug auf die Inferenzgeschwindigkeit in dieser Studie ist In-Context schneller, stabiler und genauer, was die starke sofortige Anpassungsfähigkeit des nicht-parametrischen Gedächtnisses zeigt.

Erkenntnis 7: Textbasierte Gedächtnis-Methoden erreichen schnell ihre Grenzen, während parametrische Gedächtnis-Methoden kontinuierlich beschleunigen können

Textbasierte Gedächtnis-Methoden wie Reflexion und In-Context haben eine "Grenze" des Kontextfensters. Nach der Hinzunahme von drei Beispielen sättigt sich der Effekt allmählich. Im Gegensatz dazu aktualisiert SFT den Gedächtnisinhalt durch die Aktualisierung der Gewichte und ist nicht vom Fenster begrenzt. Die Inferenzgeschwindigkeit steigt kontinuierlich mit der Erfahrung.

Erkenntnis 8: Je "generalisierter" die Reflexion, desto deutlicher die Beschleunigung

Von den drei Reflexions-Mechanismen hat Reflect-Update die beste Leistung gezeigt. Der Grund ist, dass es kontinuierlich abstrakte Regeln zusammenfasst, anstatt konkrete Zahlen oder Beispiele zu sammeln. Diese "stark generalisierte" Reflexion lässt sich leichter auf andere Aufgaben übertragen und unterstützt die Beschleunigung. Dies ist bei der zukünftigen Gestaltung eines besseren Reflexions-Mechanismus zu beachten.

LLMs mit "Gedächtnis" und "Erfahrung" ausstatten

Diese Studie hat ein neues Paradigma vorgeschlagen, das beachtenswert ist:

Die Effizienz der Inferenz kann nicht nur durch die Verbesserung der Hardware, sondern auch durch die "Lernhistorie" verbessert werden.

In wiederholten Szenarien wie Kundenservice, Suche und medizinischen Beratungen kann die Implementierung eines "gedächtnisfähigen LLM" zu geringerer Reaktionszeit, weniger Rechenleistung, stärkerer Anpassungsfähigkeit und Individualisierung führen.

Diese Studie schließt nicht nur die Lücke in der aktuellen Forschung zur Beschleunigung der Inferenz, sondern bietet auch neue Ideen für die Entwicklung von KI-Modellen mit "menschlicher Fertigkeit".

Quelle:

https://arxiv.org/abs/2505.20643

Dieser Artikel stammt aus dem WeChat-Account "New Intelligence Yuan", Verfasser: New Intelligence Yuan. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der große Sprachmodell wird "je mehr man ihn nutzt, desto schneller". SpeedupLLM hat dies erstmals bestätigt und die Inferenzkosten um 56 % erheblich gesenkt.

Wie kann man ein LLM "erfahren" machen?

Highlights der Studie 1: Erfahrung spart Rechenleistung

Highlights der Studie 2: Systematische und umfangreiche Experimente

Ergebnisse der Experimente

LLMs mit "Gedächtnis" und "Erfahrung" ausstatten