StartseiteArtikel

Große Modelle brauchen auch Schlaf. Lassen Sie die KI eine Nickerchen machen, damit sie aufwacht und klüger wird.

量子位2026-05-27 18:09
Je schwieriger die Aufgabe ist, desto mehr sollte man schlafen.

7×24 Stunden am Tag, auch KI kann das nicht aushalten.

Die Carnegie Mellon University und die University of Maryland haben eine Studie mit dem Titel „Language Models Need Sleep“ veröffentlicht.

Wenn große Sprachmodelle lange Kontexte verarbeiten, werden sie tatsächlich dumm, wenn sie sich nicht ausruhen lassen.

Die Inspiration für diese Studie stammt aus dem Funktionsprinzip des menschlichen Gehirns.

Während des Schlafs spielt die Hippokampusregion die Kurzzeitgedächtnisse des Tages immer wieder ab und verfestigt sie in den kortikalen Synapsen, um daraus Langzeitwissen zu machen.

Das Forschungsteam glaubt, dass auch Modelle auf diese Weise funktionieren können. Sie haben einen Schlafmechanismus entwickelt, der es dem großen Sprachmodell ermöglicht, sich auszuruhen, wenn sein Kontextfenster fast voll ist. Es kann die letzten Kontexte mehrmals wiederholen, diese in die Langzeitgewichte komprimieren, den Cache leeren und dann weiterarbeiten.

Tests haben gezeigt, dass eine angemessene Erhöhung der „Schlaf“-Iterationsrunden die Leistung des Modells bei Aufgaben der tiefen Inferenz deutlich verbessern kann.

Insbesondere bei schwierigen Aufgaben, die schrittweise abgeleitet werden müssen, benötigt das Modell umso mehr Schlaf, je komplexer die Aufgabe ist.

Was ist los?

Was ist mit dem großen Sprachmodell los, dass es unbedingt schlafen muss?

Das Herzstück des Transformers ist der Attention-Mechanismus. Ein inhärenter Nachteil des Attention-Mechanismus ist jedoch, dass mit zunehmender Länge des Kontexts die Rechenleistung quadratisch und der KV-Cache linear ansteigen.

Beim gleichen Inferenzaufgabe gibt es einen großen Unterschied in den Rechenleistungskosten zwischen einem 8K-Kontextfenster und einem 128K-Kontextfenster. Der zusätzliche Rechenaufwand wird hauptsächlich für die Korrelationsberechnung der historischen Informationen verbraucht.

Derzeit gibt es zwei Ansätze:

Entweder wird versucht, es durchzuhalten. Wenn es nicht mehr geht, werden die alten Informationen aus dem Cache entfernt. Das Modell behandelt diese Informationen dann als nicht vorhanden.

Die andere Art ist die in den letzten zwei Jahren populäre SSM+Attention-Hybridarchitektur, wie beispielsweise Samba und Qwen3.5.

Die Hybridarchitektur ist ein Kompromisslösung. Sie komprimiert die alten Informationen in schnelle Gewichte (fast weights), die keinen Cacheplatz beanspruchen und gleichzeitig die Möglichkeit zur Informationsabfrage behalten.

Dies hat zwar den Speicherdruck etwas gemindert, aber das Team hat festgestellt, dass das Modell auch dann, wenn der schnelle Gewichtsspeicher noch ausreichend Kapazität hat, bei zunehmenden Inferenzschritten und längeren logischen Ketten Leistungseinbußen aufweist.

Das bedeutet, dass die aktuelle Schwachstelle nicht an der mangelnden Informationsspeicherkapazität liegt, sondern an der unzureichenden Fähigkeit zur tiefen Inferenz.

Bevor die historischen Informationen aus dem KV-Cache entfernt werden, hat das Modell nur eine Gelegenheit, die Informationen durch Vorwärtsausbreitung zu internalisieren. Eine einmalige Verarbeitung reicht jedoch nicht aus, um komplexe Logiken aufzuschlüsseln und abzuleiten.

Dies ähnelt dem menschlichen Gehirn. Wenn Sie tagsüber viele Dinge erleben, werden diese nicht sofort verarbeitet, sondern das Gehirn bearbeitet sie, wenn Sie schlafen.

Die Hippokampusregion spielt während des Schlafs die wichtigen Momente des Tages immer wieder ab und verfestigt die Kurzzeitgedächtnisse in den kortikalen Synapsen, um daraus Langzeitwissen zu machen.

Dieser Prozess muss jedoch offline erfolgen. Das heißt, Sie müssen schlafen und die externen Reize vorübergehend ausschalten, damit das Gehirn sich auf die Verarbeitung der Informationen konzentrieren kann.

Außerdem muss es nicht nur einmal wiederholt werden, sondern mehrmals.

Wie sieht der Schlaf eines Modells aus?

Das Team hat dieses gesamte logische Konzept des menschlichen Gehirns auf das Modell übertragen.

Ihre Idee ist, dass das große Sprachmodell sich ausruht, wenn sein Kontextfenster fast voll ist, anstatt weiterzuarbeiten.

Hier bedeutet Schlafen, dass die Aufnahme neuer Token unterbrochen wird und das Modell in einen reinen Offline-Zustand eintritt. Es führt dann mehrere Runden rekursiver Vorwärtsausbreitung für alle bisher gesammelten Kontexte durch.

Unter Verwendung von lernbaren lokalen Regeln werden die Informationen wiederholt aufbereitet und integriert. Die schnellen Gewichte im SSM-Modul werden schrittweise aktualisiert, um eine tiefe Komprimierung und Verarbeitung der Informationen zu erreichen.

Nach der Verarbeitung werden der KV-Cache geleert. Das Modell erwacht mit den aktualisierten Gewichten und arbeitet weiter.

Betrachtet man die Verteilung der Rechenleistung, so ist der zusätzliche Rechenaufwand vollständig auf die „Schlaf“-Phase konzentriert. Der normale Inferenzprozess nach dem Aufwachen des Modells entspricht dem eines herkömmlichen Modells und erfordert nur eine Vorwärtsausbreitung.

Die „Schlafdauer“ entspricht im Wesentlichen der Anzahl der Iterationsrunden der Informationsverarbeitung. Je mehr Runden durchgeführt werden, desto gründlicher werden die Kontextinhalte von dem Modell bearbeitet und verfeinert.

Das Team hat Tests mit drei Arten von Aufgaben durchgeführt: Zellularautomaten, mehrstufige Graphsuche und unendliche mathematische Inferenz (GSM-Infinite). Diese Aufgabenarten ermöglichen es, die beiden Variablen Inferenztiefe und Speicherlast präzise zu steuern.

Die Testergebnisse zeigen deutlich, dass die Gesamtleistung des Modells mit zunehmender Anzahl der Schlaf-Iterationsrunden deutlich verbessert wird. Die Verbesserung der Leistung zeigt sich vor allem bei schwierigen Aufgaben der tiefen Inferenz.

Das bedeutet, dass einfache Aufgaben sofort gelöst werden können, während schwierige Aufgaben einen Schlaf erfordern. Nur nach mehreren Runden der Bearbeitung kann das Modell die Lösung finden.

Man kann nur sagen, dass Pausen tatsächlich eine gute Methode zur Effizienzsteigerung sind. Manchmal muss man anhalten, um gut nachzudenken (doge).

Link zur Studie: https://arxiv.org/abs/2605.26099

Dieser Artikel stammt aus dem WeChat-Account „Liangziwei“. Autor: Wen Le. Veröffentlicht von 36Kr mit Genehmigung.