Hat Mark Zuckerbergs Wette bereits erste Erfolge gezeigt? Ein neues Verfahren von Meta beschleunigt die Verarbeitung langer Kontexte in Large Language Models um das 30-fache.
Nach den aufregenden Ereignissen der letzten Zeit scheint Mark Zuckerbergs Investment endlich Früchte zu tragen.
Kürzlich haben die Meta Superintelligence Labs gemeinsam einen effizienten Decodierrahmen namens REFRAG vorgeschlagen, der darauf abzielt, die Effizienzengpässe zu überwinden, denen Large Language Models (LLMs) beim Verarbeiten von langen Kontext-Eingaben begegnen, insbesondere in Anwendungsfällen wie Retrieval Augmented Generation (RAG).
Titel der Studie: REFRAG: Rethinking RAG based Decoding
Link zur Studie: https://arxiv.org/abs/2509.01092
Warum ist die Verarbeitung langer Kontexte so schwierig?
In aktuellen KI-Anwendungen ist die Verwendung von LLMs zur Verarbeitung von langen Texten mit umfangreichen externen Informationen der Schlüssel zur Verbesserung der Leistungsfähigkeit von Fragen-Antwort-Systemen, Dialogsystemen und Agenten. Allerdings bringt dieser Prozess auch erhebliche Herausforderungen mit sich: In herkömmlichen LLMs wachsen die Rechen- und Speicheraufwendungen des Attention-Mechanismus quadratisch (N²) mit der Länge der Eingabe.
Das bedeutet, dass sich die Verarbeitungsgeschwindigkeit möglicherweise um das Vierfache verlangsamt, wenn die Textlänge verdoppelt wird. Dies führt zu erheblichen Systemverzögerungen und verbraucht viel Speicher für den KV Cache, was die Systemdurchsatzleistung verringert. Entwickler müssen daher oft schmerzliche Kompromisse zwischen Wissensumfang und Systemeffizienz eingehen.
Metas Forschung hat gezeigt, dass in RAG-Anwendungen der von LLMs verarbeitete Kontext viele Abschnitte enthält, die aus externen Wissensbanken abgerufen und zusammengefügt wurden, aber nur ein kleiner Teil davon ist eng mit der Benutzeranfrage verbunden. Diese irrelevanten Abschnitte führen zu einem unnötigen Verbrauch von Rechenressourcen. Die Kernidee von REFRAG basiert auf dieser Beobachtung: Durch die Identifizierung und das Überspringen von ineffizienten Berechnungen für diese nicht relevanten Kontexte wird der Decodierungsprozess optimiert.
Wie löst REFRAG das Problem?
Der REFRAG-Rahmenwerk erreicht eine bemerkenswerte Leistungssteigerung durch einen raffinierten Vier-Schritt-Prozess, der die sparse Struktur des Attention-Mechanismus nutzt. Der entscheidende Unterschied zu herkömmlichem RAG besteht darin, dass es vermeidet, dass das LLM direkt mit langen Originaltexten arbeitet.
- Komprimierung: Zunächst liest ein leichtgewichtiger Encoder die abgerufenen Dokumente und komprimiert jeweils 16 Token zu einem "Blockvektor", der die semantische Essenz enthält.
- Verkürzung: Anschließend verarbeitet das Hauptmodell nicht mehr die Original-Token, sondern direkt diese Blockvektoren. Die Länge der Eingabesequenz wird dadurch um das 16-fache verkürzt.
- Beschleunigung: Da die Eingabe nun sehr kurz ist, sinken die Rechenaufwendungen des Attention-Mechanismus erheblich, und auch der KV Cache, der den größten Teil des Grafikspeichers verbraucht, wird kleiner. Dies ist der grundlegende Grund für die erstaunliche Geschwindigkeitssteigerung.
- Auswahl: Um zu verhindern, dass wichtige Informationen während der Komprimierung verloren gehen, führt das Rahmenwerk eine RL-basierte Strategie als "Qualitätskontrolleur" ein. Diese kann intelligent die Schlüsselabschnitte mit der höchsten Informationsdichte und der größten Relevanz für die Aufgabe auswählen, um sicherzustellen, dass diese nicht komprimiert werden und die Kerninformationen erhalten bleiben.
Meta hat angegeben, dass die Wirksamkeit dieses Rahmens in verschiedenen Aufgaben mit langen Kontexten, einschließlich RAG, mehrmaligen Dialogen und Langtextzusammenfassungen, bestätigt wurde und bahnbrechende Ergebnisse erzielt hat:
- Geschwindigkeitssteigerung: Die Zeit bis zur Generierung des ersten Tokens (TTFT) wird um bis zu 30,8-fach beschleunigt. Im Szenario mit 16.000 Tokens wird im Vergleich zu Baseline-Methoden wie CEPE eine TTFT-Beschleunigung von über 16-fach erreicht. Aus den Leistungskurven geht hervor, dass der Vorteil von REFRAG umso deutlicher wird, je länger der Text ist. Die Beschleunigungswirkung steigt exponentiell mit der Größe des Kontexts, während die Baseline-Methoden nur eine lineare Verbesserung zeigen.
- Erweiterung des Kontexts: Die effektive Kontextgröße bestehender LLMs kann um das 16-fache erweitert werden, sodass sie größere Mengen an Informationen verarbeiten können.
- Genauigkeitssteigerung: Bei einer deutlichen Geschwindigkeitssteigerung und einer Erweiterung des Kontexts bleibt die Genauigkeit des Modells nicht nur erhalten. Noch wichtiger ist, dass bei den GSM8K-Referenztests kann REFRAG nicht nur einen um das Achtfache längeren Kontext verarbeiten (80 Chunks gegenüber 10 Chunks), sondern die Verarbeitungsgeschwindigkeit wird auch verdoppelt. Das Endergebnis wird fast verdoppelt, von 6,71 auf 12,08.
Kurz gesagt, macht REFRAG das "Large Context RAG" von einem Ideal zur Realität.
Obwohl die Ergebnisse sehr vielversprechend klingen, haben Nutzer im Kommentarbereich angemerkt, dass der endgültige Wert von REFRAG in breiteren praktischen Anwendungen getestet werden muss.
Einige haben auch Bedenken gegen die RL-Strategie in dieser Studie geäußert.
Methode
Um eine effektive Ausrichtung von Encoder und Decoder zu erreichen, folgt diese Studie dem Ansatz von Yen et al. (2024) und nutzt eine kontinuierliche Vortrainingsmethode basierend auf der "Next Paragraph Prediction"-Aufgabe.
Während des Trainings enthält jeder Datensatz insgesamt s + o = T Token. Durch diesen Vortrainingsvorgang lernt das Modell, wie es Chunk-Embeddings effektiv für nachgelagerte Aufgaben nutzen kann.
Um die Modellleistung weiter zu verbessern, wird auch ein selektiver Komprimierungsmechanismus mit Hilfe von RL eingeführt. Nach der CPT-Ausrichtung wird das Modell durch überwachtes Finetuning an spezifische nachgelagerte Anwendungen wie RAG und mehrmalige Dialoge angepasst.
Im Kern der CPT-Aufgabe arbeitet das Modell wie folgt: Der Encoder verarbeitet zunächst die ersten s Token
, und die komprimierten Informationen werden dem Decoder helfen, die nächsten o Token vorherzusagen
.
Diese Aufgabe zielt darauf ab, das Modell zu trainieren, effizient auf Grundlage von Kontextinformationen vorherzusagen, was die Grundlage für seine Leistung in praktischen Anwendungen bildet. Das endgültige Ziel ist, dass beliebige Encoder-Decoder-Kombinationen zusammenarbeiten können, um sicherzustellen, dass die vom Decoder auf der Grundlage des komprimierten Kontexts generierten Inhalte den Inhalten ähneln, die er bei Zugang zu einem vollständigen, unkomprimierten Kontext generieren würde.
Kontinuierliches Vortrainingsschema
Um den Erfolg der CPT-Phase sicherzustellen, haben die Forscher ein Trainingsschema vorgeschlagen, das eine Rekonstruktionsaufgabe und eine Curriculum Learning-Methode umfasst. Ablationsstudien haben gezeigt, dass dieses Schema für die Erreichung einer hervorragenden CPT-Leistung von entscheidender Bedeutung ist.
Rekonstruktionsaufgabe. Das Ziel dieser Aufgabe ist es, den Encoder zu trainieren, Texte mit minimalem Informationsverlust zu komprimieren. Konkret werden die ersten s Token
in den Encoder eingegeben, und das Modell wird trainiert, die gleichen Token im Decoder wiederherzustellen
. Dabei bleibt der Decoder "gefroren" (d. h., seine Parameter werden nicht aktualisiert), und das Training konzentriert sich vollständig auf den Encoder und die Projektionsschicht, die die beiden verbindet.
Diese Aufgabe hat zwei Hauptziele:
- Effiziente Komprimierung: Der Encoder wird trainiert, k Token in ein Chunk-Embedding zu komprimieren, während möglichst viel Originalinformation beibehalten wird.
- Räumliche Abbildung: Die Projektionsschicht wird trainiert, die vom Encoder generierten Chunk-Embeddings effektiv in den Token-Raum des Decoders abzubilden, sodass der Decoder die Originalinformationen "verstehen" und genau rekonstruieren kann.
Ein spezielles Ziel der Rekonstruktionsaufgabe ist es, das Modell zu ermutigen, sich beim Training stärker auf sein Kontextgedächtnis (d. h., die Informationen aus der Eingabe) zu verlassen, anstatt auf sein inhärentes parametrisiertes Gedächtnis (d. h., das vom Modell bereits erworbene Wissen). Sobald der Encoder und der Decoder durch diese Aufgabe vorläufig ausgerichtet sind, wird der Decoder entfroren, und der eigentliche CPT-Prozess beginnt.
Curriculum Learning. Obwohl die oben genannten Trainingsaufgaben konzeptionell klar sind, sind sie in der Praxis sehr herausfordernd. Die Schwierigkeit besteht darin, dass die Anzahl möglicher Token-Kombinationen exponentiell mit der Länge des Chunks k wächst
(wobei V die Größe des Vokabulars ist). Die effektive Komprimierung dieser riesigen Vielfalt in ein Embedding fester Länge ist eine erhebliche technische Herausforderung. Darüber hinaus erhöht die Rekonstruktion von
Token aus L Chunk-Embeddings die Komplexität der Aufgabe noch weiter.
Entgegen der Intuition hat das direkte Fortsetzen des Vortrainings des Decoders zur Nutzung der Encoderausgabe, selbst in der Rekonstruktionsaufgabe, die Perplexität nicht verringert. Um diese Optimierungsherausforderung zu lösen, wird vorgeschlagen, Curriculum Learning für beide Aufgaben zu verwenden. Curriculum Learning erhöht schrittweise die Schwierigkeit der Aufgaben, sodass das Modell komplexe Fähigkeiten schrittweise und effektiv er