Werfe RoPE weg, AI versteht lange Kontexte besser. Das Autorenteam von Transformer hat eine neue Methode für das Pre-Training von Large Language Models open source gemacht.
Um die Schwierigkeiten bei der Verarbeitung von langen Texten in großen Modellen zu lösen, hat ein Forschungsunternehmen unter der Leitung von Llion Jones, einem der Hauptautoren der Transformer - Architektur, eine neue Technologie namens DroPE Open - Source gemacht.
Es ermöglicht nicht nur eine nahtlose Null - Shot - Erweiterung des Kontexts, ohne teure Trainingsprozesse für lange Kontexte durchführen zu müssen;
Darüber hinaus beträgt der für die Neukalibrierung des Modells mit DroPE erforderliche Vorhersagebudget weniger als 1%.
Diese Technologie wird von Internetnutzern als "NoRoPE" (keine Rotations - Positionskodierung) verspottet.
Der Grund ist einfach: DroPE kann als eine Methode zur Erweiterung des Kontexts durch Verwerfung der Positionsembedding angesehen werden.
Wie funktioniert diese "Verwerfung" genau?
Positionsembedding als temporäres Trainingswerkzeug behandeln
Zunächst müssen wir verstehen, was Positionsembedding ist.
In Transformer - Modellen gibt es einen Kernmechanismus namens Self - Attention (Selbst - Aufmerksamkeit), der es dem Modell ermöglicht, beim Lesen eines Wortes auf andere Wörter zu verweisen und die Beziehungen zwischen ihnen zu verstehen.
Allerdings geht bei der parallelen Berechnung dieser Mechanismus die ursprüngliche Reihenfolge der Textsequenz verloren.
Zum Beispiel sind in diesem Mechanismus "Die Katze fängt die Maus" und "Die Maus fängt die Katze" bei der Berechnung gleich. Somit kann das große Modell nicht unterscheiden, welches Wort vor dem anderen stehen sollte.
Um dem Modell zu helfen, die Reihenfolge der Wörter zu verstehen, haben die Forscher Positionsembedding (Positions - Einbettung) eingeführt.
Die derzeit beliebteste Methode für Positionsembedding ist RoPE (Rotations - Positionskodierung). Man kann es sich als einen Satzkompass vorstellen, der es dem Modell ermöglicht, schnell die Wortreihenfolge zu verstehen und die Trainingsstabilität zu verbessern.
Allerdings hat RoPE bei der Verarbeitung langer Sequenzen ernsthafte Mängel. Die hohen Frequenzdimensionen in RoPE erreichen schnell die Sättigung aufgrund der Rotationswinkel, was dazu führt, dass die Positionskodierung nicht funktioniert; die niedrigen Frequenzdimensionen ändern sich zu langsam, um die Positionsinformationen genau darzustellen.
DroPE löst genau dieses Problem.
Es nutzt RoPE als temporäres Trainingswerkzeug.
Während der Vorhersagephase wird RoPE genutzt, um die Stabilität und Effizienz des Trainings zu gewährleisten und dem Modell ein lernbares Gefühl für die Reihenfolge zu verleihen.
Während der Inferenzphase wird das Positionsembedding verworfen, und es wird eine kurze Neukalibrierung bei der ursprünglichen Kontextlänge durchgeführt.
DroPE hat auf diese Weise die Fähigkeit des Modells zur Extrapolation des langen Kontexts erfolgreich freigeschaltet und eine Null - Shot - Erweiterung erreicht.
Ohne zusätzliches Training für lange Texte kann das Modell längere Sequenzen verarbeiten.
Das Forschungsunternehmen hat Experimente an mehreren Modellen durchgeführt, darunter einem 5M - Parameter - Modell, das von Grund auf neu trainiert wurde, Modellen aus der SmolLM - Familie (360M/1,7B) sowie dem 7B - Parameter - Modell Llama2 - 7B.
Im LongBench - Benchmark hat DroPE die durchschnittliche Punktzahl des Basis - SmolLM um mehr als das Zehnfache verbessert.
Bei der NIAH - Aufgabenbewertung erreichte das DroPE - Modell eine Recall - Rate von 74,92%, was die traditionelle RoPE - Skalierungsmethode deutlich übertrifft.
Selbst beim großen Llama2 - 7B - Modell kann DroPE mit nur 0,5% des Vorhersagebudgets für die Neukalibrierung in Aufgaben zur Beantwortung von Fragen und Zusammenfassung von langen Kontexten hervorragende Leistung zeigen.
Sakana AI
Das Team hinter der DroPE - Technologie stammt von Sakana AI, das von Llion Jones, einem der "acht Söhne" des Transformers, und David Ha, einem ehemaligen Google - Hochwissenschaftler, gegründet wurde.
Klingt das nicht bekannt?
Nicht nur wurde diese Firma von Huang Renxun (Jensen Huang) von NVIDIA investiert, sondern sie hat auch den ersten künstlichen Intelligenz - Wissenschaftler The AI Scientist entwickelt, der bei seiner "Premiere" bereits 10 vollständige wissenschaftliche Artikel hatte, und dadurch in die Öffentlichkeit getreten.
Vor ein paar Tagen hat Sakana eine interessante Studie veröffentlicht.
Sie und ein Forschungsunternehmen von MIT haben den Digitalen Roten Königinnen (Digital Red Queen) - Algorithmus vorgeschlagen, der mit Hilfe von großen Sprachmodellen die evolutionäre Entwicklung von antagonistischen Programmen im klassischen Programmierspiel "Core War" ermöglicht.
Neue Programme müssen alle Vorgängerprogramme besiegen, um die Dynamik der Roten Königin zu simulieren.
Die Experimente zeigen, dass nach mehreren Iterationen der generierte "Kämpfer" - Code nicht nur eine stärkere Allgemeingültigkeit gegenüber von Menschen entworfenen Programmen aufweist, sondern auch ein Phänomen der "konvergenten Evolution" mit phänotypischer Konvergenz und genotypischer Vielfalt auftritt und das Problem des zyklischen Unentschiedenheitsverhältnisses verringern kann.
Vielleicht kann diese Studie auch für Bereiche wie Netzwerksicherheit und Medikamentenentwicklung, in denen Gegeneinanderspielungen erforderlich sind, als Referenz dienen.
Link zur DroPE - Studie: https://arxiv.org/abs/2512.12167
Link zum Code: https://github.com/SakanaAI/DroPE
Referenzlink: https://x.com/SakanaAILabs/status/2010508366574186825
Link zur DRQ - Studie: https://arxiv.org/abs/2601.03335
Dieser Artikel stammt aus dem offiziellen WeChat - Account "QbitAI". Autor: Wen Le. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.