Neue Studie von MIT: Die Inferenzmodelle von 2026 sind veraltet, es ist an der Zeit für "Matrioschka-Modelle".
Ist das Inferenzmodell schon veraltet?
Das führende GPT-5 wurde von einer Doktorarbeit völlig überrascht, und sein Kontextfenster liegt um zwei Größenordnungen hinter.
Darüber hinaus tritt das Phänomen des "Kontexterrots" bei der neuen Methode bei der Verarbeitung langer Texte deutlich seltener auf, und vor allem ist die Kosten auch geringer.
Dies ist das neue Paradigma des "Matrioskademodells", das in der neuesten Veröffentlichung des MIT vorgeschlagen wurde und als Hauptstrom dieses Jahres vorhergesagt wird.
Der offizielle Name des "Matrioskademodells" ist Rekursionsmodell. Der Kernprozess besteht darin, Texte in eine Codeumgebung zu speichern, damit das Modell Programme schreibt, um den Text zu zerlegen und sich selbst rekursiv aufzurufen, um ihn zu verarbeiten.
Einige Internetnutzer haben kommentiert, dass das Rekursionsmodell nicht nur Token spart, sondern auch die Interaktionsweise verändert.
Aufgrund seiner verschiedenen Indikatoren scheint das Inferenzmodell tatsächlich nicht mehr so attraktiv zu sein.
Codegetriebene rekursive Inferenz
Das rekursive Sprachmodell (RLM) ändert die herkömmliche Methode, lange Texte direkt als Prompt in das neuronale Netzwerk einzugeben, und wendet stattdessen ein "umgebungorientiertes" Verarbeitungsmodell an.
Der Kern dieser Logik besteht darin, die Aufgabe der natürlichen Sprachverarbeitung in eine interaktive Programmieraufgabe umzuwandeln und eine externe Python-REPL-Umgebung (Read-Eval-Print Loop) einzuführen, um überlange Texte als statische Zeichenkettenvariable im Speicher zu speichern.
In dieser Architektur kodiert das große Modell nicht mehr alle Informationen auf einmal, sondern fungiert als Agent mit Lese- und Schreibrechten, der Python-Code generiert und ausführt, um auf diese externe Variable zuzugreifen.
Diese Design löst grundlegend die Länge der Eingabedaten von der Größe des Kontextfensters des Modells selbst, so dass die Länge der zu verarbeitenden Texte nur durch den physischen Speicher begrenzt ist, nicht aber durch die Reichweite des Attention-Mechanismus von Transformer.
Im konkreten Ausführungsablauf etabliert das RLM einen auf Code basierenden Erkenntniszyklus.
Wenn das System eine Aufgabe mit einem langen Text erhält, startet es zunächst die Python-Umgebung und lädt den Text in die Variable P. Anschließend tritt das Modell in eine iterative Schleife ein, beobachtet zunächst den aktuellen Zustand der Umgebung und schreibt einen Python-Code, um den Text zu untersuchen.
Nachdem dieser Code in der REPL-Umgebung ausgeführt wurde, werden die Ergebnisse als neue Beobachtungsdaten an das Modell zurückgesendet.
Durch diesen "Code schreiben - Ausführungsresultat beobachten" Zyklus kann das Modell mit sehr geringen Rechenkosten in riesigen Textdaten indexieren und positionieren und liest nur die wichtigen Abschnitte, wenn es notwendig ist, was eine effiziente Verwaltung des Kontexts ermöglicht.
Die rekursive Aufrufung ist der Schlüssel dafür, dass dieser Mechanismus unendlich lange Kontexte verarbeiten kann.
Das RLM erlaubt es dem Modell, in seinem geschriebenen Code eine spezielle Schnittstellenfunktion aufzurufen, deren Aufgabe es ist, eine neue Instanz des Modells selbst (oder ein kleineres Submodell) zu starten, um eine bestimmte Teilaufgabe zu verarbeiten.
Nachdem das Modell den langen Text in mehrere Teile aufgeteilt hat, kann es für jeden Teil ein neues Prompt generieren und das Submodell aufrufen, um ihn separat zu verarbeiten.
Die Ausgaben dieser Submodelle werden nicht direkt an den Benutzer zurückgesendet, sondern werden neuen Variablen zugewiesen und im aktuellen Python-Umgebung gespeichert.
Das Hauptmodell kann dann Code schreiben, um diese Variablen zu lesen, logische Entscheidungen zu treffen, sie zusammenzufügen oder eine weitere semantische Integration durchzuführen.
Diese rekursive Struktur ermöglicht nicht nur die parallele Zerlegung von Aufgaben, sondern unterstützt vor allem auch tiefgreifende Inferenzen auf mehreren Ebenen. Jede Rekursionsstufe muss nur die lokalen Informationen der aktuellen Stufe verarbeiten, so dass der gesamte Verarbeitungsprozess immer innerhalb der ursprünglichen Kontextfensterbegrenzung des Modells bleibt.
Diese auf der Codeumgebung basierende Interaktionsweise hat mehrere effiziente Emergenzstrategien für das Modell ausgelöst. Ohne spezielle Schulung hat das Modell selbstständig gelernt, Programmierwerkzeuge wie reguläre Ausdrücke zur Informationsfilterung zu nutzen.
Beispielsweise konstruiert das Modell zunächst eine Abfrage, um in der Variable nach Schlüsselwörtern zu suchen, wenn es nach bestimmten Informationen sucht. Es extrahiert nur die Kontextabschnitte, die die Schlüsselwörter enthalten, um zu lesen. Diese Strategie des Vorab-Suchen und anschließenden Lesens reduziert die Token-Verwendung erheblich.
Darüber hinaus zeigt das RLM die Fähigkeit, die Ergebnisse durch Variablenzusammenführung zu erweitern, um das Problem der begrenzten Ausgabelänge zu lösen.
Bei der Verarbeitung von Aufgaben, die die Generierung eines überlangen Antworts erfordern, speichert das Modell die Generierungsergebnisse der Teilaufgaben separat in Listenvariablen und verbindet diese Zeichenketten schließlich durch Code.
Dieser Mechanismus baut tatsächlich einen dynamischen, programmierbaren Arbeitsgedächtnisraum in der externen Umgebung auf, so dass das Modell natürliche Sprachtexte wie eine Datenbank verarbeiten kann. Ohne die Gewichte des zugrunde liegenden neuronalen Netzwerks zu ändern, verfügt es über die logische Inferenzfähigkeit, lange Texte mit extrem hoher Komplexität zu verarbeiten.
Überwindung der Leistungsschranke von zehn Millionen Tokens
Experimentelle Daten zeigen, dass die effektive Verarbeitungsgröße des RLM bereits das Niveau von zehn Millionen Tokens erreicht hat, was das ursprüngliche Kontextfenster von Spitzenmodellen wie GPT-5 um zwei Größenordnungen übersteigt.
In der Bewertung, die Modelle wie GPT-5 und Qwen3-Coder-480B umfasst, hat das RLM die Beschränkung der Kontextlänge durch den physischen Grafikspeicher überwunden und die Qualität der Aufgabenabwicklung übertrifft die Basis-Modelle und die bestehenden Lösungen für die Verarbeitung langer Texte.
Darüber hinaus zeigt das RLM auch eine starke Stabilität bei dem häufig auftretenden Problem des "Kontexterrots" bei der Verarbeitung langer Texte.
Traditionelle Basis-Modelle können in einfachen Suchaufgaben wie S-NIAH (Single Needle in a Haystack) noch eine gute Leistung erzielen, aber in komplexeren Aufgaben mit höherer Informationsdichte nimmt ihre Inferenzleistung mit zunehmender Eingabelänge ab. Im Gegensatz dazu behält das RLM die Punktestabilität, auch wenn die Eingabelänge einen bestimmten Schwellenwert überschreitet.
Das RLM zeigt auch signifikante Unterschiede in der Fähigkeit, hochdichte und hochkomplexe Informationen zu integrieren.
Bei der OOLONG-Aufgabe, die das lineare Scannen und die Verarbeitung fast aller Informationen im Text erfordert, nimmt die Leistung des Basis-GPT-5 mit zunehmender Länge ab, während das RLM eine zweistellige Leistungssteigerung erzielt.
Im schwierigeren OOLONG-Pairs-Test (bei dem das Modell gefordert wird, paarweise Informationen im Text zu aggregieren) steigt die Verarbeitungskomplexität quadratisch mit der Länge.
Bei dieser schwierigen Inferenzaufgabe liegt der F1-Score des Basis-GPT-5 und des Qwen3-Coder-Modells unter 0,1 %. Im Gegensatz dazu haben das GPT-5 und das Qwen3-Coder mit RLM-Architektur bei derselben Aufgabe F1-Scores von 58,00 % bzw. 23,11 % erzielt.
Da das RLM das Prompt als externe Umgebung betrachtet und wahlweise die mit der Aufgabe relevanten Abschnitte liest, anstatt sie zwangsweise vollständig aufzunehmen, ändert das RLM in Bezug auf die Kosteneffizienz die lineare Gesetzmäßigkeit, dass "je länger der Kontext, desto höher die Kosten".
Beispielsweise beträgt die theoretische Kosten für die Verarbeitung von sechs bis elf Millionen Token-Eingaben mit GPT-5-mini im BrowseComp-Plus-Benchmark-Test etwa 1,50 bis 2,75 US-Dollar, während die durchschnittlichen tatsächlichen Kosten des RLM nur 0,99 US-Dollar betragen.
Diese Kosten sind niedriger als die des Basis-Modells bei vollständiger Lektüre und auch niedriger als die des Summary-Agent-Ansatzes, der versucht, den Kontext zu komprimieren.
Dies zeigt, dass das RLM die Inferenzkosten durch die bedarfsorientierte Lesestrategie kontrollieren kann, während es die Leistung aufrechterhält, und bietet einen wirtschaftlich tragbaren Weg für die breite Einführung von Anwendungen mit langen Texten.
Autoreninformation
Der erste Autor dieses Artikels ist der Doktorand Alex Zhang aus dem CASIL-Labor des MIT.
Alex absolvierte sein Bachelorstudium an der Princeton-Universität und absolvierte es mit der besten Note der Informatikabteilung.
Seine Forschungsgebiete umfassen hauptsächlich die Bewertung der Fähigkeiten von Sprachmodellen, maschinelles Lernsysteme und GPU-Programmierung sowie KI für die Codegenerierung.
Die anderen beiden Autoren, Omar Khattab und Tim Kraska, sind beide Alex' Betreuer.
Tim und Omar sind beide Assistentenprofessoren am MIT.
Link zur Publikation: https://arxiv.org/abs/2512.24601
Dieser Artikel stammt aus dem WeChat-Account "Quantum Bit". Autor: Fokus auf die neuesten Techn