13 Personen schlagen Transformer: Neue Architektur SSA reduziert Rechenleistung um das Tausendfache, Kosten nur 5 % von Opus

12 Millionen Token Kontext

Die Herrschaft des Transformers ist in Gefahr! Ein neues SubQ-Modell mit SAA-Architektur taucht auf, das bei 12 Millionen Kontext-Tokens nur 5% der Kosten von Opus hat und die Rechenleistung um das Tausendfache reduziert.

Steht der Thron des Transformers unter Bedrohung?

Heute hat ein neues KI-Modell namens SubQ die Welt erschüttert.

Es ist das weltweit erste Modell, das auf einer vollständig subquadratischen sparsamen Attention-Architektur (SSA) basiert und einen Kontext von bis zu 12 Millionen Tokens hat.

Der Kernvorteil von SubQ liegt darin, dass seine SSA-Architektur die Aufmerksamkeitsbereiche "dynamisch" basierend auf dem Inhalt auswählt und nicht blind alle Token-Beziehungen berechnet.

Im Vergleich zum Transformer reduziert es die Rechenleistung um das 1000-fache.

Experimentelle Ergebnisse zeigen, dass SubQ bei einem Kontext von 1 Million Tokens 52-mal schneller ist als FlashAttention und weniger als 5% der Kosten von Claude Opus hat.

Das Unternehmen hinter dieser Architektur heißt Subquadratic und hat seinen Sitz in Miami. Das gesamte Unternehmen besteht nur aus 13 Personen.

Der KI-Experte Bindu Reddy sagte: "Wenn alles wahr ist, würde der Unternehmenswert von Anthropic und OpenAI auf Null sinken!"

Einige Leute sagen, dass dies der richtige Weg für die weitere Skalierung von Large Language Models (LLMs) ist.

Das "Original-Sünden" des Transformers - neun Jahre ungelöst

Im Jahr 2017 hat das Paper "Attention is All You Need" von Google die dominierende Position der Transformer-Architektur festgelegt.

In den folgenden neun Jahren basieren alle führenden Large Language Models, von GPT über Claude bis hin zu Gemini, auf demselben Prinzip: dem dichten Attention-Mechanismus.

Seit langem arbeitet der Transformer sehr aufwändig, indem jedes Token mit allen anderen Tokens in der Sequenz verglichen wird.

Dieser Mechanismus bringt ihn in die "quadratische Komplexität" hinein, was bedeutet, dass sich die Rechenkosten vervierfachen, wenn der Kontext verdoppelt wird.

Das heißt, je länger die Eingabe, desto teurer, langsamer und instabiler wird das Modell.

Darum bleibt der Kontext fast aller LLMs auf etwa 1 Million Tokens beschränkt. Es ist nicht, dass die Technologie es nicht schafft, länger zu sein, sondern dass es zu teuer wäre.

Mit der Entstehung von SubQ hat sich diese Gleichung grundlegend geändert.

Die Entstehung der SSA-Architektur - nicht "schneller", sondern "weniger"

Der Kernvorstoß von SubQ ist die SSA - Subquadratic Sparse Attention.

Die Idee ist erstaunlich einfach: Es wird nicht mehr jedes Token mit allen anderen Tokens verglichen.

Da in einem trainierten Modell die meisten Attention-Gewichte nahe Null liegen, warum sollten sie dann überhaupt berechnet werden?

Die SSA wählt für jede Abfrage basierend auf dem "Inhalt" die wirklich relevanten Positionen in der Sequenz aus und berechnet dann nur an diesen Positionen die Attention genau.

Es berechnet nur die wirklich bedeutsamen Interaktionen und überspringt über 99% der nutzlosen Berechnungen.

Hier sind die drei Schlüsselmerkmale der SSA:

Lineare Skalierung

Die Rechenleistung wächst mit der Anzahl der ausgewählten Positionen, nicht mit der gesamten Sequenzlänge. Wenn der Kontext verdoppelt wird, verdoppeln sich die Kosten nur, nicht vervierfachen.

Inhaltsabhängige Routing

Das Modell entscheidet basierend auf der Semantik, wo es hinschaut, nicht auf der Position. Wird die Schlüsselinformation am 3. oder am 11.000.000. Token der Sequenz gefunden, spielt es keine Rolle.

Präzise Suche

Im Gegensatz zu rekurrenten Modellen, die Informationen in einen festen Zustand komprimieren, behält die SSA die Fähigkeit bei, Informationen präzise aus beliebigen Positionen abzurufen.

Mit anderen Worten: Die SSA berechnet nicht "schneller die dichte Attention", sondern "macht das Modell weniger Attention-Berechnungen".

Die reduzierte Rechenleistung führt direkt zu einer höheren Geschwindigkeit.

Die Geschwindigkeit steigt um das 52,5-fache, die Kosten liegen unter 5% von Opus

Die von SubQ veröffentlichten Daten sind beeindruckend:

Bei einer Länge von 1 Million Tokens ist die SSA 52,2-mal schneller als der Standard-dichte Attention + FlashAttention-2.

Bei 128.000 Tokens ist es 7,2-mal schneller, bei 256.000 Tokens 13,2-mal schneller und bei 512.000 Tokens 23-mal schneller.

Offensichtlich ist der Vorteil umso größer, je länger der Kontext ist.

Dies ist ein direktes Ergebnis der linearen Skalierung der SSA - der dichte Attention wird umso langsamer, je länger er wird, während die SSA umso kostengünstiger wird.

Betrachten wir nun den Rechenleistungsbedarf: Bei 1 Million Tokens wird die Attention-FLOP um das 62,5-fache reduziert. Bei 12 Millionen Tokens steigt dieser Faktor auf fast 1000.

Was die Kosten angeht, gibt Subquadratic einen sehr anschaulichen Vergleich:

Bei dem RULER 128K Benchmark kostet SubQ 8 US-Dollar, während Opus 2600 US-Dollar kostet, was einen Kostenunterschied von 300-fach darstellt.

Das Wichtigste ist, dass diese Geschwindigkeits- und Kostenvorteile nicht auf Kosten der Genauigkeit erzielt werden.

Beim RULER 128K Benchmark erreicht SubQ 95%, während Opus 4.6 94,8% erreicht.

Beim SWE-Bench Verified (Code Engineering) erreicht SubQ 81,8 Punkte, was höher ist als die 80,8 Punkte von Opus 4.6.

Beim MRCR v2 (Long Context Retrieval) erreicht SubQ 65,9%, was zwar unter den 78% von Opus 4.6 liegt, aber weit über den 39% von GPT 5.4 und den 23% von Gemini 3.1 Pro.

Betrachtet man diese Zahlen zusammen, wird man überrascht:

Ein Start-up mit nur 13 Mitarbeitern erreicht mit weniger als 5% der Kosten von Opus in mehreren Kern-Benchmarks Ergebnisse, die mit denen der Flaggschiffmodelle von Anthropic und OpenAI vergleichbar oder sogar besser sind.

Mit einem einzigen Prompt kann SubQ Informationen mit einer Länge von bis zu 12 Millionen Tokens verarbeiten:

Ob es sich um ein gesamtes Code-Repository, Monate an PR-Einträgen oder den Zustand eines langlaufenden KI-Agents handelt, SubQ bewältigt alles problemlos und kostet nur ein Fünftel der bisherigen Kosten.

Wenn alles stimmt, wäre dies der wichtigste architektonische Durchbruch seit der Entstehung des Transformers.

Ein 13-köpfiges Start-up will den Transformer dethronen

Subquadratic wurde 2024 gegründet und hat in der Seed-Runde 29 Millionen US-Dollar erhalten. Der Unternehmenswert wird auf 500 Millionen US-Dollar geschätzt.

Es hat zwei Mitbegründer: CEO Justin Dangel und CTO Alexander Whedon.

Das Forschungsteam besteht aus 11 Personen, alle mit einem Doktortitel und aus Meta, Google, der Universität Oxford, der Universität Cambridge und Adobe.

Es ist erwähnenswert, dass das Unternehmen früher Aldea hieß und sich auf Sprachmodelle konzentrierte, bevor es sich auf die Forschung

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

13 Personen schlagen Transformer, die neue Architektur SSA reduziert die Rechenleistung um das Tausendfache, die Kosten betragen nur 5 % von Opus.

Das "Original-Sünden" des Transformers - neun Jahre ungelöst

Die Entstehung der SSA-Architektur - nicht "schneller", sondern "weniger"

Die Geschwindigkeit steigt um das 52,5-fache, die Kosten liegen unter 5% von Opus

Ein 13-köpfiges Start-up will den Transformer dethronen