Über die „Speicherwand“ hinaus: Die Wafer-Level-Revolution und die Rechenleistungspfade im Zeitalter der KI-Inferenz
Im Jahr 2026 erreichte die globale Entwicklung von KI einen markanten Wendepunkt – die Kapitalausgaben für die Inferenz von Super-Cloud-Anbietern überstiegen erstmals in der Geschichte die Ausgaben für das Training. Der Schwerpunkt der Branche verschob sich von der "Training von großen Modellen" zur "Nutzung von großen Modellen", und die Struktur des Rechenleistungbedarfs kehrte grundlegend um.
In der Trainingszeit war das zentrale Problem der Rechenleistung die "Doppelpräzisions-Fließkomma- und Clustergröße"; in der Inferenzzeit wird das zentrale Problem zu "Speicherbandbreite und Kommunikationsverzögerung".
Die Engstelle bei der Inferenz großer Modelle liegt nicht mehr nur in der Berechnung, sondern in der Datenverschiebung – die Modellgewichte, Zwischenaktivierungswerte und KV-Caches müssen häufig zwischen dem externen DRAM (z. B. HBM) und der GPU interagieren. Je größer das Modell, desto höher sind die Energieaufwendungen und Verzögerungen bei der Datenverschiebung, die schließlich weit über die Energieaufwendungen der eigentlichen Berechnung hinausgehen und so eine Speicherwand bilden.
Die NVIDIA-GPUs haben mit CUDA und NVLink eine solide Basis geschaffen, können aber dennoch die Bandbreiteneinschränkungen, die zu Leerlaufzeiten der GPU führen, nicht vermeiden.
Das chinesische Unternehmen Zhipu, ein Anbieter großer Modelle, hat ein einfaches Experiment durchgeführt: In einem Inferenzcluster mit 512 Karten, bei dem die GPU, das Modell und der Code unverändert blieben, wurde nur die Netzwerkbandbreite von 200 GB/s auf 400 GB/s erhöht. Dadurch stieg die Inferenzdurchsatzleistung um 10 %, und die Latenzzeit für die Ausgabe des ersten Tokens sank um 19 % – der Grund ist einfach: Wenn man die Straße verbreitert, kann das Auto schneller fahren.
Allerdings scheint die nicht-GPU-Architektur, repräsentiert durch Cerebras, eine Lücke in der Speicherwand zu schlagen.
Größenvergleich zwischen dem Cerebras WSE-3-Chip und der NVIDIA B200-GPU
Das Wesen von Cerebras: Ein SRAM-basierter Nahspeicherrechner
Cerebras Systems wurde von Andrew Feldman und anderen in Silicon Valley gegründet. Das frühe Gründerteam stammte vollständig von einem Low-Power-Mikroserver namens SeaMicro, das später von AMD übernommen wurde. Anschließend:
2015 legte das Gründerteam die Route der "Wafer-Scale-Computing" fest;
2016 absolvierte es die Registrierung und die Serie-A-Finanzierung und ging in die geheime Entwicklungsstufe über;
2019 veröffentlichte es das erste Produkt, den WSE-1-Chip und das CS-1-System, basierend auf der 16-nm-Technologie von TSMC;
2021 veröffentlichte es das zweite Produkt, basierend auf der 7-nm-Technologie von TSMC;
2024 veröffentlichte es das dritte Produkt (WSE-3 / CS-3), basierend auf der 5-nm-Technologie von TSMC. Sowohl der Chip als auch das System wurden in den USA hergestellt und sind somit echte rein amerikanische Chipsysteme.
Konfiguration des CS-3-Systems, das einen WSE-3-Chip enthält
Die Architekturphilosophie des Wafer-Scale-Engines (WSE) von Cerebras ist einfach und direkt, trifft aber den Nagel auf den Kopf: Man tauscht die maximale Ausdehnung des physischen Raums gegen die maximale Reduzierung der Datenverschiebungsverzögerung ein.
Normale Chips werden aus einem Wafer in viele kleine Chips geschnitten. Die NVIDIA-GPUs basieren auf diesem Ansatz. Cerebras macht es umgekehrt: Es schneidet nicht und macht fast den gesamten Wafer zu einem riesigen Chip, den man Wafer-Scale-Engine (WSE) nennt.
Herkömmliche Chips werden aus einem 300-mm-Wafer in Hunderte kleiner Chips geschnitten. Cerebras wählt dagegen, den gesamten Wafer als einen einzigen Chip zu belassen. Der neueste WSE-3 hat 4 Billionen Transistoren und 900.000 KI-Kerne, wobei jeder Kern über 48 KB lokalen SRAM verfügt. Dadurch erreicht der gesamte Chip einen SRAM von 44 GB, der eine On-Chip-Speicherbandbreite von 21 PB/s und eine Netzwerkbandbreite von 214 Pb/s bietet. Dies ist tausende Male höher als die Bandbreite herkömmlicher HBMs.
Die Speicherbandbreite des Cerebras WSE ist 2625-mal höher als die der NVIDIA B200-Package-Chips, was die Speicherbandbreitenengstelle bei der Inferenz großer Modelle bricht.
In der Architektur von Cerebras werden die Modellgewichte nie im SRAM gespeichert, sondern im externen Speicher MemoryX und werden schichtweise auf den großen Chip übertragen. Dies wird erreicht, indem die Speicherung der Gewichte des neuronalen Netzwerks und die Rechenmodule voneinander getrennt werden.
Alle Modellgewichte werden extern im Speichererweiterungsmodul MemoryX gespeichert. Die für die Berechnung jeder Schicht des Netzwerks erforderlichen Gewichte werden bedarfsweise schichtweise an das CS-3-System übertragen. Die Gewichte werden im DRAM und im Flash-Speicher von MEMORY X gespeichert und mit voller Bandbreite an das CS-3-System übertragen. Diese Gewichte werden nicht im CS-3-System gespeichert, und es bleibt auch kein temporärer Cache. Das CS-3-System führt die Berechnungen mithilfe des Kern-Datenflussmechanismus durch.
Dank der Wafer-Scale-Architektur zeigt Cerebras in der LLM-Inferenz, die durch die Speicherbandbreite eingeschränkt ist, eine überlegene Leistung. Beim Generieren von Tokens werden die Gewichte schichtweise aus dem externen MemoryX an das CS-3-System übertragen. Bei der Ausführung verschiedener Modelle ist die Token-Geschwindigkeit 1,5 bis 5-mal höher als die der NVIDIA B200.
Vergleich der Token-Geschwindigkeit von NVIDIA DGX B200 GPU und Cerebras CS-3-Chip bei der Ausführung verschiedener großer Modelle
Der Kern der Vorteile liegt darin: Der 44-GB-On-Chip-SRAM des CS-3 bietet eine ultrahohe Bandbreite von 21 PB/s (2625-mal höher als die der B200) und eine Interkonnektivität von 214 Pb/s, wodurch die Übertragung von Gewichten von den Einschränkungen der HBM-Schnittstelle befreit wird. Daher zeichnet es sich besonders bei der TTFT (Time To First Token, die Zeit vom Senden der Anfrage bis zur Rückgabe des ersten Tokens durch das Modell), bei langen Kontexten und bei Agenten-Workloads aus.
Obwohl die Gewichte extern in MemoryX gespeichert und bedarfsweise schichtweise geladen werden und nicht im On-Chip-Cache gespeichert werden, führt das CS-3 mithilfe des Kern-Datenflussmechanismus im SRAM eine verlustfreie Berechnung in voller FP16-Präzision durch. Dank der linearen Leistungserweiterung zeigt es auch bei der Inferenz mit mehreren Benutzern eine erstaunliche Gesamtleistung.
Außer der Bandbreite gibt es auch Vorteile bei der Stromaufnahme. Kürzlich hat auch Liu Sheng, der Vorsitzende von Zhongji Xuchuang, in einem Vortrag erwähnt, dass die Kunden eine Anforderung von 1 pJ/bit an die optischen Module haben, während der aktuelle Wert 10 pJ/bit beträgt. Bei den Cerebras-Chips beträgt die Stromaufnahme der Interkonnektivität nur 0,15 pJ/bit, während die Stromaufnahme der Interkonnektivität bei aktuellen GPUs 10 pJ/bit beträgt.
Vergleich der Bandbreite und Stromaufnahme zwischen der Cerebras-Interkonnektivität und der GPU-Interkonnektivitätsarchitektur
Daraus lässt sich schließen, dass, wenn die Wafer-Scale-Großchip-Architektur von Cerebras zum Mainstream bei der KI-Inferenz und sogar beim Training wird, dies möglicherweise die Liefermenge herkömmlicher optischer Module und CPOs (Common Package Optics) deutlich einschränken und strukturell verändern wird. Der Kern der Logik besteht darin: Die hohe Nachfrage nach optischen Modulen und CPOs dient im Wesentlichen dazu, die Bandbreiteneinschränkungen bei der "Interkonnektivität zwischen Chips" und der "Interkonnektivität zwischen Knoten" in GPU-Clustern zu lösen. Die Architektur von Cerebras löst das Problem hingegen, indem sie die "verteilte Interkonnektivität" eliminiert.
Widerspruchliche Intuition: Die "echten" und "unechten" Schwächen der Wafer-Scale-Großchips
Das Herzstück eines Chips liegt immer in den Trade-Offs (Abwägungen). Cerebras hat auch einige Probleme in Kauf genommen, um die maximale Bandbreite des On-Chip-SRAM zu erreichen.
Niedrige Ausbeute?
Genau das Gegenteil ist der Fall. Die Größe eines einzelnen KI-Kerns wurde auf 0,05 Quadratmillimeter reduziert (1 % der Größe eines Rechenkerns von H100), daher ist die Ausbeute sogar höher. Durch die On-Chip-Routing können defekte Kerne abgeschaltet und umgangen werden, wodurch die Fehlertoleranz im Vergleich zu herkömmlichen Mehrkernprozessoren um das 100-fache erhöht wird. Tatsächlich hat der gesamte Chip 1 Million KI-Kerne, aber unter Berücksichtigung der Ausbeute wird die Anzahl der KI-Kerne öffentlich auf 900.000 angegeben.
Nur gut für die Inferenz, nicht für das Training?
In den ersten Jahren nach der Gründung von Cerebras war das Training das Hauptthema, daher hat das Unternehmen immer viel an Training gearbeitet. Erst nachdem der Bedarf an Inferenz explodierte, wurde festgestellt, dass es in Bezug auf die Inferenz noch größere Vorteile hat.
Tatsächlich bringt die vereinfachte verteilte Berechnung auch eine Reihe von Vorteilen, wie die Reduzierung der Codekomplexität und der Kommunikationsaufwendungen.
Um ein Modell mit 175 Milliarden Parametern auf 4.000 GPUs zu trainieren, werden normalerweise etwa 20.000 Zeilen verteilter Trainingscode benötigt.
Cerebras hat eine äquivalente Training mit 565 Zeilen Code erreicht – das gesamte Modell kann auf dem Wafer installiert werden, und es ist nicht erforderlich, die Komplexität der Datenparallelität zu behandeln.
Die Skalierung von SRAM ist beendet, und die Kernvorteile stoßen an die physikalische Grenze.
Das dritte Produkt basiert auf der 5-nm-Technologie von TSMC, und seine SRAM-Kapazität ist nur um 10 % höher als die des zweiten Produkts, das auf der 7-nm-Technologie von TSMC basiert. Nach der 5-nm-Technologie verringert sich die Fläche der SRAM-Einheiten fast nicht mehr mit der Fortschritt der Technologie.
Das bedeutet, dass Cerebras nicht mehr wie in der Vergangenheit die Kernvorteile (SRAM-Kapazität) durch die Upgrades der TSMC-Technologie (z. B. von 5 nm auf 3 nm) deutlich erhöhen kann.
Aufgrund der Wafergröße, der Kühlkapazität und der Herstellungskosten ist es schwierig, die Speicherressourcen wie On-Chip-SRAM linear mit den Rechenkernen zu erweitern, und die Ressourcenverteilung stößt an die Grenze. Dies blockiert fast den Weg der Evolution.
Technische Spezifikationen der drei Generationen von Cerebras-Produkten
Drei Hölle von Kühlung, Technologie und Ökosystem.
Der gesamte Wafer erwärmt sich konzentriert, und die Wärmestromdichte ist relativ hoch. Daher muss auf eine maßgeschneiderte Rechenzentrum und ein spezielles Flüssigkeitskühlsystem zurückgegriffen werden. Darüber hinaus bedeutet die Ökosystem-Universalität, dass die Kunden sich an den maßgeschneiderten Software-Stack anpassen müssen, und die Kompatibilität mit herkömmlichen Programmierframeworks wie CUDA ist schwach. Die Kosten für die Software-Transplantation und -Anpassung sind hoch.
Niedrige externe Bandbreite, die es zu einer "Einsamkeit" macht.
Aufgrund der physikalischen Beschränkungen der Wafer-Scale-Architektur ist die Anzahl der I/O-Pins, die am Rand des WSE herausgeführt werden können, äußerst begrenzt, was dazu führt, dass seine I/O-Bandbreite nur 150 GB/s beträgt. Im Vergleich zur bidirektionalen Bandbreite von bis zu 1,8 TB/s von NVIDIA NVLink ist dies wie ein Schneckentempo. Das bedeutet, dass es für den WSE extrem sch