Den "Speicherwall" durchbrechen und auf drei Fronten voranschreiten
Vorbemerkung
In den letzten Jahren hat das explosive Wachstum von KI und Hochleistungsrechnen den Rechenbedarf exponentiell ansteigen lassen. Von der plötzlichen Entstehung von ChatGPT bis hin zum visuellen Schock, den Sora gebracht hat, haben nicht nur die Parametergrößen von großen KI-Modellen exponentiell zugenommen, sondern auch die Anforderungen an die Rechenleistung einen erstaunlichen Wachstumskurve gezeigt.
Dennoch tauchen hinter diesem Aufschwung immer dringendere Herausforderungen ans Licht - die sogenannte "Speicherwand".
Von großen Sprachmodellen mit hunderten von Milliarden Parametern bis hin zu intelligenten Endgeräten an den Netzrändern stellen alle Arten von Anwendungen beispiellose strenge Anforderungen an die Leistung, den Stromverbrauch und die Fläche (PPA) von Speichern. Die "Bandbreitenwand" des Speichers ist zum zentralen Engpass für den Durchsatz und die Latenz von KI - Rechnungen geworden. Die herkömmlichen Speichertechnologien können die Anforderungen an die Optimierung der Systemenergieeffizienz kaum mehr erfüllen. Die enorme Leistungslücke behindert die KI - Chips daran, ihr volles Potenzial auszuschöpfen.
Als globaler Führer in der Halbleiterfertigung hat TSMC diese grundlegende Widersprüchlichkeit tiefgehend erkannt. In der IEDM (International Electron Devices Meeting) - Schulung 2025 hat TSMC klar dargelegt, dass der Wettbewerb um zukünftige KI - und Hochleistungsrechnerchips nicht nur ein Wettlauf um die Transistordichte und die Frequenz sein wird, sondern auch eine umfassende Auseinandersetzung um die Leistung, die Energieeffizienz und die Integrationsinnovation des Arbeitsspeichersubsystems.
Dieser Artikel wird auf der Grundlage des technologischen Roadmaps von TSMC, mit SRAM, MRAM und CIM als Kern, in Verbindung mit dem ganzheitlichen Technologiekonzept der 3D - Verpackung und der Integration von Rechnen und Speichern, die technologische Entwicklung, die gegenwärtigen Herausforderungen und die zukünftigen Integrationstrends von schnellen eingebetteten Speichern für KI - Rechnungen eingehend analysieren.
Bei rasanter Entwicklung der KI - Rechenleistung wird die "Bandbreitenwand" des Speichers zum zentralen Problem
Die Evolutionsgeschichte von KI - Modellen kann als eine Art Extremeinschränkung von Rechenleistung und Speicherplatz bezeichnet werden.
Von den frühen AlexNet - Modellen bis hin zu den heutigen GPT - 4, Llama2 und PaLM - Modellen sind die Modellparameter von der Millionenschale auf die Billionenschale gestiegen. Die Ausdehnung der Modellgröße hat direkt dazu geführt, dass die Rechenleistung (FLOPs) in den Trainings - und Inferenzphasen in die Höhe geschossen ist. Daten zeigen, dass in den letzten 70 Jahren die Anzahl der Parameter von maschinellen Lernmodellen stark zugenommen hat und die Trainingsrechenleistung um mehr als das 10¹⁸ - fache gestiegen ist. Die Inferenzrechenleistung hat ebenfalls ein explosionsartiges Wachstum gezeigt.
Dennoch besagt das klassische Roofline - Modell, dass die endgültige Leistung eines beliebigen Rechensystems von seiner Spitzenrechenleistung und seiner Arbeitsspeicherbandbreite gemeinsam bestimmt wird.
Daher stellt diese explosionsartig wachsende Rechenanforderung nicht nur eine Herausforderung für die Prozessorleistung dar, sondern bringt auch die Speichertechnologie an die Spitze der technologischen Veränderung - die Bandbreite, die Latenz, der Energieverbrauch und die Dichte des Speichers sind zu den zentralen Faktoren geworden, die die Gesamtleistung von KI/HPC - Systemen bestimmen.
Die Wachstumsgeschwindigkeit der Rechenleistung und die Verbesserungsgeschwindigkeit der Speicherbandbreite sind stark unausgewogen, was zur "Bandbreitenwand" geführt hat, die die Systemleistung einschränkt. Laut Datenstatistiken hat die Spitzen - Floating - Point - Rechenleistung (HW FLOPS) der Hardware in den letzten 20 Jahren um das 60.000 - fache zugenommen, im Durchschnitt um das 3,0 - fache alle zwei Jahre. Die DRAM - Bandbreite hat sich dagegen nur um das 100 - fache erhöht, im Durchschnitt um das 1,6 - fache alle zwei Jahre. Die Interkonnektivitätsbandbreite hat sich um das 30 - fache gesteigert, im Durchschnitt um das 1,4 - fache alle zwei Jahre.
Diese unausgewogene Wachstumsgeschwindigkeit führt dazu, dass in Szenarien wie KI - Inferenz die Speicherbandbreite der Hauptengpass für den Rechenthroughput wird. Viele Rechenressourcen bleiben wegen des Wartens auf Daten untätig. Nehmen wir als Beispiel den NVIDIA H100 GPU. Seine Spitzenrechenleistung bei BF16 - Genauigkeit beträgt 989 TFLOPs, aber die Spitzenbandbreite nur 3,35 TB/s. Wenn die Rechenintensität nicht ausreicht, wird die Systemleistung in einen speicherbeschränkten Zustand geraten, und das enorme Rechenpotenzial kann nicht voll ausgeschöpft werden.
Angesichts der strengen Anforderungen von KI und HPC muss die Speichertechnologie drei zentrale Kriterien gleichzeitig erfüllen: große Kapazität, hohe Bandbreite und geringer Energieverbrauch bei der Datenübertragung. Eine große Kapazität gewährleistet die Speicherung von Modellparametern und Trainingsdaten, eine hohe Bandbreite löst das Problem des Daten - Durchsatzengpasses, und ein geringer Energieverbrauch ist der Schlüssel für die grüne Rechnung - ein hoher Stromverbrauch erhöht nicht nur die Hardwarekosten (z. B. größere Batterien, komplexere Kühlsysteme), sondern beschränkt auch die Möglichkeit der Installation in Szenarien wie Randgeräten.
Vor diesem Hintergrund beschleunigt sich der Übergang von der herkömmlichen rechnerzentrierten Architektur zur speicherzentrierten Architektur. Eingebettete Speicher mit hoher Dichte und geringem Energieverbrauch werden zur Schlüsselrichtung für technologische Durchbrüche. TSMC ist der Meinung, dass der zukünftige Evolutionspfad der Speicherarchitektur um die "Kollaboration zwischen Speichern und Rechnen" herumlaufen wird: Von den herkömmlichen On - Chip - Caches über On - Chip - Caches + großer Speicher in der Verpackung bis hin zu Speichern in der Verpackung mit hoher Bandbreite und geringem Energieverbrauch, um schließlich die Integration von Speichern und Rechnen und die Rechnung in der Nähe des Speichers zu erreichen. Durch die tiefe Integration von Speichern und Rechnen können die Leistung und die Energieeffizienz verbessert werden.
Um die vielfältigen Anforderungen an Geschwindigkeit, Bandbreite, Kapazität und Stromverbrauch auszugleichen, verwenden moderne Rechensysteme in der Regel eine hierarchische Speicherarchitektur. Von Registern bis hin zu Speichermedien zeigen die verschiedenen Ebenen der Speicher eine klare Abwägung zwischen Leistung und Kosten: Register und SRAM - Caches übernehmen die Aufgabe des Zugriffs auf hochfrequente Daten dank ihrer geringen Latenz (1 ns für Register, 10 ns für SRAM - Caches) und hoher Bandbreite. HBM und DRAM - Hauptspeicher balancieren Kapazität und Leistung. Speichermedien wie SSDs erfüllen die Anforderungen an die Speicherung von Massendaten mit großer Kapazität und geringer Dichte.
TSMC ist der Meinung, dass die Entwicklung der Speichertechnologie in der Ära von KI und HPC kein einseitiger technologischer Durchbruch sein wird, sondern eine ganzheitliche Optimierung von Material, Prozess, Architektur und Verpackung.
Angesichts der branchenweiten Herausforderungen optimiert TSMC kontinuierlich die Technologie der eingebetteten Speicher auf jeder Ebene basierend auf der obigen Hierarchie: SRAM als Kern der Cache - Ebene verbessert die Dichte und die Energieeffizienz durch die Optimierung von Prozess und Design. MRAM füllt die technologische Lücke der eingebetteten nichtflüchtigen Speicher (eNVM) mit seinen Eigenschaften wie Nichtflüchtigkeit und hoher Dichte. DCiM bricht die physische Grenze zwischen Speichern und Rechnen und optimiert die Energieeffizienz auf der Architekturebene. Gleichzeitig verkürzt die Entwicklung der 3D - Verpackung und der Chiplet - Integrationstechnologie die physische Entfernung zwischen Speicher und Rechenmodul und bietet eine systemweite Lösung für das Überwinden der "Bandbreitenwand".
SRAM: Das "Leistungsfundament" für Rechenszenarien
Der statische Direktzugriffsspeicher (SRAM) ist als Hauptlösung für schnelle eingebettete Speicher aufgrund seiner zentralen Vorteile wie geringer Latenz, hoher Bandbreite, geringem Stromverbrauch und hoher Zuverlässigkeit die erste Wahl für Schlüsselebenen wie Register und Caches. Da er mit der fortschrittlichen CMOS - Logiktechnologie kompatibel ist, verbessert der SRAM kontinuierlich seine Leistung durch die Iteration des Prozesses, von der FinFET - Architektur bis zur Nanosheet - Architektur.
In Anwendungsfällen wird SRAM weit verbreitet in verschiedenen Hochleistungs - Chips wie CPU in Rechenzentren, KI - Beschleunigern, Client - CPUs, Gaming - GPUs und mobilen SoCs eingesetzt. Betrachtet man die Prozessknoten, so deckt SRAM alle Knoten von N28 bis N2 ab. Mit der Verbreitung fortschrittlicher Prozesse (N3/N2) nimmt seine Menge in Hochleistungs - Rechnerchips stetig zu und wird zum zentralen Stützelement für die Verbesserung der Chipleistung.
Dabei ist die Verkleinerung der Fläche von SRAM der Schlüssel für die Optimierung der Chipleistung. Doch mit der Entwicklung der Prozessknoten zu 7 nm, 5 nm, 3 nm und sogar 2 nm verlangsamt sich die Geschwindigkeit der Verkleinerung der SRAM - Zellenfläche allmählich, und es treten viele technologische Herausforderungen auf. TSMC hat durch die Strategie der Design - Prozess - Ko - Optimierung (DTCO) in Kombination mit verschiedenen innovativen Technologien eine kontinuierliche Verkleinerung von SRAM erreicht.
Betrachtet man die technologische Evolutionsgeschichte, hängt die Verkleinerung der SRAM - Fläche von den technologischen und gestalterischen Durchbrüchen an Schlüsselknoten ab: Bei 90 - nm - Knoten wurde die gestreckte Siliziumtechnologie eingeführt; bei 45 - nm - Knoten wurde der Hoch - k - Metallgate - Prozess (HKMG) eingesetzt; bei 28 - nm - Knoten wurden die FinFET - Architektur, die Flying Bitline (FLY BL) und die Doppelwortlinien - Technologie eingeführt; bei 7 - nm - Knoten wurden die EUV - Lithographie und die Metall - Kopplungstechnologie angewendet; bei 2 - nm - Knoten wird durch die Nanosheet - Architektur eine weitere Verkleinerung erreicht.
Diese Dichteerhöhung ermöglicht es, größere Caches auf einer begrenzten Chipfläche zu integrieren, was direkt die Rechenleistung verbessert - die Anzahl der Befehle pro Zyklus (IPC) steigt deutlich mit der Zunahme der L3 - Cachekapazität. Bei einer 32 - fachen Cachekapazität ist die Verbesserung der CPU - Leistung besonders deutlich. Man kann sehen, dass die Energieeffizienz und die Ansprechgeschwindigkeit von SRAM - Caches weit über denen von DRAM - Hauptspeichern und SSD - Speichern liegen.
Allerdings stehen SRAM mit der Entwicklung der Prozessknoten zu 7 nm, 5 nm, 3 nm und sogar 2 nm immer dringenderen Herausforderungen gegenüber: Erstens verlangsamt sich die Geschwindigkeit der Flächenverkleinerung. Die Verkleinerung der Größe der SRAM - Zellen wird immer geringer, und die Schwierigkeit, größere Caches auf einer begrenzten Chipfläche zu integrieren, nimmt stetig zu. Zweitens besteht ein Dilemma bei der Optimierung der minimalen Betriebsspannung (VMIN). Die Stabilität beim Lesen und Schreiben bei niedriger VMIN ist problematisch, was direkt die Energieeffizienz der Chips beeinflusst. Drittens nehmen die Verluste bei der Interkonnektivität zu. Wenn die Breite der Cu - Metallleitungen kleiner als 20 nm ist, steigt der spezifische Widerstand schnell an, was zu einer deutlichen Zunahme des Widerstands und der Kapazität von Wortlinien und Bitlinien führt und die Geschwindigkeit des SRAM einschränkt.
Um das Problem der Flächenbeschränkung von SRAM - Caches auf herkömmlichen Chips zu lösen, setzt TSMC zusätzlich zur kontinuierlichen Entwicklung und technologischen Innovation auf Prozessebene die 3D - Stapeltechnologie V - Cache ein, um die Kapazität, die Latenz und die Bandbreite des letzten - Level - Caches (LLC) durch die 3D - Stapelarchitektur zu optimieren.
Der AMD Ryzen™ 7 5800X3D - Prozessor nutzt diese Technologie und integriert 8 Rechenkerne, 512 KB L1 - Cache, 4 MB L2 - Cache und einen maximalen gemeinsamen L3 - Cache von 96 MB. Über eine bidirektionale Busleitung mit 32 Byte pro Zyklus wird eine sprunghafte Verbesserung der Cacheleistung erreicht, und die Gaming - Leistung wird deutlich verbessert. Dies bestätigt die Fähigkeit der 3D - gestapelten SRAM, die Rechenleistung zu stärken.
Darüber hinaus hat TSMC Technologien wie Schreibhilf