StartseiteArtikel

Die Welt leidet schon lange unter DRAM

半导体行业观察2026-07-05 11:12
Die teuren DRAM-Chips treiben alle in die Verzweiflung.

Derzeit steht das Datencenter vor einer neuen Krise – es fehlt nicht an Rechenleistung, sondern der Arbeitsspeicher ist zu teuer.

In den letzten Jahren hat die skalierbare und schnelle Expansion von KI - Geschäftsbereichen wie Inferenz von großen Modellen, Arbeitsspeicherdatenbanken und Hochleistungsrechnen das Datencenter an die Grenzen seiner Arbeitsspeicherressourcen gebracht. Der einst als Standardkomponente für Server eingesetzte DRAM ist heute zur teuersten und am scarcestensten Infrastrukturressource geworden. Die sprunghafte Preiserhöhung und die starre Versorgung sind die Schlüsselfaktoren, die das Tempo der KI - Rechenleistungseinrichtung einschränken.

Nach den Verfolgungsdaten von Counterpoint Research hat der Preis eines 64 - GB - DIMM - Arbeitsspeichers zwischen dem dritten Quartal 2025 und dem ersten Quartal 2026 um das 3,5 - fache gestiegen, und die Steigerung zeigt noch keine Spitze – es wird geschätzt, dass bis zum dritten Quartal 2026 die kumulative Preiserhöhung das 5 - fache erreichen wird.

Die Daten von TrendForce sind noch deutlicher: Im ersten Quartal 2026 stieg der Vertragspreis für DRAM um 93 % bis 98 % im Vergleich zum Vorquartal, was den gesamten Umsatz der globalen DRAM - Branche um 81 % im Vergleich zum Vorquartal anstieg und auf 97 Milliarden US - Dollar erreichte. Im zweiten Quartal hört die Steigerung nicht auf, und der Vertragspreis wird voraussichtlich noch um 58 % bis 63 % steigen.

Die Signale auf dem Spotmarkt sind noch deutlicher: Der aktuelle Spotpreis eines serverfähigen DDR5 - RDIMM liegt im Bereich von 27 bis 37 US - Dollar pro GB. Nur für die Anschaffung der reinen DRAM - Hardware für einen 12 - TB - Arbeitsspeicherpool belaufen sich die Kosten nahezu auf 500.000 US - Dollar.

Die DRAM - Krise bricht aus

Die Wurzel dieser Preiserhöhungssturm liegt in der kontinuierlichen Erosion der DRAM - Produktionskapazität durch HBM.

Nach veröffentlichten Daten hat der Anteil von HBM an der DRAM - Waferproduktionskapazität von 2 % im Jahr 2020 auf geschätzte 25 % im Jahr 2026 gestiegen, da die Nachfrage nach Hochbandbreitenspeichern bei KI - Training und - Inferenz explodiert. Die drei großen Hersteller Samsung, SK Hynix und Micron lenken ihre besten Produktionskapazitäten zunehmend auf das profitabelere HBM. Der Anteil der HBM - Waferproduktion an der gesamten DRAM - Waferproduktion beträgt von 2025 bis 2027 18 %, 22 % und ca. 30 %. Ein HBM - Wafer verbraucht etwa die dreifache Kapazität eines DDR5 - Wafers. Die drei Hersteller reduzieren aktiv die Aufträge für Mobiltelefone und PCs mit niedrigen Margen und lenken ihre Kapazitäten ganz auf die KI - Branche. Wenn man berücksichtigt, dass die hyperskaligen Cloud - Anbieter zukünftige Waferproduktionen bereits mit langfristigen Verträgen vorab reserviert haben, wird die Verfügbarkeit von Standard - DRAM für den Serverbereich weiter eingeschränkt.

Die Starrheit der Versorgungsseite bedeutet, dass die Knappheit kurzfristig nicht behoben werden kann.

Die fortschrittlichen DRAM - Prozesse sind stark von EUV - Lithographiegeräten abhängig. Ein einzelnes Gerät kostet etwa 200 Millionen US - Dollar, und die Investition in eine moderne Waferfabrik beläuft sich leicht auf Hunderte von Millionen US - Dollar. Selbst wenn alles glatt verläuft, dauert der Bauzyklus mehrere Jahre. Die Geschwindigkeit der Kapazitätserweiterung kann der wachsenden KI - Nachfrage einfach nicht folgen.

Jefferies schätzt, dass ohne Berücksichtigung der Auswirkungen von chinesischen Herstellern das globale Speicher - Bit - Angebot im Jahr 2026 nur um 7 % bis 8 % steigen wird. Es könnte ein Angebotsdefizit von etwa 150.000 bis 200.000 Wafern pro Monat für DRAM und NAND geben. Micron Technology sagte in seiner Bilanz für das dritte Geschäftsquartal 2026, dass es derzeit noch schwer zu beurteilen sei, wann das Speicherangebot der anhaltend wachsenden Nachfrage folgen kann, auch wenn sich die Branchenversorgung möglicherweise ab 2028 allmählich verbessern werde.

Darüber hinaus hat der Druck sich bereits vom Datencenter auf den Verbraucherbereich ausgeweitet.

Asha Sharma, CEO von Xbox, hat öffentlich erklärt, dass sich die Arbeitsspeicherkosten in den letzten zwei Jahren etwa vervielfacht haben, was direkt dazu führte, dass das Unternehmen nicht genügend Spielekonsolen herstellen konnte, um die Marktbedürfnisse zu decken. Apple hat auch angekündigt, die Preise für Produkte wie iPhone, Mac und iPad zu erhöhen.

Das Team des Analisten Shawn Kim von Morgan Stanley hat sogar direkt gesagt, dass die sprunghafte Preiserhöhung und die knappe Versorgung von Arbeitsspeichern zu einem umfassenden Risiko für die digitale Wirtschaft werden, "vom Engpass in der KI - Infrastruktur bis hin zu Hardwaremargen, Geräteaffordabilität, Cloudkosten, Inflation und sogar auf politische Ebene".

Im Materialbestand eines Servers spricht der Anteil von DRAM für sich. Im Jahr 2023 machte DRAM etwa 50 % der Gesamtkosten eines Servers aus; Mitte 2026 stieg dieser Anteil auf 60 % bis 90 %, im Durchschnitt etwa 75 %. Der Preis der CPU hat sich nicht gesenkt, aber im Vergleich zur sprunghaften Preiserhöhung des Arbeitsspeichers wirkt die Preiserhöhung der CPU unbedeutend.

Was noch ironischer ist, ist die Tatsache, dass die tatsächliche Auslastung des teueren Arbeitsspeichers, den man mit hohen Kosten beschafft hat, nicht sehr hoch ist – Die Messdaten von hyperskaligen Anbietern wie Meta zeigen, dass in Datencentern im Allgemeinen nur etwa die Hälfte des Arbeitsspeichers mit aktiven "heißen Daten" belegt ist, und eine große Menge an kalten Daten belegt dauerhaft die teuren DRAM - Ressourcen.

Angesichts der hohen Kosten und der Knappheit von DRAM beginnen die Branchenakteure, andere Wege zu gehen – anstatt einfach nur Hardware zu stapeln, versuchen sie, durch technische Mittel die Abhängigkeit von DRAM zu verringern.

AMD: KI - Vorhersage und Scheduling, um Flash - Speicher wie Arbeitsspeicher erscheinen zu lassen

AMD hat den leichtesten Software - Ansatz gewählt.

Im Juni 2026 kündigte AMD die Übernahme des Arbeitsspeicher - Optimierungsanbieters MEXT an. Das Kernziel war die Einführung einer KI - getriebenen Arbeitsspeicher - Schichtungstechnologie, um kalte Daten von teurem DRAM auf kostengünstigen NAND - Flash - Speicher zu verlagern und so eine kostengünstige Erweiterung der effektiven Arbeitsspeicherkapazität zu erreichen.

Es ist bekannt, dass MEXT im Jahr 2023 gegründet wurde, und das Gründerteam hat eine beeindruckende Vorgeschichte – Der Mitbegründer und CEO Gary Smerdon war einst Chief Strategy and Product Officer von Fusion - io, einem Pionier bei der Massenkommerzialisierung von Flash - Speichern. Vor mehr als einem Jahrzehnt waren Apple und Meta Platforms seine Hauptkunden.

MEXT hat eine KI - basierte Arbeitsspeicher - Schichtungstechnologie (memory tiering) entwickelt, um das Problem der Arbeitsspeichereffizienz zu lösen. Diese Technologie kann Daten mit niedriger Zugriffshäufigkeit von teurem DRAM auf NAND - Flash - Speicher mit viel niedrigeren Kosten pro Einheitskapazität verlagern, ohne die Funktionsweise von Anwendungen zu beeinträchtigen.

Das Kernprodukt von MEXT ist der Predictive Memory Engine, ein vollständig softwarebasiertes Arbeitsspeicher - Schichtungskonzept: Es überwacht kontinuierlich das Zugriffsmuster von Anwendungen auf Arbeitsspeicherseitenbasis und verschiebt automatisch kalte Daten mit niedriger Zugriffshäufigkeit auf NAND - Flash - Speicher – der Kosten pro Bit des Flash - Speichers beträgt nur etwa 1/55 des DRAM. Gleichzeitig lernt es über ein KI - Modell die Zugriffsmuster der Workloads, um zukünftig benötigte Datenseiten vorherzusagen und sie vor dem Zugriffsrequest der Anwendung in den DRAM vorzuholen, damit die Software die Daten so lesen kann, als ob sie direkt auf den Hauptspeicher zugreifen würde, und die Leistung nicht beeinträchtigt wird.

Bildquelle: Nextplat

Das gesamte System ist für das Betriebssystem und die oberen Anwendungen vollständig transparent. Es ist keine Änderung des Geschäftscodes erforderlich, und es ist keine zusätzliche spezielle Hardware erforderlich. Die Installation kann in wenigen Minuten abgeschlossen werden.

Offizielle Daten zeigen, dass dieses Konzept die effektive Arbeitsspeicherkapazität des Systems um das 2 - bis 4 - fache erhöhen und die Gesamtkosten der Infrastruktur um etwa 50 % senken kann. In typischen Szenarien wie Neo4j - Graphdatenbank, EDA - Simulation und Film - Rendering kann eine 1:1 - Konfiguration von DRAM und Flash - Speicher etwa 95 % des Durchsatzes einer reinen DRAM - Konfiguration erreichen, während die Kosten erheblich gesenkt werden.

MEXT hat zuvor Vergleichstests an Dell - Servern und AWS - Cloud - Instanzen durchgeführt:

Vergleichsbild von Dell - Computern/AWS mit und ohne MEXT - Arbeitsspeichererweiterung (Bildquelle: Nextplat)

Die Leistung und Kosteneffizienz der Neo4j - Graphdatenbank bei einem Verhältnis von Arbeitsspeicher zu Flash - Speicher von 1:1 und 1:3, wenn MEXT - Arbeitsspeichererweiterung bereits verwendet wird:

Bildquelle: Nextplat

Die Idee von MEXT ist zwar nicht revolutionär – die Arbeitsspeicherschichtung und die Verlagerung von kalten Daten auf billigere Speichermedien sind schon seit langem bekannte Konzepte. Aber die bisherigen Technologien konnten sich nicht in Datencentern massenhaft durchsetzen, und der Schlüssel liegt in der mangelnden Genauigkeit der Vorhersagealgorithmen. Wenn die Vorhersage fehlschlägt und das Programm die Daten erst beim Bedarf aus dem Flash - Speicher in den DRAM zurücklädt, wird die Latenz direkt sichtbar, und der Leistungsverlust ist einfach nicht akzeptabel.

Der Durchbruch von MEXT liegt in der Verwendung eines KI - Modells. Sein Predictive Memory Engine analysiert kontinuierlich das Arbeitsspeicher - Zugriffsmuster und entscheidet über KI, welche Datenseiten als nächstes am wahrscheinlichsten benötigt werden, und verlagert die Daten von Flash - Speicher in DRAM, bevor die Anwendung tatsächlich einen Zugriffsrequest sendet.

Für AMD füllt diese Übernahme eine wichtige Lücke in seiner Full - Stack - Fähigkeit. Neben dem EPYC - CPU, Instinct - GPU und ROCm - Software - Stack bringt MEXT eine Ebene der Arbeitsspeichereffizienz, sodass AMD seinen Kunden eine vollständige Lösung von der Chip - Ebene bis zur Datenstrom - Steuerung anbieten kann. Dies hilft den Kunden, die Gesamtkosten zu senken und die Leerlaufzeiten der GPU zu reduzieren, und stärkt auch die Wettbewerbsfähigkeit von AMD auf dem KI - Infrastrukturmarkt.

Am Tag der Ankündigung der Übernahme stieg der AMD - Aktienkurs während der Börsensitzung um fast 7 %. Der Markt hat mit seiner Stimme seine Zustimmung zu diesem Ansatz geäußert.

Natürlich bleibt abzuwarten, inwieweit die Technologie von MEXT in den Datencenter - Produkten von AMD tatsächlich umgesetzt werden kann. Die physikalischen Unterschiede in der Latenz zwischen NAND - Flash - Speicher und DRAM sind objektiv vorhanden. Ob die KI - Vorhersage auf Softwareebene diesen Kluft tatsächlich schließen kann, hängt von der tatsächlichen Leistung nach der Masseninstallation ab.

Apple: Edge - Big - Model, um das Modell im Flash - Speicher zu speichern

Während sich Datencentren wegen der DRAM - Kosten Sorgen machen, steht auch der Verbraucherbereich vor der gleichen Einschränkung – der DRAM - Speicher von Endgeräten wie Mobiltelefonen ist sehr begrenzt, muss aber die Inferenzanforderungen von Edge - Big - Modellen erfüllen. Apples Lösung besteht darin, dass das Big - Model ständig im Flash - Speicher gespeichert wird und nur bei Bedarf in den Arbeitsspeicher geladen wird.

Das neueste AFM 3 Core Advanced von Apple ist ein Edge - Big - Model mit 20 Milliarden Parametern. Wenn es auf traditionelle Weise vollständig in den DRAM geladen würde, würde es die Arbeitsspeichergrenze von Verbrauchergeräten weit überschreiten. Apple hat dieses Problem mit einer spärlichen Aktivierungsarchitektur gelöst: Das gesamte Modell wird im NAND - Flash - Speicher gespeichert. Bei der Inferenz werden nicht alle Gewichte geladen, sondern es werden anhand des Eingabeschlüsselworts die für die aktuelle Inferenz benötigten Expert - Module ausgewählt, und nur die Arbeitsmenge von 1 bis 4 Milliarden Parametern wird in den DRAM geladen.

Schemazeichnung der AFM 3 Core Advanced - Modellarchitektur

Im Gegensatz zum traditionellen MoE - Modell, das Expert - Module Token - für - Token wechselt und dadurch häufige Datenverschiebungen verursacht, verwendet Apple einen Routing - Mechanismus auf Schlüsselwortebene und kombiniert ihn mit einem hohen Anteil an gemeinsam genutzten Expert - Modulen, die ständig im DRAM gespeichert sind. Dadurch wird die Anzahl der Austausche zwischen Flash - Speicher und Arbeitsspeicher erheblich reduziert, und die Ladeverzögerung wird minimiert. Zusammen mit Optimierungen wie Befehlsebene - Pruning (IFP) und Vereinfachung der Transformer - Schicht wird schließlich die maximale