Citrini: AMD und Apple setzen auf Flash-Speicher als DRAM-Ersatz – Speicherkosten könnten um das 55-fache sinken

Vor dem Hintergrund der DRAM-Versorgungskrise migriert die AI-Speicherarchitektur zum Flash-Speicher, um Kosten zu senken

Die Abhängigkeit der KI - Inferenz von teurer DRAM lockert sich.

AMD hat die Übernahme des Speicheroptimierungsunternehmens MEXT angekündigt und die KI - getriebene Flash - Optimierungstechnologie in die Rechenzentren eingeführt. Dies markiert eine strukturelle Verschiebung in der KI - Speicherarchitektur, und der Kernmotor ist nur eine Zahl: Die Kosten von Flash betragen nur 1/55 der DRAM - Kosten.

Am Montag hat AMD die Übernahme von MEXT gegen einen nicht offen gelegten Betrag abgeschlossen. Die von MEXT entwickelte KI - getriebene Vorhersagespeichertechnologie zielt darauf ab, das Verhalten von Flash näher an das von DRAM zu bringen und die verfügbare Speicherkapazität zu erweitern, während Leistung und Effizienz aufrechterhalten werden.

AMD hat angegeben, dass diese Übernahme sein KI - Produktportfolio erweitern und Rechenzentrenkunden helfen wird, die Leistung zu verbessern, die Gesamtbetriebskosten zu senken und die Bereitstellung von Workloads zu beschleunigen. "Der Bedarf an Speicher wächst in jeder Kategorie des Unternehmenscomputings", so AMD in einer Erklärung.

Die Übernahme - Nachricht hat die AMD - Aktie am Montag um 7,7 % auf 550,75 US - Dollar steigen lassen. Der Marktwert nähert sich dem Marke von 900 Milliarden US - Dollar. Der S&P 500 - Index stieg an diesem Tag insgesamt um 1,8 %. AMD hat seit Jahresbeginn einen kumulativen Anstieg von 323 % verzeichnet. Citigroup hat AMD am vergangenen Freitag von "neutral" auf "kaufen" upgradet und den Zielpreis von 460 US - Dollar auf 575 US - Dollar erhöht.

Es ist bemerkenswert, dass Apple bereits 2024 mit der Umsetzung des Endgeräte - Ansatzes "LLM in a Flash" begonnen hat. Hinter dieser Strategie verbirgt sich die zunehmende DRAM - Versorgungskrise. Laut Daten von TrendForce macht der Hochbandbreitenspeicher (HBM) bereits etwa ein Viertel der gesamten DRAM - Waferkapazität aus. Der DRAM - Vertragspreis ist im ersten Quartal 2026 um etwa 90 % gegenüber dem Vorquartal gestiegen.

Citrini Research hat festgestellt, dass der KI - Speicherbedarf so groß geworden ist, dass er von einer mehrschichtigen Architektur getragen werden muss. Flash ersetzt nicht HBM, sondern übernimmt die überschüssigen Anforderungen in Bezug auf die Kapazität - diese Architekturrekonstruktion bewirkt eine Neubewertung der gesamten KI - Speicher - Branchenkette.

Die Speichersteuerkrise: Der Engpass breitet sich von der KI auf die gesamte Wirtschaft aus

Laut der Einschätzung des Teams von Shawn Kim, Analyst bei Morgan Stanley, Anfang dieses Monats entwickeln sich die sprunghaft steigenden Speicherpreise und die knappe Versorgung zu einem umfassenden Risiko für die digitale Wirtschaft. "Der Engpass in der KI - Infrastruktur breitet sich auf die Hardwaremargen, die Bezahlbarkeit von Geräten, die Cloud - Kosten, die Inflation und sogar die Politik aus."

Dieser Druck ist anhand konkreter Beispiele belegt: Asha Sharma, CEO von Xbox, hat letzte Woche angegeben, dass die Speicherkosten in den letzten zwei Jahren um etwa das Fünffache gestiegen sind, was die Firma daran gehindert hat, die von den Verbrauchern gewünschte Anzahl an Spielkonsolen herzustellen.

Die kontinuierliche Erosion der DRAM - Kapazität durch HBM ist der Kernmotor dieser Krise. Laut den von TrendForce sowie Samsung, SK Hynix, Micron und anderen Herstellern veröffentlichten Daten ist der Anteil von HBM an der DRAM - Waferkapazität von 2 % im Jahr 2020 auf geschätzte 25 % im Jahr 2026 gestiegen. Die hyperskaligen Cloud - Anbieter haben zukünftige Waferproduktionen über mehrjährige Verträge vorab gekauft, was die verfügbare Kapazität für Standardchips für Mobiltelefone und PCs weiter eingeschränkt hat.

Auch der Bau neuer DRAM - Kapazitäten ist strukturellen Beschränkungen unterworfen. Die Kapazitätserweiterung hängt von EUV - Lithographiegeräten zur Herstellung feinerer Linienbreiten ab. Der Preis eines EUV - Geräts beträgt etwa 200 Millionen US - Dollar, und die Investition in eine neue Waferfabrik beläuft sich leicht auf mehrere Milliarden US - Dollar. Selbst unter günstigen Umständen dauert der Bau mehrere Jahre. Diese Versorgungseigensteifigkeit ist der grundlegende Grund für die Dauerhaftigkeit der aktuellen Knappheit.

55 - fache Kostendifferenz: Die wirtschaftliche Logik des Flash - Ersatzes

Laut Schätzungen von Citrini Research beträgt die Kosten pro Bit von Flash etwa 1/55 der DRAM - Kosten - QLC NAND kostet etwa 0,05 US - Dollar pro GB, DDR5 DRAM etwa 2,75 US - Dollar und HBM3E sogar 15 US - Dollar.

Der nutzbare Raum dieser Preisdifferenz liegt in dem größten einzelnen Speicherverbrauch bei der KI - Inferenz - dem KV - Cache (der den Kontext aller vorherigen Token in jedem Generierungsschritt des Modells aufzeichnet und in langen Gesprächen auf mehrere hundert GB anwachsen kann) - die Anforderungen an die Lesegeschwindigkeit sind weit geringer als für den Decodepfad der Modellgewichte. Bei dieser Art von sequenziellen Leseoperationen verringert sich der Geschwindigkeitsvorteil von DRAM stark, während der Kapazitätsvorteil von Flash voll zum Tragen kommt.

Der Ausbaupfad von Flash unterscheidet sich auch grundlegend von dem von DRAM. Flash erhöht die Kapazität durch vertikales Stapeln von mehr Zellenschichten und setzt auf die bereits vorhandenen Abscheidungs - und Ätzprozesse in bestehenden Fabriken. Es sind keine neuen Lithographienodes erforderlich, und EUV - Ressourcen werden nicht beansprucht. Flash - Controller werden auf der Grundlage des etablierten 6/7 - Nanometer - Prozesses hergestellt und sind von den Engpässen in den fortschrittlichen Prozesstechnologien weit entfernt.

Eine von Apple - Forschern veröffentlichte Studie "LLM in a Flash" liefert methodische Unterstützung: Indem die Parameter des großen Sprachmodells im Geräte - Flash - Speicher gespeichert und bedarfsweise in den DRAM geladen werden, kann auf Geräten mit begrenzter DRAM - Kapazität ein Modell ausgeführt werden, das die Kapazitätsgrenze überschreitet. Die Inferenzgeschwindigkeit kann auf CPU und GPU jeweils 4 bis 5 Mal bzw. 20 bis 25 Mal schneller sein als bei der einfachen Lademethode.

Zwei Wege: Gleichzeitige Entwicklung in Rechenzentren und Endgeräten

Amd's Übernahme konzentriert sich auf die Rechenzentrums - Szene. Durch die Integration der MEXT - Technologie in sein Rechenzentrums - Produktportfolio sucht AMD, Unternehmen zu helfen, die Ressourcennutzungseffizienz bei der Bereitstellung von KI - Workloads zu verbessern und die Kosten zu senken.

Das Team von Shawn Kim bei Morgan Stanley ist der Ansicht, dass AMD trotz der anhaltenden Speichernot in der Wettbewerbssituation auf dem Cloud - Markt strukturelle Vorteile hat - "Die KI - getriebene CPU - Nachfrage spricht strukturell für die Ausweitung von AMD's Marktanteil auf dem Cloud - Markt." Citigroup's optimistische Prognose für AMD basiert eher auf der direkten Wettbewerbssituation bei der GPU - Vermarktung mit NVIDIA.

Apples Weg liegt bei den Endgeräten. Das "LLM in a Flash" - Konzept verlagert teilweise die Abhängigkeit der Modellinferenz von teurem Cloud - Speicher auf den lokalen Flash - Speicher des Geräts. Dadurch werden die Cloud - Rechenkosten gesenkt, und es wird eine praktikable Speicherarchitektur für Endgeräte - KI - Anwendungen bereitgestellt.

Laut Citrini Research führen beide Wege zu demselben Schluss: Die Speicherschichten der KI - Inferenz werden neu strukturiert. Der niederfrequente KV - Cache, die Modellgewichte und die Endgerätedaten werden schrittweise von dem teuren HBM/DRAM auf die NAND - Flash/SSD - Schicht abgesenkt, um eine mehrschichtige Speicherarchitektur zu bilden.

Diese Architekturänderung hat eine mehrschichtige Übertragungswirkung entlang der Branchenkette. Laut Citrini Research ist die direkteste Nutzschicht die NAND - Hersteller. Hohe Kapazität NAND, Unternehmens - SSD und QLC NAND sind die reinsten Richtungen, einschließlich SanDisk, Western Digital, Micron und Kioxia.

Die SSD - Controller - Schicht wird als die am stärksten nachhaltige angesehen - Der Schlüssel, um Flash wirklich dem Speichererlebnis nahe zu bringen, liegt in der Optimierung von Controller, Firmware und NVMe - Architektur, was Silicon Motion, Marvell und andere betrifft. Auch die CXL/PCIe - Hochgeschwindigkeits - Interconnect - Schicht profitiert.

Dieser Artikel stellt keine individuelle Anlageempfehlung dar und spiegelt nicht die Meinung der Plattform wider. Der Markt birgt Risiken, und Investitionen erfordern Vorsicht. Bitte treffen Sie unabhängige Urteile und Entscheidungen.

Dieser Artikel stammt aus dem WeChat - Account "Wall Street News", Autor: Zhang Yaqi. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Citrini: Sowohl AMD als auch Apple setzen darauf, dass Flash-Speicher DRAM ersetzt – die Speicherkosten könnten um das 55-fache sinken

Die Speichersteuerkrise: Der Engpass breitet sich von der KI auf die gesamte Wirtschaft aus

55 - fache Kostendifferenz: Die wirtschaftliche Logik des Flash - Ersatzes

Zwei Wege: Gleichzeitige Entwicklung in Rechenzentren und Endgeräten