Wer kämpft hart um die Integration von Speicherung und Berechnung?

Tiefgehende Beobachtung der Speicher-Rechner-Integration in China

Im Jahr 2026 nähert sich ein seit langem geplanter technologischer Singularität.

Die Kamera des Nachrichtenmagazins der China Central Television richtete sich selten auf eine führende Chip-Technologie. Feng Dan, Nationalratsabgeordneter und Vizepräsident der Huazhong-Universität für Wissenschaft und Technologie, forderte auf dem Gang der Zweitausendundzwanzigsten Nationalversammlung auf: Unterstützung für Hubei bei der Schaffung einer weltklassefähigen Branchenbasis für die Integration von Speicher und Berechnung, um dem Staat die strategische Initiative in der neuen Ära des »Künstlichen Intelligenz +« zu sichern.

Parallel dazu finden auch technologische Durchbrüche statt. Auf der ISSCC 2026 veröffentlichte ein gemeinsames Team aus Tsinghua-Universität, Huawei und ByteDance einen Artikel über einen Chip für die Berechnung im Speicher, der in der Branche Aufmerksamkeit erregte. In dem Artikel wird erstmals ein hybrider Compute-in-Memory (CiM)-Chip auf Basis eines 28-nm-Prozesses vorgeschlagen. Durch eine innovative Architekturgestaltung steigert dieser Chip die Effizienz und Energieeffizienz der Kernberechnungen des Empfehlungssystems um 1–2 Größenordnungen (QPS um das 66-fache, QPS/W um das 181-fache).

01 Die Integration von Speicher und Berechnung: Der Weg aus der Sackgasse in der Post-Moore-Zeit

Um zu verstehen, warum die Integration von Speicher und Berechnung so wichtig ist, muss man zunächst ein grundlegendes Dilemma verstehen: Das Verschieben von Daten »frisst« die Rechenleistung. Seit John von Neumann 1945 die Architektur des Speicherprogrammierbaren Computers vorgeschlagen hat, hat sich die globale Rechenindustrie in diesem Rahmen über achtzig Jahre entwickelt. Ein Kernmerkmal dieser Architektur ist die Trennung von Rechen- und Speichereinheit. Daten werden ständig zwischen Prozessor und Speicher verschoben. Das ist wie eine Fabrik, bei der das Lager und die Produktionslinie weit voneinander entfernt sind. Bei der Herstellung eines Teils muss jemand das Material vom Lager zur Produktionslinie bringen und das fertige Produkt wieder zurück ins Lager transportieren. Wenn die Teile klein sind, sind die Nachteile dieses Modells noch nicht sehr deutlich. Aber wenn die Produktionsmenge stark steigt, werden die Energie- und Zeitaufwendungen für das Verschieben von Daten zur Engstelle.

In der Welt der Chips hat diese Engstelle einen bildhaften Namen: die »Speicherwand« und die »Leistungswand«. Nvidia-CEO Jensen Huang gestand einmal: »Die GPU wartet 70 % der Zeit auf Daten.«

Um dem Leid noch mehr zuzufügen: Da die Halbleitertechnologie sich dem physikalischen Limit nähert, nimmt der Nutzen der Leistungssteigerung durch das Moore'sche Gesetz allmählich ab. Die Kosteneffizienz der Verkleinerung der herkömmlichen Chip-Prozesse sinkt zunehmend, was die Schwierigkeiten bei der Bereitstellung von Rechenleistung noch verschärft. Die rasante Entwicklung der Large-Model-Technologie hat dieses Dilemma noch verstärkt. Die Anzahl der Parameter von Large Language Modellen wie GPT ist von Milliarden auf Billionen gestiegen, was einen exponentiellen Anstieg des Bedarfs an Speicherkapazität und Bandbreite zur Folge hat.

Genau in diesem Kontext rückt die Technologie der Integration von Speicher und Berechnung in den Mittelpunkt des Interesses.

Die Kernlogik der Integration von Speicher und Berechnung ist sehr einfach: Die Rechenfunktion wird direkt in die Speicherzellen integriert, so dass die Berechnungen direkt an der Speicherstelle durchgeführt werden können. Dieser Gedanke mag einfach erscheinen, ist aber eine paradigmatische Innovation auf der Ebene der Chip-Architektur.

Einfach ausgedrückt: Wenn man einen herkömmlichen Chip mit einem Unternehmen vergleicht, das ständig Reisen unternehmen muss, wobei die Rechen- und Speichereinheiten an verschiedenen Orten liegen und die Mitarbeiter (Daten) täglich zwischen diesen beiden Orten pendeln, dann ist ein Chip mit integrierter Speicher- und Berechnungsfunktion wie ein Unternehmen, das sein Büro direkt im Lager errichtet hat. Die Rohstoffe liegen direkt griffbereit, und die Effizienz ist natürlich völlig unterschiedlich.

Derzeit gibt es drei Hauptrichtungen in der Technologie der Integration von Speicher und Berechnung:

Erstens: Near-Memory Computing (NMC). Die Rechenunit befindet sich in der Logikschicht des Speicherchips oder wird über fortschrittliche Packaging-Technologien eng mit dem Speicher integriert. Das ist vergleichbar mit einer Fabrik, bei der das Lager und die Produktionshalle in einem Industriegebiet liegen. Obwohl sie an verschiedenen Orten sind, ist der Abstand stark verkürzt. Die Logikschichtintegration oder die 3D-Stacking-Technologie in High-Bandwidth Memory (HBM) gehören zu dieser Kategorie.

Zweitens: Processing-in-Memory (PIM). Es wird eine Rechenfunktion in die Peripherie des Speicherchips integriert, so dass einige Rechenaufgaben direkt im Speicher durchgeführt werden können. Das ist wie eine Erweiterung des Lagers um eine Vorverarbeitungsstätte. Ein Teil der Rohstoffe muss nicht aus dem Lagerbereich transportiert werden, und ein Teil der Verarbeitung kann direkt vor Ort erfolgen.

Drittens: Computing-in-Memory (CIM). Dies ist die Lösung mit der höchsten Integrationsstufe. Man nutzt direkt die physikalischen Eigenschaften des Speichermediums (z. B. Widerstand, Ladung, Magnetismus) um Rechenoperationen direkt im Speicherarray auszuführen. Die Integration von Speicher und Berechnung auf Basis von SRAM, RRAM (Resistive Random Access Memory) oder MRAM (Magnetic Random Access Memory) ermöglicht eine hochparallele und energieeffiziente Berechnung. Das ist wie das Umziehen der gesamten Produktionslinie in das Lager. Der Chip aus dem oben genannten Artikel gehört zu dieser Kategorie.

Jede dieser drei Ansätze hat seine Vor- und Nachteile. Die Implementierung von Near-Memory Computing ist am einfachsten, aber die Verbesserung ist auch relativ begrenzt. Computing-in-Memory hat das größte Potenzial, aber auch die größten technologischen Herausforderungen.

02 Der Wettlauf um die Spitze: Technologische Richtungen und Schlüsselakteure in der chinesischen Branche der Integration von Speicher und Berechnung

Es wird geschätzt, dass der weltweite Markt für Chips mit integrierter Speicher- und Berechnungsfunktion 2025 einen Umsatz von über 12 Milliarden US-Dollar erreichen wird, wobei China 30 % davon ausmacht. Chinesische Unternehmen in diesem Bereich verfolgen eine Vielzahl von technologischen Ansätzen. Diese Vielfalt resultiert sowohl aus der Exploration verschiedener technologischer Wege als auch aus der Fokussierung auf verschiedene Anwendungsbereiche.

Im Bereich der Rechenparadigmen gibt es hauptsächlich zwei Richtungen: die digitale und die analoge Integration von Speicher und Berechnung. Die digitale Computing-in-Memory-Technologie zeichnet sich durch hohe Genauigkeit und gute Kompatibilität mit dem CMOS-Prozess aus und ist derzeit die Hauptrichtung der Industrialisierung. Die analoge Computing-in-Memory-Technologie ist energieeffizienter, aber die Genauigkeit ist begrenzt. Die digital-analoge Mischlösung versucht, ein Gleichgewicht zwischen Genauigkeit und Energieeffizienz zu finden.

Bezüglich der Speichermedien gibt es vier Haupttechnologierichtungen: SRAM, DRAM, Flash und neue Speichermedien wie ReRAM, MRAM und PCM. Jedes Medium hat seine eigenen technologischen Eigenschaften und Anwendungsbereiche.

SRAM-basierte Lösungen für die Integration von Speicher und Berechnung basieren auf dem CMOS-Prozess und können fortgeschrittene Prozessknoten nutzen. Sie haben eine schnelle Lese- und Schreibgeschwindigkeit, aber eine relativ geringe Speicherdichte und einen hohen statischen Leckstrom. DRAM-Lösungen haben eine höhere Speicherdichte als SRAM und eignen sich gut für die Verarbeitung von Modellen mit großer Kapazität, aber die Kompatibilität mit dem CMOS-Prozess ist schlechter. Flash-Lösungen haben den Vorteil der Nichtflüchtigkeit und des geringen Stromverbrauchs, aber die Lese- und Schreibgeschwindigkeit ist relativ langsam.

Die neuen Speichermedien sind in den letzten Jahren das am meisten beobachtete Forschungsgebiet. ReRAM (Resistive Random Access Memory), MRAM (Magnetic Random Access Memory) und PCM (Phase-Change Memory) haben eine gute Prozessskalierbarkeit und einen sehr geringen Stromverbrauch und werden als der »Zukunftsträger« der Technologie der Integration von Speicher und Berechnung angesehen. Derzeit sind jedoch die Prozessreife und die Ausbeute dieser neuen Medien die Haupthemmnisse für die Industrialisierung.

Es ist erwähnenswert, dass fortschrittliche Packaging-Technologien die Schlüsselstütze für die Erzielung hoher Leistung bei der Integration von Speicher und Berechnung sind. Die 2,5D-Packaging-Technologie ermöglicht die Integration von Speicher- und Rechenunit durch horizontales Stapeln und Verbinden. Die 3D-Packaging-Technologie ermöglicht darüber hinaus das vertikale Stapeln und die maximale Integration. Derzeit ist die 3,5D-Packaging-Technologie von TSMC die fortschrittlichste in der Branche.

Je nach Anwendungsbereich lassen sich chinesische Unternehmen in der Branche der Integration von Speicher und Berechnung grob in zwei Hauptgruppen einteilen: die »High-Performance-Computing«-Gruppe, die sich auf Datencentren, Fahrerassistenzsysteme und Large-Modelle auf Edge-Geräten konzentriert, und die »Edge-AI«-Gruppe, die sich auf intelligente Wearables, Heimautomatisierung und das Internet der Dinge konzentriert. Ein weiterer Aspekt ist die Grundtechnologie, wobei XinYuan Semiconductor ein »Pionier in der Exploration neuer Speichermedien« ist.

Richtung High-Performance-Computing und Large-Modelle

Diese Unternehmen richten sich hauptsächlich an Anwendungen in Datencentren, Hochleistungsrechnern und Fahrerassistenzsystemen, die eine starke Rechenleistung erfordern. Sie bemühen sich, das Problem der »Speicherwand« und der »Leistungswand« bei der Training und Inferenz von Large Modellen zu lösen.

Houmo Intelligence ist ein repräsentatives Unternehmen in der Branche der High-Performance-Chips mit integrierter Speicher- und Berechnungsfunktion. Seine Technologie basiert auf der SRAM-basierten Integration von Speicher und Berechnung und hat eine eigene zweite Generation der IPU-Architektur, die Tianxuan-Architektur, entwickelt. Die Tianxuan-Architektur nutzt eine bitweise serielle Rechenmethode, um die Rechen- und Speichereinheit zu integrieren und die Daten in der Nähe zu verarbeiten. Zu seinen Kerninnovationen gehört die Elastic Acceleration-Technologie, die eine Beschleunigung von bis zu 160 % erreichen kann. Darüber hinaus ist Houmo Intelligence das erste Unternehmen in der Branche, das einen Chip mit integrierter Speicher- und Berechnungsfunktion für Fließkommaoperationen in Massenproduktion bringt. Open-Source- oder FP16-Fließkommamodelle können direkt laufen, ohne dass eine Parameteroptimierung erforderlich ist. Dies senkt für Entwickler die Migrationskosten erheblich. In Bezug auf die Produktentwicklung hat Houmo Intelligence den ersten chinesischen High-Performance-Chip mit integrierter Speicher- und Berechnungsfunktion für Fahrerassistenzsysteme, den Hongtu H30, vorgestellt. Der Chip hat eine Rechenleistung von 256 TOPS und einen Stromverbrauch von 35 W und ist der erste chinesische Chip mit integrierter Speicher- und Berechnungsfunktion für Fahrerassistenzsysteme. Im Juli 2025 hat das Unternehmen den zweiten Massenproduktionschip, den Manjie M50, vorgestellt, der im vierten Quartal 2025 in Massenproduktion ging.

Yizhu Technology ist ein Unternehmen, das auf der Basis der Architektur der Integration von Speicher und Berechnung AI-High-Performance-Chips für Datencentren, Cloud Computing und Server auf der Zentralebene entwickelt. Es verfolgt den Weg des ReRAM-Mediums. Laut Unternehmenswebseite hat es einen eigenentwickelten und in Massenproduktion befindlichen High-Performance-Chip mit einer voll digitalen Architektur für die Integration von Speicher und Berechnung auf Basis eines neuen Speichermediums hergestellt. Darüber hinaus schließt Yizhu Technology sich aktiv der RISC-V-Ekologie an und war in der Branche der AI-High-Performance-Chips einer der ersten, die RISC-V-Kerne einführten, um Aufgabenplanung, Vektoroperationen und andere Vorgänge in Large-Model-Anwendungen zu bewältigen.

Richtung Edge-AI, Low-Power

Diese Unternehmen richten sich hauptsächlich an Anwendungen in intelligenten Wearables, Heimautomatisierungssystemen und IoT-Geräten, die strenge Anforderungen an Stromverbrauch, Größe und Kosten stellen. Sie nutzen die Technologie der Integration von Speicher und Berechnung, um eine effiziente Edge-AI-Berechnung zu ermöglichen.

Microcore ist ein Unternehmen, das aufmerksam gemacht werden sollte. Microcore zielt darauf ab, hochleistungsfähige, energieeffiziente und kostengünstige Chip-Lösungen für Large-Model-Inferenz-Anwendungen in AI-Smartphones, AI-PCs, IoT-Geräten, All-in-One-Computern, Servern und Robotern bereitzustellen. Microcore wurde am Zhejiang-Peking University Institute of Advanced Technology gegründet und verfolgt die CIM-Technologie. Auf der Grundlage der CIM-Technologie hat es die »3D-Near-Memory Computing« und die »RISC-V und die heterogene Architektur der Integration von Speicher und Berechnung« kombiniert und die 3D-CIM-Architektur (3D-Integration von Speicher und Berechnung) erfunden. Mehrere Iterationen des Chip-Designs und Testresultate zeigen, dass die CIM-Technologie von Microcore im Vergleich zur herkömmlichen von-Neumann-Architektur eine mehr als vierfache Steigerung der Rechenleistung pro Flächeneinheit (bei gleicher Kosten) und eine mehr als zehnfache Reduzierung des Stromverbrauchs erreicht hat. Im März dieses Jahres hat GigaDevice Semiconductor einen Anteil an Microcore erworben.

Actions Semiconductor ist ein repräsentatives Unternehmen unter den börsennotierten Unternehmen, das sich auf die Technologie der Integration von Speicher und Berechnung konzentriert. Das Unternehmen hat eine Dreikern-Architektur aus CPU, DSP und NPU aufgebaut und die SRAM-basierte Computing-in-Memory-Technologie innovativ

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。