Huawei setzt neuen Maßstab für Halbleiter

Umrechnung von Maßeinheiten

Es ist ein offenes Geheimnis in der Halbleiterindustrie: Das Moore'sche Gesetz nähert sich seiner Grenze.

Dies ist von der Branche akzeptiert. In den letzten 60 Jahren steht die zugrunde liegende Regel, auf der die gesamte Branchenkette von Intel, TSMC bis hin zu ASML beruht, vor einer Herausforderung.

Bei den derzeit fortschrittlichsten Nanometer-Chips beträgt die Gate-Breite nur etwa ein Dutzend Siliziumatome. Wenn man die Größe weiter verringert, können die Elektronen aufgrund des Quantentunnel-Effekts nicht mehr effektiv von dem Halbleitermaterial eingeschränkt werden.

Der Weg der ständigen Verkleinerung der Fertigungstechnologie hat sich über 60 Jahre hinweg entwickelt. Jeder weiß, wo das Ende liegt, aber niemand will es öffentlich zugeben.

Am 25. Mai 2026 veröffentlichte He Tingbo, Direktorin der Huawei und Präsidentin der Halbleitergeschäftseinheit, ein neues Prinzip für die Entwicklung von Halbleitern:

Das Tao (τ)-Gesetz, dessen Kernproposition darin besteht, die "geometrische Verkleinerung" des Moore'schen Gesetzes durch eine "zeitliche Verkleinerung" zu ersetzen.

Da sich das Moore'sche Gesetz seiner Grenze nähert, glaubt He Tingbo, dass ein neuer Weg erkundet werden sollte, nämlich nicht mehr die Verkleinerung der Transistoren anzustreben, sondern die Signale schneller zu machen.

Basierend auf diesem Weg hat Huawei in den letzten sechs Jahren 381 Chipmodelle in Serie produziert. Der neue Kirin-Chip, der im Herbst dieses Jahres veröffentlicht wird, wird eine Steigerung der Transistordichte um mehr als 50 % erreichen, ohne die Fertigungstechnologie zu ändern. Bis 2031 plant Huawei, die Transistordichte der Chips auf das Niveau eines 1,4-Nanometer-Prozesses zu bringen, indem sie diese Methodik anwendet.

Tatsächlich ist das Tao-Gesetz nicht aus dem Nichts entstanden. Von NVIDIA bis TSMC, von AMD bis Hynix hat die gesamte Halbleiterindustrie in der gleichen Richtung fast zehn Jahre lang geforscht.

Mit dieser Äußerung hat Huawei erstmals einen klaren Rahmen und Standards für diese Erforschung festgelegt.

I. Das Ende des alten Wegs

τ (Tau) wird in der Schaltungstheorie als "Zeitkonstante" bezeichnet.

Ein Chip enthält Milliarden von Transistoren, die durch Metallleitungen verbunden sind. Die Signale laufen entlang der Leitungen, aber die Leitungen haben einen Widerstand. Je länger die Leitung, desto größer ist der Widerstand und desto langsamer sind die Signale.

Je kleiner τ ist, desto schneller sind die Signale und desto stärker ist die Leistung des Chips.

In den letzten Jahrzehnten hat die Verkleinerung der Transistoren nicht nur die Transistordichte erhöht, sondern auch die parasitären Kapazitäten und die Signallaufzeit verringert. Daher war die RC-Zeitkonstante über einen langen Zeitraum auf dem Rückgang.

Die Idee hinter dem Tao-Gesetz hat etwas von den ersten Prinzipien. Wenn das Ziel darin besteht, τ zu verringern, um die Effizienz zu erhöhen, dann kann dies offensichtlich auch in anderen Dimensionen erreicht werden, anstatt nur die Transistoren kleiner zu machen.

He Tingbo hat τ in vier Ebenen aufgeteilt: die Transistorebene, die Schaltungsebene, die Chipebene und die Systemebene. Auf jeder Ebene gibt es verschiedene Methoden, um die Zeit zu verkürzen.

Das Tao-Gesetz verfolgt diesen neuen Weg, weil der alte Weg zu Ende ist.

1965 hat Gordon Moore die Vorhersage gemacht, dass die Anzahl der Transistoren in einer integrierten Schaltung alle zwei Jahre ungefähr verdoppelt wird. Das Moore'sche Gesetz ist sowohl eine Branchenregel als auch ein Branchenkonsens geworden. Alle haben in diesem Rhythmus an der Entwicklung gearbeitet, investiert und Fabriken gebaut, was schließlich dazu führte, dass die Vorhersage sich selbst erfüllte.

Früher hatte es einen perfekten Partner: Das Dennard-Skalierungsgesetz, das besagt, dass die Leistungsdichte der Transistoren nach der Verkleinerung konstant bleibt. Dies bedeutet, dass die Chips nicht nur schneller werden, sondern auch die Wärmeentwicklung kontrollierbar ist.

Die beiden Gesetze zusammen bilden das fundamentale Glauben der Informationsindustrie über einen Zeitraum von einem halben Jahrhundert.

Von der Entwicklung über die Fertigung bis hin zu den Ausrüstungen und Materialien hat die gesamte Branchenkette auf der gleichen Strecke gerannt. Die fortschrittlichen Nanometer-Prozesse sind allmählich zum Machtzentrum der gesamten Branche geworden. Die Unternehmen, die die fortschrittlichsten Prozess-Chips herstellen können, haben die beste Chance, an der Spitze der Nahrungskette zu stehen.

Das Dennard-Skalierungsgesetz fiel um 2005 zusammen. Menschen stellten fest, dass die Wärmeentwicklung der Chips schwierig zu kontrollieren war, wenn die Größe zu klein war. Dies führte schließlich dazu, dass Intel den Frequenzgedanken aufgab und sich auf die Multicore-Strategie konzentrierte.

Der Aufstieg der Smartphone-Ära hat das Moore'sche Gesetz tatsächlich länger aufrecht erhalten.

Aber seit der Einführung der einstelligen Nanometer-Technologie steigen die Kosten und die Schwierigkeit bei jeder Verkleinerung exponentiell. Der Bau einer 3-Nanometer-Waferfabrik kostet mindestens zehn Milliarden US-Dollar, und es gibt heute nur noch wenige Spieler, die sich dies leisten können.

He Tingbo schrieb in ihrer Dissertation noch deutlicher:

Nach 7 Nanometer hat der Nutzen, der rein durch die Verkleinerung der Größe erzielt wird, sich allmählich verflacht.

Mit der fortschrittlichen Fertigungstechnologie in die Tiefe geht, nehmen die Interkonnektionsverzögerung, die Leistung und die Kosten für die Datenübertragung einen immer größeren Anteil an der Systemleistung ein. Darüber hinaus wird das Problem der Kostensteigerung, das nur durch die fortschrittliche Fertigungstechnologie verursacht wird, immer schwieriger zu kontrollieren.

Somit kann das Kernversprechen, das die Branche in den letzten halben Jahrhundert gestützt hat, nämlich "bei jeder Generation mehr Transistoren mit geringeren Kosten herzustellen", nicht mehr eingehalten werden.

II. Wie können die Teilnehmer ausbrechen?

Die wichtigen Akteure in der Branche haben alle versucht, in diese Richtung auszubrechen.

Am frühesten und am radikalsten hat NVIDIA sich der Clustererweiterung gewidmet.

2016 führte NVIDIA auf dem P100 mit der Pascal-Architektur einen Hochgeschwindigkeits-Interkonnektionsbus zwischen GPUs namens NVLink ein. Huang Renxun wollte das Problem der Datenübertragung zwischen GPUs lösen.

Wenn man es zehn Jahre später betrachtet, war diese Wette genau getroffen. Von der ersten Generation NVLink bis zur fünften Generation mit der Blackwell-Architektur im Jahr 2024 hat die Interkonnektionsbandbreite zwischen GPUs um ein Vielfaches zugenommen.

Der GB200 NVL72 verbindet 72 GPUs mit der fünften Generation NVLink zu einem Ganzen. Die bidirektionale Interkonnektionsbandbreite pro GPU beträgt 1,8 TB/s, und die Gesamtbandbreite des gesamten NVLink-Bereichs beträgt über 130 TB/s. NVIDIA hat sogar die GPU und die CPU direkt miteinander verbunden, um einen gemeinsamen Arbeitsspeicherbereich zu nutzen.

Bei der ersten Pressekonferenz war Huang Renxun auch eher bereit, über die "Interkonnektion" als nur über die "Rechenleistung" zu sprechen.

AMD hat einen anderen Weg eingeschlagen.

2019 begann die Zen 2-Architektur, die Prozessoren in mehrere kleine Chips aufzuteilen, die separat hergestellt und dann zusammengepackt wurden. Das Ziel war es, die Beschränkungen der Maske und die Ausbeute zu verbessern. Dieser Ansatz, der als Chiplet bezeichnet wird, hat sich bei den KI-Chips noch weiterentwickelt: Der MI300X, der Ende 2023 veröffentlicht wurde, nutzt die 3D-Packtechnologie von TSMC, um mehrere Rechenkerne und I/O-Kerne vertikal übereinander zu stapeln. Ein einzelner Chip enthält 153 Milliarden Transistoren und 192 GB HBM3-Speicher.

AMD setzt nicht mehr auf die fortschrittlichen Fertigungstechnologien, sondern nutzt die Methode "aufteilen und zusammenbauen", um auf der Packebene eine Integration zu erreichen, die mit einem einzelnen Chip nicht möglich war.

TSMC hat ebenfalls eine deutliche Wende gemacht.

Seit vielen Jahren war die Geschichte von TSMCs fortschrittlichen Fertigungstechnologien die ständige Verkleinerung, von 5 nm über 3 nm bis hin zu 2 nm.

Aber seit 2023 hat der Anteil der fortschrittlichen Packtechnologien an den Kapitalausgaben und der strategischen Kommunikation von TSMC rapide zugenommen.

Die CoWoS-Packtechnologie, die die GPU-Chips und den HBM-Speicher eng zusammenpackt, um die Bandbreitendichte zu erhöhen, hat eine ständige Nachfrage. Sie ist ein wichtiger Schritt bei der Lieferung von KI-Chips.

Bei der Technologiefachtagung 2026 hat TSMC eine "Dreischicht-Kuchen"-KI-Plattformarchitektur vorgestellt: Die untere Ebene ist für die Berechnung zuständig, die mittlere Ebene für die Packintegration und die obere Ebene für die optische Interkonnektion. Die COUPE-Technologie auf der obersten Ebene ersetzt die elektrischen Signale durch optische Signale für die Übertragung zwischen den Chips, was die Energieeffizienz um ein Vielfaches verbessert und die Verzögerung um eine Größenordnung verringert. Der König der Fertigungstechnologien beginnt nun, Geschichten über Packtechniken und Optik zu erzählen.

Der Wettrüsten zwischen den Speichermachern ist noch heftiger.

Der Wettbewerb zwischen SK Hynix und Samsung um HBM hat das Ziel, den Speicher näher an die Berechnung zu bringen und die Daten schneller zu liefern. Von HBM2 über HBM3 bis hin zu HBM3E werden die Speicherchips bei jeder Generation höher gestapelt und enger an die GPU herangeführt.

Die nächste Generation HBM4 wird die Hybrid-Bonding-Technologie einführen, die keine Lötbumps mehr benötigt. Kupfer und Kupfer werden auf atomarer Ebene direkt verbunden, was die Interkonnektionsdichte um eine oder zwei Größenordnungen erhöht.

Darüber hinaus gibt es Intel's Foveros 3D-Packtechnologie, den von der Branche gemeinsam angetriebenen UCIe-Chiplet-Interkonnektionsstandard und die Beschleunigung der Industrialisierung der Silizium-optischen Interkonnektion.

Die gesamte Branche richtet sich in die gleiche Richtung und stellt sich einer gemeinsamen Herausforderung:

Wenn die Verkleinerung der Transistoren nicht mehr möglich ist, soll man die Daten schneller transportieren.

In den letzten zehn Jahren hat sich das Schwergewicht der Forschung von der "Herstellung kleinerer Schalter" hin zur "Bau schnellerer Straßen" verschoben.

III. Die Stärken und die Position von Huawei

In diesem Branchenausbruch befindet sich Huawei in einer sehr besonderen Position.

Die Beschränkungen bei den fortschrittlichen Lithografieausrüstungen haben Huawei früher und dringender mit der Frage konfrontiert, wie man durch Ingenieurskunst die gewünschte Effizienz erreichen kann, wenn die Verkleinerung der Fertigungstechnologie ein Hindernis darstellt.

Doch dies ist tatsächlich ein Vorteil für Huawei, das aus der Kommunikationsbranche stammt.

Eines der Kernkompetenzen, die Huawei in den letzten Jahrzehnten gesammelt hat, von den Programmschaltern bis zu den 5G-Basisstationen, ist es, eine große Anzahl von verteilten Knoten zu einem koordinierten System zu organisieren.

Da die Rechenzentren in der KI-Ära immer mehr wie ein riesiges Kommunikationsnetz aussehen, hat die Stärke von Huawei plötzlich einen neuen strategischen Wert.

In der vierstufigen Optimierungssystematik ist der Ausgangspunkt auf der Bauebene ebenfalls die Optimierung des Widerstands der Leitungen um die Transistoren herum, um die Signallaufzeit auf der physikalischen Ebene zu verkürzen.

Auf der Schaltungsebene verwendet Huawei eine Methode namens Logikfaltung (LogicFolding).

Bei herkömmlichen Chipschaltungen werden die Signale auf einer Ebene verteilt, was zu langen Leitungen und langsamen Signalen führt. Die Logikfaltung entfaltet die Schaltung von einer Ebene auf zwei Ebenen, ähnlich wie das Falten eines Blattes Papier. Die Signale, die zuvor horizontal weit laufen mussten, können nun vertikal direkt durchlaufen.

Die Messdaten des Kirin 2026 zeigen: Die Transistordichte hat sich von einer Generation zur nächsten um mehr als 50 % erhöht, die Energieeffizienz um 41 %, die CPU-Frequenz ist auf 3,1 GHz gestiegen, die Cache-Frequenz um mehr als 40 % und die Länge der Kernleitungen um etwa 30 % verkürzt. Die zukünftigen Pläne sehen eine Dreifach- und Vierfachfaltung vor, um bis 2029 die Frequenz auf über 4 GHz zu erhöhen.

Dies ähnelt der 3D-Chiplet-Stapelung von AMD und der Foveros-Methodik von Intel, da alle von der Ebene zur dreidimensionalen Struktur übergehen. Der Unterschied besteht darin, dass AMD und Intel mehrere verschiedene Chips vertikal übereinander stapeln, während Huawei die Schaltungen innerhalb eines einzelnen Chips falten.

Auf der Chipebene koordiniert Huawei Software, Architektur und Chip.

D.h., die Ressourcen innerhalb des Chips werden gemäß den tatsächlichen Aufgabenanforderungen verteilt, um alle unnötigen Wartezeiten zu eliminieren. Ähnlich wie NVIDIA in der CUDA-Oekosystem und AMD in ROCm ist dies eine andere Lösung für dasselbe Problem.

Die Systemebene ist vielleicht der Ort, an dem die einzigartigen Eigenschaften von Huawei am meisten zum Tragen kommen.

Der Lingqu-Bus wurde 2019 angedacht und nach sechs Jahren veröffentlicht. Er ersetzt die vielen Schichten von Kommunikationsprotokollen in der KI-Cluster mit einem einheitlichen Protokoll. Die Messergebnisse zeigen, dass die Systemkommunikationsverzögerung von einigen Mikrosekunden auf etwa 100 Nanosekunden gesunken ist, was einer Verringerung um fast das 500-fache entspricht.

Über dem Lingqu-Bus verwendet der Hi-ONE optische Interkonnektionsmotor optische Signale anstelle von Kupferleitungen zur Datenübertragung. Die Bandbreite pro Modul beträgt 8 Tb/s, und die Übertragungsdistanz erstreckt sich von weniger als einem Meter auf 100 Meter.

Verglichen mit NVIDIA: NVIDIA löst das Interkonnektionsproblem mit einer Kombination von NVLink + NVSwitch + InfiniBand, während Huawei mit dem Lingqu-Bus ein einheit

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Huawei hat für die Halbleiter eine neue Maßstab gesetzt.

I.

Das Ende des alten Wegs

II.

Wie können die Teilnehmer ausbrechen?

III.

Die Stärken und die Position von Huawei