StartseiteArtikel

Die Cluster der heimischen "100.000 Karten" beginnen mit der Implementierung.

半导体产业纵横2025-06-30 08:25
Die Wanka-Cluster sind gerade im Aufschwung, und schon kommen die Hunderttausend-Karten.

Im Zeitalter des rasanten Fortschritts der künstlichen Intelligenz hat die Rechenleistung bereits zu einem Schlüsselfaktor der Kernkompetenz geworden. Die von der Anzahl der Grafikkarten gestützte Rechenleistung ist einer der wichtigsten Indikatoren für die Leistung von großen Modellen. Allgemein wird angenommen, dass 10.000 NVIDIA A100 - Chips die Schwelle für die Rechenleistung für das erfolgreiche Training von großen KI - Modellen darstellen.

Im Jahr 2024 hat der Bau von Rechenzentren in China einen Schnitt gemacht. Der deutlichste Anzeichen dafür ist die beschleunigte Umsetzung von Projekten mit Tausenden von Grafikkarten. Ein Cluster mit Tausenden von Grafikkarten ist ein Hochleistungsrechnungssystem, das aus mindestens zehntausend speziellen KI - Beschleunigungs - Chips wie GPU und TPU besteht. Es integriert fortschrittliche Technologien wie Hochleistungs - GPU - Rechnen, Hochgeschwindigkeitsnetzwerkkommunikation, Massenspeicher mit paralleler Dateiverwaltung und intelligente Rechenplattformen tiefgreifend, um die unteren Infrastrukturebenen zu einem superstarken "Rechenleistungsriesen" zusammenzufassen. Mit Hilfe eines solchen Clusters können Trainingsprojekte für große Modelle mit Milliarden oder gar Billionen von Parametern effizient abgeschlossen werden, was die Iterationszeit der Modelle erheblich verkürzt und den schnellen Fortschritt der KI - Technologie fördert.

Mit der zunehmenden Popularität des Konzepts der AGI wird der Bedarf an Rechenleistung in der Branche immer dringender. Der "Cluster mit Tausenden von Grafikkarten" kann die explosionsartig steigende Nachfrage zunehmend nicht mehr befriedigen, und der "Rüstungswettlauf" im Bereich der Rechenleistung wird immer heftiger. Heute ist der Cluster mit Hunderttausenden von Grafikkarten zu einem "strategisch wichtigen Gebiet" für die weltweit führenden Unternehmen im Bereich der großen Modelle geworden. Internationale Giganten wie xAI, Meta und OpenAI haben sich in diesem Bereich engagiert, und chinesische Unternehmen lassen sich nicht hinter sich her, sondern beteiligen sich aktiv an diesem Wettlauf um die Rechenleistung.

Der Bau eines Clusters mit Hunderttausenden von Grafikkarten bringt enorme Herausforderungen

Auf der ganzen Welt bemühen sich führende Technologieunternehmen wie OpenAI, Microsoft, xAI und Meta darum, GPU - Cluster mit über 100.000 Grafikkarten aufzubauen. Hinter diesem ambitionierten Plan verbirgt sich ein erstaunlicher finanzieller Aufwand. Nur die Kosten für die Server betragen über 4 Milliarden US - Dollar. Darüber hinaus wirken Probleme wie der begrenzte Raum in den Rechenzentren und der mangelnde Stromversorgung wie Stolpersteine und hemmen den Fortschritt der Projekte.

In China betragen die Anschaffungskosten für die GPU allein bei der Errichtung eines Clusters mit Tausenden von Grafikkarten mehrere Milliarden Yuan. Daher konnten ursprünglich nur wenige Großunternehmen wie Alibaba und Baidu Cluster mit Tausenden von Grafikkarten aufbauen. Man kann sich vorstellen, wie kostspielig es ist, einen Cluster mit Hunderttausenden von Grafikkarten aufzubauen.

Abgesehen von den finanziellen Kosten stehen dem Bau eines Clusters mit Hunderttausenden von Grafikkarten auch viele technische Herausforderungen entgegen.

Zunächst ist es eine extreme Prüfung für die Stromversorgung und die Kühlung. Ein Cluster mit 100.000 H100 - Grafikkarten benötigt allein für die wichtigen IT - Geräte etwa 150 MW Strom, was die Kapazität eines einzelnen Rechenzentrums weit übersteigt. Die Stromverteilung muss über mehrere Gebäude in der Anlage verteilt erfolgen, und es müssen auch Probleme mit Spannungsschwankungen und - stabilität gelöst werden. Die Kühlungssysteme müssen der enormen Wärmebelastung gerecht werden. Wenn die von den hochdichten GPU beim Betrieb erzeugte Wärme nicht rechtzeitig abgeleitet werden kann, führt dies direkt zum Ausfall der Geräte. Die Energieeffizienz und die Wartungskosten der effizienten Kühlungslösungen müssen ebenfalls optimiert werden. GPU sind sehr empfindliche Hardwarekomponenten. Selbst die Temperaturschwankungen innerhalb eines Tages können die Ausfallwahrscheinlichkeit der GPU beeinflussen, und je größer die Anzahl der Grafikkarten ist, desto höher ist die Wahrscheinlichkeit eines Ausfalls. Bei der Entwicklung von Llama 3 durch Meta trat in einem Cluster mit 16.000 GPU - Karten durchschnittlich alle drei Stunden ein Ausfall auf.

Darüber hinaus unterscheidet sich der Trainingsprozess von großen Modellen von der seriellen Arbeitsweise traditioneller CPU - Cluster. Er erfordert die parallele Berechnung aller Grafikkarten, was auch größere Anforderungen an die Netzwerkübertragungsleistung stellt. Wenn man die vollständige Hochbandbreitenverbindung aller GPU über eine "Fat - Tree" - Topologie realisiert, steigen die Hardwarekosten für die vierstufige Vermittlung exponentiell. Deshalb wird normalerweise das "Recheninsel" - Modell eingesetzt: Innerhalb der Insel wird eine hohe Bandbreite zur Gewährleistung der Kommunikationseffizienz gewährleistet, zwischen den Inseln wird die Bandbreite reduziert, um die Kosten zu kontrollieren. Dies erfordert jedoch, dass bei verschiedenen Trainingsmodi wie Tensor - Parallelität und Daten - Parallelität die Verteilung der Kommunikationsaufgaben präzise ausgewogen wird, um Bandbreiteneinschränkungen aufgrund von Defekten in der Topologie zu vermeiden. Insbesondere wenn die Modellgröße die Billionen - Parametergrenze überschreitet, nimmt der Datenverkehr im Frontend - Netzwerk mit der Anwendung von Sparse - Technologien stark zu. Die Optimierung der Latenz und der Bandbreite erfordert eine fein abgestimmte Abwägung.

Schließlich stehen chinesischen Unternehmen im Bereich der großen Modelle im Vergleich zu ihren amerikanischen Kollegen noch eine besondere Schwierigkeit gegenüber. Aus bekannten Gründen können chinesische Unternehmen nicht wie Elon Musk ausschließlich auf NVIDIA - Lösungen setzen, sondern müssen heterogene Chips einsetzen, einschließlich chinesischer GPU. Dies bedeutet auch, dass selbst bei gleicher Anzahl von 100.000 Grafikkarten es für chinesische Unternehmen schwierig ist, mit amerikanischen Unternehmen in Bezug auf die Rechenleistungskapazität mithalten zu können.

Die Rechenleistung ist der Kern der Entwicklung von großen Modellen, aber das Wachstum der Rechenleistung hat sich von linear zu flächig verändert. Der Bau eines Clusters mit Hunderttausenden von Grafikkarten ist nicht nur eine Erhöhung der Rechenleistung, sondern auch mit technischen und betrieblichen Herausforderungen verbunden. Die Verwaltung eines Clusters mit 100.000 Grafikkarten unterscheidet sich grundlegend von der eines Clusters mit Tausenden von Grafikkarten.

Der Bau von chinesischen "Clustern mit Hunderttausenden von Grafikkarten" wird beschleunigt

"Man muss sich keine Sorgen um die Chip - Frage machen. Mit Methoden wie Überlagerung und Clustering kann man in Bezug auf die Rechenergebnisse mit dem neuesten Stand der Technik mithalten." Diese Äußerung von Ren Zhengfei, Präsident von Huawei, hat nicht nur das Vertrauen der Gesellschaft in die Entwicklung der chinesischen KI gestärkt, sondern auch die Schlüsselrolle des Cluster - Rechnens in der Forschung, Entwicklung und Anwendung der KI hervorgehoben. Vom "Eintrittskarten" für den "Cluster mit Tausenden von Grafikkarten" früher bis zum neuen Ziel des "Clusters mit Hunderttausenden von Grafikkarten" heute hat der Bau von Rechenzentren in China ständig neue Höhen erreicht.

Im September letzten Jahres wurde die zweite Phase des "Projekts für riesige Rechenkapazität" angekündigt, das auf die Errichtung eines einzelnen Clusters mit Hunderttausenden von Grafikkarten abzielt. Das "Projekt für riesige Rechenkapazität" hat die Bedeutung, "alle Flüsse aufzunehmen und aus Sandkörnern ein Gebirge zu bilden" und zielt auf die Errichtung eines großen einzelnen Clusters für das Modelltraining ab. Laut Angaben wurde die zweite Phase des "Projekts für riesige Rechenkapazität" von Beijing Paratera Technology Co., Ltd. (im Folgenden Paratera Technology genannt) initiiert. Partner wie Beijing Zhipu AI Technology Co., Ltd., Beijing Mianbi AI Technology Co., Ltd., die Wuhan - Niederlassung der China Mobile Communications Group Hubei Co., Ltd., die Wuhan - Niederlassung der China United Network Communications Group Co., Ltd., die Wuhan - Niederlassung der China Telecom Corporation Limited, das Informationszentrum der Wuhan Universität und die Inner Mongolia Xindong Jitai Technology Co. nahmen an der Einweihungsfeier teil. In Helingeer, Inner Mongolia, ist das Projekt der ersten Phase des "Projekts für riesige Rechenkapazität" im Mai dieses Jahres in Betrieb genommen worden. Das Projekt ist mit 4.000 Hochleistungs - Rechenschränken mit 20 kW geplant und kann maximal einen einzelnen Rechencluster mit 60.000 Grafikkarten unterstützen. Weniger als 100 Meter von diesem Projekt entfernt ist das Projekt der zweiten Phase geplant. Die zweite Phase wird auf der Grundlage eines einzelnen großen Clusters einheitlich verwaltet und geplant und kann eine Rechenleistungskapazität von bis zu 100.000 Grafikkarten aufnehmen.

Ende Juli 2024 hat die Gansu Yisuan Intelligent Technology Co., Ltd. in Qingyang mit einer Investition von 307 Millionen Yuan den ersten chinesischen Cluster für die Inferenz mit Tausenden von chinesischen Grafikkarten errichtet. Im Juni dieses Jahres plant Gansu Yisuan und seine Ökosystempartner, 5,5 Milliarden Yuan in den Bau eines "chinesischen Clusters mit Hunderttausenden von Grafikkarten" zu investieren, um eine Rechenleistungskapazität von mindestens 2,5 Millionen Petaflops bereitzustellen. Der Cluster soll bis zum 30. Dezember 2027 fertiggestellt und in Betrieb genommen werden. Der Cluster mit Hunderttausenden von Grafikkarten, der in Qingyang errichtet werden soll, wird ausschließlich chinesische Chips und eine eigene Architektur verwenden. Er wird die Energievorteile von Qingyang und die Technologiestärken der Yangtse - Delta - Region tiefgreifend integrieren, um eine nationale Zusammenarbeit zwischen "Rechenleistung im Westen und Intelligenz im Osten" aufzubauen, eine offene Rechenleistungsplattform zu schaffen und die "chinesische Grundlage" für das Training von großen KI - Modellen und die wissenschaftliche Berechnung zu stärken.

ByteDance hat ebenfalls ehrgeizige Pläne im Bereich der Rechenleistung. Im Jahr 2024 beliefen sich seine Kapitalausgaben auf 80 Milliarden Yuan, was fast der Summe der drei Unternehmen BAT (etwa 100 Milliarden Yuan) entspricht. Es wird erwartet, dass diese Zahl im Jahr 2025 auf 160 Milliarden Yuan verdoppelt wird, wobei 90 Milliarden Yuan für den Kauf von KI - Rechenleistung und 70 Milliarden Yuan für die Infrastruktur von Rechenzentren und die dazugehörige Hardware ausgegeben werden. Laut Schätzungen einer unabhängigen Institution beträgt die aktuelle Trainings - Rechenleistungskapazität von ByteDance bei einer Standard - AI - Rechenleistungskarte mit 400 T (FP16) etwa 267.300 Karten, die Inferenz - Rechenleistungskapazität für Texte etwa 336.700 Karten. In Zukunft könnte die Inferenz - Rechenleistungskapazität auf über 2,3 Millionen Karten steigen.

Chinesische Unternehmen für KI - Chips profitieren

In dieser aufkommenden Welle werden auch chinesische Unternehmen für KI - Chips, die in der Lage sind, Cluster mit Hunderttausenden von Grafikkarten aufzubauen, von Vorteilen profitieren.

Auf der Huawei Developer Conference 2025 (HDC 2025) am 20. Juni hat Zhang Ping'an, Mitglied des Vorstands und CEO von Huawei Cloud Computing, angekündigt, dass der neue Generation von Ascend - KI - Cloud - Diensten auf der Grundlage des CloudMatrix384 - Superknotens vollständig online geht, um eine starke Rechenleistung für die Anwendungen von großen Modellen bereitzustellen.
Durch die Kaskadierung von 432 Knoten kann ein Superrechner - Cluster mit 160.000 Grafikkarten aufgebaut werden, der die Trainingsanforderungen von großen Modellen mit Billionen von Parametern erfüllt und die Skalierungsgrenzen der traditionellen Architektur überwindet.

Der neue Generation von Ascend - KI - Cloud - Diensten von Huawei Cloud basiert auf dem CloudMatrix384 - Superknoten. Er verbindet erstmals 384 Ascend - NPU und 192 Kunpeng - CPU über ein neues Hochgeschwindigkeitsnetzwerk MatrixLink vollständig gleichberechtigt, um einen superstarken "KI - Server" zu bilden. Der Durchsatz der Inferenz pro Karte steigt auf 2.300 Tokens/s.

Die Superknoten - Architektur kann die Inferenz von großen Modellen mit gemischten Experten (MoE) besser unterstützen und kann "eine Karte für einen Experten" realisieren. Ein Superknoten kann die parallele Inferenz von 384 Experten unterstützen, was die Effizienz erheblich verbessert. Gleichzeitig kann der Superknoten auch "eine Karte für eine Rechenleistungstask" unterstützen, um die Ressourcen flexibel zu verteilen, die parallele Verarbeitung von Aufgaben zu verbessern, die Wartezeit zu reduzieren und die effektive Nutzung der Rechenleistungskapazität (MFU) um mehr als 50 % zu erhöhen. Darüber hinaus kann der Superknoten auch die einheitliche Bereitstellung von Trainings - und Inferenz - Rechenleistung unterstützen, wie z. B. "Inferenz tagsüber und Training nachts". Die Trainings - und Inferenz - Rechenleistung kann flexibel verteilt werden, um die optimale Nutzung der Ressourcen für die Kunden zu gewährleisten.

Darüber hinaus kann Baidus Baige 4.0 durch eine Reihe von technologischen Innovationen wie das HPN - Hochleistungsnetzwerk, die automatisierte Strategie für das gemischte Training und das selbst entwickelte Sammelkommunikationsbibliothek die effiziente Verwaltung eines Clusters mit Hunderttausenden von Grafikkarten realisieren.

Tencent hat auch im vergangenen Jahr angekündigt, dass sein selbst entwickeltes Xingmai - Hochleistungsrechnungsnetzwerk vollständig verbessert wird. Das Xingmai - Netzwerk 2.0 ist mit vollständig selbst entwickelten Netzwerkgeräten und AI - Rechenleistungskarten ausgestattet und kann die Netzwerkverbindung von über 100.000 Karten unterstützen. Die Netzwerkkommunikationseffizienz ist um 60 % höher als die der vorherigen Generation, was die Trainings - Effizienz von großen Modellen um 20 % verbessert.

Alibaba hat ebenfalls mitgeteilt, dass Alibaba Cloud eine effiziente Zusammenarbeit zwischen Chips, Servern und Rechenzentren realisieren kann, die skalierbare Größe eines Clusters mit 100.000 Karten unterstützen kann und bereits die Hälfte der chinesischen Unternehmen für große KI - Modelle bedient.

Das Rechenleistung - Internet und der Transfer von Rechenaufgaben vom Osten in den Westen beseitigen die Engpässe auf dem Markt

Derzeit ist das Problem des Mangels an intelligenter Rechenleistung in China recht ausgeprägt. Die Zunahme der Nachfrage nach Rechenleistung für große Modelle ist viel schneller als die Verbesserung der Leistung einzelner AI - Chips. Laut einem Bericht belief sich die Nachfrage nach intelligenter Rechenleistung in China im Jahr 2023 auf 123,6 EFLOPS, während die angebotene Leistung nur 57,9 EFLOPS betrug. Die Lücke zwischen Angebot und Nachfrage ist offensichtlich. Die Kompensation der Leistungseinschränkungen einzelner Karten durch die Verbindung von Clustern könnte derzeit der effektivste Ansatz sein, um die Knappheit an KI - Rechenleistung zu lindern.

Nach der Fertigstellung des "Clusters mit Hunderttausenden von Grafikkarten" muss dringend die Frage gelöst werden, wie man seinen Anwendungswert voll ausnutzen kann, damit er in Anwendungsbereichen wie dem KI - Training und der Big - Data - Analyse seine