Die Revolution der Switches in der Ära der AI-Superknoten
Die Parametergröße von großen KI-Modellen wächst stetig. Die physikalischen Grenzen der Rechenleistung und des Grafikspeichers einer einzigen Grafikkarte zwingen die KI-Trainingscluster, ständig an Größe zu gewinnen. In diesem Wettrüsten um KI-Rechenleistung hat die Netzwerkleistung längst zu einem Schlüsselfaktor geworden, der die Effizienz der Rechenleistungserbringung der Cluster bestimmt. Bei KI-Modellen mit extrem großen Parametergrößen kann eine höhere Netzwerkbandbreite die Fertigstellung des Modelltrainings direkt erheblich verkürzen.
Die technologische Grundlage für die Freisetzung von KI-Rechenleistung: RDMA
Um die Engpässe in der Netzwerkleistung von KI-Clustern zu überwinden, hat sich die RDMA-Technologie als von der Branche anerkannte Lösung etabliert. Der Ausgangspunkt für all dies liegt in der Lösung der Kommunikationsengpässe in der Zeit der GPU-Allzweckrechnung.
GPU Direct RDMA ist eine 2009 von Nvidia und Mellanox gemeinsam entwickelte Technologie, die die Zusammenarbeit von Hardware und Software innovativ kombiniert. Damals hatte die GPU von der Grafikrendering auf die Allzweckrechnung (GPGPU) umgestellt und war zum Kernbeschleuniger in der Hochleistungsrechnung (HPC) geworden. Obwohl die Rechenleistung der GPU ständig zunahm, musste der CPU immer noch die Übertragung von Daten zwischen den GPUs verschiedener Knoten im Cluster übernehmen, was zu Kommunikationsengpässen führte. Dadurch konnte die Rechenleistung der GPU nicht voll ausgeschöpft werden, was wiederum zu einer geringen Effizienz des gesamten Clusters führte. NVIDIA erkannte damals klar, dass dieses Problem gelöst werden musste, und begann daher zusammen mit seinem Partner Mellanox, nach einer Lösung für die direkte Kommunikation zwischen GPU und Netzwerkkarte zu suchen: GPU Direct over InfiniBand. Später reifte dieses Technologiekonzept und wurde 2012 zusammen mit der Kepler-Architektur-GPU und CUDA 5.0 veröffentlicht und offiziell als GPU Direct RDMA benannt.
Bevor diese Technologie entwickelt wurde, war die Datenübertragung in traditionellen Rechenzentren immer von der inhärenten Schwäche der TCP/IP-Architektur beeinträchtigt. In der traditionellen Übertragungslösung gehören der Zugriff auf den Arbeitsspeicher und die Netzwerkdatenübertragung zu zwei verschiedenen Semantikkollektionen. Die Kernaufgabe der Datenübertragung hängt stark vom CPU ab: Die Anwendung muss zunächst Ressourcen anfordern und den Socket benachrichtigen. Anschließend wird die TCP/IP-Nachrichtenverpackung von einem Kernel-Treiber durchgeführt, und schließlich wird die Nachricht über die Netzwerkschnittstelle (NIC) an den Zielknoten gesendet. Die Daten müssen auf dem Sende-Knoten nacheinander mehrere Male zwischen dem Anwendungs-Puffer, dem Socket-Puffer und dem Transportprotokoll-Puffer kopiert werden. Nachdem die Daten am Empfangsknoten angekommen sind, müssen sie ebenfalls mehrere Male umgekehrt kopiert werden, um die Entpackung abzuschließen, bevor sie in den physischen Arbeitsspeicher des Systems geschrieben werden können.
Diese traditionelle Übertragungsmethode bringt drei Probleme mit sich: Erstens führt die mehrfache Kopie von Daten im Arbeitsspeicher zu hohen Übertragungsverzögerungen. Zweitens muss die Verpackung von TCP/IP-Nachrichten vollständig von der Treibersoftware durchgeführt werden, was eine hohe Belastung für den CPU darstellt. Die Leistung des CPU wird dadurch zum Engpass für die Übertragungsbandbreite und die Verzögerung. Drittens führt das häufige Wechseln der Anwendungen zwischen Benutzer- und Kernel-Modus zu einer weiteren Vergrößerung der Übertragungsverzögerungen und des Jitters, was die Netzwerkübertragungsleistung stark einschränkt.
Die RDMA-Technologie (Remote Direct Memory Access) wurde speziell entwickelt, um die oben genannten Probleme zu lösen. Durch die Technologien des Host-Offloadings und des Kernel-Bypass ermöglichen es zwei Anwendungen, über das Netzwerk zuverlässige und direkte Datenkommunikation zwischen Arbeitsspeichern durchzuführen: Nachdem die Anwendung eine Datenübertragung gestartet hat, greift die RNIC-Hardware direkt auf den Arbeitsspeicher zu und sendet die Daten an die Netzwerkschnittstelle. Die NIC des Empfangsknotens kann die Daten direkt in den Arbeitsspeicher der Anwendung schreiben, ohne dass der CPU und der Kernel intensiv beteiligt sein müssen.
Aufgrund dieser Eigenschaften ist RDMA zu einer der wichtigsten Vernetzungstechnologien in Bereichen wie Hochleistungsrechnung, Big Data-Speicherung und maschinellem Lernen geworden, in denen niedrige Latenzzeiten, hohe Bandbreite und geringe CPU-Auslastung streng gefordert werden. Die Standardisierung des RDMA-Technologieprotokolls hat auch eine einheitliche Norm für die Interkonnektivität von Geräten verschiedener Hersteller geschaffen, was die Technologie von der Konzeption zur massenhaften kommerziellen Nutzung gebracht hat. Derzeit gibt es drei Hauptimplementierungen von RDMA: das InfiniBand-Protokoll, das iWARP-Protokoll und das RoCE-Protokoll (einschließlich der beiden Versionen RoCE v1 und RoCE v2).
Während die Parameter von KI-Modellen von Milliarden auf Billionen ansteigen, wächst die Speicherkapazität einer einzelnen GPU stetig. Gleichzeitig hat die Effizienz der Datenübertragung zwischen Servern zu einem entscheidenden Faktor geworden, der die Skalierbarkeit des Systems und die Erreichung der Modelltrainingsziele bestimmt. Der Wert der RDMA-Technologie wird immer deutlicher: Die Effizienz des Zugriffs auf den Arbeitsspeicher und die Ressourcen anderer Server bestimmt direkt die Skalierbarkeit des Systems, und die Fähigkeit, direkt auf entfernten Arbeitsspeicher zuzugreifen, kann die Gesamtleistung des KI-Modelltrainings direkt verbessern. Genau mit Hilfe der RDMA-Technologie können die Daten schnell an die GPU geliefert werden, was die Fertigstellung der Aufgaben (Job Completion Time, JCT) effektiv verkürzt.
Der Wettlauf zwischen InfiniBand und Ethernet
Während der Entwicklung von Netzwerken für KI-Intelligentrechnung wurde in den ersten Jahren die etablierte Ethernet-Lösung für die Interkonnektivität zwischen Rackeinheiten verwendet. Mit der zunehmenden Forderung nach niedrigen Latenzzeiten hat InfiniBand aufgrund seiner Leistungsvorteile schnell an Popularität gewonnen. Als Vertreter des nativen RDMA-Protokolls wird InfiniBand von Mellanox, einer Tochtergesellschaft von NVIDIA, vorangetrieben. Es kann Übertragungsverzögerungen von weniger als 2 Mikrosekunden erreichen und gleichzeitig Null Paketverluste gewährleisten. InfiniBand ist somit der Leistungsführer im Bereich RDMA.
Um die RDMA-Vorteile von InfiniBand auf die Ethernet-Ekosystem zu übertragen, wurde das RoCE-Protokoll entwickelt. RoCE v1 kann nur innerhalb eines Layer-2-Subnetzes betrieben werden, während RoCE v2 über die IP/UDP-Verpackung Routing über Subnetze hinweg ermöglicht, was die Flexibilität bei der Implementierung erheblich erhöht. Obwohl die Verzögerung von etwa 5 Mikrosekunden noch höher ist als die von nativem InfiniBand, gibt es Ethernet die Fähigkeit, die hohen Bandbreiten- und niedrigen Latenzanforderungen von KI-Training zu unterstützen.
Um die Dominanz von InfiniBand im Bereich der KI zu erschüttern, haben im Juni 2025 Branchenriesen wie Broadcom, Microsoft und Google gemeinsam die UEC 1.0-Spezifikation vorgestellt, um den Ethernet-Protokollstapel neu zu gestalten und seine Leistung an die von InfiniBand anzunähern. Dies markiert den Beginn eines umfassenden Gegenangriffs von Ethernet auf InfiniBand. Die Ultra Ethernet Consortium (UEC) hat klar gemacht, dass die UEC 1.0-Spezifikation auf allen Ebenen des gesamten Netzwerkstapels, einschließlich Netzwerkkarten, Switches, Glasfasern und Kabeln, eine leistungsstarke, skalierbare und interoperable Lösung bieten kann, um die nahtlose Integration von mehreren Anbietern zu ermöglichen und die Innovation in der gesamten Ökosystem zu beschleunigen. Diese Spezifikation unterstützt nicht nur die modernen RDMA-Fähigkeiten von Ethernet und IP, sondern auch die End-to-End-Skalierbarkeit von Millionen von Geräten und vermeidet gleichzeitig das Problem der Anbieterbindung.
Derzeit haben chinesische Technologieunternehmen wie Alibaba, Baidu, Huawei und Tencent alle der UEC beigetreten, um die Umsetzung der Standards gemeinsam voranzubringen. Neben der Teilnahme an der globalen Standardisierung arbeiten die chinesischen Unternehmen auch an der Entwicklung eigener, kontrollierbarer horizontal skalierbarer Architekturen, die sich alle auf die Leistungsmerkmale von InfiniBand beziehen, insbesondere auf niedrige Latenzzeiten und Null Paketverluste.
Betrachtet man die industrielle Umsetzung, werden die Vor- und Nachteile der beiden Technologierouten sehr deutlich. Die RoCE v2-Lösung basiert auf der Ethernet-Architektur und bietet nicht nur die hohe Bandbreite und niedrige Latenz von RDMA, sondern auch eine starke Kompatibilität und Anpassbarkeit bei der Interkonnektivität von Geräten. Die Implementierung ist flexibel und kostengünstig. Im Vergleich zu InfiniBand hat die Ethernet-basierte RDMA-Lösung erhebliche Vorteile bei niedrigen Kosten und hoher Skalierbarkeit.
Die Verfügbarkeit des Netzwerks bestimmt direkt die Stabilität der Rechenleistung von GPU-Clustern. Der Ausbruch der KI-Technologie treibt die Weiterentwicklung von Rechenzentrums-Switches in Richtung höherer Datenraten an. Die exponentielle Zunahme der Anzahl von Parametern in großen KI-Modellen führt zu einem massiven Anstieg des Bedarfs an Rechenleistung. Allerdings bedeutet eine große Clustergröße nicht automatisch eine hohe Rechenleistung. Um die Trainingszeit zu verkürzen, wird bei der Modellierung von großen Modellen häufig die verteilte Trainingsmethode eingesetzt. RDMA ist dabei die Schlüsseltechnologie, um die Kommunikation zwischen Karten zu beschleunigen und die Latenzzeiten zu verringern. Derzeit werden hauptsächlich zwei Lösungen eingesetzt: InfiniBand bietet niedrigere Latenzzeiten, ist aber teurer, und die Lieferkette ist stark auf NVIDIA konzentriert. Laut einer Prognose der Dell‘Oro Group wird Ethernet bis 2027 den Marktanteil von InfiniBand im Netzwerk für KI-Intelligentrechnung übertreffen.
Der Ausbruch von Superknoten: Eine goldene Entwicklungsphase für High-End-Switches
Mit der Einstellung in die Ära von KI-Modellen mit Billionen von Parametern hat sich der Bedarf an Rechenleistung von der einfachen Stapelung von GPUs hin zur Umgestaltung des gesamten Systemarchitektur gewandelt. Die physikalischen Grenzen der Leistungsdichte, der Interkonnektivitätsbandbreite und der Speicherkapazität einzelner Chips führen zu einer stetigen Abnahme der Grenznutzen der Rechenleistung. Sowohl aktuelle Forschung als auch praktische Erfahrungen zeigen, dass die systemübergreifende Koordination (z. B. die Interkonnektivität mit hoher Bandbreite) der Haupteingangspunkt für die Überwindung der Leistungsgrenzen einzelner Chips ist. Die physikalischen Grenzen einzelner Chips sind der Kernengpass für die Weiterentwicklung der Rechenleistung.
Wenn die Größe des Modells die Rechenleistung und die Speicherkapazität eines einzelnen Chips weit übersteigt, treten in der traditionellen verteilten Trainingsmethode Probleme wie ein stark erhöhter Kommunikationsaufwand und eine erhebliche Abnahme der Effizienz der Rechenleistung auf. In dieser Situation wird die Integration von Dutzenden oder sogar Hunderten von GPU-Chips zu einer logischen Einheit, die als ein „Supercomputer“ fungiert, von führenden KI-Infrastruktur-Anbietern und Forschungseinrichtungen weltweit als der zukünftige Ausgangspunkt für die Entwicklung von Rechenleistung gesehen.
Der Ausbruch von KI-Superknoten eröffnet neuen Wachstumsraum für den Switch-Markt. Im Vergleich zu traditionellen Servern haben KI-Server zusätzliche GPU-Module, die über spezielle Netzwerkkarten mit Servern und Switches verbunden werden müssen, um eine effiziente Kommunikation zwischen den Knoten zu gewährleisten. Dies führt dazu, dass die Netzwerkarchitektur von KI-Servern eine zusätzliche Ebene, das Back-End-Netzwerk, erhält. Die Anzahl der Netzwerkanschlüsse pro Server steigt erheblich, was direkt die Nachfrage nach High-Speed-Switches, Netzwerkkarten, Optokomponenten und Glasfaserkabeln in der gesamten Branche anregt.
Zugleich beschleunigt die Massenimplementierung von Superknoten die horizontale Skalierung der Netzwerkarchitektur. Die Netzwerke von riesigen Clustern mit Tausenden, Zehntausenden oder sogar Millionen von GPUs erzeugen einen enormen Bedarf an High-Speed-Switches. Mit der stetigen Zunahme der Parameter von KI-Modellen wächst die Clustergröße von Hunderten und Tausenden von GPUs auf Tausende und Zehntausende von GPUs an, was die Weiterentwicklung der Netzwerkarchitektur von 2-Schichten- zu 3- und 4-Schichten-Architekturen antreibt und die Lücke auf dem High-Speed-Switch-Markt noch weiter vergrößert.
Der schnelle Wachstum der globalen KI-Branche stellt unvorhergesehen hohe Anforderungen an die Netzwerkarchitektur, die Bandbreite und die Latenz von KI-Clustern. Dies treibt die Weiterentwicklung von Ethernet-Switches, den Kernkomponenten der Netzwerkkommunikation, in Richtung höherer Datenraten, mehrerer Anschlüsse, White-Box-Design und Opto-Switches an. Die starke industrielle Basis und die große Anzahl von Anbietern im Ethernet-Ekosystem bieten Raum für die weitere Zunahme des Marktanteils von Ethernet im KI-Netzwerk. Obwohl InfiniBand derzeit aufgrund seiner niedrigen Latenzzeiten, des Congestion Controls und der adaptiven Routing-Mechanismen immer noch den Markt für KI-Back-End-Netzwerke dominiert, wird der Marktanteil der Ethernet-Lösung in Zukunft weiter steigen, was die Nachfrage nach Ethernet-Switches direkt anregt.
Die ganze Branche tritt ein: Chinesische und internationale Anbieter kämpfen um den KI-Switch-Markt
Die großen Geschäftsmöglichkeiten auf dem KI-Switch-Markt haben die globale Technologiebranche und chinesische Anbieter dazu bewogen, sich intensiv in diesem Bereich zu engagieren. Vom Chip bis zum gesamten Gerät, von traditionellen Anbietern bis zu Internetunternehmen, ein Wettlauf um die Technologie und den Markt von KI-Switches hat begonnen.
Unter den internationalen Anbietern hat NVIDIA die aggressivste Strategie verfolgt. Die von NVIDIA entwickelte Spectrum-x-Plattform ist eine Ethernet-Lösung, die speziell für supergroße Cluster optimiert ist. Mit diesem Produkt hat NVIDIA es in weniger als drei Jahren geschafft, sich erfolgreich in den traditionellen IT-Bereich der Switches einzubringen. Darüber hinaus hat NVIDIA seine nächste Generation Rubin AI-Plattform auf die CPO-Architektur (Co-Packaged Optics) umgestellt und die Massenproduktion angekündigt, was die CPO von einem Laborkonzept zum „Standard“ in zukünftigen KI-Rechenzentren macht.
Broadcom hat im vergangenen Jahr den weltweit ersten 102,4 Tbps-Switch-Chip Tomahawk 6 vorgestellt. Dieser Chip bietet eine Switcheskapazität von 102,4 Tbps, was doppelt so viel ist wie die Bandbreite der derzeitigen Ethernet-Switches auf dem Markt. Der Tomahawk 6 ist speziell für die nächste Generation von skalierbaren und erweiterbaren KI-Netzwerken konzipiert. Durch die Unterstützung von 100G/200G SerDes und Co-Packaged Optics-Modulen (CPO) bietet er eine höhere Flexibilität. Er bietet die umfassendsten KI-Routing-Funktionen und Interkonnektivitätsoptionen auf dem Markt, um den