Ära der AI-Hyperkonnektivität: Strebt die Künstliche Intelligenz mit voller Kraft zum „Licht“?

Was ist ein CPO?

Seit der Entstehung von ChatGPT Ende 2022 hat Künstliche Intelligenz (KI) von der Rechenleistung (GPU), der Speicherkapazität (Speicher) bis zur Steuer- und Scheduling-Leistung (CPU) immer wieder Superbranchenchancen in der Halbleiterindustrie und Unternehmen mit Billionen-Dollar-Marktkapitalisierung hervorgebracht.

Wenn man behauptet, dass es in der KI-Infrastruktur noch einen Sektor gibt, in dem es noch kein Unternehmen mit einer Marktkapitalisierung von einer Billion Dollar gibt, so ist die Superverbindung in der KI-Zeit das, was der Autor am meisten schätzt. Wenn die Rechenleistung das Problem der "Intelligenz" der KI löst und die Speicherkapazität das Problem des "Gedächtnisses" der KI löst, dann ist es die Aufgabe der Übertragungsleistung, die Kurz- und Langzeitgedächtnisse mit "Raketen-Geschwindigkeit" in das Gehirnzentrum hinein- und hinauszubewegen.

Oder um es mit den Worten des "Papstes der KI", Huang Renxun, zu sagen: Mit der allmählichen Linderung der Engpässe bei Rechenleistung und Speicher wird Energie ein kontinuierliches Problem von höchster Ordnung. Der nächste Kernengpass ist die hochspeed Interkonnektivität des Netzwerks in der KI-Zeit. Denn die Netzwerkinfrastruktur der traditionellen Cloud-Zeit kann den Übertragungsanforderungen an die Netzwerkbandbreite im Zeitalter des Agentic AI bei Billionen von Modellparametern, gemischten Experten (MoE) und lokaler Aktivierung überhaupt nicht gerecht werden.

In diesem Artikel werden wir uns der optoelektronischen Übertragungstechnologie - CPO - im Bereich der KI-Netzwerkübertragungsgeschwindigkeit widmen und die Netzwerkübertragung in der KI-Zeit untersuchen. Die Untersuchung des Autors zu CPO gliedert sich in:

1. Was ist CPO und kann es wirklich die traditionelle Kupferverbindung ersetzen?

2. Kann es auch die derzeit vorherrschenden steckbaren optischen Module vollständig ersetzen?

3. Wie wird sich das Wettbewerbsumfeld der Unternehmen in der gesamten Branche in diesem Trend verändern?

In diesem Artikel werden wir zunächst die grundlegenden Fragen der Branchenkette klären.

Im Folgenden findet sich die detaillierte Analyse.

01 Was ist CPO?

In der traditionellen Architektur von Rechenzentren gibt es ein wichtiges Bauteil, das "optische Module". Seine Aufgabe ist es, die von der Lichtleitung übertragenen Lichtsignale in elektrische Signale umzuwandeln und diese an das Rechenzentrum zu übertragen, oder die im Rechenzentrum erzeugten elektrischen Signale in Lichtsignale umzuwandeln und diese an die Glasfaser zu übertragen. Es spielt die Rolle einer "Brücke" und eines "Übersetzers" bei der Datenübertragung.

Funktionsmäßig gesehen enthält die CPO (Co-Packaged Optics) -Architektur die Funktionen der traditionellen optischen Module, aber es gibt zwei deutliche Unterschiede:

1. Unterschiedliche Struktur

Die traditionellen optischen Module sind steckbar und sehen von außen aus wie die Steckverbinder an den Netzwerkanschlüssen zu Hause. CPO ist jedoch völlig anders. Es integriert den optischen Motor, der für die optoelektrische Umwandlung zuständig ist, direkt auf derselben Montageplatine oder Zwischenschicht mit dem Chip (hier hauptsächlich dem ASIC-Chip des Switches).

2. Unterschiedliche Anwendungsgebiete

Optische Module werden normalerweise zwischen den Racks eingesetzt (Scale-out). CPO kann sowohl zwischen den Racks (Scale-out) als auch innerhalb der Racks (Scale-up) eingesetzt werden. Bei der Verwendung zwischen den Racks ersetzt es die traditionellen optischen Module, und bei der Verwendung innerhalb der Racks ersetzt es die derzeit vorherrschende Kupferverbindung.

Abbildung: Schematische Darstellung des traditionellen steckbaren Modells und des CPO-Ansatzes

Quelle: GTC 2025, Dolphin Research

Wir können beobachten, dass sowohl NVIDIA als auch Broadcom derzeit aktiv an der Förderung ihrer CPO-Switch-Lösungen arbeiten.

Warum wird die CPO-Technologie so stark gewürdigt? Aufgrund des stetig steigenden Bedarfs an Rechenleistung in Rechenzentren steigt auch der Bedarf an Bandbreite für die Datenübertragung sprunghaft. Darüber hinaus entwickeln sich die Rechenzentren in Richtung von Supercomputing-Clustern. In diesem Prozess werden die bestehenden traditionellen Datenübertragungstechnologien zu einem Hindernis:

1. Bandbreitenengpass

Bei der Anwendung zwischen den Racks ist der zur Verfügung stehende Platz auf der Frontplatte des traditionellen Switches begrenzt, und die Größe der traditionellen steckbaren optischen Module lässt sich nur schwer verkleinern. Dadurch ist die Anzahl der Ports, die ein einzelner Switch zur Verfügung stellen kann, begrenzt, und er kann den immer höheren Bandbreitenanforderungen nicht gerecht werden.

Derzeit kann das steckbare Modul eine maximale Bandbreite von 1,6 Tbps pro Modul unterstützen. Die Frontplatte eines einzelnen Switches kann eine maximale Bandbreite von 51,2 Tbps unterstützen. In Zukunft könnte es möglich sein, Module mit 3,2 Tbps zu entwickeln, und der Switch könnte eine maximale Bandbreite von 102,4 Tbps unterstützen. Dies ist fast die Grenze der steckbaren optischen Module.

2. Engpass bei der Signalintegrität

Bei der Anwendung innerhalb der Racks tritt bei der Übertragung mit hoher Geschwindigkeit, wenn traditionelle Kupferkabel verwendet werden, ein starkes Signalverlust und -verzerrung auf, und die Übertragungsdistanz wird immer kürzer.

Derzeit kann das Kupferkabel eine maximale Bandbreite von 1,8 TB/s unterstützen (z. B. das NVLink-Kupferkabel von NVIDIA), und die Distanz ist streng auf weniger als 2 Meter begrenzt. Der Bedarf eines einzelnen GPUs an Bandbreite nähert sich jedoch 3,6 TB/s.

3. Engpässe bei der Wärmeableitung und der Stromaufnahme

Mit der Erhöhung der Übertragungsgeschwindigkeit steigt die Stromaufnahme der traditionellen Kommunikationsverbindungen stark an, und die Wärmeableitung wird immer schwieriger. Wir wissen, dass die Einrichtung von Rechenzentren in den USA derzeit großen Energieengpässen ausgesetzt ist. Daher wird das Problem der Stromaufnahme zu einem erheblichen Kostenfaktor.

Theoretisch kann CPO die oben genannten Probleme gut lösen. Laut NVIDIA kann die Leistungseffizienz nach der Anwendung von CPO um das 3,5-fache gesteigert werden.

02 Welche Datenübertragungsszenarien gibt es in Rechenzentren?

Hier unterteilen wir die Datenübertragungstechnologien in Rechenzentren in verschiedenen Szenarien und an verschiedenen Stellen:

Abbildung: Beispiele für Scale-out und Scale-up

Quelle: NADDOD, Dolphin Research

1. Scale-up, hauptsächlich die Interkonnektivität innerhalb der Racks

Es bezieht sich hauptsächlich auf die Hardwareverbindungen innerhalb der Racks, insbesondere innerhalb der Server, einschließlich, aber nicht beschränkt auf, die Verbindungen zwischen CPU, GPU, Netzwerkkarte, DDR-Speicher und Festplatte.

Derzeit werden diese Verbindungen hauptsächlich mit Kupfer als Verbindungsmaterial hergestellt, einschließlich der PCle-Steckplätze und Speichersteckplätze (PCB-Kupferleitungen) zur Verbindung von CPU, GPU und Netzwerkkarte, SATA-Kabel und andere Kupferkabel. CPO könnte jedoch das derzeit vorherrschende Konzept revolutionieren.

2. Scale-out, hauptsächlich die Interkonnektivität zwischen den Racks

Es bezieht sich hauptsächlich auf die Verbindungen zwischen Racks oder Servern und Switches.

Diese Verbindungen erfordern Licht als Verbindungsmaterial. Derzeit werden hauptsächlich Glasfasern und steckbare optische Module eingesetzt. Auch hier ist CPO ein wichtiger Entwicklungstrend und hat in diesem Szenario einen schnelleren Fortschritt als innerhalb der Racks.

3. Darüber hinaus gibt es auch die Interkonnektivität zwischen Rechenzentren und zwischen Rechenzentren und der Außenwelt. Dies ist jedoch nicht der Schwerpunkt dieses Artikels.

Angesichts der Strategien der großen Unternehmen ist CPO derzeit hauptsächlich auf die Interkonnektivität zwischen den Racks ausgerichtet, aber es könnte in Zukunft auch für die Anwendung innerhalb der Racks geeignet sein.

03 CPO befindet sich derzeit noch in der Anfangsphase der Einführung. Welche Hauptengpässe gibt es?

1. Reife der fortschrittlichen Montagetechnologie

Technisch gesehen unterscheidet sich CPO grundlegend von traditionellen Lösungen wie steckbaren optischen Modulen. Die Herstellungstechnologie der traditionellen optoelektronischen Komponenten unterscheidet sich nicht wesentlich von der der allgemeinen optoelektronischen Bauelemente und Module. CPO erfordert jedoch die Montage des optischen Motors auf der Platine oder Zwischenschicht, was hauptsächlich auf fortschrittlichen Montagetechnologien wie CoWoS basiert.

Im Vergleich zu den üblichen fortschrittlichen Montagetechnologien unterscheidet sich CPO auch, da es nicht nur elektronische integrierte Schaltungen, sondern auch photonische integrierte Schaltungen integrieren muss. Diese heterogene Integration erfordert die Verwendung von Mischverbindungen, wie z. B. der COUPE-Technologie von TSMC.

Das Problem ist, dass einerseits die oben genannten fortschrittlichen Montagetechnologien sehr schwierig zu realisieren sind. Sowohl NVIDIA als auch Broadcom sind auf die Produktionskapazität von TSMC angewiesen, aber diese ist begrenzt. Darüber hinaus könnte es auch Probleme bei der Lieferung von optischen Kopplern und Geräten, Mischverbindungsgeräten, Testgeräten sowie Materialien wie ABF-Platinen geben.

Darüber hinaus gibt es derzeit noch viel Raum für Verbesserungen bei der Produktionsausbeute der oben genannten fortschrittlichen Montagetechnologien, insbesondere bei der heterogenen Integration. Dies führt zu deutlich höheren Kosten als bei den steckbaren Lösungen. TSMC bemüht sich derzeit, die Ausbeute der fortschrittlichen Montage zu verbessern, aber dies wird noch einige Zeit in Anspruch nehmen.

2. Probleme bei der Wartung und Reparatur

Bei den traditionellen steckbaren Lösungen ist die Wartung und Reparatur aufgrund ihrer "Steckbarkeit" sehr einfach. CPO ist jedoch völlig anders. Da das optoelektronische Modul direkt mit der Platine, der Zwischenschicht oder sogar dem Chip montiert ist, ist die Wartung und Reparatur deutlich schwieriger als bei den traditionellen Lösungen.

Diese Probleme können jedoch gelöst werden, beispielsweise durch die Verbesserung der Fehlertoleranz in der Konstruktion oder die Einrichtung von Redundanzen in der Betriebsplanung.

3. Probleme bei der Wärmeverwaltung

Die hochdichte Montage des optischen Motors und des Chips führt während des Betriebs zu einer deutlichen Temperaturerhöhung in bestimmten Bereichen, die sogar die Temperaturgrenze des Lasers überschreiten kann. Daher ist die Wärmeverwaltung auch ein großes Problem. Um diese Probleme zu lösen, ist die Einführung eines effizienteren Kühlungskonzepts erforderlich, was jedoch ebenfalls Kosten verursacht.

4. Standardisierungsprobleme

Zurzeit setzen NVIDIA, Broadcom und andere Unternehmen aktiv ihre eigenen kompletten und unabhängigen CPO-Switch-Lösungen ein, um einen Vorsprung auf dem Markt zu erlangen. Gleichzeitig ist der Branchenstandard (Schnittstellenstandard, Montagestandard usw.) noch nicht festgelegt. Dadurch ist es für die Unternehmen in der gesamten Branche schwierig, auf der Grundlage eines einheitlichen Standards zu forschen, zu produzieren und zu konfigurieren. Dies ist auch ein Problem bei der kommerziellen Einführung von CPO.

Zusammenfassend lässt sich sagen, dass es Lösungen für die oben genannten Probleme gibt, aber diese erfordern die Reife der Technologie und die Festlegung von Standards, was Zeit in Anspruch nehmen wird.

Andererseits muss die CPO-Technologie im Hinblick auf die Gesamtkosten einen Vorteil haben.

Dies führt zu der Frage: Bei jeder Lösung ist der Kostenfaktor immer von zentraler Bedeutung. Neben CPO gibt es auch andere fortschrittlichere oder konservativere Lösungen, die entwickelt werden. Wie verhalten sich diese Lösungen zueinander? Hier unterscheiden wir zunächst die Unterschiede zwischen den verschiedenen Technologielösungen.

04 Vergleich der Technologielösungen

1. CPO

Das von uns diskutierte CPO, also die Co-Packaged Optics, bezieht sich, wie oben erwähnt, auf die Montage des optischen Motors und des Chips auf derselben Platine. Der Chip kann sowohl ein Switch-Chip (ASIC) als auch ein Rechenchip wie ein GPU sein, aber normalerweise bezieht sich dies auf den Switch-Chip.

2. NPO

NPO ist die Near-Packaged Optics. Es ist weniger fortschrittlich als CPO und erreicht nicht die Ebene der Montage auf derselben Platine oder Zwischenschicht. Stattdessen wird es nur auf derselben PCB-Mutterplatine montiert.

In China setzen Unternehmen wie Alibaba und Huawei aktiv NPO-Lösungen ein. Dies kann als eine Kompromisslösung angesehen werden, wenn die Kapazität für fortschrittliche Montage fehlt. Es könnte jedoch für einige Zeit die vorherrschende Lösung auf dem chinesischen Markt werden, was in gewissem Maße die Penetration der NVIDIA-Lösung auf dem chinesischen Markt beeinflussen könnte.

Abbildung: Darstellung verschiedener Integrationsmethoden: (von oben nach unten: steckbare Methode, NPO, CPO (integriert auf der Montageplatine), CPO (integriert auf der Zwischenschicht) und OIO, das später erwähnt wird)

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ära der AI-Hyperkonnektivität: Strebt die AI mit voller Kraft zum „Licht“?

01 Was ist CPO?

02 Welche Datenübertragungsszenarien gibt es in Rechenzentren?

03 CPO befindet sich derzeit noch in der Anfangsphase der Einführung. Welche Hauptengpässe gibt es?

04 Vergleich der Technologielösungen