CPO, ist es überhitzt?
Im heutigen Zeitalter, in dem die KI-Infrastruktur durch Kapital und Industrie zusammen an den Höhepunkt ihrer Entwicklung getrieben wird, werden alle technologischen Richtungen, die mit "Licht", "Interkonnektivität", "Bandbreite" und "Energieverbrauch" verbunden sind, leicht mit dem Label "nächste Generation von Kerntechnologien" versehen und schnell zum Mittelpunkt des Marktinteresses. Darunter ist die Common Packaged Optics (CPO) das repräsentativste Beispiel in dieser Welle der Begeisterung.
Als die Diskussionen in der Branche über die CPO jedoch immer lauter wurden, hat Hock Tan, der CEO von Broadcom, in der Einnahmenkonferenz für das vierte Quartal des Geschäftsjahres 2025 diesen Enthusiasmus etwas abgekühlt.
"Siliziumphotonik wird kurzfristig keine wesentliche Rolle in den Rechenzentren spielen."
Tan hat die Zukunft dieser fortschrittlichen Technologie nicht einfach abgetan. In den anschließenden Fragen und Antworten hat er erklärt, dass Siliziumphotonik und CPO keine "sprungartige" Alternative zu den bestehenden Technologien sind, sondern eher die ultimative Wahl der Branche, wenn das Potenzial der bestehenden Interkonnektivitätstechnologien vollständig ausgeschöpft ist. Er hat die logische Entwicklung der gesamten Interkonnektivitätstechnologie klar dargelegt: Zunächst kam die massenhafte Einführung der Rack-Ebene-Kupferverbindungen, gefolgt von der kontinuierlichen Weiterentwicklung der Steckbaren Optischen Module (Pluggable Optics). Erst wenn beide Technologien ihre physikalischen Leistungsgrenzen und wirtschaftlichen Kostenlimits erreicht haben, wird Siliziumphotonik/CPO wirklich zur unabdingbaren Technologie in der Branche.
"Dieser Tag wird sicher kommen, aber nicht jetzt."
Natürlich ist nicht nur Broadcom, der die Begeisterung für CPO etwas dämpft. Auf der neuesten Barclays Global Technology Conference 23 haben führende Unternehmen wie Arista, Credo, Marvell, Astera und Lumentum ähnliche Ansichten geäußert.
Von der "Mangel an Rechenleistung" zur "Angst vor Interkonnektivität"
Tatsächlich hat die KI-Branche in den letzten Jahren die Phase des "bloßen Anhäufens von Rechenleistung" verlassen. Selbst Nvidia, der König der Rechenleistung, legt weniger Wert auf die Einzelleistung der Chips und betont stattdessen immer wieder die Wichtigkeit der Interkonnektivität, des Netzwerks und der systemweiten Architektur – denn in der Ära der großen Modelle wird die Obergrenze nicht mehr nur von den Chips selbst bestimmt.
Mit der exponentiellen Expansion der Modellparameter und der Clustergröße hat sich der Kernengpass der KI-Cluster von der Rechenleistung zur Interkonnektivität verschoben. Was jetzt die Branchenriesen herausfordert, ist nicht mehr nur, ob sie genug Geld für die Anschaffung von mehr GPUs ausgeben können, sondern wie sie in einem ultragrößeren System eine effiziente Interkonnektivität erreichen können: Die Kommunikationseffizienz, die Latenz und die stabile Zusammenarbeit des Systems werden zunehmend zu den Schlüsselfaktoren dafür, ob die Rechenleistung effektiv genutzt werden kann.
Die Branche hat diese Veränderung offensichtlich schon vorhergesehen. Hock Tan, der CEO von Broadcom, hat in der Einnahmenkonferenz erwähnt, dass seine Kunden die Planung und Implementierung von ultragrößeren KI-Clustern mit über 100.000 GPUs in Angriff nehmen. Arista hat auf der Technologiekonferenz weiter darauf hingewiesen, dass das Ziel der internen Diskussionen in der Branche auf Clusterarchitekturen mit einer Million GPUs abzielt. Die Einschätzungen vieler Branchenführer stimmen überein: Wenn die Größe der KI-Cluster von einigen tausend GPUs auf Hunderttausende oder sogar eine Million erweitert wird, wird das Netzwerk nicht nur ein Problem der "ausreichenden Bandbreite", sondern zu einem ganzheitlichen systemischen Problem – einschließlich der Zuverlässigkeit der Interkonnektivität, der oberen Grenze des Energieverbrauchs, der Wartbarkeit und des gesamten Implementierungsrhythmus.
Deshalb hat sich in den letzten Jahren das von den Riesen betonte Stichwort deutlich verändert:
Scale-Out (horizontale Erweiterung), Scale-Up (vertikale Erweiterung), Scale-Across (überdomainale Erweiterung), sowie der Energieverbrauchswand, die Zuverlässigkeit der Verbindungen und das systemweite kooperative Design... Diese scheinbar eher "technischen" Konzepte markieren tatsächlich eine tiefgreifende Wende in der Branche in Bezug auf das Verständnis der Engpässe der KI-Infrastruktur – der Schwerpunkt des Wettbewerbs in der KI-Branche verschiebt sich von der Rechenleistung selbst hin zur Interkonnektivität und den systemischen Fähigkeiten.
Horizontale Erweiterung braucht keine CPO
Zunächst zur horizontalen Erweiterung (Scale-Out). Dieses Konzept wird oft als Clustersystem bezeichnet, bei dem die Rechenkapazität durch die Hinzufügung unabhängiger Server erhöht wird, um die Arbeitslast zu verteilen, ähnlich wie bei Nvidias InfiniBand.
Für die Branchenriesen scheint die horizontale Erweiterung derzeit keine CPO zu benötigen.
Die Aussage von Hock Tan von Broadcom ist am repräsentativsten: Die 800G-Stecktechnologie wurde 2022 eingeführt und ihr Wachstumszyklus wird bis 2026 andauern. Das 1,6T-Produkt ist bereits in Massenproduktion und sein Wachstum wird voraussichtlich bis mindestens 2029 andauern. Die 3,2T-Technologie wurde bereits vorgestellt. "In den nächsten 5-7 Jahren werden die Steckbaren Optischen Module weiterhin die dominierende Technologie sein, und das ist auch der Grund, warum die CPO-Technologie in der horizontalen Erweiterung noch nicht weit verbreitet ist."
Yuan Wupeng von Lumentum hat die Prognose für die Marktstruktur im Jahr 2026 weiter verfeinert: Die Gesamtzahl der optischen Ports wird auf 60 bis 70 Millionen steigen, was einer fast verdoppelten Zunahme gegenüber dem Vorjahr entspricht. Davon werden die 800G-Ports etwa 55%-60% und die 1,6T-Ports etwa 15%-20% ausmachen. Diese Daten zeigen, dass selbst wenn die 1,6T-Technologie bereits verfügbar ist, die 800G-Ports noch immer im Jahr 2026 die absolute Hauptströmung bilden werden und es keine "radikale Sprungentwicklung" in der Branche gibt.
Die Ansicht von Chris Koopmans, dem Chief Operating Officer von Marvell, hat diese Einschätzung weiter bestätigt: "Die CPO-Technologie in der horizontalen Erweiterung wird schließlich kommen, aber es wird noch einige Jahre dauern. In Märkten mit längerer Übertragungsdistanz und der Notwendigkeit der Interoperabilität wird die Einführung der Steckbaren Produkte langsamer sein." Er hat besonders darauf hingewiesen, dass die Kunden die Softwarezertifizierung für die 400G-Produkte bereits abgeschlossen haben und dass der Übergang von 400G auf 800G "fast sofort" erfolgt ist, nachdem die 800G-Produkte eingeführt wurden. Neue Projekte haben schnell die 800G-Lösung übernommen – dies ist der ökologische Vorteil der vorab zertifizierten Software und die Kernbarriere der Steckbaren Architektur.
Arista hat auch betont, dass sie "zuversichtlich sind, dass die Low Power Optics (LPO) bei einer Rate von 1,6T stabil funktionieren können; gleichzeitig werden Technologien wie die Common Packaged Copper (CPO) ebenfalls evaluiert, und diese sind potenzielle Differenzierungsvorteile. Die frühzeitige Einführung von Produkten der nächsten Generation und die schnelle Kommerzialisierung sind eine unserer Kernstrategien zur Differenzierung."
Keine Eile bei der vertikalen Erweiterung?
Die vertikale Erweiterung (Scale-up) konzentriert sich auf die Verbesserung eines einzelnen Servers oder eines chassissbasierten Systems, indem Chips hinzugefügt werden, um die Rechenleistung zu erhöhen. Sie wurde einst als das "erste Schlachtfeld" für die CPO-Technologie angesehen und ist das am meisten versprechende Anwendungsgebiet für die CPO.
Aber auch in diesem Anwendungsgebiet, in dem die CPO am dringendsten benötigt wird, wurde der Zeitplan für die Massenproduktion stark verschoben.
Nach der Übernahme von Celestial AI hat Marvell, der Pionier der CPO, ein neues Einnahmensziel festgelegt: Jahresumsätze von 500 Millionen US-Dollar bis Ende 2027 und eine Verdopplung auf 1 Milliarde US-Dollar bis Ende 2028. Es wurde erklärt, dass dieser Zeitplan hauptsächlich auf der Einführung des ersten Produkts und des ersten Kunden basiert. Das 16-Terabit-Chiplet-Produkt von Celestial AI hat eine Leistung, die das Zehnfache des fortschrittlichsten 1,6T-Produkts in der horizontalen Erweiterung ist und völlig andere Formfaktoren, Dichten, Bandbreiten und technische Eigenschaften aufweist – aber auch so wurde die massenhafte kommerzielle Implementierung bis 2027-2028 verschoben.
Jitendra Mohan von Astera Labs hat einen detaillierteren Zeitplan angegeben: "Mit der zunehmenden Komplexität des Systems, der steigenden Datenrate und der Kundenwunsch, die vertikale Erweiterung von einem Rack auf 2-4 Racks auszudehnen, wird die Übernahme der optischen Technologie unvermeidlich. Wir arbeiten intensiv mit unseren Kunden an diesem Schnittpunkt und erwarten, dass die massenhafte Implementierung zwischen 2028 und 2029 erfolgen wird. Aber die Implementierung der optischen Technologie wird nicht auf einen Schlag erfolgen. Im Jahr 2027 werden einige Testimplementierungen durchgeführt, um sich auf die massenhafte Implementierung im Jahr 2028 vorzubereiten."
Warum wird der Anwendungszeitplan für die CPO auch in dem am dringendsten benötigten Anwendungsgebiet verschoben?
Yuan Wupeng von Lumentum hat eine Erklärung aus der Sicht der Lieferkette gegeben: "Die CPO-Lieferkette ist noch relativ neu und braucht Zeit, um die Produktionskapazität zu erhöhen, um dem massiven Bedarf gerecht zu werden. Deshalb liegt die aktuelle Lieferbeschränkung nicht an einem Mangel an Grundkapazität, sondern daran, dass die Lieferkette noch nicht reif ist und die Lieferanten Zeit brauchen, um sich an den wachsenden Bedarf zu gewöhnen."
Bill Brennan, der CEO von Credo, hat die Situation aus der Sicht der Produktionskapazität analysiert: "Der Bedarf in der vertikalen Erweiterungsszene wird das Mehrfache des aktuellen Bedarfs sein. Wir erweitern derzeit bereits aktiv unsere Produktionskapazität, und die vertikale Erweiterungsszene wird die Kapazitätsanforderungen noch deutlich erhöhen. Dies erfordert die gemeinsame Anstrengung der gesamten Branche. Wir unterhalten uns mit mehreren Kunden darüber und haben bereits damit begonnen, die entsprechenden Arbeiten durchzuführen."
Ein tieferliegender Grund ist die überraschend lange Lebensdauer der Übergangslösungen.
Mohan von Astera Labs hat offen zugegeben: "Die Kunden sind nicht bereit, auf die optische Technologie umzusteigen, weil die optische Technologie einen höheren Energieverbrauch und höhere Kosten erfordert."
Broadcom hat betont: "Wir glauben, dass die CPO die richtige technologische Richtung ist, aber wir sind uns nicht sicher, ob diese Produkte vollständig implementiert werden, weil unsere Ingenieure und Branchenkollegen die vertikale Erweiterung so weit wie möglich über Kupferkabel im Rack und Steckbare Optische Module erreichen werden. Erst wenn weder die Steckbaren Optischen Module noch die Kupferkabel den Bedarf decken können, wird die Siliziumphotonik-Technologie die unvermeidliche Wahl sein."
Energieverbrauch und Zuverlässigkeit:
Realistischere Beschränkungen als die Bandbreite
Für die Branchenriesen sind der Energieverbrauch und die Zuverlässigkeit eine der wichtigen Gründe, warum sie sich noch nicht vollständig der CPO verschließen.
Bill Brennan von Credo hat mit einem konkreten Beispiel die Schwere dieser Herausforderung verdeutlicht: xAI nutzte ursprünglich Laser-basierte Optische Module, um einen Cluster von 18 Racks zu verbinden. Später plante es, zu einer flüssigkeitsgekühlten Anlage zu wechseln und die Anzahl der Racks von 18 auf 6 zu reduzieren. Das Team hat Credo gefragt: "Wenn ihr Kabel mit einer Länge von 7 Metern herstellen könnt, können wir einen 'ausfallfreien' Cluster aufbauen." Denn die Zuverlässigkeit der Kupferkabel-Lösung ist bekannt und absolut stabil.
Das Konzept des "ausfallfreien" Clusters hat der Branche eine große Inspiration gegeben. Brennan hat darauf hingewiesen, dass das Credo-Team seitdem den Schwerpunkt auf die Lösung des Zuverlässigkeitsproblems gelegt hat. "Insbesondere bei der Verbindung zwischen den GPUs und dem ersten Level-Switch (T0). Der Kern der Differenzierungsvorteile aller Produkte, die wir kürzlich eingeführt haben, dreht sich um die Zuverlässigkeit."
Nach Ansicht der Riesen muss die Interkonnektivitätstechnologie zunächst zuverlässig und kontrollierbar sein, anstatt einfach nur nach maximaler Leistung zu streben. Vorhersagbarkeit, Diagnostizierbarkeit und Wartbarkeit sind oft wichtiger als die "theoretisch optimale" Leistung.
Yuan Wupeng von Lumentum hat bei der Besprechung der ZeroFlap-Optischen Lösung die technische Umsetzung dieses Konzepts ausführlich erläutert. Er hat darauf hingewiesen, dass Oracle wie xAI ebenfalls mit dem Problem der Verbindungsunterbrechung konfrontiert ist, aber die Länge ihrer Verbindungen weit über 7 Meter liegt und sie daher nur Laser-basierte Optische Module verwenden können. Der Kern der Lumentum-Lösung besteht darin, potenzielle Risiken vor dem Ausfall der Verbindung zu erkennen und durch aktive Intervention zu mindern.
Konkret hat Lumentum einen maßgeschneiderten optischen DSP neu entworfen, der in der Bandbreite kommunizieren kann – das heißt, während der Übertragung von Hochgeschwindigkeitsdaten kann er auch eine bidirektionale Kommunikation zwischen den DSPs ermöglichen und Fernmessdaten übertragen. Dann wird die Pilotsoftware tiefgehend integriert, um die Rohdaten in nutzbare Fernmessdaten umzuwandeln. Anschließend wird die Integration in das Kundennetzwerk über das Switch-SDK erreicht. "Heute können wir unseren Kunden Echtzeit- und kontinuierliche Fernmessdaten liefern, einschließlich der Signalstärke und Empfangsempfindlichkeit, der Vorwärtsfehlerrate, des Histogramms der nachgelagerten Technologie usw. Wir können auch die Beschädigung durch elektrostatische Entladung (ESD) erkennen und Staub auf den Fasern detektieren. Diese Lösung übertrifft die systemweiten Fähigkeiten der herkömmlichen Laser-Optischen Module."
Zurzeit liegt die obere Grenze der Zuverlässigkeit bei der Kurzstreckeninterkonnektivität immer noch bei den Kupferkabeln/AEC. Die CPO ist keine Alternative, und ihre Vorteile liegen eher in der Distanz, der Dichte und der systemischen Beobachtbarkeit.
Arista hat in ihrem Vortrag auch auf den Energieverbrauch, das zentrale Problem der Branche, hingewiesen. "Der Energieverbrauch unserer Produkte ist normalerweise um etwa 25% niedriger als der vergleichbarer Produkte – bei der massenhaften Implementierung unserer Produkte wird dieser Vorteil besonders deutlich. Derzeit ist der Energieverbrauch eines der zentralen Probleme der Branche, und Schalter mit geringem Energieverbrauch haben sicherlich ein hohes Marktpotenzial."
Übergangslösungen
Schlucken den Anwendungsraum der CPO
Es ist bemerkenswert, dass Übergangslösungen wie LPO, AEC und ALC zunehmend den Anwendungsraum, der ursprünglich der CPO zugedacht war, schlucken und abzweigen. Immer mehr Hersteller haben in der Praxis eine Art von stillem Konsens erreicht: Die bestehende Interkonnektiv