CPO: Braucht es noch zehn Jahre?

Der Erfolg von CPO hängt nicht nur von den Indikatoren der Bandbreitendichte und des Stromverbrauchs pro Bit ab, sondern auch davon, ob die Netzbetreiber ihm vertrauen können.

Co-Packaged Optics (CPO) hat sich zu einer der heißesten Technologien im Bereich von Künstlichen-Intelligenz-Datencentern entwickelt. Anbieter und Standardisierungsorganisationen positionieren CPO aktiv als Lösung für die Bandbreiten-, Latenz- und Stromverbrauchsprobleme in der Künstlichen Intelligenz. Dennoch zögern viele Anwender, da sie sich unsicher sind, ob sie CPO wirklich benötigen, ob die CPO-Technologie ausreichend reif ist und ob die betrieblichen Risiken der Einführung von CPO die Leistungszuwächse übersteigen könnten. Angesichts der gegenwärtigen technologischen Aussichten und der Bedenken der Anwender haben wir kürzlich eine Studie über die Zukunft von CPO abgeschlossen.

Bei der OFC, der ECOC und jetzt auch auf der GTC waren die CPO-Demonstrationen beeindruckend. Dennoch werden CPOs bislang nur in wenigen hyperskaligen Datencentern eingesetzt. Wenn man mit Datencenter-Managern spricht, wird deutlich, dass die Branche vorsichtig auf einen technologischen Wandel vorbereitet, der möglicherweise ein Jahrzehnt dauern wird, um vollständig umgesetzt zu werden.

CPO ist jedoch nicht nur ein technisches Problem. Es geht auch um das Verhalten der Anwender, ihre Risikotoleranz, die Kultur der Datencentren und die sich wandelnden Beziehungen zwischen den Käufern von Infrastruktur und ihren Anbietern.

Warum CPO wieder in den Mittelpunkt rückt

CPO ist keine neue Technologie. Das Konzept, Photonik und Elektronik eng zusammen zu verpacken, geht auf IBMs frühe Forschungen in der Supercomputer-Interkonnektion und das Konzept der "flyover"-Interkonnektion zurück. Was sich geändert hat, ist der Aufstieg der Künstlichen Intelligenz, die zum Kern der Workloads in modernen Datencentern geworden ist. Vor der Künstlichen-Intelligenz-Boomzeit wurde CPO als eine vielseitige Innovation für Sensoren, Telekommunikation, Hochleistungsrechnen und Datencenter-Interkonnektion propagiert. Diese "Schrotflinten"-Ansatz hat zunächst für Begeisterung gesorgt, konnte aber letztendlich die Markt Nachfrage nicht aufrechterhalten.

Die von Künstlicher Intelligenz getriebene Nachfrage ist konzentrierter. CPO wird als Lösung für spezifische Probleme in Künstlichen-Intelligenz-Datencentern angesehen: Mit dem Übergang der Branche zu 112G und 224G SerDes und der Annäherung der Switch-ASICs an 51,2T und höheren Kapazitäten steigen die Verluste und der Stromverbrauch bei elektrischen Interkonnektionen. In diesem Kontext ist der Mehrwert von CPO leicht zu verstehen. Indem es die elektrischen Pfade verkürzt und die optischen Schnittstellen näher an die ASICs bringt, verspricht CPO eine höhere Energieeffizienz, eine höhere Bandbreitendichte und ebnet den Weg für zukünftige Super-Switches (51,2T bis 204,8T). Die folgende Tabelle zeigt die allgemeine Einigkeit über die Stärken von CPO.

Das klingt zu gut, um wahr zu sein, und es ist es wahrscheinlich auch. Die Skepsis potenzieller CPO-Anwender rührt daher, dass CPO zunächst komplexer als steckbare Switches ist, während das Frontpanel eines herkömmlichen Datencenter-Gehäuses einfacher und leichter zu warten ist als das eines vergleichbaren CPO-Produkts. Netzwerkadministratoren von vor einigen Jahrzehnten wären schockiert gewesen, wenn sie gewusst hätten, dass die Steckfunktion so einfach aufgehoben werden könnte. Vielleicht kann man etwas Vertrauen wiederherstellen, indem man darauf hinweist, dass das Entfernen der Steckfunktion auch die Fehlerwahrscheinlichkeit vor Ort verringern könnte.

Trotz aller Reden über Kosteneinsparungen bei Kapitalausgaben können die Kosten von frühen CPO-Switches höher sein als die von herkömmlichen steckbaren Switches. Kauft auf eigene Gefahr!

Das wirkliche Empfinden potenzieller CPO-Anwender

Datencenter-Betreiber zeigen eine widersprüchliche Einstellung gegenüber CPO: Sie sind neugierig, aber auch skeptisch. Sie erkennen an, dass CPO technisch attraktiv erscheint, aber befürchten auch, dass es betriebliche Probleme verursachen könnte. Eine Studie von CIR zeigt, dass auch in der herkömmlichen Datencenterbranche (d. h. nicht in hyperskaligen Datencentern) das Wissen über CPO begrenzt ist. Außerhalb der hyperskaligen Umgebungen kennen die meisten Datencenter-Manager CPO kaum. Das gleiche gilt für etablierte Anbieter von steckbaren Transceivern.

Von der Ingenieursicht aus betrachtet, scheint CPO am wichtigsten zu sein, wenn das langfristige Ziel die Erweiterung auf 102,4T ASICs ist. In diesem Fall wird der Stromverbrauch zum limitierenden Faktor, und es gibt Anzeichen, dass eine "sehr hohe" Portdichte erforderlich ist. Dies definiert CPO oft als eine hyperskalige Datencenter-Technologie. In der Tat führen Microsoft, Meta, Google und Amazon bereits interne CPO-Tests durch. Dies geschieht nicht aus experimentellen Gründen. Sie suchen nach Möglichkeiten, um in Zukunft höhere Stromverbrauchsbudgets zu vermeiden. Hyperskalige Datencenter betrachten CPO als Teil eines breiteren architektonischen Wandels: Photonische Strukturen, dichtere Racks und die Möglichkeit, die AI-Cluster und Racks über die Kapazitäten von Kupferkabeln hinaus zu erweitern.

In diesem Sinne betrachten hyperskalige Datencenter-Betreiber CPO nicht als eine isolierte technologische Verbesserung, sondern als ein Schlüsselelement für die nächste Generation von Künstlichen-Intelligenz-Infrastrukturen. Im Gegensatz zu Betreibern von Unternehmensdatencentern und kleineren Cloud- und Edge-Datencentern neigen hyperskalige Datencenter-Betreiber eher dazu, CPO zu nutzen, da sie bereits nicht-traditionelle Lieferkettenmodelle akzeptiert haben. Im Gegensatz zu Unternehmen und Betreibern kleinerer Datencentern ist es hyperskaligen Datencenter-Betreibern egal, wenn die Leistungszuwächse die Mängel der Anbieter kompensieren können. Sie haben Kaufvorteile, ihre Ingenieurteams können auf die Schwächen der Anbieter hin entwickeln, und in vielen Fällen können sie auch maßgeschneiderte Lösungen verlangen. Für hyperskalige Datencenter-Betreiber ist die Frage nicht "Sollten wir CPO einsetzen?", sondern "Wie schnell können wir es industrialisieren?"

"Zuverlässigkeit ist der Schlüssel"

CIR weist darauf hin, dass es außerhalb der hyperskaligen Umgebungen bisher kaum Anzeichen für die Einführung von CPO gibt, obwohl in der Branchenpresse einige kleine Anwender erwähnt werden. Selbst wenn es einige kleine CPO-Einsätze gibt, sind sie nicht bekannt genug und haben nicht genug Einfluss, um einen signifikanten Effekt zu haben. Unternehmen, Hosting-Betreiber und andere kleine Betreiber haben eine völlig andere Unternehmenskultur als hyperskalige Betreiber.

Sie bauen keine großen proprietären Plattformen und haben nur wenige Ingenieure, um komplexe optische Integrationsprojekte zu betreiben. Ihre Einstellung gegenüber CPO wird von einer Reihe unterschiedlicher Prioritäten beeinflusst: Interoperabilität, Mehr-Anbieter-Lieferketten und Wartbarkeit vor Ort. Dies führt zu unterschiedlichen Einführungskurven. Hyperskalige Betreiber werden möglicherweise die ersten sein, die CPO einführen, während andere Marktteilnehmer auf "Beweise", standardisierte Schnittstellen und ein reifes Ökosystem warten. Tatsächlich könnten hyperskalige Betreiber als Testlaboratorien für die Branche fungieren, während Unternehmen und andere kleine Betreiber schließlich den Massenmarkt bilden werden.

LPO und NPO als Komfortzone

Unterdessen ist einer der wichtigsten Trends, der die Einstellung der Anwender beeinflusst, der Aufstieg von "übergangsweisen" Lösungen. CIR betont, dass vorsichtige potenzielle CPO-Anwender nicht direkt von steckbaren Geräten zu vollständigen CPOs wechseln werden. Stattdessen werden sie Zwischenarchitekturen wie NPO und LPO nutzen, die einige Vorteile in Bezug auf Stromverbrauchseinsparung und Signalintegrität bieten, ohne die Modularität vollständig aufzugeben.

Betreiber wählen derzeit eine schrittweise Einführung, weil sie die Produktionsausbeute, die Wärmeableitung oder das Reparatur- und Wartungsmodell von frühen CPOs nicht vertrauen. NPO und LPO ermöglichen es ihnen, kürzere elektrische Leitungen, geringeren DSP-Aufwand und neue elektrische Schnittstellen wie CEI-112G und CEI-224G zu testen, ohne sofort das Betriebshandbuch zu ändern.

LPO ist für Betreiber, die auf Stromverbrauch und Latenz achten, äußerst attraktiv. Indem es den DSP entfernt, verspricht LPO eine Verringerung des Stromverbrauchs und der Latenz, was für die Künstliche Intelligenz (KI) von entscheidender Bedeutung ist. Es bringt jedoch auch einige Einschränkungen mit sich: kürzere Übertragungsdistanzen, strengere Anforderungen an den Host und einen engeren Signalbudget. NPO bietet die Vorteile einer nahen Übertragung ohne vollständige Co-Packaging, wodurch die Risiken in Bezug auf Wärmeableitung und Herstellungskomplexität verringert werden.

Diese Übergangstechnologien sind von entscheidender Bedeutung, da sie die Verbreitungsgeschwindigkeit von CPO beeinflussen werden. CPO ist das "Endziel", aber für Unternehmensbetreiber wird CPO als "Technologie des nächsten Jahrzehnts" angesehen. Viele denken, dass selbst wenn CPO wichtig wird, die Übergangstechnologien Vorteile bringen können, ohne die Risiken des vollständigen Co-Packagings einzugehen.

Die Realität der Wärmeverwaltung und die Rückkehr der Steckbarkeit

Das am häufigsten genannte technische Hindernis für die Anwendung von CPO (integrierte optische Bauelemente) ist die Wärmeverwaltung. Temperaturschwankungen können Wellenlängenverschiebungen, beschleunigte Alterung und Leistungseinbußen verursachen. Das Platzieren von optischen Bauelementen in der Nähe der ASIC selbst bringt wärmebedingte Risiken mit sich. Optische Komponenten - insbesondere Laser und photonische integrierte Schaltungen - haben strenge Anforderungen an die Temperatur. Der CPO-Bericht von CIR zeigt, dass die Wärmeverwaltung derzeit eines der größten Hindernisse für die Anwendung von CPO ist.

Was an den CPO-Lasern am bemerkenswertesten ist, ist jedoch nicht das Paradoxon der Wärmeprobleme an sich, sondern dass sie möglicherweise auf subtile Weise die Steckbarkeit wieder einführen. Derzeit repräsentiert das von der OIF implementierte Protokoll für externe Laser in kleinen Steckformaten (ELSFP: External Laser Small Form Factor Pluggable) ein Kompromiss zwischen vollständiger CPO-Integration und herkömmlichen modularen optischen Bauelementen. Die Logik ist einfach: Laser können ausfallen, ihre Leistung kann nachlassen, und es ist am besten, sie in einem kühleren Bereich zu platzieren. Externe Laser ermöglichen den Austausch, ohne die Switch-ASIC-Verpackung zu beeinträchtigen - in gewisser Weise ist dies die Rückkehr der Steckbarkeit.

Aus Anwendersicht ist ELSFP attraktiv, weil es die "Reparaturangst", die die Diskussionen über CPO belastet, löst. Wenn die Betreiber zumindest den Lasersender austauschen können, ist es ihnen möglicherweise egal, dass sie die Möglichkeit verlieren, den optischen Motor auszutauschen. Dies allein reicht, um das CPO-Modell weniger anfällig erscheinen zu lassen. Allerdings bringt diese externe Lösung auch neue Risiken mit sich, wie z. B. Einfügedämpfung und die Möglichkeit, dass ein Laserausfall mehrere Kanäle beeinträchtigen kann. ELSFP und die Architektur externer Laser werden wahrscheinlich eine wichtige Rolle bei der Förderung ihrer breiten Anwendung spielen.

Der Einfluss der Anbieter: Broadcom und NVIDIA prägen die Wahrnehmung

Die Einstellung der Anwender gegenüber CPO wird auch von der Reputation ihrer Befürworter beeinflusst. Bemerkenswerterweise sind Broadcom und NVIDIA zu wichtigen Anbietern geworden, die die Entwicklung von CPO vorantreiben. Broadcom hat frühzeitig mit seiner Bailly-Plattform den Standard in der Integration von Switch-ASICs festgelegt. Gleichzeitig hat NVIDIA CPO in seine Spectrum-X- und Quantum-X-Plattformen integriert und diese Systeme öffentlich demonstriert, wodurch CPO zu einem beliebten Thema in der Mainstream-Künstlichen-Intelligenz-Branche geworden ist.

Insbesondere die Vorgehensweise von NVIDIA ist bemerkenswert, da sie die Bedürfnisse der Betreiber berücksichtigt. Seine Architektur enthält abnehmbare photonische Komponenten, was bedeutet, dass ein teilweise modulares Modell verwendet wird. Tatsächlich scheint NVIDIA bei der Gestaltung von CPO-Systemen die Herstellbarkeit und den Austausch zu berücksichtigen und erkennt, dass eine reine Verpackungsgestaltung ohne Wartbarkeit schwer zu vermarkten ist.

Die Strategie der Anbieter ist von entscheidender Bedeutung, da Anwender normalerweise nur dann neue Infrastrukturtechnologien einsetzen, wenn sie sich sicher sind, dass es einen "zuverlässigen Anbieterpfad" gibt. Im Netzwerkbereich hängt das Vertrauen oft von der Marke ab. Wenn Betreiber glauben, dass Anbieter durch technische Unterstützung und langfristige Produktstabilität Risiken vermeiden können, werden sie Risiken in Kauf nehmen. Daher sind Broadcom und NVIDIA nicht nur Anbieter, sondern auch Quellen des Vertrauens in CPO.

Angst vor der Lieferkette: "Ist dies wieder eine Anbieter-Lock-In-Falle?"

Trotzdem macht die Kaufweise von CPO die Betreiber nervös. Im steckbaren Modus können Betreiber optische Module von mehreren Anbietern kaufen und sie als austauschbare Waren behandeln. CPO bedroht jedoch dieses Modell. Wenn optische Module in die Switch-Verpackung integriert werden, müssen Betreiber auf das Verpackungssystem und die Austauschrichtlinien des Switch-Anbieters angewiesen sein. Kunden müssen möglicherweise nicht mehr austauschbare Module kaufen, sondern müssen ein integriertes CPO-System von einem einzigen Anbieter oder Partner beschaffen. Ein weiteres Problem ist, dass CPO möglicherweise dazu führt, dass bei einem Ausfall eines optischen Moduls die Leiterplatte, die Linekarte oder sogar die gesamte Switch-Komponente ausgetauscht werden muss. Datencenter-Manager wollen solche Nachrichten nicht hören. CPO widerspricht der Intuition der Betriebsteams. Viele werden CPO als "Anbieter-Lock-In in Disguise" interpretieren.

Deshalb ist die Interoperabilitätsarbeit von Organisationen wie der OIF und der Advanced Photonics Alliance so wichtig. Anwender interessieren sich nicht nur für die Leistung, sondern auch für die Reife des Ökosystems und die Reputation von mehreren Anbietern.

Die tatsächlichen Entwicklungstrends der CPO-Anwendung: Ein Dreiphasenmodell

Mit zunehmendem Vertrauen der Betreiber in die Gerätetests, die Lieferkette, die Kabelverwaltung und die Kühlung wird das CPO-Marktvolumen kontinuierlich steigen. Wie bei allen solchen Technologien wird das Wachstum von CPO, wenn es erfolgreich ist, nicht-linear sein.

Von Skepsis zu Akzeptanz (2026 - 2028): CPO wird ein Hilfsmittel für hyperskalige KI-Cluster sein, nicht jedoch eine Mainstream-Netzwerktechnologie. Die kontinuierliche Erweiterung der KI-Architektur wird zu einer eingehenderen Bewertung von CPO führen. Die einschränkenden Faktoren werden die noch ungelösten Probleme bei Lasern, Verpackungsausbeute, Wärmeentwicklung und Tests sein.

Von Akzeptanz zu Ab

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。