15% Mehr Rechenleistung Ohne Zusätzliche GPU: Branche Großer Sprachmodelle setzt auf Netzwerkoptimierung

Diese Umstellung von der "Ansammlung von Hardware" auf die "Effizienzsteigerung" hat bereits eine tatsächliche Auswirkung auf die obere Supply Chain. Die Anzahl der benötigten Switches und optischen Module für die ZCube-Architektur ist im Vergleich zum ursprünglichen Plan um ein Drittel geringer.

In den letzten zwei Jahren gab es nur eine Standardaktion in der Rechenleistungswaffenruhe des gesamten Branchensektors: Die Anschaffung von mehr GPUs, der Aufbau größerer Cluster und die Erhöhung der Rechenleistung.

Aber jetzt wird dieser Weg neu überprüft.

Kürzlich hat Zhipu erstmals eine in einem Produktionscluster validierte Architekturinnovation - die ZCube-Netzwerkarbeitur - veröffentlicht.

Eine Reihe von Daten zeigt: Ohne Hinzufügung von GPUs, ohne Austausch von Servern und sogar ohne Änderung einer einzigen Zeile des Anwendungs-Codes, stieg der Inferenzdurchsatz des Clusters direkt um 15%, und die P99-End-Latenz der TTFT (Zeit bis zum ersten Token) sank um 40,6%. Diese Zahlen stammen aus echten Produktionsdaten, nicht aus Labor-Simulationen.

Für eine Plattform für API-Zugriffe auf große Modelle, die Hunderttausenden von Entwicklern dient, bedeutet dies, dass die gleiche Hardware-Infrastruktur 15% mehr gleichzeitige Anfragen pro Sekunde bewältigen kann, und die Wartezeit bei Spitzenlasten wird erheblich verkürzt. Die 40%-ige Reduzierung der P99-End-Latenz bestimmt direkt, wie stark das von Endbenutzern wahrgenommene "Stocken" verringert werden kann.

Was die Branche besonders interessiert, ist die Veränderung der Kostenstruktur. Laut Zhipu benötigt die ZCube-Architektur ein Drittel weniger Switches und optische Module als das bisherige Konzept. Je größer das Ausmaß, desto höher ist der absolute Betrag der Einsparung. In einem Markt mit stetig steigendem Inferenzbedarf und insgesamt knapper Rechenleistungslieferung bedeutet diese Effizienzsteigerung, die ohne Hardwareänderungen, sondern nur durch Netzwerkanpassungen erreicht wird, eine Kosteneffizienz-Neubewertung der vorhandenen Rechenleistungsmittel.

Zhipu ist nicht die einzige, die sich um Rechenleistung kümmert

Zhipu hat nur begrenzte technische Details veröffentlicht, aber die Kernlogik ist klar: Wenn Tausende oder sogar Tausende von GPUs in einem Cluster gleichzeitig Inferenzanfragen verarbeiten, müssen bei jeder Übertragung von KV-Cache zwischen Karten und bei jeder Datensynchronisierung die Netzwerke zwischen den GPUs durchquert werden. Die Effizienzgrenze dieses Netzwerks bestimmt direkt, wie viel reale Rechenleistung die GPUs tatsächlich entfalten können. Der Ansatz von ZCube besteht darin, das "Straßennetz" auf der Topologieebene neu zu planen und Staus von Grund auf zu vermeiden - anstatt erst zu reagieren, wenn es zu Staus kommt.

Fast gleichzeitig hat ein anderes Ereignis diese Richtung noch stärker bekräftigt.

OpenAI hat gemeinsam mit fünf Giganten - NVIDIA, AMD, Intel, Microsoft und Broadcom - das MRC (Multi-Path Reliable Connection)-Netzwerkprotokoll offiziell veröffentlicht. Dies ist ein offenes Netzwerkprotokoll für ultraskalige KI-Cluster, das derzeit in allen größten Supercomputer-Clustern von OpenAI, einschließlich des Oracle-Supercomputers in Abilene, Texas, und des Microsoft-Fairwater-Supercomputers, zur Trainierung von fortschrittlichen Modellen wie ChatGPT eingesetzt wird.

Betrachtet man diese beiden Ereignisse zusammen, zeigt sich, dass sie auf die gleiche Einschätzung hinweisen: Wenn GPU-Cluster von der Größenordnung von Tausenden auf Zehntausenden von Karten wachsen, ist das Netzwerk nicht mehr nur ein passives "Verbindungsglied", sondern eine zentrale Variable, die die Gesamteffizienz begrenzt.

Ihre technischen Ansätze sind jedoch völlig unterschiedlich. MRC optimiert die "Verkehrsregeln" auf der Protokollebene; ZCube hingegen rekonstruiert das "Straßennetz" auf der Architekturebene - indem es die strukturellen Ursachen von Staus auf der Topologieebene beseitigt. Ein weicher und ein harter Ansatz, die zum gleichen Ziel führen.

Wenn man den Blick erweitert, wird deutlich, dass die Tendenz, "nicht mehr nur auf Hardware zu setzen, sondern Effizienz aus der Infrastruktur und der Systemarchitektur herauszuholen", allmählich eine subtilere Wende in der Branche darstellt.

Aus Sicht der Hardware hat die neueste NVIDIA-Blackwell-Ultra-Architektur durch das NVFP4-Präzisionsformat und die Beschleunigung der Attention-Schicht bei DeepSeek-R1-Inferenzaufgaben einen etwa mehrfachen Durchsatz im Vergleich zur Basisversion GB200 erreicht. Das von Google entwickelte siebte TPU-Generationsmodell Ironwood hat eine bis zu vierfache Trainings- und Inferenzleistung pro Chip im Vergleich zum Vorgängermodell Trillium.

Aus Sicht von Chip-Startups dringen auch eine Reihe von Nicht-GPU-Architekturen, die speziell für Inferenzaufgaben entwickelt wurden, zunehmend in den Markt ein. Groq, das sich auf extrem niedrige Latenzzeiten spezialisiert hat, hat mit seinem LPU auf dem Llama 2 70B-Modell eine Geschwindigkeit von 300 Tokens pro Sekunde erreicht, was zehnmal schneller ist als ein H100-Cluster. Das Wafer-Level-Chip-Unternehmen Cerebras behauptet, dass seine Inferenzgeschwindigkeit in mehreren Tests die von NVIDIA Blackwell übertrifft.

Aus Sicht der Modellarchitektur selbst hat Qwen3-Next von Tongyi Qianwen durch einen hybriden Attention-Mechanismus und eine hochsparsame MoE-Architektur die Trainingskosten auf weniger als ein Zehntel des bisherigen Niveaus reduziert und den Inferenz-Kontext-Durchsatz um mehr als das Zehnfache erhöht. Die von DeepSeek entwickelte spärliche Attention-Technologie hat die Inferenzgeschwindigkeit für lange Texte im neuen Modell um das Zwei- bis Dreifache im Vergleich zum Vorgängermodell erhöht und die API-Aufrufkosten fast halbiert.

Allen diesen Ansätzen ist gemeinsam, dass sie nicht mehr nur auf die Anschaffung von mehr Karten setzen, sondern stattdessen versuchen, einen höheren Output aus den vorhandenen Rechenleistungsmitteln und begrenzten zusätzlichen Investitionen zu erzielen.

Wenn "Karten kaufen" nicht mehr die einzige Lösung ist

Diese Wende von "Hardware aufstocken" zu "Effizienz steigern" hat bereits Auswirkungen auf die Lieferkette.

Die direktesten Veränderungen betreffen die Netzwerkequipmentseite. Das ZCube-Konzept reduziert den Verbrauch von Switches und optischen Modulen um ein Drittel, und das MRC-Protokoll fördert die Verwendung von Zwei-Ebenen-Switch-Netzwerken anstelle der herkömmlichen Drei- bis Vier-Ebenen-Architektur. Die Kombination dieser beiden Faktoren bedeutet, dass sich die Beschaffungslogik für KI-Cluster strukturell ändern wird: Die Nachfrage nach High-End-Switches wird von "mehr Ebenen" hin zu "weniger Ebenen, aber höherer Portdichte" verschieben, und die optischen Module werden sich zunehmend auf 800G und höhere Übertragungsraten konzentrieren.

Tatsächlich bestätigen die Marktstatistiken diesen Trend. Laut LightCounting wird die Liefermenge von 800G-optischen Modulen im Jahr 2025 im Vergleich zum Vorjahr verdoppelt, und 1,6T-optische Module werden erstmals ausgeliefert. Es wird vorausgesagt, dass die Liefermenge von 800G-Modulen im Jahr 2026 erneut verdoppelt werden wird, und die 1,6T-Module werden von einer geringen Basis in 2025 auf die Größenordnung von Tausenden von Millionen von Ports ansteigen.

Aus Sicht des Kapitalmarktes wird die KI-Netzwerk-Infrastruktur von einer "Zusatzleistung" für Tausend-Karten-Cluster zu einem zentralen Wertschöpfungselement in der Wertschöpfungskette. Einige Analysten prognostizieren, dass der Gesamtumsatz von Datencenter-Switches im Jahr 2026 um 86% im Vergleich zum Vorjahr steigen wird. Die vier großen Cloud-Anbieter Google, Amazon, Microsoft und Meta planen für das Jahr 2026 Kapitalausgaben in Höhe von Hunderten von Milliarden von US-Dollar. In Kombination mit dem langfristigen Trend, dass das MRC-Protokoll das Ethernet in Supercomputer-Clustern zunehmend anstelle von InfiniBand einsetzt, befinden sich die Wertschöpfungsketten für 800G/1,6T-optische Module, Hochdichte-Ethernet-Switches und die dazugehörigen Chips und Kabel in einer Phase der Nachfragestrukturumgestaltung.

Zhang Youyu, Generalsekretär der AI-Sonderkommission der Peking Computer Society und speziell ernanntes Forschungsmitglied an der Peking-Universität, sagte einem Reporter der "Science and Technology Innovation Board Daily", dass die von Zhipu veröffentlichte ZCube-Praxis in der Branchenkontext zwei Bedeutungen hat, wenn man die Zeitachse betrachtet.

Die erste Bedeutung liegt auf technischer Ebene. Sie hat mit echten Produktionsdaten bewiesen, dass in Clustern mit Tausenden oder sogar Zehntausenden von Karten die Netzwerkarchitektur selbst ein unabhängiger Effizienzhebel sein kann und die marginalen Umstellungskosten äußerst gering sind. Wenn die gesamte Branche Geld für die Anschaffung von GPUs ausgibt, ist diese Art der Effizienzsteigerung, die mit wenig Aufwand viel bewirkt, offensichtlich kostengünstiger als die Bestellung weiterer Chips.

Die zweite Bedeutung liegt auf kommerzieller Ebene. Für Plattformunternehmen mit einer großen Anzahl von vorhandenen GPUs sind die Hardware-Abschreibungen feste Kosten. Wer mehr Token-Ausgaben aus den vorhandenen Mitteln herausholen kann, hat einen Kostenvorteil in einem Markt, in dem die API-Preise stetig sinken. Die 15%-ige Steigerung des Durchsatzes und die Einsparung von einem Drittel an Netzwerk-Hardware durch Zhipu bedeuten bei einer Million gleichzeitiger Anfragen eine beträchtliche Optimierung der Betriebskosten.

Dieser Artikel stammt aus dem WeChat-Account "Science and Technology Innovation Board Daily", Autor: Li Mingming, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

15% mehr Rechenleistung ohne zusätzliche GPU: Die Branche der großen Sprachmodelle setzt auf Netzwerkoptimierung

Zhipu ist nicht die einzige, die sich um Rechenleistung kümmert

Wenn "Karten kaufen" nicht mehr die einzige Lösung ist