Von Rechenleistung zu Wert: Rekonstruktion der Infrastruktur und neue Triebkraft für das industrielle Wachstum in der Ära der Künstlichen Intelligenz | 2026 AI Partner · AI + Industrie-Konferenz in Yizhuang, Peking
Wie wird die Token-Ökonomie die AI-Industriechain neu gestalten? Vom Chip bis zum intelligenten Rechenzentrum, von der Modellserviceleistung bis zur Endanwendung wird Token zum Bewertungsmaßstab, der die gesamte Chain durchzieht. Wenn der Bedarf an Inferenzrechenleistung die Trainingsrechenleistung übersteigt, wandelt sich die Rolle des intelligenten Rechenzentrums von einem Rechenleistungslager zu einer Token-Fabrik. Die Tore eines Billionenmarktes haben gerade geöffnet.
Token wird zur neuen Produktivitätseinheit der AI-Zeit. Song Chen hat darauf hingewiesen, dass mit Agent als neuer Interaktionsschnittstelle der Token-Verbrauch pro Aufgabe von einigen tausend auf Millionen gestiegen ist und dass die Token-Aufrufe in China bereits 61 % der globalen Aufrufe ausmachen. Unter dieser Tendenz verschiebt sich der Wettbewerbsschwerpunkt der AI-Infrastruktur von „Wer hat die größeren Modellparameter“ hin zu „Wer kann die Massen-Token-Umsätze mit geringeren Kosten unterstützen“. Yingbo Digital ist als Vollstack-Bauer einer „Token-Fabrik“ positioniert – es entwickelt keine Modelle und verkauft keine Anwendungen, sondern bietet eine One-Stop-Lösung für intelligente Rechenzentren, von der Planung und Konzeption bis zur Lieferung von Hardware und Software.
Im Folgenden der vollständige Text des Vortrags, bearbeitet von 36Kr:
Song Chen | stellvertretender Generaldirektor von Beijing Yingbo Digital Technology Co., Ltd.
Sehr geehrte Gäste, guten Nachmittag! Ich bin Song Chen von Yingbo Digital. Ich bin sehr geehrt, eingeladen zu werden, an der 2026 AI Partner-Konferenz, organisiert von 36Kr, teilzunehmen und mit Ihnen über die Zukunft der AI-Infrastruktur zu diskutieren.
Das Thema meines Vortrags heute lautet: „Von Rechenleistung zu Wert: Die Umgestaltung der Infrastruktur und der neue Motor für das Wachstum der AI-Industrie in der AI-Zeit.“
In den nächsten Minuten möchte ich mit Ihnen drei Kernthemen teilen: Erstens, wie die Token-Ökonomie die Wertanker der AI-Industrie neu gestaltet; zweitens, wie die Wertkette von Elektrizität über Rechenleistung bis hin zu Token den Wachstumspfad der Industrie neu formt; und drittens, was ich heute am meisten ausführlich besprechen möchte – die Überlegungen und Praktiken von Yingbo Digital als Vollstack-Bauer intelligenter Recheninfrastruktur in dieser industriellen Transformation.
Nun, lassen Sie uns zunächst in den ersten Teil – die Token-Ökonomie – eintauchen. Warum stelle ich Token an den Anfang meines gesamten Vortrags? In meiner Ansicht wird Token zur grundlegenden Wertseinheit der AI-Zeit. Nur wenn man Token versteht, kann man die zugrunde liegende Logik der heutigen AI-Industrie verstehen.
Der Ausbruch der Token-Ökonomie wird nicht von einem einzigen Faktor getrieben, sondern ist das Ergebnis der Resonanz von drei Dimensionen.
Die erste Dimension ist die qualitative Veränderung der Anwendungsfälle. Mit Agent als neuer Interaktionsschnittstelle ist der Token-Verbrauch pro Aufgabe von einigen tausend in der Vergangenheit auf Hunderttausende oder sogar Millionen gestiegen.
Die zweite Dimension ist das funktionierende geschlossene Geschäftsmodell. Seit 2025, mit der zunehmenden Umsetzung von Anwendungen, insbesondere der Popularität von Agent-Anwendungen wie Lobster in diesem Jahr, hat AI tatsächlich in den Arbeitsablauf Eingang gefunden und allmählich ein geschlossenes Geschäftsmodell gebildet.
Die dritte Dimension ist die Festlegung der nationalen Strategie. Intelligente Rechenleistung wird offiziell in das neue Infrastrukturprojekt aufgenommen, was bedeutet, dass auf politischer Ebene die Grundlage für die Token-Ökonomie die höchste Unterstützung erhalten hat.
Token wird zur neuen Produktivitätseinheit der AI-Zeit.
Der Aufstieg der Token-Ökonomie hat eine von oben nach unten gerichtete Umgestaltung des Wertes in der Industriechain ausgelöst.
Schauen wir uns diese Wertkette an. Auf der Chip-Ebene beschleunigt sich die Spezialisierung von GPU und ASIC, und die Token-Berechnungsdichte wird zum Kernkriterium. Auf der Ebene des intelligenten Rechenzentrums ist die größte Veränderung, dass es sich von einem „Rechenleistungslager“ zu einer „Token-Produktionsfabrik“ wandelt. Auf der Modell-Ebene macht das MaaS-Modell aus „Technologie“ ein „Produkt“, und die Abrechnung nach Token wird zur Norm. Auf der Anwendungs-Ebene wird Agent zur neuen Interaktionsschnittstelle und entwickelt sich von einem „Werkzeug“ zu einer „Produktivkraft“.
Was durch diese vier Ebenen hindurchzieht? Token. Als Bewertungsmaßstab durchzieht Token die Chip-Entwicklung, das intelligente Rechenzentrum, die Modellserviceleistung und die Endanwendung. So wird eine vollständige Wertkette gebildet.
Wo positioniert sich Yingbo Digital in dieser Wertkette? Wir konzentrieren uns auf die Ebene des intelligenten Rechenzentrums – also den „Fabrik“-Schritt der Token-Produktion. Wir bieten für diese Fabrik Vollstack-Fähigkeiten von der Planung und Konzeption bis zur Lieferung von Hardware und Software.
In dieser Transformation gibt es eine sehr wichtige strukturelle Veränderung – die Verschiebung von „Trainingspriorität“ hin zu „Inferenzpriorität“.
Aus diesem Trenddiagramm kann man sehen, dass 2024 die Trainingsrechenleistung noch 60 % ausmachte, bis 2027 wird sie voraussichtlich auf 35 % sinken, während die Inferenzrechenleistung von 40 % auf 65 % steigen wird. Dies ist nicht einfach ein Wechselspiel, sondern eine grundlegende Veränderung des Rechenparadigmas.
Beim Training geht es um Massenparallelität und Durchsatz, beim Inferenzverfahren um geringe Latenz, hohe Konkurrenzfähigkeit und die Kosten pro Token. Dies bestimmt direkt, dass die Entwurfslogik des intelligenten Rechenzentrums völlig unterschiedlich ist – in Bezug auf die Ressourcenmerkmale erfordert das Training eine hohe Grafikspeicher-Kapazität für die Massenverarbeitung, während die Inferenz elastische Skalierbarkeit und Echtzeitantwort erfordert. Für uns, die Infrastrukturbauer, bedeutet dies, dass die gesamte technische Architektur neu überdacht werden muss.
Die Prognosen von IDC zeigen, dass der Bedarf an Inferenzrechenleistung fünf- bis zehnmal so hoch wie in der Trainingsphase werden könnte. 2026 wird die Inferenzberechnung mehr als 70 % des gesamten Rechenbedarfs bei generativer AI ausmachen.
Noch bemerkenswerter ist die Erhöhung des Rechenleistungsbedarfs durch die Multimodalität – die Länge der Kontextsequenz steigt von Tausenden auf Millionen, was bedeutet, dass der Rechenleistungsverbrauch pro Anfrage exponentiell ansteigt.
Diese Zahlen sagen uns eines: Die Inferenzzeit ist da, und die Infrastruktur muss sich auf diese neue Zeit vorbereiten.
Die Marktstatistiken bestätigen dies weiter. 2025 erreichte der globale Markt für intelligente Rechenzentren ein Volumen von 185 Milliarden US-Dollar und wird voraussichtlich bis 2029 über 550 Milliarden US-Dollar hinauswachsen. Der chinesische Markt wächst noch schneller. 2025 erreichte das Volumen des chinesischen Marktes für intelligente Rechenzentren 135,6 Milliarden Yuan, und die Gesamtkapazität an intelligenter Rechenleistung betrug 1,59 Milliarden P.
Dies ist ein Billionenmarkt in explosiver Expansion, und wir stehen am Anfang dieser Wachstumskurve.
Nachdem wir die zugrunde liegende Logik der Token-Ökonomie verstanden haben, schauen wir uns den zweiten Teil an – den neuen Wachstumspfad der Industrie. Ich möchte eine zentrale These aufstellen: Die „Kosten pro Token“ werden zum neuen Wettbewerbsmaßstab für die AI-Infrastruktur.
Wir zerlegen die Wertkette in drei Ebenen. Die unterste Ebene ist die Elektrizitätsebene – Elektrizität wird zur „Öl der Rechenleistungszeit“ und ist die grundlegende Beschränkungsbedingung für die Token-Produktion. Die „Kohärenz zwischen Rechenleistung und Elektrizität“ wurde in das neue Infrastrukturprojekt aufgenommen, was eine nationale Strategie darstellt.
Die mittlere Ebene ist die Rechenleistungsebene – das intelligente Rechenzentrum ist im Wesentlichen eine Token-Produktionsfabrik. In China wurden bereits 42 Cluster mit Tausenden von Grafikkarten aufgebaut, und die intelligente Rechenleistung erreicht 1,59 Milliarden P. Die Rechenleistung wandelt sich von einem Kostenzentrum zum Kern der Preisfestlegung.
Die oberste Ebene ist die Token-Ebene – Token ist ein handelbares „intelligentes Geld“. Die Token-Aufrufe in China haben die USA überholt und machen 61 % der globalen Aufrufe aus. Dies markiert unseren Übergang von einem großen Exportland für Fertigwaren hin zu einem großen Exportland für AI-Produktivkraft.
Das Geschäftsmodell durchläuft ebenfalls eine tiefgreifende Entwicklung. Ich fasse diese Entwicklung in drei Epochen zusammen.
In der 1.0-Epoche „verkaufen wir Hardware“ – wir verkaufen Grafikkarten und Server und verbuchen das Einkommen einmalig. In der 2.0-Epoche „verkaufen wir Ressourcen“ – wir vermieten Rechenleistung nach Servermonaten oder Grafikkartenstunden, ähnlich dem Modell des „Verkaufs von Wasser und Strom“.
Jetzt gehen wir in die 3.0-Epoche – das „Verkaufen von Intelligenz“. Wir rechnen nach Token, setzen Stufenpreise und liefern die Intelligenzdienstleistung selbst. Dies ist nicht einfach eine Veränderung der Abrechnungsweise, sondern ein Sprung im gesamten industriellen Wertversprechen.
Die neuesten Marktzeichen sind sehr klar: 2026 haben die globalen Cloud-Anbieter die Preise um 30 % bis 100 % erhöht, und die täglichen Token-Aufrufe von großen Modellen in China haben bereits 180 Billionen überschritten. Der Verkäufermarkt hat begonnen, und die Rechenleistung wandelt sich von einem Kostenzentrum zum Kern der Preisfestlegung.
Die Bühne der intelligenten Ökonomie hat erst begonnen, und die Token-Kommerzialisierung befindet sich noch in der Anfangsphase. Dies ist der beste Zeitpunkt für die Planung.
In den ersten beiden Teilen haben wir über die Logik und die Trends gesprochen. Jetzt kommen wir zum Teil, den ich am meisten mit Ihnen teilen möchte – die Praktiken von Yingbo Digital. Wer sind wir? Wir sind nicht nur Anbieter von „Produktionsausrüstung“, sondern auch Designer, Bauherren und Hersteller von Betriebsstandards für die gesamte Token-Fabrik.
Dies ist unsere Vollstack-Lösung für intelligente Rechenzentren, die die gesamte Lebensdauer des Aufbaus eines intelligenten Rechenzentrums abdeckt, von der untersten technischen Architektur bis zur obersten kommerziellen Betriebsebene.
Bei der Clusterplanung und -entwicklung bieten wir ein Standard-Netzwerkplan mit vier Ebenen – Verwaltung, Speicher, Rechenleistung und BMC-Netzwerke sind getrennt, um eine effiziente Isolierung und Steuerung des Netzwerkverkehrs zu ermöglichen. Dies ist die Grundlage für den stabilen Betrieb eines Clusters mit Tausenden von Grafikkarten.
Bei der Lieferung von Hardware und Software bieten wir ein komplettes Integrationspaket für GPU-Hosts, Netzwerke und Speicher, zusammen mit der Yingbo Cloud GPU PaaS-Plattform, um die Integrationsschwierigkeiten und die Einführungszeit für die Kunden erheblich zu verringern.
Bei der flexiblen Abrechnungsweise unterstützen wir vier Modelle: Bezahlung nach Verbrauch, Jahres- oder Monatsvertrag, Nutzung von ungenutzter Kapazität und zeitliche Reservierung, um den vielfältigen Anwendungsfällen der Kunden gerecht zu werden – das Training von großen Modellen erfordert die Stabilität eines Jahres- oder Monatsvertrags, die digitale Werbung erfordert die Flexibilität der On-Demand-Nutzung, die Videoerstellung eignet sich für die Kostensenkung im Spot-Modell, und die akademische Forschung und Lehre können je nach Zeitraum flexibel kombiniert werden.
Bei der Account-Struktur haben wir ein System von Unterkonten und Verbundkonten entwickelt, das die Ressourcenverteilung für mehrere Organisationen und die detaillierte Kostenrechnung unterstützt. Dies ist für große Unternehmenskunden, Forschungsteams und Betreiber von Rechenleistungskooperationen von entscheidender Bedeutung.
Bei der technischen Architektur haben wir zwei Kerninnovationen. Die erste ist die K8S Native-Architektur – sie gibt den Kunden die Kontrolle auf Bare-Metal-Ebene und behält gleichzeitig die Benutzerfreundlichkeit auf SaaS-Ebene. Die zweite ist die DICP (Dynamische Isolierungssteuerungsebene) – jeder Benutzer hat einen eigenen API-Server und einen eigenen CRD-Raum, was die Sicherheit und Isolierung in einer Multi-Tenant-Umgebung grundlegend gewährleistet.
Zusammengefasst: Mit unseren Vollstack-Technologiefähigkeiten und unserer reichen Projektpraxis bietet Yingbo Digital eine One-Stop-Lösung für intelligente Rechenzentren, von der Planung und dem Bau bis zum Betrieb.
Fähigkeiten müssen in der Praxis überprüft werden. Ich möchte Ihnen zwei Leitprojekte vorstellen.
Das erste ist die öffentliche Rechenleistungsplattform in Beijing. Dies ist eine technologisch fortschrittliche, funktionsreiche und erstklassige Künstliche-Intelligenz-Infrastruktur, die von Yingbo Digital für die Jingneng Group entwickelt wurde und der digitalen Wirtschaft der Hauptstadt starke Rechenleistung unterstützt. In diesem Projekt übernahm Yingbo Digital die gesamte Lebensdauer des Projekts, von der anfänglichen Bedarfsanalyse und Ressourcenplanung bis zur Auslieferung von Geräten, der Netzwerkinstallation, der Bereitstellung der Rechenleistung und der Verwaltungsp Plattform während der Implementierungsphase sowie der effizienten und stabilen Betriebsdienstleistung und der kontinuierlichen Systemoptimierung während der Betriebsphase. Dieses Projekt hat unsere Fähigkeit zur One-Stop-Vollstack-Lieferung vollständig bestätigt.
Das zweite ist die Rechenleistungsplattform für das Training und die Inferenz von Top-Großmodellen. Dies ist ein markantes Projekt von Yingbo Digital im Bereich der supergroßen intelligenten Rechenzentren. Die Kernanforderung des Kunden war die Integration von Training und Inferenz – die Trainingsressourcen mussten reserviert werden, und die Inferenz musste in Sekunden skaliert werden können. Wir haben einen maßgeschneiderten Rechenleistungskluster mit Tausenden von Grafikkarten und hoher Interkonnektivität geliefert, der mit dem selbst entwickelten Trainingsframework des Kunden kompatibel ist, und bieten 24/7 Vollketten-Betriebsunterstützung.
Dieses Projekt hat mehrere Schlüsselerfolge: die Fähigkeit zur Multi-Region-Deployment, die Vollketten-Technologieunterstützung von der Installation bis zur Optimierung, die effiziente Planung der Integration von Training und Inferenz, die 24/7 professionelle Betriebsunterstützung und die flexible Abrechnungsweise, die den Kunden bei den Rechenleistungskosten erheblich sparen lässt.
Diese beiden Projekte repräsentieren jeweils unser höchstes Niveau in den Bereichen „öffentlicher Rechenleistungsservice“ und „Unternehmens-Infrastruktur für Großmodelle“.
Technologische Innovationen benötigen die Unterstützung einer Ökosystem. Yingbo Digital hat sich sowohl im Bereich des GPU-Cloud-Services als auch in der Zusammenarbeit zwischen Industrie, Hochschule und Forschung tiefgehend engagiert.
Im Bereich des GPU-Cloud-Services decken wir mehrere Kernanwendungsfälle ab, wie das Training und die Inferenz von Großmodellen,