StartseiteArtikel

GMI Cloud: Expandieren ins Ausland ist der beste Weg für KI-Unternehmen, um ihre Produktivität freizusetzen und Neues zu erlangen | WISE 2025

邱晓芬2025-12-08 18:43
Die Kernherausforderungen für die Expansion von KI-Anwendungen ins Ausland liegen in der Echtzeitfähigkeit, Skalierbarkeit und Stabilität der Modell-Inferenzdienste.

Am 27. und 28. November fand die von 36Kr organisierte WISE2025 Business King Conference, die als „Jährlicher Leitfaden für Technologie und Geschäft“ bekannt ist, im Conduction Space im 798 Kunstgebiet in Peking statt.

Dieses Jahr war die WISE nicht mehr eine herkömmliche Branchensummit, sondern ein immersives Erlebnis in Form einer „Technologie-Sensation-Serie“.

Vom Neudefinieren der Hardwaregrenzen durch KI bis hin zum Öffnen der Türen zur realen Welt durch Embodied Intelligence; von der Globalisierung von Marken in der Auslands Expansion bis hin zum Einbau von „Künstlichen Gliedmaßen“ in traditionelle Branchen – wir stellen nicht nur Trends dar, sondern erfassen auch die Erkenntnisse, die in unzähligen Geschäftspraktiken gewonnen wurden.

In den folgenden Abschnitten werden wir Schritt für Schritt die wahre Logik hinter diesen „Sensation-Serien“ aufschlüsseln und gemeinsam die einzigartigen Geschäftslandschaften von 2025 entdecken.

Bei dieser Konferenz hielt Qian Yujing, der VP Engineering von GMI Cloud, einen Vortrag mit dem Titel „Steigerung der Effizienz von KI-Anwendungen bei der Auslands Expansion · Überwindung von Rechenleistungsschranken und Evolution der Inferenzarchitektur“.

GMI Cloud ist ein nordamerikanischer AI Native Cloud-Dienstleister und einer der ersten sechs Referenz-Cloud-Partner von NVIDIA.

Qian Yujing ist der Meinung, dass für die Weltbevölkerung die vielfältige Entwicklung von KI-Anwendungen bereits einen Höchststand erreicht hat und die Auslands Expansion die beste Möglichkeit für chinesische Unternehmen ist, ihre Produktionskapazitäten auszulösen und Neues zu erschaffen.

Derzeit durchläuft die chinesische KI-Auslands Expansion eine Paradigmenwende – von der einstigen einseitigen Technologietransferrichtung hin zur Transformation hin zu globaler Rechenleistung, globalen Bedürfnissen und globalem Wert. Hinter diesem Wandel verbirgt sich eine heimliche globale Wertresonanz.

Qian Yujing

Im Folgenden finden Sie die Transkription von Qian Yujings Vortrag, bearbeitet von 36Kr

Sehr geehrte Damen und Herren, guten Nachmittag!

Mein Name ist Yujing, und ich bin der VP of Engineering von GMI Cloud, zuständig für alle Engineering-Projekte. Heute möchte ich Ihnen über die Steigerung der Effizienz von KI-Anwendungen bei der Auslands Expansion sprechen, sowie darüber, wie wir die Rechenleistungsschranken überwinden und die Inferenzarchitektur verbessern können, um die Effizienz von KI-Anwendungen bei der Auslands Expansion zu erhöhen.

GMI Cloud ist noch ein relativ neues Unternehmen, daher möchte ich Ihnen hier kurz etwas über uns erzählen.

Wir sind ein Unternehmen, das sich auf die Auslands Expansion von KI-Infrastruktur spezialisiert hat. Wir sind einer der ersten sechs Referenz-Cloud-Partner von NVIDIA und konzentrieren uns hauptsächlich auf unsere KI-Hardware und die darüber liegende Inferenzarchitektur.

Derzeit hat GMI Cloud drei Produktlinien – die unterste Ebene ist die Rechenhardware, die mittlere Ebene ist die Clusterverwaltung und die oberste Ebene ist der Inferenzdienst auf MaaS-Ebene. Wir bieten auf diesen drei Ebenen die erforderlichen Fähigkeiten für verschiedene KI-Unternehmen.

Wir haben eigene Rechenzentren in vielen Teilen der Welt (Ostasien, Südasien, Nordamerika, Europa, Kanada) errichtet. Kürzlich haben wir gemeinsam mit NVIDIA in Asien für 500 Millionen US-Dollar eine KI-Fabrik mit einer GB300-Millionenkarten-Cluster errichtet. In China richten wir uns hauptsächlich an chinesische KI-Unternehmen, die in den Auslandseinsatz gehen möchten, und helfen ihnen dabei, erfolgreich in den Auslandseinsatz zu starten.

Jetzt kommen wir zum Kern der Sache. Welche Trends in der Auslands Expansion hat GMI Cloud im Jahr 2025 beobachtet?

In diesem Jahr haben einige Menschen das Gefühl, dass die KI einen großen Blasen hat, während andere an die KI glauben und meinen, dass die KI-Anwendungen in Zukunft exponentiell wachsen werden. Aus Sicht eines Rechenleistungsdienstleisters oder Dienstleisters können wir beobachten, dass der KI-Markt tatsächlich in einer exponentiellen Wachstumskurve ansteigt.

Obwohl verschiedene Unternehmen und Analysten unterschiedliche Analysen über den Markt im zweiten Halbjahr 2025 oder 2026 haben, ist die Gesamtrichtung weiterhin aufwärts gerichtet. Wir können beobachten, dass die monatlichen aktiven Benutzer von chinesischen KI-Anwendungen im Ausland weiterhin ansteigen.

Die Weltbevölkerung, insbesondere in Nordamerika, hat sich an das aktive Aufnehmen von KI gewöhnt, und die Nutzung von KI-Anwendungen hat einen Höchststand erreicht. Über 90 % der amerikanischen Wissensarbeiter nutzen bereits sehr bequem KI-Tools.

Wie Sie wissen, ist die Bezahlsoftware in China ein Geschäft mit hoher Homogenität und hohen Kundenakquise-Kosten. Das heißt, dass die Barrieren für SaaS in China sehr hoch sind.

Aber in den Mittleren Osten und Lateinamerika ist es erstaunlich, dass die KI-Anwendungen bereits einen relativ hohen Stand erreicht haben. Das heißt, dass die Benutzeraufklärung im Auslandsmarkt im Wesentlichen abgeschlossen ist, was einen großen Bedarfshub für unsere Auslands Expansion bedeutet. Daher ist die Auslands Expansion die beste Möglichkeit, um die Produktionskapazitäten auszulösen und Neues zu erschaffen.

Natürlich haben viele chinesische Unternehmen diesen Trend bereits erkannt. In den letzten zwei Jahren haben viele chinesische Unternehmen KI-Dienste ins Ausland expandiert, was zu einem exponentiellen Anstieg der KI-Inferenzanforderungen geführt hat. Dies ist etwas, das wir als Rechenleistungsdienstleister deutlich spüren können.

Wir haben zusammengefasst, dass bei der KI-Auslands Expansion die folgenden Kernherausforderungen im Zusammenhang mit der Inferenz auftreten können, wie die Echtzeitfähigkeit, Skalierbarkeit und Stabilität der Dienste.

Wir wissen, dass ein Trend bei KI-Produkten ist, dass plötzlich große Erfolge eintreten. Oftmals können chinesische KI-Unternehmen bei der Auslands Expansion nicht wie bei herkömmlichen Softwareprodukten die Kapazität erweitern, da alle Token GPU-Leistung erfordern, insbesondere bei der globalen Kapazitätserweiterung. Dies ist eine relativ große Herausforderung.

Darüber hinaus ist die technologische Iteration des gesamten KI-Technologiestapels extrem schnell. Von Januar bis Mai dieses Jahres fiel der Token-Preis aufgrund des Ausbruchs der Mehrknoten-System-Inferenz von einem relativ hohen Niveau auf einen Tiefststand.

Für Unternehmen ist es oft schwierig, die technologische Entwicklung mitzumachen, da sie ihre eigenen Ressourcen einsetzen müssen.

Als Dienstleister haben wir diese Bedürfnisse und Herausforderungen erkannt. Was hat GMI Cloud in diesem Jahr getan?

Zunächst einmal, als Rechenleistungsdienstleister müssen wir natürlich unsere eigenen Rechenzentren aufbauen. Derzeit arbeiten wir mit NVIDIA an einem Projekt namens KI-Fabrik, das Huang Renxun im April bekannt gegeben hat. Dieses Projekt nutzt die neuesten Großmaschinen wie GB200 und GB300, um die Clusterdurchsatzleistung erheblich zu erhöhen. Wir sind einer der wenigen ersten NCPs in Asien, die an einer KI-Fabrik arbeiten, und es handelt sich um eine Millionenkarten-Cluster.

Dann haben wir weiterhin unseren Cluster-Engine und unseren Inferenz-Engine weiterentwickelt. Dies sind die mittlere und die obere Ebene. Die Zielgruppen dieser beiden Engines sind auch unterschiedlich – unser Cluster-Engine richtet sich an Kunden mit gewissen technischen Fähigkeiten, die komplexere Anwendungen entwickeln möchten; der obere Inferenz-Engine ist für Unternehmen entwickelt, die sich auf leichtere Endanwendungen konzentrieren.

Unser Cluster-Engine (Cluster Engine) ist tatsächlich sehr ähnlich wie bei herkömmlichen Clouds, nur dass als AI Native Cloud stärker auf die Rechenleistung der GPU fokussiert wird.

Unser Cluster-Engine ist eine standardmäßige IaaS-Ebene, die im Wesentlichen die unterste Hardware, die mittlere Bare-Metal-Schicht und darüber die Clusterverwaltung abdeckt. Darüber hinaus bieten wir viele überwachbare Plug-ins, um Ihnen einen vertrauten Prozess zu bieten.

Viele Auslandsunternehmen sind vielleicht an großen ausländischen Clouds wie GCP und AWS gewöhnt. Wir unterstützen ebenfalls die Funktionen dieser Clouds im Zusammenhang mit GPU-Workloads. Wir haben eine spezielle IB-Netzwerktechnologie, die es den Kunden ermöglicht, die gewünschte Clustergröße für das Training auszuwählen.

Darüber hinaus haben viele Kunden private Cluster, die oft auf Probleme bei der Kapazitätserweiterung stoßen. Dieses Problem kann von unserem Cluster-Engine perfekt gelöst werden, da wir eine Multicloud-Architektur implementiert haben. Kunden können zwischen ihren eigenen Ressourcen und den Ressourcen herkömmlicher großer Clouds wechseln, um ihre Spitzenlasten zu bewältigen.

Jetzt sprechen wir über unseren Inferenz-Engine (Inference Engine). Der Inferenz-Engine ist ein einfacheres Produktprojekt, das vor kurzem sehr populär war und als Serverless bezeichnet wird.

Unser Inferenz-Engine integriert die weltweit führenden großen Modelle, ob offen oder proprietär. Auf unserer Plattform können Sie mit einer einzigen API auf alle neuesten und stärksten Modelle zugreifen.

Darüber hinaus unterstützt unser GMI Cloud Inferenz-Engine die automatische Kapazitätserweiterung und -verkleinerung über Cluster und Regionen hinweg. Warum tun wir das? Dies hängt eng mit den Anforderungen der Auslands Expansion zusammen. Wir haben festgestellt, dass viele Kunden ihre eigenen Modelle trainiert haben, aber sobald sie online gehen, feststellen, dass sie die Spitzenlasten nicht bewältigen können. Darüber hinaus kann die Wahl des Clusteradresses auch die Benutzererfahrung in verschiedenen Regionen beeinträchtigen.

Die Version 2.0 des Inferenz-Engine ist speziell für diese Szenarien entwickelt. Wir können unseren Kunden helfen, das Problem der automatischen Kapazitätserweiterung und -verkleinerung über Regionen und Cluster hinweg zu lösen.

Wie machen wir das konkret? Wir haben eine dreistufige Architektur entwickelt, um die weltweiten Ressourcen zu planen. Im Wesentlichen können alle Workloads des Engines in zwei Planungsmethoden unterteilt werden, eine basiert auf der Warteschlange (queue based), die andere basiert auf der Lastverteilung (load balancing based).

Die queue based-Methode eignet sich hauptsächlich für die derzeit beliebten Videomodelle oder Sprachmodelle; die load balancing based-Methode eignet sich hauptsächlich für die bekannten großen Sprachmodelle. Wir wählen die Planungsmethode basierend auf den verschiedenen Workloads.

Beispielsweise ist ein Workload möglicherweise empfindlich gegenüber Latenzzeiten oder eher gegenüber Kosten. Je nach Auswahl werden wir die Workloads in verschiedene Regionen planen und dann in diesen Regionen die Workflows verteilen, um sie schließlich auf die End-GPU zu bringen.

Kurz gesagt, hat die Kernarchitektur unseres Inferenz-Engine fünf Kernmerkmale:

1. Globale Bereitstellung: Mit unserer Plattform können Sie die globale Bereitstellung von Diensten problemlos realisieren.

2. Wir lösen das Problem der zweistufigen Planungsarchitektur, was natürlich eng mit der globalen Bereitstellung zusammenhängt.

3. Elastizität: Das größte Problem für alle KI-Modelle und Anwendungen bei der Auslands Expansion ist die elastische Skalierbarkeit. Da der Datenverkehr von Unternehmen in der Anfangsphase immer Wellenberge und -täler hat und die Zielkunden und -regionen zunächst begrenzt sind, ist Elastizität eine unbedingt erforderliche Eigenschaft.

4. Hochverfügbarkeit: Wir können sicherstellen, dass die Workloads unserer Kunden jederzeit zugänglich sind.

5. Einheitliche Verwaltung aller Workloads.

Die obigen fünf Merkmale sind die fünf wichtigsten Eigenschaften, die wir basierend auf den Bedürfnissen unserer Kunden bieten.

Genau wie unser Cluster-Engine unterstützt auch der GMI Cloud Inferenz-Engine die Hybridcloud. Egal, ob Sie Ihre eigenen Cluster aufbauen möchten, die Cluster von GMI Cloud nutzen möchten oder bereits Credits oder Workloads auf öffentlichen Clouds haben, können Sie alles über unsere Plattform einheitlich verwalten. Sie müssen sich nicht um die Fragmentierung und die Nutzung der Ressourcen sorgen, da dies bereits in unserer obersten Planungsebene berücksichtigt wurde.

Hier möchte ich auch eine kleine Werbung machen. Wenn Sie Ihre eigenen Modelle in den Auslandseinsatz bringen möchten, können Sie unser Inferenz-Engine 2.0-Produkt namens Dedicated Endpoint ausprobieren, das ein eigenständiger Knoten ist.

Sie können dieses Produkt ausprobieren, um zu sehen, in welchen Clustern und Regionen Sie die Knoten platzieren möchten, und können je nach Bedarf günstigere oder bequemere Knoten auswählen.

Außerdem möchte ich Ihnen einen kleinen Vorgeschmack auf unser neues Produkt geben, das bald als „GMI Studio“ veröffentlicht wird, ein neu entwickeltes Produkt für kreative Erfahrungen.

Mit diesem Produkt haben wir die ursprüngliche Konsole für die Modellverwaltung und -bereitstellung zu einem Produkt für Unternehmer und Benutzer weiterentwickelt. Mit GMI Studio können Benutzer ohne lokale Umgebung und ohne die Notwendigkeit, eine komplexe Inferenzarchitektur aufzubauen, auf der Cloud neue KI-Modelle und Anwendungen einfach per „Ziehen und Ablegen“ zusammenstellen.

Abschließend lassen Sie uns mal über 2026 nachdenken.

Die Paradigmenwende bei der KI-Auslands Expansion im Jahr 2026 ist ein Prozess von der alten Paradigma – der einseitigen Technologietransferrichtung – zur neuen Paradigma – der globalen Wertresonanz.

Mit der zunehmenden Welle der KI-Auslands Expansion hat die Globalisierung der KI eine neue Dimension erreicht. Wir gehen über die oberflächliche Wahrnehmung der „einseitigen Technologietransferrichtung“ hinaus und richten uns auf die tiefgreifende Veränderung der globalen KI-Industrie von der „getrennten Ressourcen“ hin zur „Wertkreislauf“. Es ist nicht mehr nur eine geografische Expansion von KI-Anwendungen, sondern ein „zweistufiges Ökosystem der gegenseitigen Stärkung“ von Rechenleistung, Technologie und Bedürfnissen auf globaler Ebene.

Auf der Rechenleistungsebene ergänzen sich die Ressourcen weltweit, und die hochwertige Rechenleistung beschleunigt die Optimierung der Modelle. Auf der Anwendungsseite entwickelt sich das Token von einer einfachen API-Aufrufsmessung zu einem komplexen Wertträger für die Rechenleistungssettlement und die Ökosystemanreize. Die globale KI-Innovation lebt in einem symbiotischen Verhältnis, und Modelle, Anwendungen, Szenarien und Rechenleistung bilden einen neuen positiven Wertkreislauf.