首页文章详情

GMI Cloud:出海是AI企业释放产能、获取新生的最佳途径|WISE 2025

邱晓芬2025-12-08 18:43
AI应用出海的核心挑战是,模型推理服务的及时性、扩展性以及稳定性。

11月27-28日,被誉为“年度科技与商业风向标”的36氪WISE2025商业之王大会,在北京798艺术区传导空间落地。

今年的WISE不再是一场传统意义上的行业峰会,而是一次以“科技爽文短剧”为载体的沉浸式体验。

从AI重塑硬件边界,到具身智能叩响真实世界的大门;从出海浪潮中的品牌全球化,到传统行业装上“赛博义肢”——我们还原的不仅是趋势,更是在捕捉在无数次商业实践中磨炼出的真知。

我们将在接下来的内容中,逐帧拆解这些“爽剧”背后的真实逻辑,一起看尽2025年商业的“风景独好”。

此次大会上,GMI Cloud工程VP钱宇靖做了主题为《AI应用的出海效能升级·算力破局与推理架构进化》的演讲。

GMI Cloud是一家北美的AI Native Cloud服务商,也是英伟达首批六大Reference Cloud Partner之一。

钱宇靖认为,对于世界用户来说,AI应用多元化发展已经到了一个“武装到牙齿缝”的状态,出海成为了中国公司释放产能、获取新生的最佳途径。

而在当前,中国的AI出海正在经历着一场范式的革新——从过去的单向技术输出,到围绕算力全球化、需求的全球化、价值的全球化转型。这背后,正是一场隐秘的全球价值共振。

钱宇靖

以下为钱宇靖的演讲实录,经36氪整理编辑

大家下午好!

我叫宇靖,我是GMI Cloud的VP of Engineering,主要分管的是所有工程类的项目。今天给大家带来的分享是AI应用的出海效能升级,以及如何算力破局、完成推理框架的进化,给AI应用出海带来更大的效能。

GMI Cloud还是一家比较新的公司,所以我在这里花一点时间给大家做一些简单的介绍。

我们是一家专注于出海AI infra的公司,我们是NVIDIA首批六大Reference Cloud Partner之一,主要focus的项目就是我们的AI硬件以及往上的推理架构。

现在整个GMI Cloud有三大产品线——最底层的计算硬件、集群管理、MaaS层的推理服务。从三个不同维度给各种AI企业客户提供他们所需要的能力。

我们在全球多地(东亚、南亚、北美、欧洲、加拿大)建有自有机房,同时我们刚刚耗资5亿美金,在亚洲和英伟达一起建了一座GB300万卡集群的AI Factory。在中国,我们主要面向AI 出海的企业用户,关注出海,帮助大家做好出海。

那我们进入正题,除了业务模式需要,GMI Cloud在2025年关注到了哪些出海趋势?

在今年这个当口,有的人会觉得AI有很大的泡沫,有的人又会信仰AI,认为AI应用接下来会有指数级的增长。从一个算力提供商或者是服务提供商的角度而言,我们所能看到的趋势是,AI的市场的确是在一个exponential growth的形式往上增长。

虽然不同的企业、不同的分析师对于2025年下半年或者2026年的市场,有着不同的分析,但是整体的方向依然是一个向上走的方向。我们可以看到的是,今年中国海外AI应用的月活用户依然是在不断攀升的。

全球用户,尤其是北美,他们对于主动拥抱AI这件事情已经养成了习惯,大家对于AI的应用的使用已经到了一个“武装到牙齿缝”的状态,90%以上的美国知识工作者已经非常熟练的在使用AI工具。

大家都知道,国内的付费软件实际上是一个高同质化、高获客成本的事情,也就是说在国内做SaaS门槛非常高。

但在中东以及拉丁美洲,有一个比较吃惊的数据,AI的应用也已经到了一个比较高的水位了,也就是说,出海市场我们的用户教育,其实基本上已经完成了,这给我们出海带来了一个极大的需求水位差。所以出海是释放产能、获取新生的最佳途径。

当然,很多国内的企业也已经看到这个趋势,在过去的两年中,有很多的国内企业已经在进行AI服务出海,随之而来的就是AI推理需求的指数型暴涨,这个是我们作为算力提供商能够清晰感知到的一件事。

我们总结了一下,在AI出海的过程中,会遇到以下几个关于推理相关的核心挑战,比如服务的及时性、扩展性以及稳定性。

我们知道AI产品的一个趋势是,泼天的富贵是突然到来的,很多时候,对于AI出海企业来讲,你没办法以传统软件的角度去对它进行常规扩容,毕竟所有的Token都是需要GPU的,尤其是全球性扩容,这是一个比较大的挑战。

此外,另外一个挑战是,整个AI技术栈的技术迭代实在是太快了。从今年1月份到今年5月份,由于多节点系统推理爆发,Token价格实际上从一个比较高的水位,直接打到了一个地板价。

对于企业而言,它往往需要用自己的资源去做这件事情,所以他们也会有一个苦恼是,企业要如何跟得上现在的技术发展?

我们作为提供商,看到了这些需求和挑战。GMI Cloud在今年做了什么事情呢?

首先作为一个算力服务商,我们当然是要建好自己的机房,现在我们在跟NVIDIA去做一个叫做AI Factory的项目,这个项目是黄仁勋4月份的时候给大家透露出来的,会利用最新的GB200、GB300这样的大型的机器,极大增加集群吞吐量。我们是亚洲区域为数不多最先进行AI factory的NCP之一,而且是万卡集群的规模。

然后就是继续迭代我们的集群引擎和推理引擎。分别是中间层和上一层。这两个引擎目标的客户群也是不一样的——我们的集群引擎,它面对的客户是有一定工程技术能力、想要做一些比较复杂应用的客户;上层的推理引擎,是对一些更加轻量级,完全注重于终端应用的一些企业客户而设计的。

我们的集群引擎(Cluster Engine),实际上跟传统云是非常类似的,只不过作为AI的原生云,它更focus在GPU本身的算力。

我们的集群引擎是一个标准的IaaS层,基本上覆盖了底层的硬件、中间的裸金属,再往上是集群管理,并且我们会覆盖非常非常多的可监控性的一些插件,给大家提供一个比较熟悉的过程。

很多出海企业可能会习惯用一些海外大云,比如GCP、AWS,这些云关于GPU workload的一些功能,我们同样会去支持。我们会有一个特殊化的IB组网技术,使得客户能够选择他自己想要的集群尺寸来进行训练。

另外,现在很多客户会有私有的集群,在这个过程中,往往会遇到扩容的问题,这个问题也会被我们的Cluster Engine所完美的解决,因为我们已经接入了一个多云的架构。客户可以在他自己的资源以及传统的大云的资源之间进行切换,来完成他的峰值扩缩容的需求。

再讲一下我们的推理引擎(Inference Engine)。推理引擎是一个更加简单的产品项目,也就是前段时间大家所讲的比较火的一个概念叫做Serverless。

我们的推理引擎集成了全球头部的大模型,无论是开源还是闭源,在我们平台上都有得到支持,你只需要一个API就可以访问全球最新、最强的所有模型。

另外,我们的GMI Cloud 推理引擎支持跨集群、跨地区的自动扩缩容。为什么要做这件事呢?这也是跟出海需求强相关的事。我们发现很多客户去训练了一套自己的模型,当他上线了以后就会发现,他的流量在峰值的时候接不住。其次,当不同地区的用户上线了以后,也会由于他集群地址一开始的选择,影响他的整个产品体验。

所以Inference Engine2.0的这个版本就是专门为这种场景所设计的,我们可以帮客户去解决跨地区和跨集群自动扩缩容的问题。

具体怎么做的呢?我们其实做了一个三层设计的架构,调度全球的资源。基本上所有的Engine的Workload可以被分为两种调度方式,一种是queue based,第二种是load balancing based。

queue based主要适用于现在比较火的一些像视频类或者语音类的模型;load balancing based主要适用于大家比较熟知的一些大语言模型,我们会根据不同的Workload,来选择它的调度方式。

比如,一个Workload对于延时是不是足够敏感?还是说成本更加敏感?对于不同的选项,我们会调度到不同的大区,在不同的大区再把工作流进行分发,达到一个终端的GPU上面。 

简而言之,我们的推理引擎的核心架构有五个核心的特征:

1、全球化的部署,你只需要用我们一个平台就可以解决全球化服务的部署。

2、我们帮你解决了二级调度架构的问题,当然这个跟全球部署也是息息相关的。

3、弹性。所有出海的模型公司、应用公司遇到最大的问题是弹性伸缩,因为企业刚开始的流量都具有波峰波谷的性质,它一开始目标的客户人群以及客户地区总是有限的,所以弹性是一个刚需。

4、高可用设计,我们可以保证客户的Workload可以在任何时刻都可以被访问。

5、所有Workload的统一管理。

以上五个特性是我们根据我们所看到的客户需求而提供的五大特性。

跟刚才的集群引擎一样,GMI Cloud Inference Engine也支持混合云。无论你是自己想要自建集群,还是用GMI Cloud自己的集群,或者是在一些公有云上已经有了Credit,或者是已经有了一些Workload,都可以通过我们平台做统一的纳管。你不太需要担心资源的碎片化以及利用率,这在我们的顶层调度中已经被考虑到了。

在这边,我也打一个小小的广告。如果你有需求,需要host你自己的模型进行出海的话,可以试一试我们的推理引擎2.0的产品,叫做Dedicated Endpoint,也就是一个独站式的节点。

你可以尝试使用一下这个产品,尝试一下想要把节点布到哪些集群、哪些地区上,以及你可以根据需求选择便宜的节点或者更便捷的节点。

另外,给大家一个小小的预告,我们即将上线一个名为“GMI Studio”的产品,一个全新打造的创作体验产品。

这个产品力,我们将原本偏模型管理以及部署的控制台,升级为一个面向创业者、用户群的产品。通过GMI Studio,用户无需本地环境,也不需要搭建一个复杂的推理框架,就能够在云端以“拖拽”的方式,自由组合出最新的AI模型以及它的应用。

最后,让我们来畅想一下2026年吧。

2026年的AI出海范式升级,是一个从旧范式——(也就是)单向的技术输出,到新范式——(也就是)全球价值共振的过程。

随着AI出海浪潮愈演愈热, AI 全球化正式升维,跳出 “技术单向输出” 的浅层认知,指向全球 AI 产业从 “资源割裂” 到 “价值循环” 的底层变革。它不再是 AI 应用的地理性扩张,而是算力、技术、需求在全球范围内形成的 “双向赋能生态”。

算力层,全球资源余缺互补,优质算力加速模型优化;应用层,Token 从单纯的 API 调用计量,演进为算力结算与生态激励的复合价值载体。全球AI创新共生,模型、应用、场景、算力正在形成新的价值正循环。