首页文章详情

DeepSeek融资500亿,梁文锋难逃资本局

光锥智能2026-05-12 20:45
资本局的博弈,梁文锋要钱,更要控制权。

出身量化圈,梁文锋却对资本一直非常不感冒。

也正因此,5月的科技圈,没有任何消息比DeepSeek的融资更具冲击力。

据The Information援引多位知情人士透露,DeepSeek正在寻求完成一轮规模超过500亿元人民币(约73.5亿美元)的融资,其中创始人梁文锋计划在本轮融资中个人出资200亿元,占募资总额的40%。腾讯拟出资60亿元获得约2%股权,而国家集成电路产业投资基金(大基金)正在洽谈领投。

如果顺利落地,这将刷新中国AI公司单轮融资纪录,投后估值有望突破3500亿元(约515亿美元)。

21天前,也就是4月初,市场对DeepSeek的估值还停留在100亿美元,初始融资计划仅为3亿美元,用于期权定价。21天后,估值暴涨超4倍,融资规模翻了24倍。

对于熟悉梁文锋的人来说,这个消息无异于一场“核爆”。这位曾多次宣称“暂不融资”、婉拒腾讯和阿里入股邀约的技术理想主义者,为何突然改变立场,而且是以如此惊人的规模?

事实上,近期从国内到海外市场,包括OpenAI、智谱AI、月之暗面等几家头部AI大模型公司都在进行大规模融资,我们在大模型爆火之初就说过,这是一个“神仙打架”的市场。

在这其中,DeepSeek不是正规的天庭大军,可能是独树一帜的“镇元子”。

而故事的主角梁文锋,1985年生于广东湛江,浙大本硕毕业,从量化私募巨头幻方量化的掌舵人,到DeepSeek的创始人,他也始终是科技圈最“特立独行”的存在。

现如今,世道变了,以往是公司求着融资而不得,DeepSeek却被裹挟着进入AI化的资本浪潮。

从幻方量化到DeepSeek的“技术洁癖”

要读懂这次融资,必须先读懂梁文锋和他一手打造的“DeepSeek式理想国”。

梁文锋的起点,是金融圈。

2008年,刚毕业的梁文锋带着7人团队,用机器学习模型做量化交易,三个月实现500%收益。2015年,幻方量化正式成立,凭借AI驱动的量化策略,迅速崛起为行业头部玩家。

2021年,幻方量化资产管理规模突破千亿,2025年平均收益率达56.6%,仅当年就为梁文锋带来超7亿美元收入。DeepSeek的“不差钱”,从来不是一句空话。

但梁文锋的野心,从来不止于金融。

早在2020年甚至更早,梁文锋及其团队就坚信,人工智能是未来核心驱动力,而算力是基础命脉。因此,当业内多数机构聚焦于策略和规模时,幻方做出了一个在当时看来极为超前且重资产的战略决策,即将大量利润持续投入,自建超大规模GPU计算集群。

2020年3月,其投资上亿元、搭载上千张高端GPU的“萤火一号”超级计算机正式投入运行。这一远超当时行业常规做法的投入,为其AI量化研究奠定了坚实基础,也为其后布局通用人工智能(如孵化DeepSeek)埋下了伏笔。

2023年4月,幻方量化宣布成立大模型公司DeepSeek,正式进军AI领域;7月,杭州深度求索人工智能基础技术研究有限公司注册成立,梁文锋亲自领衔,从金融科技跨界AGI赛道。

彼时的DeepSeek,是AI圈最“佛系”的异类。

成立初期,梁文锋给DeepSeek立下三条铁律:不融资、不上市、不商业化。在资本疯狂涌入AI赛道的2023-2024年,这是一个近乎“叛逆”的选择。

当字节、阿里、百度等互联网巨头,一边砸钱做模型,一边快速落地ToB、ToC业务时,当智谱AI、百川智能、月之暗面等创业公司,成立不久就启动多轮融资,靠资本输血快速扩张时,DeepSeek靠着幻方量化的“无限供血”,闭门研发,不路演、不宣传、不接商业订单。

梁文锋的理由很简单:技术理想主义,不能被资本和商业化绑架。

他曾公开表示:“DeepSeek的目标是做世界顶级的通用大模型,不是为了赚钱,也不是为了上市。资本会追求短期回报,商业化会妥协技术路线,这些都会干扰我们的核心目标。”

这份纯粹,让DeepSeek迅速跻身国产大模型第一梯队。

2024年5月,DeepSeek-V2发布,创新的模型架构和极致性价比引发热议;2024年12月,DeepSeek-V3开源,公布53页技术细节。

2025年1月,DeepSeek-R1发布,在数学、代码、推理等任务上,性能比肩OpenAI o1正式版。据其团队在英国《自然》杂志发表论文披露,DeepSeek-R1模型的训练成本仅为29.4万美元,构建基础大语言模型也只花费了约600万美元,这一成本已远远低于美国同行透露的数字。

技术上的成功,让DeepSeek成为国产大模型的技术标杆,也让梁文锋的“三不铁律”一度成为行业美谈——原来,不靠资本,不靠商业化,也能做出世界一流的大模型。

但理想很丰满,现实的暗流早已涌动。

三重压力下DeepSeek的理想被现实撞碎

梁文锋一再坚持的远离资本圈的立场,在2026年4月发生了策略性调整。

量化对冲基金出身的人不会做冲动决定。梁文锋转向资本,一定经过了冷静地测算。测算的背景,是DeepSeek面临的竞争格局正在发生质变。

从当前公开媒体报道的信息来看,引发其做出这一决定的关键因素之一,是人才问题。

DeepSeek一直被视为中国大模型行业里最特殊的一家公司——团队规模小、人才密度极高、几乎不社招,以应届生和实习生留任为主。

但正是这种小团队的精锐模式,使得每一个核心研究员的权重都被放大到了极致。

过去一年,DeepSeek多位技术骨干被高薪挖角,AI才女罗福莉被雷军挖到了小米,研究员郭达雅也已加入字节跳动,担任Agent负责人之一。公开信息显示,自2025年下半年以来,公司至少5名核心研发人员相继离职,知名科技企业都在不计成本挖人。

也正因此,行业有说法称,梁文锋最近寻求融资,正是在给员工做期权定价,以留住人才。

如果说人才流失就是“近忧”,那么资金压力是“远虑”,尤其是算力成本。

业内皆知,AI大模型的研发,是典型的“重资产、高投入、长周期”生意。如果说两年前大模型的竞赛还可以靠算法巧思“四两拨千斤”,那么如今则是赤裸裸的算力消耗战。

V4.1定档2026年6月发布,将重点优化推理、多模态与稳定性,而这背后,从训练到推理,从英伟达到昇腾,从千卡集群到万卡集群——每一步都需要天文数字的投入。

幻方量化再有钱,也撑不住一场与全球巨头正面交锋的算力军备竞赛。更关键的是,AI行业的竞争是“不进则退”,一旦资金链跟不上,技术迭代就会停滞,很快就会被对手超越。

最重要的是,当前AI行业竞争本身发生质变,同时整体资本市场对AI大模型公司的估值逻辑也变了。

在国内,字节跳动、阿里巴巴携巨额资金加码AI,月之暗面刚完成20亿美元融资,投后估值突破200亿美元,年度经常性收入在4月已超2亿美元。MiniMax、阶跃星辰等也在密集融资。

另外,智谱AI和MiniMax上市后的疯涨,也给整个行业估值树立了一个标杆。这也就意味着,如果行业中其他创企不能够趁现在的窗口期完成定价,其在一级市场的估值可能就会被瞬间击穿。

据悉,目前阶跃星辰也正在积极筹备上市工作。

整体来看,综合多重因素影响,这也就解释了,为什么梁文锋要开始融资,而且必须是现在。

但显然,他的入局方式,再次颠覆了行业认知:不稀释控制权,不引入短期资本,自己掏200亿领投,把资本主动权牢牢握在自己手里。

资本局的博弈梁文锋的控制权保卫战

DeepSeek的500亿融资,或许从来不是“缺钱找投资”这么简单。

显然,这是一场精心设计的资本博弈,梁文锋的核心目标只有一个:在引入资本的同时,牢牢掌握公司控制权,不让资本左右技术路线。

据天眼查工商信息显示,2026年4月27日,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)注册资本由1000万元增至1500万元,创始人梁文锋通过直接增资将持股比例从1%提升至34%,原大股东宁波程恩企业管理咨询合伙企业持股比例稀释至66%。

通过直接与间接持股,梁文锋合计控制公司约84.29%的股权。可以看到,此次增资是公司内部股权结构调整,梁文锋个人出资500万元增资,没有引入任何外部新增股东。

这表明,在正式启动大规模外部融资前,DeepSeek已率先完成内部股权架构优化。这也意味着,在引入国家大基金、腾讯等巨头资本前,梁文锋通过股权调整巩固了自己的控制地位。

而对于此次融资,DeepSeek与其他AI大模型创业公司的融资存在两个最大的不同点:

其一,公开信息显示,本轮融资最震撼的细节,不是500亿的规模,而是梁文锋个人出资200亿,占融资总额的40%,成为最大投资方。

这种“创始人大额领投”的模式,在全球AI史上都极为罕见。本质上,这是梁文锋的“控制权保卫战”:我可以接受资本的钱,但绝不接受资本的控制。

其二,从目前消息来看,DeepSeek的投资方也同样精挑细选,只留两种钱:国家队资本、实体产业资本,传统财务VC(如红杉、高瓴)全部被拒之门外。

据上海证券报援引渠道人士消息,国家集成电路产业投资基金与深度求索洽谈主导其首轮融资,双方洽谈属实,但最终估值尚未敲定,参与融资谈判的投资方除国家大基金外,还包括多家互联网巨头与其他国资背景基金。

后续消息进一步确认,DeepSeek这轮融资中,梁文锋个人计划出资200亿元,占募资总额的40%,腾讯拟出资60亿元获得约2%股权,国家大基金预计将成为本轮融资的第二大出资方。另有消息称,阿里巴巴已与DeepSeek谈崩,双方未能在融资具体条款上达成一致。

这种投资方结构,背后是梁文锋的深层考量:拒绝财务VC,毕竟传统VC追求3-5年退出,会强迫公司快速商业化、快速上市,与DeepSeek“长期主义做技术”的理念相悖。

与之相对的,国家队+产业资本则更看重长期战略价值,而非短期回报,不会干预技术路线,还能提供政策、算力、场景等核心资源。

而梁文锋自掏腰包的200亿,买下的是在这个估值区间主导对话的权利。如果他在这一轮融资里只是小额跟投,甚至不参与出资,外部投资人对公司的定价权就会更大,公司的战略方向也会受到更多牵制。

200亿的自掏,则代表着一个清晰的立场:我对这家公司的判断,比任何一个外部投资人都更有把握。你们可以参与,但话语权受到我的天然制约。

无疑,这是一种非常高明的创始人博弈策略。

也正因此,可以看到,DeepSeek的融资也体现了“国家战略+创始人决心+生态构建+人才保卫”的多重逻辑组合,而其他公司更多是“技术扩张+商业化推进+市场份额争夺”的路径。

这种差异也反映了DeepSeek在中国AI产业中的特殊定位:不仅是商业公司,更是国家级技术资产和自主可控战略的关键棋子。

一脚踏入资本局的代价与风险

21天估值暴涨超4倍,从100亿美元到515亿美元,很多人质疑,这是不是资本泡沫?DeepSeek值这么多钱吗?

我们先简单来看个对比:

统计时间截止至 2026 年 5 月12日

在国内市场中,DeepSeek的450-515亿美元估值,使其成为仅次于智谱AI(484.83亿美元)的国内第二大估值大模型公司,超过了MiniMax(280亿美元)和Kimi(200亿美元)。

虽然智谱AI和MiniMax在二级市场都登上了千亿港币市值(智谱超3700亿港元,MiniMax超2100亿港元),但DeepSeek作为未上市公司,其一级市场估值已经接近甚至超过了这些上市公司的市值水平。

更为重要的是,DeepSeek的估值在短短一个月内从100亿美元飙升至515亿美元,增长了5倍,这种增长速度在创投史上极为罕见。

无疑,在中国市场中,DeepSeek在估值和融资规模上,都属于第一梯队。但相比海外市场巨头,DeepSeek的差距却并不是一点半点。

融资规模上,OpenAI的1220亿美元融资是DeepSeek计划融资73.5亿美元的16.6倍,Anthropic的300亿美元融资是DeepSeek的4.1倍,即使DeepSeek完成500亿元融资,其规模仍不及海外巨头的零头。

从估值来看,OpenAI估值8520亿美元是DeepSeek估值(按500亿美元计)的17倍,Anthropic目标估值9000亿美元是DeepSeek的18倍,DeepSeek的估值仅相当于OpenAI的5.9%,Anthropic的5.6%。

可以看到,DeepSeek作为中国大模型领域的领军企业,其500亿元融资创下了国内纪录,450-515亿美元的估值也使其成为国内估值第二的大模型公司。然而,与OpenAI、Anthropic等海外巨头相比,DeepSeek在融资规模和估值水平上仍存在数量级差距。

这种差距反映了全球AI产业的两个现实:

一方面是全球AI资本正向极少数头部企业高度集中,另一个则是中美AI生态差异,即美国企业享受全球资本红利,中国企业则更多依赖国内市场和战略资本。

不过,此轮DeepSeek融资的价值,不仅体现在商业估值上,更体现在其作为“国家级技术资产”的战略地位。随着国家大基金的入局,DeepSeek有望在国产AI芯片生态建设和大模型自主可控方面发挥关键作用,这可能是其与海外巨头竞争的重要差异化优势。

但是,500亿元融资和515亿美元估值并非没有风险。

DeepSeek目前的商业化模式相对单一,主要依靠API调用收费。开源策略固然构建了广泛的开发者生态,V4-Flash缓存命中价格低至0.02元/百万token,V4-Pro 0.025元,堪称全球底价,但也有大量企业客户选择自行部署,分流了付费API收入。按行业惯常的估值逻辑,515亿美元的估值能否得到对应的年收入规模支撑,仍是最大的不确定性。

更微妙的是控制权的博弈。梁文锋通过宁波程恩、宁波程信、宁波程普等多层有限合伙架构,目前掌握约84%的股权和近100%的表决权。但引入大基金、腾讯等外部股东后,这种绝对控制能否持续?

此外,人才流失的压力或许并未因融资而消失。Meta曾开出4年2亿至3亿美元的天价合同包挖角顶尖研究员,总包薪酬甚至高过全球身价最高的足球明星。

在AI人才可以被精准定价的时代,期权和薪资只是留住人的一部分,技术理想、研究氛围、成长空间同样是关键。DeepSeek能否在资本化之后,依然保持那种"不诱于誉,不恐于诽"的纯粹气质?

从拒绝融资到自投200亿,梁文锋的转变看似突然,实则是行业大势下的必然选择。

2026年的AI竞争,已经从模型技术之争,演进为算力、人才、产品与生态的全面战争。在这场战争面前,任何试图独善其身的“技术乌托邦”,都走进了围城之中。

按照计划,DeepSeek将于6月发布新模型V4.1,而这距离4月24日V4正式发布仅隔不到两个月。

尽管未到正式亮相时刻,但透露的信息也非常让人期待:它将原生支持图像、音频信息理解,虽输出为文本,但能直接处理多模态输入,大幅降低企业数据接入门槛;同时,模型将强化MCP协议适配,提供更丰富的企业级工具,适配办公自动化、智能客服、代码生成等场景。

技术底层延续V4混合注意力架构(CSA+HCA),百万token上下文成为标配,推理成本较前代再降,显存占用仅为传统模型2%左右。

显然,这样的技术迭代速度,需要持续的资金支持。而在这场资本局中,没有赢家通吃,只有适者生存。

本文来自微信公众号 “光锥智能”(ID:guangzhui-tech),作者:白鸽,36氪经授权发布。