独家专访丁添:两个月连融两轮,AI for Computing赛道黑马智子芯元做对了什么?
36氪获悉,AI驱动的计算加速基础设施公司智子芯元近日宣布完成天使+轮融资。本轮融资由鼎峰科创(武岳峰创投)、英诺科创基金、首程资本领投,老股东同创伟业等机构超额跟投。
这是一家“反差感”强烈的明星初创公司——在AI计算需求猛增、芯片供给与算力生态面临双重约束的大背景下,智子芯元既不造芯片,也不卖大模型Token,却两个月连融两轮,拿下近亿元融资,斩获硬科技头部机构的青睐。
这家公司是如何精准切入AI Infra与算力生态交汇处的?近日,36氪独家专访了智子芯元创始人丁添,试图还原这家公司狂奔背后的底层逻辑。
AI计算加速,下一代计算基础设施
人类科学与产业的发展,始终伴随着计算效率的提升。过去几十年,从通用芯片到GPU和集群计算,硬件架构的演进持续推动算力增长。
然而进入新的阶段,算力产业的核心矛盾开始凸显。
当前,大模型迭代使得AI计算需求快速增长,但受制于制程物理极限、单卡成本、能耗以及国产芯片生态的成熟度,硬件侧的供给约束越来越明显。
在这个供需失衡的节点上,下一阶段算力竞争的关键,已经不仅仅是制造更多芯片,而是有效算力,即一块芯片在真实业务中,能够稳定释放出来的计算性能。
在接受36氪独家专访时,智子芯元创始人丁添提到:“当前的国产计算生态中,很多客户 ‘买到了芯片’,并不等于马上拥有‘可用算力’。”
一个常见的现象是,企业花大价钱买回一批国产算力卡,理论性能很高,但在实际部署业务模型时,跑出来的性能可能只发挥了理论算力的三四成。算力释放不充分,直接影响大模型厂商的单位Token成本,也会拖慢新产品和行业应用的交付周期。
造成这一落差的原因,并非只是硬件参数不够。
目前,大量主流模型和前沿算法原生于英伟达CUDA生态。丁添表示:“很多大模型的算法架构在设计之初,就是为了在英伟达芯片上跑得更快,天然更亲和GPU,而很少考虑如何在其他异构芯片上高效运行。”
当这些模型迁移到国产卡或其他异构平台时,问题也不是简单的代码翻译。底层硬件架构、算子覆盖、内存调度、通信机制和编译优化均会涉及,一个环节没有打通,都会影响最终性能。
过去,补齐这些底层生态短板,高度依赖稀缺的资深系统工程师进行人工适配。工程师需要理解模型结构、算子实现、硬件特性和运行反馈,再通过反复调参、测试和验证,把性能一点点提上去。
这种方式在早期可以解决问题,但很难支撑快速扩张的算力需求。调优经验往往难以在不同芯片、不同模型和不同业务负载之间复用。每出现一类新硬件或新算法,团队可能都需要重新做一轮适配。
正如丁添所言,面对不断涌现的新算法,“如果每次适配都需要耗费数月时间,算力运营商将很难保持市场竞争力。”
这不是工程师更努力写代码就能解决的问题。智子芯元要解决的,是把算力适配从手工作坊式的人工交付,变成一套可复用、可自动搜索、可持续收敛的工程管线,让理论算力尽可能转化为真实业务中的有效算力。
对于智子芯元而言,国产算力生态的适配是其验证技术范式的关键切入点。
更长远看,它要构建的是一个能够跨模型、跨框架、跨编译器和硬件的通用计算加速层,不论服务于国产芯片,还是适配国际主流异构硬件,都能用自动化方式完成调度和优化。
智子芯元所定义的“下一代计算基础设施”,核心价值在于通过AI驱动的自动化范式,降低计算任务从模型到硬件之间的适配成本。
一方面,通过自动化调优,模型在各类异构算力上的交付周期有机会从月级压缩至更短周期。对于模型厂商、云厂商和行业客户来说,这直接影响模型迁移、私有化部署和新业务上线的速度。
另一方面,当计算效率提升、成本下降,原本因为算力成本过高或性能瓶颈难以突破而无法落地的场景,比如复杂科学计算、高精度工业仿真等,会获得新的落地空间。
让AI接管一部分计算系统优化工作,是计算效率跃迁的新解法,智子芯元切入的正是这一环节。
在大海捞针的求解空间里,用AI和运筹学给计算系统装上“自动驾驶”
基于对算力痛点的深度洞察,智子芯元将公司定位为一家"AI for Computing"公司,致力于通过AI驱动的自动化技术,重构计算加速的基础设施,实现计算效率的系统性提升。
在丁添看来,计算加速的核心挑战是能否在特定芯片的物理约束下,找到性能最优的那条实现路径。
这是一个极其庞杂的求解空间。同一项计算任务在特定芯片上的实现路径可能是天文数字级别——数据如何分块、内存怎样调度、硬件并行度如何配置,每一个维度的微小变化都会导致截然不同的性能结果。更关键的是,这些维度之间高度耦合,且随芯片架构的不同而剧烈变化,没有一套固定规则能解决所有问题。
这就像在一座不断变化的城市里规划最快路线。道路、红绿灯、车流和目的地都在变,昨天跑通的路线,今天未必仍然最优。计算加速也是如此,真正困难的是在不断变化的约束里找到性能最好的实现方式。
因此,计算加速本质上是一个在复杂硬件约束条件下的最优化求解课题。
这也解释了为什么智子芯元需要同时融合三层能力:大模型擅长理解计算需求、识别性能瓶颈并快速生成候选方案,但它无法在高维参数空间中精确求解;运筹优化算法恰好补上这块短板,能够在海量参数组合中高效逼近最优解;而算法自动发现则更进一步,让系统具备自主探索全新计算策略的能力,而不仅仅是复用已知经验。三者协同,才能真正逼近芯片的性能上限。
为了解决这一难题,智子芯元确立了“大模型 + 运筹优化 + 算法自动发现”的核心技术范式。
丁添向36氪做了一个类比,以解一道复杂物理题为例,大模型是负责读题和判断解题方向的人,它能理解题目在问什么,识别已知条件和约束关系,并给出大致的求解思路;但真正要算出准确结果,还需要把问题转化为可求解的数学模型,再通过运筹优化算法一步步搜索和验证。方向判断错了,后面的计算没有意义;只停留在方向判断,问题也无法真正解出来。
在智子芯元构建的系统中,大模型负责理解计算需求、识别代码中的性能瓶颈,并制定出初步的计算策略与代码。随后,运筹优化算法接管了具体的参数配置与调度寻优工作。
通过在硬件上不断上板验证与测试,两者在“硬件在环”的反馈机制中不断迭代收敛,最终锁定能够发挥芯片上限的最优解。
这一全新的技术路线,相当于给计算系统装上了“自动驾驶”。它打破了以往依靠工程师人工写码、手动调参、反复试错的传统开发路径,让底层系统获得了自主探索算法实现、掌控资源调度并自动化交付计算加速方案的能力。
KernelCAT:构建算力底座的智能加速引擎
理论行得通,最后还要看交付效果。
基于“大模型 + 运筹优化 + 算法自动发现”的技术范式,智子芯元推出了核心商业化产品——计算加速智能体 KernelCAT,并将其定义为计算时代的核心基础设施。
当计算加速任务交由 KernelCAT 接管后,凭借对底层计算系统的掌控力,它会先自主建立对任务的全局认知。KernelCAT 能够穿透表层需求,洞察模型架构的本质与计算图的逻辑脉络,定位业务负载的真实瓶颈;并结合对目标硬件微架构的理解,在时延、吞吐与功耗的复杂约束下,自主推演出全局最优的性能演进路径。
完成全局推演后,KernelCAT 会无缝衔接,将高阶策略转化为深度的底层执行。 它直接下探至指令集架构层面,动态生成面向任务目标的极致计算代码,并建立闭环校验,确保逻辑精准。面对庞杂的参数配置与调度逻辑,它将其重构为可求解的高阶数学模型,驾驭运筹优化算法,在亿万级组合空间中寻找最优解。
纸面算力必须在真实物理世界接受检验。 KernelCAT 会自主将候选策略投射至目标芯片,捕捉耗时、显存读写与计算单元利用率等微观性能数据。这是一场动态博弈:一旦嗅探到内存访问瓶颈,系统会调整数据分块和调度策略;若编译或执行结果不理想,它便自发回到前序环节重新生成、验证和收敛。
至此,“分析—编码—上板调优—交付”被 KernelCAT 重塑为全自动的智能闭环,环环相扣。 那些曾依赖顶尖工程师反复试错的工作,如今皆由智能体自主驾驭。
更重要的是,每一次极限寻优过程中,它都在“自我进化”——将顶级的专家调优直觉、复杂的软硬件约束规则,持续沉淀为系统的底层认知,蜕变为越用越聪明、可规模化复用的核心资产库。
截至目前,KernelCAT 已经完成多类异构算子的自动化调优,并取得了较好的测试结果。
以vLLM 框架中的注意力算子迁移为例,这个算子本身优化难度较高,智子芯元利用 KernelCAT 自动化完成了从 GPU 到昇腾 NPU 的高性能迁移。在确保 100% 精度对齐的前提下,运行时间从 132 微秒压缩至 10.6 微秒,实现了 12 倍性能提升,相关成果已被纳入昇腾官方 Triton 算子库。
在模型与场景级交付中,KernelCAT 也已经能够支撑多类复杂业务负载的平滑切换。到了真实生产环境里,单个算子跑得更快只是其中一部分,更难的是不同架构之间能否稳定适配、持续交付。
这套方法也被用到了端侧与具身智能场景。相比云端大模型,端侧计算任务更碎片,硬件约束也更具体,对适配效率和性能稳定性要求更高。
端侧具身智能模型的调优,有点像把一套复杂生产线放进一个小车间。空间有限,流程不能乱,精度不能掉,速度还要更快。以在昇腾 310P1 开发板上部署调优 Pi0.5 VLA 具身智能模型为例,KernelCAT 用 1 天完成基础部署,并在 1 周内自动实施“空相机裁剪”“KV cache 复用”“D2D 零拷贝”等全栈优化。在保持 99.9999% 高精度的前提下,端到端推理性能提升到社区最优实现的 2 倍以上。
从算子迁移到端侧模型部署,KernelCAT 处理的其实是同一类问题。它把计算任务、优化过程和真实硬件反馈串起来,让过去一次次靠人工调优完成的底层工程,进入一条可以自动运行、复用和迭代的计算加速管线。
从算力适配,走向通用计算加速平台
当前,计算需求快速增长,算力供给却越来越碎片化。芯片厂商、云厂商、模型厂商和政企客户关注的指标各不相同,但最终都指向同一个问题,即如何让不同架构的算力更容易被调用,并在真实业务中释放出更高效率。
在这一背景下,帮助算力生态解决底层工程短板,只是智子芯元切入市场的第一步,也是其自动化调优技术更具说服力的验证场景。但智子芯元的业务底色,并不局限于单一生态补齐。随着 AI 与运筹学驱动的加速引擎日益成熟,它正在成为连接算力供给与模型应用的一层工程能力,为产业提供标准化的算力交付方式。
随着全球计算需求持续增长,异构计算已成为不可逆的趋势。未来,各类 GPU、NPU、TPU 以及专用推理芯片将共同构成底层算力池。在软硬件高度耦合的时代,行业面临的真正挑战,是如何打破不同硬件架构之间的适配壁垒,让上层应用稳定、高效地调用底层算力,而不被具体芯片和软件栈反复牵制。
智子芯元的长期目标,正是通过 KernelCAT 等引擎,构建一个横跨多硬件架构的通用加速层,将计算加速从特定芯片的定制化服务,推进为更普适的计算基础设施。
要实现这一系统级愿景,挑战仍然很大。
AI for Computing 长期处于无人区,传统方法在面对极高维度的算子空间时容易陷入僵局。智子芯元选择深入工程一线,将复杂的算力瓶颈拆成可以搜索、验证和迭代的问题,再通过高频闭环,把前沿计算算法推进到真实硬件和商业场景中。
之所以能潜入技术深水区,源自智子芯元团队“学术+工程+商业”的三重底色。
在学术端,他们拥有“寻优”的大脑。依托深圳市大数据研究院,在著名优化理论专家罗智泉院士的加持下,团队掌握着在亿万级算子组合中寻找“最优解”的底层数学方法。
在工程端,他们长着能落地的“双手”。 团队骨干曾在华为等基础设施一线摸爬滚打,比谁都清楚纸面算法的局限。他们懂得如何让模型、编译器和底层芯片真正咬合,在真实的业务负载里跑出极致性能。
而在商业侧,他们坚持“造机器”而不是当“手艺人”。 智子芯元从一开始在赚“人头费”方面保持克制,拒绝传统的定制化人工调优服务。他们把每一次踩过的坑、每一次极致的优化经验,都沉淀到 KernelCAT 这样的智能产品中。这意味着,他们最终交付的结果,是一套可以复用、验证和规模化交付的自动化加速引擎。
学术提供方法,工程给出落点,商业导向的克制。三者叠加,构成了智子芯元在 AI for Computing 赛道中的团队坚实壁垒。
计算效率的每一次跃迁,都源于底层基础设施的重构。从代码、软件栈到算力系统,人类始终在推动一件事:不断降低复杂计算的使用门槛,让算力从少数专家可驾驭的能力,变成可被自动调用、持续优化的生产力。智子芯元把自己放在了硬件之后、应用之前那段最难被看见、却直接决定算力能否落地的系统适配环节,以 AI 自动化取代传统的人工调优,将算力交付从“手工工艺”推向“智能工业”。
当计算效率被重新定义,智子芯元已然成为了那块关键拼图。