独家专访丁添：两月连融两轮，AI for Computing赛道黑马智子芯元成功秘诀揭秘！

补上算力落地的最后一环。

36氪获悉，AI驱动的计算加速基础设施公司智子芯元近日宣布完成天使+轮融资。本轮融资由鼎峰科创（武岳峰创投）、英诺科创基金、首程资本领投，老股东同创伟业等机构超额跟投。

这是一家“反差感”强烈的明星初创公司——在AI计算需求猛增、芯片供给与算力生态面临双重约束的大背景下，智子芯元既不造芯片，也不卖大模型Token，却两个月连融两轮，拿下近亿元融资，斩获硬科技头部机构的青睐。

这家公司是如何精准切入AI Infra与算力生态交汇处的？近日，36氪独家专访了智子芯元创始人丁添，试图还原这家公司狂奔背后的底层逻辑。

AI计算加速，下一代计算基础设施

人类科学与产业的发展，始终伴随着计算效率的提升。过去几十年，从通用芯片到GPU和集群计算，硬件架构的演进持续推动算力增长。

然而进入新的阶段，算力产业的核心矛盾开始凸显。

当前，大模型迭代使得AI计算需求快速增长，但受制于制程物理极限、单卡成本、能耗以及国产芯片生态的成熟度，硬件侧的供给约束越来越明显。

在这个供需失衡的节点上，下一阶段算力竞争的关键，已经不仅仅是制造更多芯片，而是有效算力，即一块芯片在真实业务中，能够稳定释放出来的计算性能。

在接受36氪独家专访时，智子芯元创始人丁添提到：“当前的国产计算生态中，很多客户 ‘买到了芯片’，并不等于马上拥有‘可用算力’。”

一个常见的现象是，企业花大价钱买回一批国产算力卡，理论性能很高，但在实际部署业务模型时，跑出来的性能可能只发挥了理论算力的三四成。算力释放不充分，直接影响大模型厂商的单位Token成本，也会拖慢新产品和行业应用的交付周期。

造成这一落差的原因，并非只是硬件参数不够。

目前，大量主流模型和前沿算法原生于英伟达CUDA生态。丁添表示：“很多大模型的算法架构在设计之初，就是为了在英伟达芯片上跑得更快，天然更亲和GPU，而很少考虑如何在其他异构芯片上高效运行。”

当这些模型迁移到国产卡或其他异构平台时，问题也不是简单的代码翻译。底层硬件架构、算子覆盖、内存调度、通信机制和编译优化均会涉及，一个环节没有打通，都会影响最终性能。

过去，补齐这些底层生态短板，高度依赖稀缺的资深系统工程师进行人工适配。工程师需要理解模型结构、算子实现、硬件特性和运行反馈，再通过反复调参、测试和验证，把性能一点点提上去。

这种方式在早期可以解决问题，但很难支撑快速扩张的算力需求。调优经验往往难以在不同芯片、不同模型和不同业务负载之间复用。每出现一类新硬件或新算法，团队可能都需要重新做一轮适配。

正如丁添所言，面对不断涌现的新算法，“如果每次适配都需要耗费数月时间，算力运营商将很难保持市场竞争力。”

这不是工程师更努力写代码就能解决的问题。智子芯元要解决的，是把算力适配从手工作坊式的人工交付，变成一套可复用、可自动搜索、可持续收敛的工程管线，让理论算力尽可能转化为真实业务中的有效算力。

对于智子芯元而言，国产算力生态的适配是其验证技术范式的关键切入点。

更长远看，它要构建的是一个能够跨模型、跨框架、跨编译器和硬件的通用计算加速层，不论服务于国产芯片，还是适配国际主流异构硬件，都能用自动化方式完成调度和优化。

智子芯元所定义的“下一代计算基础设施”，核心价值在于通过AI驱动的自动化范式，降低计算任务从模型到硬件之间的适配成本。

一方面，通过自动化调优，模型在各类异构算力上的交付周期有机会从月级压缩至更短周期。对于模型厂商、云厂商和行业客户来说，这直接影响模型迁移、私有化部署和新业务上线的速度。

另一方面，当计算效率提升、成本下降，原本因为算力成本过高或性能瓶颈难以突破而无法落地的场景，比如复杂科学计算、高精度工业仿真等，会获得新的落地空间。

让AI接管一部分计算系统优化工作，是计算效率跃迁的新解法，智子芯元切入的正是这一环节。

在大海捞针的求解空间里，用AI和运筹学给计算系统装上“自动驾驶”

基于对算力痛点的深度洞察，智子芯元将公司定位为一家"AI for Computing"公司，致力于通过AI驱动的自动化技术，重构计算加速的基础设施，实现计算效率的系统性提升。

在丁添看来，计算加速的核心挑战是能否在特定芯片的物理约束下，找到性能最优的那条实现路径。

这是一个极其庞杂的求解空间。同一项计算任务在特定芯片上的实现路径可能是天文数字级别——数据如何分块、内存怎样调度、硬件并行度如何配置，每一个维度的微小变化都会导致截然不同的性能结果。更关键的是，这些维度之间高度耦合，且随芯片架构的不同而剧烈变化，没有一套固定规则能解决所有问题。

这就像在一座不断变化的城市里规划最快路线。道路、红绿灯、车流和目的地都在变，昨天跑通的路线，今天未必仍然最优。计算加速也是如此，真正困难的是在不断变化的约束里找到性能最好的实现方式。

因此，计算加速本质上是一个在复杂硬件约束条件下的最优化求解课题。

这也解释了为什么智子芯元需要同时融合三层能力：大模型擅长理解计算需求、识别性能瓶颈并快速生成候选方案，但它无法在高维参数空间中精确求解；运筹优化算法恰好补上这块短板，能够在海量参数组合中高效逼近最优解；而算法自动发现则更进一步，让系统具备自主探索全新计算策略的能力，而不仅仅是复用已知经验。三者协同，才能真正逼近芯片的性能上限。

为了解决这一难题，智子芯元确立了“大模型 + 运筹优化 + 算法自动发现”的核心技术范式。

丁添向36氪做了一个类比，以解一道复杂物理题为例，大模型是负责读题和判断解题方向的人，它能理解题目在问什么，识别已知条件和约束关系，并给出大致的求解思路；但真正要算出准确结果，还需要把问题转化为可求解的数学模型，再通过运筹优化算法一步步搜索和验证。方向判断错了，后面的计算没有意义；只停留在方向判断，问题也无法真正解出来。

在智子芯元构建的系统中，大模型负责理解计算需求、识别代码中的性能瓶颈，并制定出初步的计算策略与代码。随后，运筹优化算法接管了具体的参数配置与调度寻优工作。

通过在硬件上不断上板验证与测试，两者在“硬件在环”的反馈机制中不断迭代收敛，最终锁定能够发挥芯片上限的最优解。

这一全新的技术路线，相当于给计算系统装上了“自动驾驶”。它打破了以往依靠工程师人工写码、手动调参、反复试错的传统开发路径，让底层系统获得了自主探索算法实现、掌控资源调度并自动化交付计算加速方案的能力。

KernelCAT：构建算力底座的智能加速引擎

理论行得通，最后还要看交付效果。

基于“大模型 + 运筹优化 + 算法自动发现”的技术范式，智子芯元推出了核心商业化产品——计算加速智能体 KernelCAT，并将其定义为计算时代的核心基础设施。

当计算加速任务交由 KernelCAT 接管后，凭借对底层计算系统的掌控力，它会先自主建立对任务的全局认知。KernelCAT 能够穿透表层需求，洞察模型架构的本质与计算图的逻辑脉络，定位业务负载的真实瓶颈；并结合对目标硬件微架构的理解，在时延、吞吐与功耗的复杂约束下，自主推演出全局最优的性能演进路径。

完成全局推演后，KernelCAT 会无缝衔接，将高阶策略转化为深度的底层执行。它直接下探至指令集架构层面，动态生成面向任务目标的极致计算代码，并建立闭环校验，确保逻辑精准。面对庞杂的参数配置与调度逻辑，它将其重构为可求解的高阶数学模型，驾驭运筹优化算法，在亿万级组合空间中寻找最优解。

纸面算力必须在真实物理世界接受检验。 KernelCAT 会自主将候选策略投射至目标芯片，捕捉耗时、显存读写与计算单元利用率等微观性能数据。这是一场动态博弈：一旦嗅探到内存访问瓶颈，系统会调整数据分块和调度策略；若编译或执行结果不理想，它便自发回到前序环节重新生成、验证和收敛。

至此，“分析—编码—上板调优—交付”被 KernelCAT 重塑为全自动的智能闭环，环环相扣。那些曾依赖顶尖工程师反复试错的工作，如今皆由智能体自主驾驭。

更重要的是，每一次极限寻优过程中，它都在“自我进化”——将顶级的专家调优直觉、复杂的软硬件约束规则，持续沉淀为系统的底层认知，蜕变为越用越聪明、可规模化复用的核心资产库。

截至目前，KernelCAT 已经完成多类异构算子的自动化调优，并取得了较好的测试结果。

以vLLM 框架中的注意力算子迁移为例，这个算子本身优化难度较高，智子芯元利用 KernelCAT 自动化完成了从 GPU 到昇腾 NPU 的高性能迁移。在确保 100% 精度对齐的前提下，运行时间从 132 微秒压缩至 10.6 微秒，实现了 12 倍性能提升，相关成果已被纳入昇腾官方 Triton 算子库。

在模型与场景级交付中，KernelCAT 也已经能够支撑多类复杂业务负载的平滑切换。到了真实生产环境里，单个算子跑得更快只是其中一部分，更难的是不同架构之间能否稳定适配、持续交付。

这套方法也被用到了端侧与具身智能场景。相比云端大模型，端侧计算任务更碎片，硬件约束也更具体，对适配效率和性能稳定性要求更高。

端侧具身智能模型的调优，有点像把一套复杂生产线放进一个小车间。空间有限，流程不能乱，精度不能掉，速度还要更快。以在昇腾 310P1 开发板上部署调优 Pi0.5 VLA 具身智能模型为例，KernelCAT 用 1 天完成基础部署，并在 1 周内自动实施“空相机裁剪”“KV cache 复用”“D2D 零拷贝”等全栈优化。在保持 99.9999% 高精度的前提下，端到端推理性能提升到社区最优实现的 2 倍以上。

从算子迁移到端侧模型部署，KernelCAT 处理的其实是同一类问题。它把计算任务、优化过程和真实硬件反馈串起来，让过去一次次靠人工调优完成的底层工程，进入一条可以自动运行、复用和迭代的计算加速管线。

从算力适配，走向通用计算加速平台

当前，计算需求快速增长，算力供给却越来越碎片化。芯片厂商、云厂商、模型厂商和政企客户关注的指标各不相同，但最终都指向同一个问题，即如何让不同架构的算力更容易被调用，并在真实业务中释放出更高效率。

在这一背景下，帮助算力生态解决底层工程短板，只是智子芯元切入市场的第一步，也是其自动化调优技术更具说服力的验证场景。但智子芯元的业务底色，并不局限于单一生态补齐。随着 AI 与运筹学驱动的加速引擎日益成熟，它正在成为连接算力供给与模型应用的一层工程能力，为产业提供标准化的算力交付方式。

随着全球计算需求持续增长，异构计算已成为不可逆的趋势。未来，各类 GPU、NPU、TPU 以及专用推理芯片将共同构成底层算力池。在软硬件高度耦合的时代，行业面临的真正挑战，是如何打破不同硬件架构之间的适配壁垒，让上层应用稳定、高效地调用底层算力，而不被具体芯片和软件栈反复牵制。

智子芯元的长期目标，正是通过 KernelCAT 等引擎，构建一个横跨多硬件架构的通用加速层，将计算加速从特定芯片的定制化服务，推进为更普适的计算基础设施。

要实现这一系统级愿景，挑战仍然很大。

AI for Computing 长期处于无人区，传统方法在面对极高维度的算子空间时容易陷入僵局。智子芯元选择深入工程一线，将复杂的算力瓶颈拆成可以搜索、验证和迭代的问题，再通过高频闭环，把前沿计算算法推进到真实硬件和商业场景中。

之所以能潜入技术深水区，源自智子芯元团队“学术+工程+商业”的三重底色。

在学术端，他们拥有“寻优”的大脑。依托深圳市大数据研究院，在著名优化理论专家罗智泉院士的加持下，团队掌握着在亿万级算子组合中寻找“最优解”的底层数学方法。

在工程端，他们长着能落地的“双手”。团队骨干曾在华为等基础设施一线摸爬滚打，比谁都清楚纸面算法的局限。他们懂得如何让模型、编译器和底层芯片真正咬合，在真实的业务负载里跑出极致性能。

而在商业侧，他们坚持“造机器”而不是当“手艺人”。智子芯元从一开始在赚“人头费”方面保持克制，拒绝传统的定制化人工调优服务。他们把每一次踩过的坑、每一次极致的优化经验，都沉淀到 KernelCAT 这样的智能产品中。这意味着，他们最终交付的结果，是一套可以复用、验证和规模化交付的自动化加速引擎。

学术提供方法，工程给出落点，商业导向的克制。三者叠加，构成了智子芯元在 AI for Computing 赛道中的团队坚实壁垒。

计算效率的每一次跃迁，都源于底层基础设施的重构。从代码、软件栈到算力系统，人类始终在推动一件事：不断降低复杂计算的使用门槛，让算力从少数专家可驾驭的能力，变成可被自动调用、持续优化的生产力。智子芯元把自己放在了硬件之后、应用之前那段最难被看见、却直接决定算力能否落地的系统适配环节，以 AI 自动化取代传统的人工调优，将算力交付从“手工工艺”推向“智能工业”。

当计算效率被重新定义，智子芯元已然成为了那块关键拼图。

本文由「晓曦」原创出品，转载或内容合作请点击转载说明；违规转载必究。

独家专访丁添：两个月连融两轮，AI for Computing赛道黑马智子芯元做对了什么？

AI计算加速，下一代计算基础设施

在大海捞针的求解空间里，用AI和运筹学给计算系统装上“自动驾驶”

KernelCAT：构建算力底座的智能加速引擎

从算力适配，走向通用计算加速平台