录屏扒代码+截图改网页，Kimi K2.5玩转「视觉x代码」！

不用再抠提示词

说真的，AI圈现在恨不得睁眼闭眼就变天，产品一个接一个，难怪网友都开始“求求你们别更新了”……

△

这不，今天一睁眼就又看到个新东西。

能直接从录屏里扒特效代码并复现的模型你见过没？？反正我是开眼了。

随手从相册里挖出下面这个视频上传，输入“实现这个交互特效”几个字：

模型一通操作之后，我得到了如下成品：

只能说，春节档的电影还没开始预热，中国的开源力量就已经势如破竹了。

这是Moonshot AI新推出的最强Agentic模型Kimi K2.5，发布后就在某推上热度起飞。

掌门人杨植麟还亲自上阵，为这个新模型录制了中英两版介绍视频。

从视频内容看，Kimi K2.5的升级点不少：

实现视觉与文本、思考与即时、对话与Agent功能的一体化整合，主打一个All in one；
具备设计审美，可生成带高级动效的网页；
支持visual edit可视化编辑，截图圈选即可修改界面，上传动效录屏可自动拆解逻辑并生成专业代码；
推出编程工具Kimi Code，可在终端运行，无缝集成VSCode、Cursor等IDE，支持图片/视频输入，自动迁移用户现有技能与MCP。

本来只是看完介绍想浅试一下，结果没想到还真有点意思。

那咱就接着细说、接着测！

视觉能力是大招

动手实测之前，先亮一亮Kimi K2.5的基准测试成绩单。

K2.5在人类最后的考试HLE、BrowseComp和DeepSearchQA等一众高难度测试集上，拿下了SOTA的好成绩；

编程方面，在SWE-bench Verified上得分高达77，以开源的姿态缩小了和顶级闭源模型的差距；

视觉理解多项测试也刷出新高。值得一提的是，在多项评测中，K2.5的表现甚至优于GPT-5.2-xhigh。

Kimi K2.5这次更新了4种使用模式，适应不同场景，不管你有啥需求，都能找到适合自己的打开方式。

快速模式主打极速反馈，适合日常闲聊或简单查询；
思考模式专攻难题，帮你一步步拆解复杂逻辑；
Agent模式则擅长深度挖掘，比如搞研究、生成办公文档或网页；
最猛的是Agent集群模式，针对那些需要多线程处理的超级任务，能调动一大波智能体分身并行执行。

开头的特效复现案例，就用的是Agent集群模式——Kimi给我分配了一个叫阿澈的开发员。

光说不练假把式，既然介绍里主打「视觉x代码」，那咱就测一测K2.5的代码能力。

第一个实测项目是看图写代码。

把一张音乐播放器网页截图上传给K2.5作为参考；

然后输入提示词：

参考这个网页，生成对应代码

没过多久，一套完整的代码就新鲜出炉了。

生成的网页不仅还原了原设计的功能，连按钮的hover动效、音乐播放进度条的滑动效果也都做出来了。

实际上大家也能看出来，我给的参考图清晰度不是很高，但模型也能精准识别；

网页上展示的音乐封面是模型自己生成的，除此之外可以看出最下方的按钮布局没完全还原，但这个效果在我看来已经算是一张还原度超过90%的优秀答卷。

当然了，大家应该也能看到上传的参考图片上显示的是红色感叹号，srds模型确实能识别图片进行分析，只能说所有模型可能都有些小bug，但能干实事儿就无伤大雅（doge）。

除了能看图写代码，K2.5还能截图改代码。

拿刚才生成的音乐播放器网页来说，我想让它调整一下播放器的布局，于是截了个图，圈出播放器的主体部分；

然后告诉K2.5:

把这部分放到左下角

模型秒懂我的意图，2分钟之内给出了修改后的代码，刷新网页一看，除了截图部分按要求调整了布局，其余地方都没变，主打一个精准（而且这次还没红色感叹号hhh）。

而且整个过程像在用绘图软件涂改一样直观，省去了大段文字描述的麻烦。

我又反复试了几轮，发现哪怕圈选区域模糊、不完整，它也能智能补全意图，避免了AI常见的误读问题。

比如我觉得播放器的配色有点单调，于是截了个图，只圈出了播放器左侧栏部分；

告诉K2.5想要换成莫兰迪色系：

这部分配色有点单调，换成莫兰迪色系

模型再次秒懂意图，5分钟之内给出了修改后的代码，刷新网页一看，它自己选的颜色和原来的搭配起来还挺和谐，而且不止换了一种颜色，还给我来了个“伪渐变”。

就算你既没有找到喜欢的设计图，脑子里也暂时没什么想法，也完全不用担心，只要简简单单一句话，也能让K2.5自由发挥。

比如我随手输入：

帮我生成一个文艺风的书籍推荐网页

没想到啊没想到，它居然整了个大活儿。

青绿色的背景搭配多种字体，一股文艺气息扑面而来；鼠标扫过书籍封面还能升起一句话简介；

再往下拉，是读书社区和「每周一书」活动的介绍，卡片还带有翻转展开的动效；

除此之外，Kimi还设计了阅读体验、读者聚会、作者介绍等模块，每一处展示都细节满满，完全超出了我的预期，毕竟我的输入只有一句话……

接下来，我又让K2.5 Thinking（下图左）和K2 Thinking（下图右）分别生成了一个Switch手柄：

设计一个Switch手柄，屏幕上显示pygame风格的推箱子游戏

放在一起对比，明显能看出K2.5 Thinking设计出来的游戏，不管是在画面比例上还是像素上都优于K2 Thinking；

甚至K2.5最终的代码行数为738，而K2一共有818行。

看到这儿，你是不是也发现了，K2.5设计出来的代码和我们平时见到的那些AI产物，其实不太一样——

不是一水儿的紫色调，也不是呆板的模块化布局；而是在视觉上变得更加美观、更多元化。

显然，团队的目标不止于功能实现，还想注入设计审美，让AI输出的创意像人类一样有灵魂有个性。

过去AI编程往往停留在“能跑就好”，现在它能交付高质量的专业级产品，门槛低到只需一张图或一句话。

除了「视觉x代码」这块儿亮眼，Kimi K2.5在Office办公领域也玩得转。

（上传文件）把这个文件内容转换为PPT，风格为简约风格，主色调为灰白色

再看输出的效果，颜色正确、风格正确、分析和展示的内容也非常全。

最重要的是可编辑，这样就极大方便了普通用户，不懂提示词工程的人也能用好Kimi；即使AI有啥小差错，也不用一遍遍通过Prompt纠正，自己动手随时能改。

之前为了应对不同的工作，人需要学习不同的Office语言，比如什么公式、函数、数据格式……

现在有了Kimi K2.5，办公软件也开始听人话了。

Agent Swarm是内功

如果说视觉能力是Kimi K2.5亮眼的招式，那智能体集群Agent Swarm就是支撑K2.5突破效率的内功。

Agent Swarm的核心逻辑，就是让多个具备独立功能的智能体协同工作，各司其职又互相配合，本质上也是对分布式AI协作的具象化表达。

这个概念很有可能成为今年Agent领域的核心叙事。

AI圈的大红人，英伟达老黄都在2025年多次公开表示，AI Agents有望成为下一个机器人级别的万亿级产业，并且特别看好swarm/collective intelligence（集群/集体智能）的发展前景，足见这个赛道的潜力之大。

回顾Kimi的技术迭代路径，不难发现他们早就开始布局“Agents Scaling”。

半年前他们推出首个万亿参数开源模型Kimi K2，那时的焦点在参数Scaling上。

后来Kimi K2 Thinking上线，通过延长思考链条，让单Agent能独立搞定长达300步的操作序列，提升了长程任务处理。

但这远远不够，单智能体的能力终究有上限。Kimi团队也意识到要啃下真正场景里的复杂难题，不能只靠单打独斗，必须要让智能体学会协作。

于是，在Kimi K2.5上，他们实现了关键跃进。

从单一Agent转向Agent集群，能即时调度上百个分身并发协作。

这些Agent就像是K2.5的分身，每一个都有自己的专长，有的擅长数据分析，有的精通文案撰写，有的专攻市场调研。

当遇到一个复杂任务时，K2.5不再让一个Agent包揽所有工作，而是会根据任务需求，现场给这些分身分配角色、拆解子任务，整个过程没有任何预设的规则，全靠K2.5自主决策。

举个简单的例子。

比如要做100家公司的市场调研，K2.5会立刻组建一个调研团队，让不同的Agent分别负责不同行业的公司；

有的收集财务数据，有的分析市场份额，有的整理竞品动态，原本需要几星期才能完成的工作，现在十几分钟就能给出一份详尽的报告。

整个过程从串行到并行切换自如，效率提升非常明显。

据团队内部评测，搭载Kimi K2.5的Kimi Code在软件工程能力上，比前代模型大幅进步。

相较于单智能体执行模式，智能体集群能将实现目标性能所需的最少关键步骤缩减3至4.5倍，且目标要求越高，步骤的节省幅度就越大；

同时借助并行化处理，其实际运行耗时（壁钟时间）最多可缩短4.5倍。

让AI“干活”，让人“定义”

实际上这么看下来，Kimi K2.5通过视觉能力和Agent集群，极大地抹平了普通用户与专业交付成果之间的技术鸿沟。

毕竟，连提示词都不用反复修改润色，只要拿图或视频给K2.5看，它就能交给你一个基本满意的答卷。

办公方面的升级，也在侧面说明Kimi现在已经是被微软认定的生产力工具；要知道，微软之前在「Agent+Office」这方面合作的核心可是OpenAI的GPT系列。

大家总爱说AI迟早要替代人，但在K2.5这里，我们看到的是AI正在赋予每个人“指挥千军万马”的超能力。

就像Kimi团队说的那样，要让用户专注于定义问题和做决策，剩下的重活儿、累活儿、杂活儿，统统交给这群“Kimi分身”就好。

总的来说，Kimi K2.5这次升级简化了人类的工作流程，或许，在Agent时代写简历都不用长篇大论了，一句“精通Kimi”就够了（doge）。

本文来自微信公众号“量子位”（ID：QbitAI），作者：闻乐，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

录屏扒代码、截图改网页，Kimi K2.5把「视觉x代码」玩明白了

视觉能力是大招

Agent Swarm是内功

让AI“干活”，让人“定义”