AI Coding下一步在哪？最新「多模态代码智能」综述，这些方向必划重点！

多模态代码智能全景图

给定一张截图，AI 就可以帮你生成代码，这早就不是什么新鲜事了。

真正的难点，是让生成结果经得起执行和交互验证。

传统的“文生代码”（text-to-code）主要依赖文本描述生成代码，但文字并不擅长表达空间层次和复杂结构，一张图片能传达的信息，往往需要大段文字才能说清。相比之下，在前端界面、可视化图表和 CAD 图形等任务中，视觉输入往往更直接、更完整。随着多模态大语言模型（MLLM）的发展，能够理解图像、界面和图表的“多模态代码智能”（Multimodal Code Intelligence）也由此兴起。

围绕这一前景，美团、香港大学、香港中文大学团队及其合作者发布了最新综述论文，系统梳理了多模态代码智能的主要任务与瓶颈，并提出 4 个未来研究的主要方向。

论文链接：https://arxiv.org/abs/2606.15932

他们指出，以 IWR-Bench 基准为例，当前模型视觉保真度可达 64.25%，但交互功能正确率仅 24.39%。而且，多模态代码智能的评估不能只看视觉相似度，还要考察语义、结构、执行和交互层面的正确性。

相关项目与资源已在 GitHub 上公开。

当前进展

在任务定义部分，研究团队将多模态代码智能相关任务概括为两大类：

一类是多模态代码合成，关注在视觉信息参与下生成、编辑和精炼代码。

另一类是“代码中心的推理与行动”，强调代码不只是最终结果，也可以作为推理、工具调用和 Agent 执行任务的中间接口。

他们将现有研究归纳为如下四个主要方向：

图｜多模态代码智能领域概览。

GUI 方向：网页代码生成验证闭环最清晰，但现有评测仍偏重静态视觉相似度。在IWR-Bench上的结果显示，模型视觉保真度可达64.25%，交互功能正确率仅为 24.39%。相比之下，移动端由于缺少统一的执行与交互环境，评测更难标准化。

图｜网站和移动应用中的 GUI 代码生成任务示例。

科学可视化：核心要求在于，生成的代码不仅要能够正确渲染结果，还要准确表达数据语义、文档结构或相关科学过程/机制。

图｜科学可视化代码生成任务示例，包括图表、文档、演示文稿和示范内容。

结构化图形：强调从像素相似转向结构正确性，SVG 要保持可编辑性，流程图要保留逻辑拓扑与关系类型，CAD 则要恢复参数化构造逻辑、约束和特征依赖。

图｜结构化图形生成任务示例。

前沿任务：进一步将代码从“产物”扩展为“推理与行动接口”，涵盖程序化视觉操作、视频代码生成、具身控制、视觉驱动的编程，以及统一多模态代码生成框架。

图｜前沿任务与框架部分的任务，包括程序化视觉操作、视频代码生成、具身控制、视觉驱动的编程以及统一框架。

未来方向

随着前沿任务将代码进一步推向交互、执行与控制过程，现有评估体系的短板也变得更加明显。

基于此，研究团队提出了四个值得关注的未来方向。

1.多信号验证（Multi-Signal Validation）

研究团队指出，单一指标无法全面刻画多模态代码智能的正确性。视觉相似度高，不代表结构正确；参考代码更接近，也不意味着程序一定可执行；偏好式评估则往往只反映局部属性。

因此，未来的评估体系不应只给出一个总分，而应形成一份更细化的“诊断画像”，分别报告视觉保真度、执行成功率、文本正确性、数据或语义保真度、结构有效性、可编辑性和交互正确性。同时，评估设计还应明确系统究竟在优化什么属性、采用了哪些验证器，并区分训练阶段的奖励信号与最终的可靠性检查。

2.多状态验证（Multi-StateVerification）

研究团队认为，涉及状态变化的视觉-代码任务，不能再按孤立的静态结果来评估，而应放到完整执行过程中考察。GUI 任务最能说明这一点：一个页面也许在视觉上复现了截图，但在点击、路由跳转、窗口缩放或状态更新时仍可能暴露问题。

这一挑战并不只存在于 GUI。科学演示代码可能可以执行，却传达了错误的机制；视频脚本可能写对了关键帧，却丢失了事件时序；具身程序可能最终达到目标，却在接触、遮挡或控制器限制下失效。

因此，未来的基准测试不应只看单个结果，而应覆盖完整执行链条，包括初始状态、生成的代码或动作、中间观测、预期状态转换、验证器输出以及恢复案例。具体来说，网页任务需要检查 DOM 和状态断言，移动任务需要结合设计操作轨迹或模拟器手势等检查，视频任务需要进行时序同步验证，具身任务则需要结合模拟器或控制器诊断。

3.跨任务迁移测试（Cross-TaskTransferTesting）

研究团队指出，评估统一模型时，不能只看它是否支持更多任务格式，更要看它学到的能力能否跨任务迁移。关键不在于覆盖面更广，而在于模型是否真正获得了可复用的视觉-代码能力，例如布局推理、符号关系建模和交互理解，而不只是分别提升了若干单项任务表现。

为此，未来需要设计专门的迁移测试协议，对比基础模型、在源任务上增强过的模型，以及面向目标任务单独优化的对照模型，同时报告正向迁移和负向迁移。比如，可以测试图表训练是否提升了布局推理能力，文档结构学习是否有助于迁移到其他视觉-代码任务，交互监督是否能够改善生成产物的修复能力。

4.可验证的 Agent 轨迹（VerifiableAgentTraces）

对于面向 Agent 的视觉-代码系统，研究团队认为，未来需要保留更完整的过程证据，把视觉依据、工具调用、代码修改与最终结果串联成一条可检查的链条。只看任务最终是否成功，并不足以判断中间轨迹是否真正受视觉证据支撑，也难以说明这条轨迹是否对结果具有因果作用。

研究团队提到，未来需要建立“Agent 证据日志”。每条记录至少应包括：所依据的观测、引用的视觉区域或工具输出、修改过的代码或动作、预期会改进的验证器结果、回放结果，以及在证据不足时触发的回退或回滚决策。

这样的日志不仅有助于回放、消融测试、反事实输入、权限控制、沙盒保护和人工审查，更重要的是，它能把失败定位到更具体的环节，例如视觉理解、代码生成、环境执行、验证器设计，或动作选择本身是否存在安全问题。这样一来，Agent 驱动的多模态代码系统就不再只是一个依赖最终成功率衡量的黑盒，而会更接近一个可验证、可审查、可归因的过程。

一些问题

研究团队指出，当前多模态代码智能的核心瓶颈，不只是生成能力本身，而是缺少足够可靠的验证机制。现有评测往往依赖单一视觉信号，难以覆盖交互、状态变化、结构约束和时序过程：

在网页任务中，单张截图无法判断点击、路由与状态切换是否正确；
在图表任务中，渲染相似不等于数据恢复准确；
在SVG、流程图和 CAD 任务中，视觉接近也可能掩盖结构、逻辑或参数约束错误；
在视频与机器人任务中，任务完成同样不意味着时序过程或物理行为真实可靠。

与此同时，现有研究在数据集选择、评测指标和任务设定上缺乏统一标准，导致不同方法的结果难以直接横向比较；而数据泄露、基准饱和以及评测敏感性等问题，进一步削弱了相关结论的鲁棒性与可靠性。

最后，他们提醒，多模态代码智能虽然有望降低视觉编程门槛，但如果验证不足，也可能带来网页交互失效、图表数据错误、结构信息丢失、科学机制表达失真以及物理动作不安全等实际风险。此外，截图和设计文件可能包含私有信息，生成的代码也可能在专有环境中泄露或被误用。

本文来自微信公众号“学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

AI Coding的下一步是什么？最新「多模态代码智能」综述来了，这些方向值得划重点

当前进展

未来方向

一些问题