AI Coding的下一步是什么?最新「多模态代码智能」综述来了,这些方向值得划重点
给定一张截图,AI 就可以帮你生成代码,这早就不是什么新鲜事了。
真正的难点,是让生成结果经得起执行和交互验证。
传统的“文生代码”(text-to-code)主要依赖文本描述生成代码,但文字并不擅长表达空间层次和复杂结构,一张图片能传达的信息,往往需要大段文字才能说清。相比之下,在前端界面、可视化图表和 CAD 图形等任务中,视觉输入往往更直接、更完整。随着多模态大语言模型(MLLM)的发展,能够理解图像、界面和图表的“多模态代码智能”(Multimodal Code Intelligence)也由此兴起。
围绕这一前景,美团、香港大学、香港中文大学团队及其合作者发布了最新综述论文,系统梳理了多模态代码智能的主要任务与瓶颈,并提出 4 个未来研究的主要方向。
论文链接:https://arxiv.org/abs/2606.15932
他们指出,以 IWR-Bench 基准为例,当前模型视觉保真度可达 64.25%,但交互功能正确率仅 24.39%。而且,多模态代码智能的评估不能只看视觉相似度,还要考察语义、结构、执行和交互层面的正确性。
相关项目与资源已在 GitHub 上公开。
当前进展
在任务定义部分,研究团队将多模态代码智能相关任务概括为两大类:
一类是多模态代码合成,关注在视觉信息参与下生成、编辑和精炼代码。
另一类是“代码中心的推理与行动”,强调代码不只是最终结果,也可以作为推理、工具调用和 Agent 执行任务的中间接口。
他们将现有研究归纳为如下四个主要方向:
图|多模态代码智能领域概览。
GUI 方向:网页代码生成验证闭环最清晰,但现有评测仍偏重静态视觉相似度。在IWR-Bench上的结果显示,模型视觉保真度可达64.25%,交互功能正确率仅为 24.39%。相比之下,移动端由于缺少统一的执行与交互环境,评测更难标准化。
图|网站和移动应用中的 GUI 代码生成任务示例。
科学可视化:核心要求在于,生成的代码不仅要能够正确渲染结果,还要准确表达数据语义、文档结构或相关科学过程/机制。
图|科学可视化代码生成任务示例,包括图表、文档、演示文稿和示范内容。
结构化图形:强调从像素相似转向结构正确性,SVG 要保持可编辑性,流程图要保留逻辑拓扑与关系类型,CAD 则要恢复参数化构造逻辑、约束和特征依赖。
图|结构化图形生成任务示例。
前沿任务:进一步将代码从“产物”扩展为“推理与行动接口”,涵盖程序化视觉操作、视频代码生成、具身控制、视觉驱动的编程,以及统一多模态代码生成框架。
图|前沿任务与框架部分的任务,包括程序化视觉操作、视频代码生成、具身控制、视觉驱动的编程以及统一框架。
未来方向
随着前沿任务将代码进一步推向交互、执行与控制过程,现有评估体系的短板也变得更加明显。
基于此,研究团队提出了四个值得关注的未来方向。
1.多信号验证(Multi-Signal Validation)
研究团队指出,单一指标无法全面刻画多模态代码智能的正确性。视觉相似度高,不代表结构正确;参考代码更接近,也不意味着程序一定可执行;偏好式评估则往往只反映局部属性。
因此,未来的评估体系不应只给出一个总分,而应形成一份更细化的“诊断画像”,分别报告视觉保真度、执行成功率、文本正确性、数据或语义保真度、结构有效性、可编辑性和交互正确性。同时,评估设计还应明确系统究竟在优化什么属性、采用了哪些验证器,并区分训练阶段的奖励信号与最终的可靠性检查。
2.多状态验证(Multi-StateVerification)
研究团队认为,涉及状态变化的视觉-代码任务,不能再按孤立的静态结果来评估,而应放到完整执行过程中考察。GUI 任务最能说明这一点:一个页面也许在视觉上复现了截图,但在点击、路由跳转、窗口缩放或状态更新时仍可能暴露问题。
这一挑战并不只存在于 GUI。科学演示代码可能可以执行,却传达了错误的机制;视频脚本可能写对了关键帧,却丢失了事件时序;具身程序可能最终达到目标,却在接触、遮挡或控制器限制下失效。
因此,未来的基准测试不应只看单个结果,而应覆盖完整执行链条,包括初始状态、生成的代码或动作、中间观测、预期状态转换、验证器输出以及恢复案例。具体来说,网页任务需要检查 DOM 和状态断言,移动任务需要结合设计操作轨迹或模拟器手势等检查,视频任务需要进行时序同步验证,具身任务则需要结合模拟器或控制器诊断。
3.跨任务迁移测试(Cross-TaskTransferTesting)
研究团队指出,评估统一模型时,不能只看它是否支持更多任务格式,更要看它学到的能力能否跨任务迁移。关键不在于覆盖面更广,而在于模型是否真正获得了可复用的视觉-代码能力,例如布局推理、符号关系建模和交互理解,而不只是分别提升了若干单项任务表现。
为此,未来需要设计专门的迁移测试协议,对比基础模型、在源任务上增强过的模型,以及面向目标任务单独优化的对照模型,同时报告正向迁移和负向迁移。比如,可以测试图表训练是否提升了布局推理能力,文档结构学习是否有助于迁移到其他视觉-代码任务,交互监督是否能够改善生成产物的修复能力。
4.可验证的 Agent 轨迹(VerifiableAgentTraces)
对于面向 Agent 的视觉-代码系统,研究团队认为,未来需要保留更完整的过程证据,把视觉依据、工具调用、代码修改与最终结果串联成一条可检查的链条。只看任务最终是否成功,并不足以判断中间轨迹是否真正受视觉证据支撑,也难以说明这条轨迹是否对结果具有因果作用。
研究团队提到,未来需要建立“Agent 证据日志”。每条记录至少应包括:所依据的观测、引用的视觉区域或工具输出、修改过的代码或动作、预期会改进的验证器结果、回放结果,以及在证据不足时触发的回退或回滚决策。
这样的日志不仅有助于回放、消融测试、反事实输入、权限控制、沙盒保护和人工审查,更重要的是,它能把失败定位到更具体的环节,例如视觉理解、代码生成、环境执行、验证器设计,或动作选择本身是否存在安全问题。这样一来,Agent 驱动的多模态代码系统就不再只是一个依赖最终成功率衡量的黑盒,而会更接近一个可验证、可审查、可归因的过程。
一些问题
研究团队指出,当前多模态代码智能的核心瓶颈,不只是生成能力本身,而是缺少足够可靠的验证机制。现有评测往往依赖单一视觉信号,难以覆盖交互、状态变化、结构约束和时序过程:
- 在网页任务中,单张截图无法判断点击、路由与状态切换是否正确;
- 在图表任务中,渲染相似不等于数据恢复准确;
- 在SVG、流程图和 CAD 任务中,视觉接近也可能掩盖结构、逻辑或参数约束错误;
- 在视频与机器人任务中,任务完成同样不意味着时序过程或物理行为真实可靠。
与此同时,现有研究在数据集选择、评测指标和任务设定上缺乏统一标准,导致不同方法的结果难以直接横向比较;而数据泄露、基准饱和以及评测敏感性等问题,进一步削弱了相关结论的鲁棒性与可靠性。
最后,他们提醒,多模态代码智能虽然有望降低视觉编程门槛,但如果验证不足,也可能带来网页交互失效、图表数据错误、结构信息丢失、科学机制表达失真以及物理动作不安全等实际风险。此外,截图和设计文件可能包含私有信息,生成的代码也可能在专有环境中泄露或被误用。
本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。