零代码自主发现科学图像处理算法,美阿贡国家实验室提出CVEvolve,具备写代码/结果自查/策略优化等全栈能力
美国阿贡国家实验室(ANL)的研究团队在系统性分析过往基于人工智能的自动化工作后,开发出一款名为 CVEvolve 的零代码自主智能体框架,用于挖掘科研数据处理所需的算法。该框架具备极强的通用能力,无需预设问题架构与固定流程模板,可闭环联动代码、数据、评价指标、检索记录及可视化结果等各类要素,支持计算机视觉、图像处理等可执行算法开发。
一项客观严谨的科学结论的得出,犹如沙海淘金一般困难。尤其在大量先进科学仪器与模拟仿真技术全面普及的当下,科研产出的数据体量庞大、结构松散且高度非结构化,科研数据处理的过程恰似披沙拣金,已然成为解锁数据价值、揭示科研真相前最关键、最核心的一环。
然而,现实的困境也恰恰在此:领域科学家往往缺乏数据处理所需的计算机视觉、图像处理与软件工程等专业技能;而擅长数据处理的技术专家又无法深入理解学科背景,难以设计出适配真实科研场景的自适应处理流程。
针对科研数据处理所产生的专业知识鸿沟,美国阿贡国家实验室(ANL)的研究团队在系统性分析过往基于人工智能的自动化工作后,开发出一款名为 CVEvolve 的零代码自主智能体框架,用于挖掘科研数据处理所需的算法。该框架具备极强的通用能力,无需预设问题架构与固定流程模板,可闭环联动代码、数据、评价指标、检索记录及可视化结果等各类要素,支持计算机视觉、图像处理等可执行算法开发,不受单一建模方式约束,具备代码编写(运行)、效果评估、历史溯源、结果自查、策略化迭代优化全栈能力。
简而言之,CVEvolve 就是能够自己琢磨开发适配真实场景下各种科研数据处理所用的专用算法,让不懂编程、不懂图像处理的领域科学家不用写一行代码,也能快速上手智能化分析手段 ,且效果相比此前方法更全面、更可靠、更高效。
相关成果以「CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing」为题,收录于预印本平台 arXiv。
研究亮点:
* 提出用于自主科研数据处理算法发掘的通用代理框架,专为非结构化问题而设计,无需预设问题框架与固定流程模板
* CVEvolve 引入一种长视野搜索架构,它将 generate、tune、evolve 机制与溯源感知状态管理、智能体驱动留存测试相结合,确保了框架灵活自主和成熟可用
* CVEvolve 在 X 射线荧光显微镜图像配准、布拉格峰检测和高能衍射显微镜图像分割多种任务上进行验证,证实其具备发掘实用算法和加速科学发现的能力
查看论文: https://hyper.ai/papers/2605.11359
针对三类任务构建专用验证数据集
本研究中,所有数据集均专为对照实验单独定制。
荧光显微镜图像配准数据集
在真实 XRF 图像基础上,人为施加平移偏移、泊松噪声、扫描抖动和模糊处理,模拟真实对焦漂移下的图像差异。图像采用对数刻度绘制,尺寸大小仅为 10-30 像素。数据规模为 809 对测试/参考图像,随机划分出 10% 作为预留测试集(holdout set),剩余 90% 全部用于算法迭代开发。
荧光显微镜图像配准数据集示例图
布拉格峰值检测数据集
来源于所有扫描点采集的衍射图像,之后均分为两组,各组图像按像素叠加合成两张图,一张用于算法研发阶段的效果评估,另一张作为预留测试(holdout set)。两张图像中的布拉格峰均被人工标注。
高能衍射显微图像分割数据集:开发数据集包含 5 个图像及其手动创建的标签,预留测试集为 2 个样本。
三大流程五大工具,构建 LLM 为核心智能体工具
整体架构上,CVEvolve 是一款以大语言模型智能体为核心的自主搜索控制器,智能体能够借助工具生成、运行并评估候选方案,控制器则依据历史数据敲定后续探索方向。迭代策略借鉴自 Pty-Chi-Evolve framework,涉及 generate、tune 和 evolve 三类操作步骤,并通过扩展的工具集和改进的状态管理适配更多任务。
为了把控上下文篇幅并降低推算成本,每轮迭代都会启用全新上下文,仅保留系统提示词与本轮执行动作对应的任务提示词,不累积历史对话记录。在同一轮次中,generate 和 tune 可由多个并行 worker 同时执行,让系统能够在更新对话记录前,同步探索多项新方案或是针对不同原始内容做出多轮优化调整。
在每一轮结束后,agent 提交的候选算法都会按照进化谱系(Lineage)分组,记录父子继承关系,保留优秀设计模式。候选采样架构借鉴自 MAP-Elites 算法,采用随机方式进行,针对 tune 和 evolve 两个步骤,CVEvolve 采取随机候选采样,而非始终选择当前最优候选。
三大阶段工作流程
CVEvolve 工作流程示意图
* 工作空间准备阶段:从工作空间准备开始,搭建运行环境,将任务描述或用户提示的评价指标自动写成可执行的评估代码。
* 基线评估阶段:运行并测评已有的基准算法,为后续的对比工作提供基线。
* 算法迭代研发阶段:遵循 generate、tune 和 evolve 策略进行多轮循环搜索,其中 generate 负责广泛探索,多线程全新设计新算法;tune 负责基础调优,对候选算法进行随机择优选取和参数优化;evolve 负责迭代演进,对多个算法进行优势融合并生成新算法。
在此之外,为了研究工作的严谨和合理,整体流程中还包含可选的修复轮次,用于修复无法运行的候选算法、每轮后独立留出测试、SQL 搜索状态数据库,全程记录候选、指标、迭代轮次与进化谱系。
五大核心配套工具
* 文件系统工具:支持工作空间中列出、读取、写入、编辑、复制、移动和删除文件,允许 agent 在会话沙箱中编写候选代码、助手脚本和评估工具
* 环境管理和代码执行工具:支工作空间中安装或删除依赖项,以及执行 Python 脚本
* 图像查看工具:支持浮点图像处理、高动态范围图像对数显示缩放、TIFF 格式转 PNG 格式等调控功能,以便 agent 识别普通线性渲染下难以察觉的细微结构、明暗变化与异常问题
* 搜索状态工具:支持 agent 设定核心指标,记录评估结果,核查历史数据,分析候选结果,并提交全新候选至结构化查询语言的检索记录中
* Web 搜索工具:开放 arXiv、Semantic Scholar 和 Tavily 的访问权限,便于 agent 借助外部技术参考信息迭代算法研发
另外设计中还添加了多模态图像跟进中间件,用以弥补大语言模型接口无法直接传图的限制。具体是当工具返回图像路径后,自动将渲染后的图像作为跟进消息重新注入到对话当中。
核心底层执行架构
CVEvolve 是基于 LangGraph 的 agent 应用实现的,运行时采用精简节点图,通过「消息接收-模型推理-工具调用-图像后置处理」四大核心流程进行处理。工具返回图片路径后,图像处理节点将其转为多模态观测数据,回传至模型,供下一轮推理使用,如下图所示:
基于 LangGraph 的 CVEvolve 的执行架构
3 类科学图像处理场景验证 CVEvolve 实用性
为了展示 CVEvolve 的实用效果和泛化能力,研究团队专门设置了 3 组具有现实意义的科学图像处理实验对其进行了验证,所有实验均采用 Claude Opus 4.6 完成。
荧光显微镜图像配准
研究人员首先展示了 CVEvolve 在寻找 X 射线荧光显微镜(XRF)图像平移配准的鲁棒算法上的任务,该任务用于解决显微镜对焦后的图像偏移校准问题。
基线算法包括两类:汉宁窗预处理的相位相关法(phase correlation with a Hanning window preprocessor)和穷举式误差最小化(brute-force error minimization);性能对比指标为计算偏移量与真实偏移量之间的平均欧式距离( the average Euclidean distance between calculated and ground-truth shifts)。
研究经 20 轮搜索展示误差变化与性能特征,在初始基准轮次中,brute-force error minimization 的平均欧式误差为 1.25,汉宁窗预处理的相位相关法误差高达 5.8。之后经 generate 和 evolve 轮次后,配准误差持续下降,先后将至 0.8 和 0.43,第 9 轮后性能趋向稳定。如下图所示。
算法搜索 20 轮所展示的误差变化与性能特征
为了筛选出最优配准算法的运行步骤,这套算法采用了由粗到精的图像配准思路,第一步通过多尺度归一化互相关完成整数像素级对齐定位,第二步结合多种预处理方式,包括样条函数与优化算法,将精度提升至亚像素级别,第三步按坐标自适应加权整合多组估算结果,输出稳定可靠的最终偏移量。
在 holdout set 上测试并与多种基线算法进行比较后结果显示,最优配准算法误差值为 0.12,对比表现较好的 brute-force error minimization,误差降低近 8 倍。与此同时,研究人员还进一步将 CVEvolve 发现的候选与 OpenEvolve 发现的候选进行了对比,在 500 次迭代后误差趋于稳定,误差为 0.23,显著高于 CVEvolve 发现的候选算法。如下表所示:
CVEvolve 候选与其他基线的对比
布拉格峰值检测
本实验任务是寻找 X 射线衍射图像中布拉格峰检测算法,目的是开发一种方法来识别并定位位于给定晶格平面各对应环形区域内及周边的布拉格峰。评价指标采用 F1 score、Precision 和 Recall。
由于开发数据集仅 1 张图像,算法极易出现过优化(过拟合),因此必须用 holdout 监控泛化性能。结果如下图所示,开发集图像的 F1 分数持续上升,最终趋近于满分 1,而在预留测试集的 F1 分数在第 5 轮左右达到峰值,第 9 轮后便开始急剧下降。
基于 hotspot-detection 工作流的布拉格峰检测搜索记录
接下来研究选择第 5 轮最优候选,先屏蔽无效区域,经弧形极坐标背景扣除、局部噪声归一化生成信噪比图,然后通过多轮互补算法查找峰值,最后合并校验、优化中心点,输出最终峰值坐标。
结果显示,最优候选方案可以有效缓解误检情况,同时漏检数量也有所下降,可识别出更多标注峰值。最优候选性能在各项指标上相较基线均实现提升:F1 score 从 0.298 提升至 0.788,Precision 分数从 0.237 提升至 0.839,Recall 分数从0.400 提升至了 0.743(对应漏检情况)。如下图所示。
基线与 F1 得分最高的候选的布拉格峰检测结果
衍射图像分割
本研究任务是多晶衍射图像分割,其难点在于精准区分衍射环和布拉格峰。实验采用加权交并比(IoU)指标,共进行 40 轮观察。结果显示,agent 创建的初始基线候选,通过背景减除、阈值划分识别特征处理,最终交并比仅为 0.37,精度偏低。如下图所示。
HEDM 图像分割任务的搜索记录
之后通过追踪留存测试指标,在第 16 轮筛选出最优候选算法。该候选对数变化换衍射图像,测算光束中心与径向背景参数,然后通过径向、方位一致性校验识别核验环状结果,依托背景阈值划分像素,最终提纯衍射峰并生成分割掩模。
CVEvolve 在 holdout dataset 上发现的 HEDM 分割算法结果
结果显示,首个展示中,预测得到的环形掩膜相较于真实基准轮廓更宽厚,但细致核查后可确认绝大多数环形结构均被成功检测,各类布拉格峰也实现了良好分割,预测掩膜与真实基准轮廓具备较高契合度;第二个展示中,外侧区域有少量环形结构未能识别检出。
写在最后
总的来说,CVEvolve 所提供的零代码开发,极大降低了计算成像技术的使用门槛,为领域科学家进行自定义的科研数据处理提供了捷径。而在未来,CVEvolve 将有望进一步增强其能力,正如论文中所介绍,将拓展高位数据处理、实时流程优化等能力,这都将推动自主的科学发现工作流程大踏步进入智能与技术共同驱动的时代。
本文来自微信公众号“HyperAI超神经”,作者:哇塞,36氪经授权发布。