4K超分Agent修图师来了,一键救活所有模糊照片
不管是包浆的旧照、AI生成的低清图,又或是遥感/医学图像,现在都能智能修复并放大到4K超清分辨率。
图像清晰度提升一直是计算机视觉的“老问题”,面对噪声、模糊、压缩损伤等复合退化,以及AI合成、遥感、生物医学等其他领域图像时,传统单一模型往往力不从心。
由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent针对不同类型的图像以及需求对图像进行智能修复并放大到4K分辨率,带来优秀的视觉感知效果。该工作已被NeurIPS 2025接收。
为什么当前图像放大技术不够用?
传统图像放大模型通常只在特定类型图片上表现良好,一旦遇到真实世界中的复杂模糊、AI生成图的伪影,或是遥感、医学等专业图像,就显得力不从心。
而将分辨率放大到4K,更是对细节重建和纹理真实度都提出了极高要求。
而在多数用户角度来看,有一个既通用又可控的框架来解决各式图像提升分辨率的需要是再好不过的。4KAgent正是在这些现实挑战与需求下诞生的。
基于多智能体的设计,4KAgent可以为每张图像设计出一条通往4K分辨率的道路。
△
4KAgent如何工作?三大模块拆解
1. 智能“读图”,诊断问题
感知智能体(Perception Agent)分析图像内容以及图像中的退化信息,为复原智能体提供执行计划。
首先,图像分析器(Image Analyzer)调用多种图像质量评估工具评估输入图像的质量,得到输入图像的多个感知质量指标QI=(Q1,Q2,…)。
然后,退化推理(Degradation Reasoning)利用视觉语言模型(VLM)基于输入图像以及感知质量指标QI进行推理,得到图像中存在的退化信息DI以及初步的复原任务列表AI′等信息,并配置放大倍数(Upscaling Factor Configuration):计算图像放大到4K分辨率所需的放大倍数s并在初步的复原任务列表AI′中添加对应的图像超分辨率任务,得到最终的复原任务列表AI。
最后,任务规划(Task Planning)会基于前面步骤得到的信息,利用大语言模型(LLM)或者视觉语言模型(VLM)为输入图像制定一个复原计划(Restoration Plan)PI:复原任务的执行顺序。
2. “执行-反思-回滚”,不断试错优化
复原智能体(Restoration Agent)在执行复原计划PI中的每一步任务时,使用“执行—反思—回滚(execution–reflection–rollback)”机制:
在执行(Execution)阶段,4KAgent会顺序执行PI中的复原任务。4KAgent主要支持九种不同的复原任务,并收集了对应任务中state-of-the-art的模型来构建工具栏。4KAgent在工具栏中调用不同的模型得到多张候选复原图像。
△
在反思(Reflection)阶段,复原智能体基于质量评分QS对候选复原图像进行评估,并选出得分最高者作为输出。4KAgent中设计的QS综合了无参考图像质量指标(NIQE、MANIQA、MUSIQ、CLIPIQA)以及人类偏好分数HPSv2。整体流程可视为一个质量驱动的专家混合系统Q-MoE(Quality-driven MoE):输入图像先经多个复原专家生成候选,再由反思模块选出最优结果。
当挑选出来的图像质量评分低于阈值η时,就会触发回滚(Rollback)机制:4KAgent会生成上下文信息传递给感知智能体生成新的复原计划PIadj,并为当前步骤指派新的复原任务。
△
此外,4KAgent集成了一个人脸修复模块(Face Restoration Pipeline):检测并裁剪出输入图像中的人脸,对于每张人脸,4KAgent应用不同的人脸修复方法得到多个修复结果,并基于设计的人脸质量评分Qsf得到质量最高的人脸,将其贴回(paste back)到原始图像中。
4KAgent还设置了Fast4K模式来控制其运行时间。具体而言,当图像尺寸超过预设阈值St时,4KAgent会从工具栏中去除推理时间较长的方法来加速推理。
随心配置,适应各种场景
为了应对不同的图像复原场景,4KAgent中设计了配置模块(Profile Module),提供可配置的使用偏好(例如,优先感知质量还是保真度、是否激活人脸修复模块等),让4KAgent能适配不同图像复原场景且无需额外训练。
总体上,4KAgent把“分析、决策”与“执行、反思”分工到不同的智能体,并通过配置模块灵活地适应不同的复原需求,实现了通用的4K超分能力。
实测效果
4KAgent在11种不同的图像超分辨率任务上的26个基准测试集进行了广泛测试,包含经典图像超分辨率、真实世界图像超分辨率、多重退化图像复原、大尺度图像超分辨率(16倍)等,以及其他图像领域的超分辨率任务,例如AIGC图像、遥感图像、生物医学图像等。
在经典图像超分辨率任务(Classical Image SR)和真实世界图像超分辨率任务(Real-World Image SR)中,4KAgent生成的图像展现出更丰富、更精准的细节。例如,树皮上的细密条纹,鹿角的结构,羽绒服的纹理,以及数字的清晰度。
△
△
在具有挑战性的16倍放大任务中,4KAgent生成高细节度且逼真的纹理,例如,岩石与草丛纹理,人脸图片中的发丝、眉毛纹理和眼睛细节。
△
此外,研究还构建了DIV4K-50测试集(将50张4096×4096分辨率的高质量图像下采样到256×256分辨率并加入复合退化),用于检验从256×256→4096×4096的复原超分能力。在这个场景下,4KAgent始终能重建更精细、更自然的细节,例如人脸细节、毛发纹理等。
△
一个能打全场的4K超分“AI修图师”
4KAgent是一个可控且通用的图像复原及4K超分辨AI智能体系统,旨在将各类图像提升至4K分辨率。4KAgent在多个领域提升了图像复原质量,涵盖自然场景、人像、AI生成内容,以及遥感、显微镜和医学影像等专业科学模态。在标准基准测试和专用数据集上的全面评估中表现出4KAgent在无需特定领域再训练的情况下,在各个场景下均能达到优秀的复原表现,彰显了其优秀的泛化能力,为其在消费级、商业级及科研级应用中的通用部署提供了实践价值。
项目主页:https://4kagent.github.io/
代码下载:https://github.com/taco-group/4KAgent
文章链接:https://arxiv.org/pdf/2507.07105DIV4K-50
数据集:https://huggingface.co/datasets/YSZuo/DIV4K-50
作者及研究机构:
第一作者:左育莘(Yushen Zuo),德克萨斯A&M大学(Texas A&M University)研究实习生
通讯作者:涂正中(Zhengzhong Tu),德克萨斯A&M大学(Texas A&M University)助理教授
研究机构:德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs、加州大学Merced分校
本文来自微信公众号“量子位”,作者:4KAgent,36氪经授权发布。