一句话生成完整短剧,南洋理工团队提出分层Agent框架,AI短剧生产走向标准化
近年来,视频基础模型的快速发展,显著提升了自动化短片生成的能力。诸如 Sora、Kling、Seedance、Veo 等模型,已经在 one-shot 视频生成上展现出强大能力。
不过,现有短剧生产通常依靠大语言模型(LLM)的 one-shot 生成和松散耦合的工作流,依然存在三方面不足:
- 叙事节奏偏弱,开场不够抓人,剧情冲突张力不足;
- 空间一致性不足,镜头切换后场景布局与人物位置难以保持连贯;
- 质量控制仍不成熟,生成过程仍需大量人工审查与修正。
针对这个问题,来自南洋理工大学的研究团队及其合作者发布了分层 Agent 框架“一句话一短剧”(One Sentence, One Drama)。用户仅需提供一句创意,该 Agent 框架就能得到一部制作完整、画面精美的个性化短剧内容。
论文链接:https://arxiv.org/abs/2605.22144
为了评估短剧生成效果,研究团队在标准视频质量指标基础上加入了短剧特有标准。实验结果显示,One Sentence, One Drama在叙事质量、跨镜头一致性和整体观看体验上都显著优于现有流水线。
这也表明,随着Agent 驱动的结构化流程不断完善,短剧乃至更长视频内容正迈向质量可控的生产阶段。
图|从一句话到一部完整短剧。
一句话生成短剧,如何实现?
据论文描述,整个自动化视频生产流程分为四步:故事生成、视觉素材与提示词生成、通过 3D 场景锚定实现一致的首帧生成、后期制作。审阅环节贯穿始终,负责视频的质量控制。
图|个性化短剧生成流水线分为四个阶段。
故事生成:Agent 先通过检索和多 Agent 辩论,生成结构化故事和分镜脚本;再调用从约 300 部高质量短剧中拆解出的节奏模式库和因果逻辑库,按事实、逻辑和节奏三个维度组合叙事单元,搭建出一个可控的短剧框架。
图|基于多 Agent 辩论的故事生成框架。
视觉素材与提示词生成:Agent 先生成场景全景图和角色参考图,再为每个片段生成首帧与视频提示词。首帧提示词定义第一帧的构图与视角,视频提示词描述后续动作、人物互动和镜头推进。生成前,审阅模块会检查空间关系和道具是否连贯,有问题就重写。
通过 3D 场景锚定实现一致的首帧生成:Agent 先根据全景图还原场景空间,再把人物走位、镜头位置和场景关系统一起来,据此为下一镜头选择合适机位,尽量保持跨镜头的空间一致性。遇到多人场景时,Agent 还会微调机位,尽量保证多人同框时的出镜完整性和站位关系。
图|通过 3D 场景锚定实现一致的首帧生成。
后期制作:Agent 会根据剧情推进统一处理转场、配乐和人声衔接,把各个视频片段整合成节奏连贯、情绪完整的短剧。
图|多样化转场片段生成与背景音乐规划和混音。
效果怎么样?
在评测上,研究团队构建了短剧评测基准 Short-Drama-Bench,覆盖逆袭复仇、现实题材、古装宫斗、悬疑推理、穿越重生、甜宠言情和职场商战 7 大类型、17个细分题材,共生成约 239 分钟视频,涵盖长中短剧。这一基准相比通用视频基准,它更关注短剧的叙事节奏和成片效果。
为了更完整地评估短剧生成效果,研究团队还把评价体系分为:VBench 负责衡量通用视频质量,ViStoryBench 用来评估故事可视化效果;他们还单独设置了 8 个短剧指标,考察开场和结尾钩子、升级效果、叙事连贯性、角色与环境的空间连贯性,以及 BGM 和转场是否自然。
从定性结果来看,该 Agent 框架的优势不仅体现在指标分数上,也在生成示例中直观体现。与基线方法相比,它在跨片段的视觉连续性上更稳定,人物位置、场景布局和镜头关系的衔接更自然;与此同时,它的剧情节奏和转场处理也更贴近短剧的观看习惯,整体成片感更强。
图|定性示例。
图|生成视频示例
从定量结果来看,相比 MovieAgent、ScriptAgent、StoryMem 等方法,以及 Toonflow等商业短剧生成产品,该 Agent 框架在短剧专项指标、VBench 和 ViStoryBench 上均表现出整体领先优势。
此外,消融结果显示,各视频制作环节作用各有不同。故事生成影响开场吸引力和情节推进,3D 首帧主要提升跨镜头空间连贯性,多阶段审阅提升整体质量,转场和 BGM 可以让情绪和过渡更自然。
图|定量评测。左上:在标准视频生成与故事可视化基准上的对比结果。左下:Short-Drama-Bench 指标上的对比结果,涵盖叙事钩子、叙事流畅性、跨片段连续性以及音频转场质量。右侧:基于相同短剧评价维度的人类评分结果,汇总了基准测试中 20 位标注者的平均评分。
不足与未来方向
研究团队指出,该Agent 框架在短剧自动化生成中已展现出较强优势,但距离大规模部署仍存在一些现实限制。
例如,更强的可控性和更高的制作质量,也意味着更高的生成成本。One Sentence, One Drama 的平均 API 成本约为 25-27 美元/分钟,Toonflow 约为 21.53 美元/分钟。从时间成本来看,研究团队生成一部约 10 分钟的完整短剧需要约 74–90 分钟。未来,要走向大规模部署,继续降本仍是一个必须面对的问题。
在人机协同支持方面,当前该 Agent 框架仍以自动生成为主。研究团队指出,未来可以通过交互式界面,向用户开放审查分数和诊断反馈:低分片段重新生成,高分片段通常无需额外修改,处于中间区间的片段则交由创作者决定是否调整。
此外,该 Agent 框架还存在音频授权问题。为了降低版权风险,当前 BGM 库主要采用免版税或可商用音乐,限制了风格和情绪表达的多样性。未来,如果能接入更大规模的授权音乐库,并在匹配到具体曲目时提供明确的购买或授权选项,该 Agent 也将具备更广阔的商业应用场景。
更多技术细节,详见原论文。
本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:夏千斯,36氪经授权发布。