南洋理工团队提分层Agent框架，一句话生成完整短剧，AI短剧生产迈向标准化

叙事、画面、后期，Agent 全包了

近年来，视频基础模型的快速发展，显著提升了自动化短片生成的能力。诸如 Sora、Kling、Seedance、Veo 等模型，已经在 one-shot 视频生成上展现出强大能力。

不过，现有短剧生产通常依靠大语言模型（LLM）的 one-shot 生成和松散耦合的工作流，依然存在三方面不足：

叙事节奏偏弱，开场不够抓人，剧情冲突张力不足；
空间一致性不足，镜头切换后场景布局与人物位置难以保持连贯；
质量控制仍不成熟，生成过程仍需大量人工审查与修正。

针对这个问题，来自南洋理工大学的研究团队及其合作者发布了分层 Agent 框架“一句话一短剧”（One Sentence, One Drama）。用户仅需提供一句创意，该 Agent 框架就能得到一部制作完整、画面精美的个性化短剧内容。

论文链接：https://arxiv.org/abs/2605.22144

为了评估短剧生成效果，研究团队在标准视频质量指标基础上加入了短剧特有标准。实验结果显示，One Sentence, One Drama在叙事质量、跨镜头一致性和整体观看体验上都显著优于现有流水线。

这也表明，随着Agent 驱动的结构化流程不断完善，短剧乃至更长视频内容正迈向质量可控的生产阶段。

图｜从一句话到一部完整短剧。

一句话生成短剧，如何实现？

据论文描述，整个自动化视频生产流程分为四步：故事生成、视觉素材与提示词生成、通过 3D 场景锚定实现一致的首帧生成、后期制作。审阅环节贯穿始终，负责视频的质量控制。

图｜个性化短剧生成流水线分为四个阶段。

故事生成：Agent 先通过检索和多 Agent 辩论，生成结构化故事和分镜脚本；再调用从约 300 部高质量短剧中拆解出的节奏模式库和因果逻辑库，按事实、逻辑和节奏三个维度组合叙事单元，搭建出一个可控的短剧框架。

图｜基于多 Agent 辩论的故事生成框架。

视觉素材与提示词生成：Agent 先生成场景全景图和角色参考图，再为每个片段生成首帧与视频提示词。首帧提示词定义第一帧的构图与视角，视频提示词描述后续动作、人物互动和镜头推进。生成前，审阅模块会检查空间关系和道具是否连贯，有问题就重写。

通过 3D 场景锚定实现一致的首帧生成：Agent 先根据全景图还原场景空间，再把人物走位、镜头位置和场景关系统一起来，据此为下一镜头选择合适机位，尽量保持跨镜头的空间一致性。遇到多人场景时，Agent 还会微调机位，尽量保证多人同框时的出镜完整性和站位关系。

图｜通过 3D 场景锚定实现一致的首帧生成。

后期制作：Agent 会根据剧情推进统一处理转场、配乐和人声衔接，把各个视频片段整合成节奏连贯、情绪完整的短剧。

图｜多样化转场片段生成与背景音乐规划和混音。

效果怎么样？

在评测上，研究团队构建了短剧评测基准 Short-Drama-Bench，覆盖逆袭复仇、现实题材、古装宫斗、悬疑推理、穿越重生、甜宠言情和职场商战 7 大类型、17个细分题材，共生成约 239 分钟视频，涵盖长中短剧。这一基准相比通用视频基准，它更关注短剧的叙事节奏和成片效果。

为了更完整地评估短剧生成效果，研究团队还把评价体系分为：VBench 负责衡量通用视频质量，ViStoryBench 用来评估故事可视化效果；他们还单独设置了 8 个短剧指标，考察开场和结尾钩子、升级效果、叙事连贯性、角色与环境的空间连贯性，以及 BGM 和转场是否自然。

从定性结果来看，该 Agent 框架的优势不仅体现在指标分数上，也在生成示例中直观体现。与基线方法相比，它在跨片段的视觉连续性上更稳定，人物位置、场景布局和镜头关系的衔接更自然；与此同时，它的剧情节奏和转场处理也更贴近短剧的观看习惯，整体成片感更强。

图｜定性示例。

图｜生成视频示例

从定量结果来看，相比 MovieAgent、ScriptAgent、StoryMem 等方法，以及 Toonflow等商业短剧生成产品，该 Agent 框架在短剧专项指标、VBench 和 ViStoryBench 上均表现出整体领先优势。

此外，消融结果显示，各视频制作环节作用各有不同。故事生成影响开场吸引力和情节推进，3D 首帧主要提升跨镜头空间连贯性，多阶段审阅提升整体质量，转场和 BGM 可以让情绪和过渡更自然。

图｜定量评测。左上：在标准视频生成与故事可视化基准上的对比结果。左下：Short-Drama-Bench 指标上的对比结果，涵盖叙事钩子、叙事流畅性、跨片段连续性以及音频转场质量。右侧：基于相同短剧评价维度的人类评分结果，汇总了基准测试中 20 位标注者的平均评分。

不足与未来方向

研究团队指出，该Agent 框架在短剧自动化生成中已展现出较强优势，但距离大规模部署仍存在一些现实限制。

例如，更强的可控性和更高的制作质量，也意味着更高的生成成本。One Sentence, One Drama 的平均 API 成本约为 25-27 美元/分钟，Toonflow 约为 21.53 美元/分钟。从时间成本来看，研究团队生成一部约 10 分钟的完整短剧需要约 74–90 分钟。未来，要走向大规模部署，继续降本仍是一个必须面对的问题。

在人机协同支持方面，当前该 Agent 框架仍以自动生成为主。研究团队指出，未来可以通过交互式界面，向用户开放审查分数和诊断反馈：低分片段重新生成，高分片段通常无需额外修改，处于中间区间的片段则交由创作者决定是否调整。

此外，该 Agent 框架还存在音频授权问题。为了降低版权风险，当前 BGM 库主要采用免版税或可商用音乐，限制了风格和情绪表达的多样性。未来，如果能接入更大规模的授权音乐库，并在匹配到具体曲目时提供明确的购买或授权选项，该 Agent 也将具备更广阔的商业应用场景。

更多技术细节，详见原论文。

本文来自微信公众号 “学术头条”（ID：SciTouTiao），作者：夏千斯，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

一句话生成完整短剧，南洋理工团队提出分层Agent框架，AI短剧生产走向标准化

一句话生成短剧，如何实现？

效果怎么样？

不足与未来方向