Seedance 2.0现象级刷屏,深度测评:复杂场景贼稳,连asmr都会?
太热闹了!整个一个现象级show time~
前脚字节刚上线Seedance 2.0,后脚直接全网现象级刷屏!!!
这边马斯克怒赞,那边美国导演直呼好莱坞要完蛋了。
甚至急得不少老外狂催更:啥时候能开放全球使用?咋注册中国账号?在线等!挺急的!
如此之火爆,如此之amzing,那咱高低也得上手搓一把试试。
看我搓的这个全网超火的「猫咪大战哥斯拉」同款视频,小猫一跃,直接一个重拳出击~
再来看这个AI版《F1狂飙飞车》,转速表飙升、刹车尖啸,太有好莱坞内味儿了嗷。
再来试试Chinese kungfu大战钢铁侠,俩人一来一回近身过招,音效刺激感拉满,太带派了!
脑洞大开的网友们更会整活儿,快看下面这位网友做的一镜到底,镜头从街头一路滑进地铁站、钻进车厢,超有梦核感:
还有这位网友,只是上传了一张漫画截图,Seedance 2.0直接给他整出了一整段剧情视频,别太amazing啊我说!!
老实说,Seedance 2.0确实对镜头语言理解更到位也更可控了,参考能力直接next level,很适合咱日常做多镜头和精细化控制使用~
老规矩不废话,咱直接边测边唠,模型到底能不能打,让大家来评!!!
镜头理解更到位了
复杂场景也能稳住
我不知道uu们有没有遇到过跟我一样的挠头瞬间:
那就是咱们日常做AI视频时,一旦涉及涉及多镜头的提示词,主体特征就会很容易「发飘」。
举个栗子,搓出来的视频人物前后长得不一样,场景和镜头风格不统一等等,最后基本都会面临反复抽卡的戏码……
归根结底,还是因为模型的一致性和稳定性有bug。
这次Seedance 2.0一个最明显的升级点就落在多模态输入形式上,咱可以输入图像、视频、音频、文本四种混合内容形式,模型在画面一致性上的表现也更稳更可控了~
先来点开胃菜,最近网上邵氏武侠AI视频火得不行,于是我直接输入一张武林中人对打的动作写真照:
在具体提示词的设计上,需要画面里的男女角色在对话、情绪变化、动作展开到再次对峙之间形成一条完整的冲突链,同时需要AI在多镜头切换中稳住人物外形,并在整体风格和情绪基调上保持一致!
从下面的效果看,在大幅动作和多次镜头切换过程中,即便人物表情和镜头角度发生变化,但男女主的面部特征依然稳定,没有明显变形的问题,不戳不戳!
咱再来玩点有意思的,这回咱让蒙娜丽莎在卢浮宫上演一出卢浮宫偷喝可乐的《大戏》。
在提示词设计里,蒙娜丽莎需要始终固定在原有画像中完成掏可乐、喝可乐这样幅度不小的动作,还要同步出现说话表情,对模型的稳定性要求一下子就拉高了:
你还真别说,蒙娜丽莎这偷喝可乐时鬼鬼祟祟的小眼神和动作还真挺到位,说话时面部一致性也稳住了,手扶画框的动作没有出戏,过关过关!!
咱再来玩个首尾帧玩法,马年到了正好应应景,我上传了两张画风完全不同的马儿奔跑图片,让这匹马在同一个画面里完成一次大变身:
有点东西……从水墨风一路过渡到油画风,再到像素风,整体衔接得很自然,音效和变身动作也卡得挺准!!!
总的来说,我个人感觉模型在画面一致性和可控性这块的表现还是蛮强的,日常用来做多角色、多镜头的视频制作场景很合适~
在使用时建议大家尽量多上传一些不同角度、不同参考元素,这样模型整体的输出水准会更稳一些~
一镜到底也能拍
在这次更新中,Seedance 2.0还有一个大功能亮点就是——「一镜到底」。
但是这个一镜到底和咱们认知的不太一样,它主要强调的是我们可以给模型不同的参考画面,模型可以把这些画面用一个视频串联起来~
这次,咱玩点未来科幻感的,我直接给模型喂了三张赛博味拉满、视角各不相同的一百年后的地球城市参考画面:
在提示词设定上,需要模型在同一视角里把图一到图二再到图三顺畅串起来,中间还要完成急转、俯冲、拉升等大幅运镜,对镜头衔接的逻辑和连贯性要求更高:
于是乎,我就得到了一个无人机视角的未来城市穿越大片,别说,这镜头画面的超绝抖动感还挺带派???
先说说优点,输入中涉及的三个参考镜头确实都给我完整还原在视频里了,而且确实是一镜到底,这没得说。
但一个算不上缺点的缺点的是——图一和图二的画面衔接太硬了点,我放慢给大家看:
其实我个人更理想的情况是,在图一和图二之间应该加一段狭窄空间作为过渡,这样再切到图三时,整体的连贯感会更好,也不太会有割裂的感觉。
(大家觉得呢,有啥更好的解决方式吗,欢迎留言~)
支持完整剧情输出
在一致性和稳定性方面,Seedance 2.0还有一个本事是能自己——脑补剧情。
它不只是基于首帧往后生成画面,而是可以结合多份参考素材和提示词,直接跑一整段完整的「剧情输出」。
这次我干脆让AI按一套六宫格漫画,直接创作一支完整的剧情向动漫视频:
将【@图片1】以从左到右从上到下的顺序进行漫画演绎,保持人物说的台词与图片上的一致,分镜切换以及重点的情节演绎加入特殊音效,整体风格诙谐幽默。
emm…画面本身倒是没啥问题,六个画面都被完整还原了出来。
问题主要出在文字上,不少字体和原漫画里的文案对不上,而且文字出现的时机也和画面不同步。
我猜可能是因为文字本身不属于画面主体的一部分,相较于人物、动作和场景这些画内元素,漫画里的文字对模型来说优先级明显更低。
所以在多镜头和节奏切换时很容易被当成可变元素处理…
果然啊,人不能既要又要还要,AI也是同理。(doge
视频长度/音效也能diy
除了基础的画面镜头能力外,Seedance 2.0在视频延长和音效编辑上也上了一个level。
先来说说视频延长。
uu们需要注意的是,它这个延长并不是单纯把视频时间拉长,而是我们可以在提示词里给出首帧画面,并可以明确「标注出」需要生成的视频时长。
这次我给AI喂的是一张3D风格、正在奔跑的甜甜圈图片,要求它延长生成一段10秒的视频,并在过程中完成翻滚、跳跃、滑行等一整套连续动作:
好好好,视频时长完全没有问题,说10秒人家就生成10秒,一秒不多一秒不少,音效还贼动感,动次打次动次打次~
但是,为啥这甜甜圈是倒着跑的???(我不太理解
最后呢,咱来说说Seedance 2.0在多模态上的另一个能力——音效。
官方强调的并不只是能配音,而是音色准确度超牛,同时和人物的贴合度也更高。
我们先来试一个非常考验音效能力的场景——吃播(流哈喇子,看看模型能不能准确还原不同食物咀嚼的声音:
从下面生成的效果看,AI把吃炸鸡的咔嚓声、脆脆的黄瓜声、披萨拉丝的声音以及可乐的气泡音全都1:1还原了,不错不错!
咱们再来试一个ASMR的场景,这回我们让AI在同一个视频中演绎出不同物体的触发音,看看会是啥效果~
除了第一个水晶碰撞声稍微有点出戏,其余几乎都做到了1:1还原。金属、玻璃、丝绸的质感都很真实,层次也在线:
我猜水晶声音比较出戏的原因,主要是因为模型直接按提示词生的标准音效,而没有根据场景进行思考,所以出来的声音反而像金属碰撞的声音,而不是水晶摩擦音…
虽然网上铺垫该地都是Seedance 2.0的各种评价,但这次我实打实用下来的感受就是:
如果单说镜头理解能力(包括但不限于画面的一致性、可控性、连贯性),Seedance 2.0的表现确实有点超出我的预期。
哪怕用的是很大白话的提示词,也能跑出相当理想的效果,很适合咱用在日常的AIGC视频的画面生成创作中去。
小bug也有,比如像多宫格漫画的剧本输出,模型不见得能1:1还原每个场景画面,此外,音效上可能也偶尔会有出戏的问题。
日常如果用来做一些商业场景、AIGC日常创作而言,已经够用而且好用了,还是很惊喜的~
这不嘛,有网友用完,都直呼好莱坞要完蛋了,看来对模型的表现甚是满意。(doge)
目前,Seedance 2.0已经在豆包App和即梦里上线,感兴趣的朋友可以直接上手搓搓看~
(ps:亲测,这两天建议大家在豆包体验,即梦现在生成一个视频要排队好几个小时,没招了…)
本文来自微信公众号 “量子位”(ID:QbitAI),作者:梦瑶,36氪经授权发布。