研报指出,1)AI视频模型密集发布。今年以来,Meta、谷歌、Runway、Pika,字节跳动、快手、阿里、Minimax均发布AI视频模型,都具备生成5秒以上视频的能力,色彩/动态/质量等水平普遍较高。以Meta为例,其AI视频功能将集成在Facebook、Instagram等社交平台,用户渗透率将进一步提升。目前国内模型公司中,Kimi、阶跃星辰等尚未发布视频模型,后续有望推出。
2)API逐步开放,商业化有望打开空间近期快手可灵、智谱、Runway等模型均开放视频模型API,平均生成一段5秒的视频收费在0.5元—2元不等。展望未来,随着AI视频在C端娱乐社交、B端影视内容制作等场景之下,应用渗透率提升,叠加API成本的持续下降,AI视频的商业化空间将打开。
我们在7月份发布的AI视频报告系列(一)《国产AI视频:可用度强性价比高,快手可灵开启C端付费》中,率先提示国产视频模型在可用度、性价比等方面赶超海外。近期全球视频模型密集发布和迭代,无论是效果优化、功能创新还是应用落地,均有超预期表现。
6-10月海内外超10款视频模型更新。6月快手可灵1.0率先发布;7月智谱、PixVerse、Vidu推出;9月快手可灵更新1.5模型,阿里万相和字节豆包发布,海外Runway、Luma和国内快手可灵、Vidu发布API接口;10月海外Meta Movie Gen和Pika 1.5发布。
年内还有两家明星AI公司的视频模型有望发布。国产视频模型主要由大厂和AI创业公司研发,AI创业公司中,Minimax和智谱AI均已发布视频模型,我们认为整体性能位于国内第一梯队。据36氪等媒体报道,月之暗面、阶跃星辰有望在年内发布视频模型,叠加Minimax、智谱的视频模型持续迭代,我们预计国产视频模型的技术能力有望再上新台阶。
科技大厂的视频模型同样密集更新迭代。快手可灵自6月发布至今已完成10次迭代,其AI视频编辑功能也即将上线,增加可灵的实用性;字节的豆包视频模型已经在内测API和应用,国庆节后会放出更多公开API。此外,Meta深耕社交场景,用户规模大,期待Meta Movie Gen在25年全面开放,Instagram等应用有望集成AI视频能力,推动AI视频技术全球普及。
1)性能迭代:动态效果提升,AI视频功能创新。视频动态和运镜效果持续提升,且在常规的文生和图生视频基础上,创新推出视频编辑、视频特效等功能,提高视频生成的可控性和趣味性。
2)应用落地:API接口密集发布,看好AI视频三大落地场景。海外Runway、Luma和国内快手可灵、Vidu等均已发布API接口,更多AI应用有望集成视频生成功能。我们预计应用将面向C端社交、创作者和B端影视三大场景加速落地。
3)技术创新:Meta提出全新技术路线,完整技术论文推动产业进步。2月初Sora验证了DiT架构在视频生成方面的可行性,后续海内外公司普遍沿用Sora的技术路径。近期Meta Movie Gen发布,创新采用区别于DiT的Transformer+Flow Matching架构,且发布92页技术报告详细披露训练方法、架构设计等,有望为其他厂商提供新的视频模型开发思路。
核心能力:动态效果更自然流畅,通过运镜增加画面动感。物体进行自然流畅的运动,并保持一致性和物理性是AI视频的主要难点之一。同时我们认为动态表现是AI视频能否大规模应用的主要影响因素之一,一方面,随着动态效果优化,AI视频内容可以从单纯的背景、转场拓展至物体运动,另一方面,动态效果在影视制作中成本高、耗时长,亟需AI技术进行降本增效。现有产品中,国内可灵、豆包和海外Meta Movie Gen在动态效果方面表现较好。
快手可灵:1.5模型的动态质量显著提升。对比1.5模型和1.0模型在可灵AI出圈案例“小男孩吃面”中的表现,1.5模型更逼真地展现面条从被夹起到入口的过程,弹性、垂坠感表现较好,同时小男孩手握筷子和咀嚼面条的动作,也相比1.0模型更加自然流畅,整体运动合理性增强。
字节豆包:动作连贯,运镜表现突出。根据Demo视频,人物可以完成“摘下墨镜、站起身、走向雕像”的连贯动作,且实现360度围绕主体环绕、前后景变焦、目标跟随、升降镜头等视角切换,提高物体动态的动感和沉浸式感受。
创新能力:AI视频功能创新,提高可控性和趣味性。除了常规的文生视频和图生视频能力,近期新产品增加了视频编辑、音效匹配、个性化视频和视频特效等一系列新功能,用户可以一站式完成视频生成和剪辑,提高工具的可用性。我们认为后续视频模型除了进一步优化视频生成核心能力,还会陆续在视频编辑、音效匹配等创新能力方面展开竞争,进一步提高AI视频的实用性、趣味性。
1)视频编辑:实现视频内容的高效调整。AI视频可控性较弱,仅靠提示词难以达到预期效果。Runway和爱诗科技分别在23年11月和24年6月发布运动笔刷功能,通过箭头、滑块等控制物体的运动方向和距离。近期发布的Meta Movie Gen可以通过文本提示词,对视频局部元素进行编辑,例如添加、移除和替换元素、修改背景、修改视频风格等,视频编辑的精准度、便利性显著提高。
2)音效匹配:AI视频告别“哑剧”。现有产品普遍只能生成静音的视频,主要是因为AI配音需要克服较多难点,包括物体和场景识别、声音模式检索、声音元素重组等。Pika在今年3月率先推出音效生成功能Sound Effects,支持根据Prompt或视频内容生成音效,例如车鸣声、广播声和欢呼声。今年9月发布的阿里万相同样带有音效,经我们实测,目前音效是自动生成的,无法通过提示词定制或修改。Meta Movie Gen包含最大参数130亿的音频生成模型,可以基于视频和可选的文本提示词生成最长45秒的高质量保真音频,包括环境声音、音效和背景音乐,音效将与视频内容同步。
3)个性化视频:多次生成的视频角色保持一致。当前公开可用的视频模型,生成视频的时长最长约10秒,如果想生成微短剧等影视作品,则需要将多个视频拼接到一起,并保证各个视频中的人物、风格是一致的。
PixVerse:视频一致性进展较快。24年4月就率先推出“角色”功能,基于用户输入的人物图像,生成该人物的视频;7月在V2版本中进一步升级一致性功能,支持一次性生成最多5段8秒视频,且片段之间会保持主体形象、画面风格和场景元素的一致。
Meta Movie Gen:同样支持个性化视频生成。该功能的应用过程与PixVerse的“角色”功能类似。随着这类功能普及,我们预计AI视频有望在短剧制作等对情节一致性要求较高的场景加速落地。
4)视频特效:增加AI视频趣味性和可玩性。Pika 1.5增加Pikaffects,包含压扁、融化、被切开、ayx爱游戏app爆炸、挤压、膨胀等一系列物理特效功能,我们预计有望拓展趣味视频、表情包生成等C端场景,增加AI视频的趣味性。
7月:智谱推出基于视频模型CogVideoX的API接口,该模型即为智谱清影的底层模型,生成6秒视频的价格为0.5元。
9月中下旬:Runway和Luma AI同步推出视频生成模型的API接口,均已全面开放。Runway的API接口来自最新的Gen-3 Alpha Turbo模型,采用积分制的定价方式,生成5秒视频折合约0.25美元,价格比快手可灵的C端价格高40%。Luma AI的API接口已向所有用户开放,生成一段5秒钟720p分辨率的视频需支付约0.35美元。
9月底:国内Vidu和快手可灵相继推出API接口。另据火山引擎总裁谭待,豆包视频生成大模型也已经在内测API和应用,国庆节后会放出更多公开API。
在视频报告系列(一)中,我们详细展望AI对中短视频内容创作的影响。随着字节豆包、Meta、Pika等新模型发布和更新,以及Runway、快手可灵等产品与影视行业开展合作,我们预计AI视频有望率先落地C端社交娱乐、中短视频内容创作和专业级影视创作三大场景。
场景一:C端社交娱乐。去年至今出圈的妙鸭相机、Remini粘土特效ayx爱游戏app、对嘴型唱歌等AI玩法,均验证用户对娱乐类AI多模态场景的高需求。对于普通用户而言,视频剪辑和生成都不是高频功能,且现有视频模型对prompt的要求仍比较高,C端产品需要聚焦具体且刚需的社交娱乐场景。我们预计字节豆包、Meta均有望在社交娱乐场景率先落地视频能力。
以Meta为例,旗下社交应用有望集成AI视频能力。当前Meta AI集成在公司旗下各个App中,提供资料搜索、文字和图像生成、图像理解等功能,Meta Connect大会披露当前Meta AI月活已超5亿,成为全球月活最高的AI应用,在Meta旗下应用的月活渗透率已超10%。据Meta官网,AI视频能力有望在25年集成至Instagram等社交应用中,用途包括制作生活日常短视频并在Reels上发布、定制生日问候并通过WhatsApp发送给朋友等。
以字节为例,AI硬件产品有望提供新的AI音视频应用体验。字节豆包首款AI智能体耳机Ola Friend已于24年10月发布,售价1199元。该产品接入豆包大模型,是字节旗下首款AI硬件设备。用户戴上耳机后,无需打开手机,就可以直接通过语音唤起豆包进行对话,成为豆包的人机交互新渠道。耳机的语音识别能力较强,我们预计在日常信息查询、旅游出行、英语学习等场景用途较大。据豆包官网、钛媒体,Ola Friend的AI功能在发售后仍会持续进行更新,且字节还有一款AI眼镜在研。随着豆包视频模型全面开放,我们预计AI硬件有望为豆包的AI技术提供新的落地方式,我们预计新AI玩法可能包括自动剪辑设备录制的音视频、实时AI虚拟人对话等。
场景二:中短视频内容创作。目前快手可灵和字节即梦已分别集成至快影和剪映两大视频剪辑App中,重构短视频创作工作流。AI短片产品落地也较快,美图公司的AI短片创作工具MOKI已全面开放,昆仑万维旗下AI短剧平台SkyReels已发布,我们预计近期将开启内测。过去动画短片、MV、网文短剧等短片制作需要经历剧本创作、分镜设计、角色挑选、视频拍摄、后期剪辑等多个流程,此类AI短片产品用AI工作流重构上述流程。
以美图的MOKI为例,用户只需经过三大步骤就可以完成AI短片制作:a)前期设定:设定好脚本、角色形象和视觉风格;b)生成视频素材:AI生成相应的分镜图,再生成视频片段;c)连接成完整的长视频:各个视频片段组合成完整的长视频,支持用户为特定篇端增加音效、驱动角色说话等。
场景三:专业级影视创作。专业的影视创作场景对AI工具需求高、付费意愿强。据动画艺术家工会(Animation Guild)今年上半年对美国55万名影视行业从业者进行的问卷调查,目前已经有69%的公司在使用生成式AI技术,其中约44%的公司将其应用于生成3D模型,39%的公司应用于设计角色和环境。因此Sora、Runway、Meta Movie Gen、快手可灵等头部视频模型均积极与影视行业开展合作。
9月Runway与狮门影业达成AI电影制作的合作。狮门影业将开放其丰富的影视资源库,包含超两万部影视作品,其中包括《饥饿游戏》系列和即将上映的《大都市》等影片。Runway将基于该影视数据,构建一个定制化的 AI 视频生成和编辑模型,旨在辅助狮门影业的创意团队提升制作效率。同期快手可灵携手李少红、贾樟柯等九位中国导演,共同启动了中国首个AIGC电影短片共创计划,智谱也与华策影视合作开发视频模型。我们认为AI 技术有望逐步渗透影视行业制作全流程,推动AI视频技术在影视行业加速落地。
Meta Movie Gen提出新的AI视频技术路线月初Sora验证了DiT架构在视频生成方面相较扩散模型更具优势,此后全球主流模型普遍沿用Sora的技术路径,在DiT架构上进行微创新来研发视频生成模型。Meta Movie Gen则创新采用Transformer+流匹配(Flow Matching)的技术架构。具体而言:
Sora的DiT架构需要多步迭代,以靠近目标。扩散模型的生成过程通常是从随机噪声开始,通过去除噪声来生成样本,用大量的迭代步数逐步逼近目标分布;DiT架构是把Transformer的能力引入到这个扩散模型里,更好完成模型对全局上下文信息的捕捉能力,本质上还是扩散的思路,需要大量的迭代来接近目标。
Transformer+ Flow Matching新思路,视频生成效率更快。Transformer+ Flow Matching的思路,则是直接学习样本从噪声向目标数据分布转化的速度,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果,无需大量的逐步迭代,因此与扩散模型相比,新方法训练更加高效,计算成本更低,并且生成的结果在时间维度上具有更好的连续性和一致性。
Meta发布92页技术报告,详细披露架构和训练细节,为其他厂商提供更多参考。ayx爱游戏app不同于OpenAI发布Sora时只进行产品演示和模型简要介绍,Meta对外展示了Meta Movie Gen的92页技术论文,包括架构ayx爱游戏app、训练细节、测评方法和结果等,延续了Meta在大模型领域较为开放、共享的思路。根据技术论文,Movie Gen由两个模型组成,包括300亿参数的视频模型Movie Gen Video和130亿参数的音频模型Movie Gen Vide,沿用了较多Llama3的架构设计。在测评方面,由于视频模型涉及一致性、流畅度、色彩等大量主观评价标准,Meta主要采用人工比较的方式,对现有视频模型进行多维度的评估,结果显示Movie Gen的视频生成效果小幅度超越Sora和可灵1.5,显著超过Runway Gen-3和Luma。此外Meta还开源了多个基准测试数据集,包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,为其他视频厂商和研究者提供了权威的评测工具和方法,有利于加速AI视频领域的进步。
知识产权未划分明确的风险,IP影响力下降风险,与IP或明星合作中断的风险,大众审美取向发生转变的风险,竞争加剧的风险,用户付费意愿低的风险,消费习惯难以改变的风险,关联公司公司治理风险,内容上线表现不及预期的风险,生成式AI技术发展不及预期的风险,产品研发难度大的风险,产品上线延期的风险,营销买量成本上升风险,人才流失的风险,人力成本上升的风险,政策监管的风险,商业化能力不及预期的风险。