从“无到有”走向“有到优” 国产视频生成大模型渐入佳境_科技前沿

从“无到有”走向“有到优” 国产视频生成大模型渐入佳境

发布日期：2024-08-08浏览次数：358

文生视频大模型Sora诞生半年后，它的中国“挑战者”列队登场，争夺下一张AI杀手级应用的“船票”。过去一个月，4款国产视频生成模型陆续上线、走向大众。

与Sora仅释放小样、未开放使用不同，中国的视频生成大模型发布即上线，便于使用者“拿来就用”。眼下，在应用端，一批内容创作者已初尝“会打字就会生视频”“生视频不求人”的乐趣；在技术侧，还有一批孵化中的视频生成模型正在路上。尽管国产工具还不具备一次性“分钟级”的生成能力、无法实现比肩实拍的“无缝”“丝滑”，但视频生成已解决了“有”的问题，逐步向“优”进化。

想象力“动”起来

最近，文生视频赛道挤满了强有力的中国选手。7月下旬，我国人工智能独角兽智谱AI推出视频生成模型“清影”、爱诗科技发布视频生成产品PixVerse V2、生数科技上线视频生成模型Vidu的同时，快手6月发布的“可灵AI”已积累百万用户。

“Sora还停留在实验室的小样阶段，国产视频生成工具已密集上线，并向C端开放使用，令人振奋。”北京大学深圳研究生院信息工程学院助理教授、博导袁粒说。

Sora的中国“挑战者”有何本领？

清晨，大熊猫坐在湖边弹吉他、兔子在餐厅里看报纸、袋鼠和金丝猴在一旁吃早餐，然后去动物城的运动场上集合，观看一年一度的自行车大赛……这部由可灵AI生成的动画微电影，尽管时长只有62秒，却表现出了对现实世界物理规律（反射定律、重力定律等）的理解与呈现能力，以及一定的想象力与故事的实现能力。

进入“奥运时间”，不少刷屏朋友圈的、可衔接不同场景和运镜的短片，也同样出自国产视频生成大模型之手。

“视频生成，简言之是通过生成式AI技术，将文本、图片等多模态输入，转化为视频信号。”快手视觉生成和互动中心负责人万鹏飞说，“与过去我们常见的相机拍摄、图形渲染获得视频的方式不同，视频生成的本质是从目标分布中采样计算得到像素。这种方式能以更低的成本，达到更高的内容自由度。”

进入Vidu的视频生成页面，记者体验了“一键生成”的自由。上传一张照片设置为“起始帧”或作为“参考的人物角色”，在对话框里输入想要生成场景的文字描绘，点击“生成”键，一条栩栩如生的短视频就自动生成了。从进入页面到下载完毕，不足1分钟。

一名技术负责人告诉记者一个“生成秘籍”：“试试‘镜头语言+建立场景+细节描述’的提示词公式，不出5次就能获得想要的视频内容。”比如，在对话框中输入“写实风格，近距离，老虎伏在地上，身体微微起伏”的文本。1分钟后，一段视频出现在屏幕上：微风拂过的草地上，老虎的身体随呼吸起伏，它的毛发、胡须随风而动，甚至能“以假乱真”。

视频生成技术的快速迭代，建立在对生成内容效果的精准评价之上。如何区分视频生成模型性能的优劣？“一看可控性，即生成内容与输入文本的对应程度；二看稳定性、一致性；三看合理性，即生成内容是否合乎物理规律；四看风格、审美、创意；最后一点，看生成的实时性。”香港大学计算机系教授、欧洲科学院外籍院士徐东这样归纳。

成本降下去速度提上来

国外网友已经用行动表达了对中国自研视频生成模型的赞许，不少Twitter账号发布的文字已经配上了可灵AI、清影AI生成的视频。

“坦白说，现在技术还没有到成熟的阶段，视频生成模型的技术天花板高，可以提升的空间大。但是，我们看到了影视、动画、广告、游戏行业的痛点：制作周期长、制作成本高，而这是技术可以努力解决的。”生数科技联合创始人、首席执行官唐家渝告诉记者。

一项技术想要成为“刚需”，须在增强可用性、可控性的前提下降低成本。作为直接拉低创作与制作门槛的技术，视频生成模型的出现，让影视动画从业者看到了“小团队制作动画”“小成本内容创作”的春天。

“创作AIGC（生成式人工智能）动画短片是一次有趣的经历。我们先是有了一个创意，把它画成故事版，然后用AI生成图像，再用Vidu把图像生成了视频。”北京电影节AIGC短片单元最佳影片得主、Ainimate Lab AI负责人陈刘芳告诉记者。

视频生成，将让科幻、奇幻、动画不再是大厂才敢玩的“烧钱游戏”。陈刘芳说，用上Vidu之后，制作周期与制作成本的降低堪称显著。

“拿动画短片《一路向南》来说，创作团队仅由三人构成：一名导演、一名故事版艺术家和一名AIGC技术应用专家。而传统流程需要20人，包含导演、故事版、美术、建模、材质、灯光、渲染等不同‘工种’，周期在一个月左右。这样算下来，成本降低了90%以上。”陈刘芳说，当然，目前视频生成技术的精致程度还不够，约为传统动画性能的三分之一。

然而，更低的成本、更高的效率，已让传统的影视、动画、游戏从业者感受到技术颠覆前夜的凛冽。“‘人人成为设计师’‘人人成为导演’的时代将会到来，就像当年进入‘人人拥有麦克风’的时代。”智谱AI首席执行官张鹏说。

“这对于动画行业而言，是挑战，也是机遇。比如一名武林高手，哪怕用最简单的武器、最普通的招式也会威力十足，核心在于他的内功强大。对于动画行业而言，‘招式’好比新技术，‘内功’则是创意、是视听表达、是对审美的品控判断。”中国传媒大学动画与数字艺术学院教授、动画系主任艾胜英说。

技术固然带来了性价比更高的工具，但也凸显了创意的关键作用。“当影视、动画、游戏的制作环节投入占比大幅降低后，比拼的就更加是创意。”陈刘芳说。

“炼”一个杀手级应用

大语言模型敲开生成式AI的大门后，视频作为图像模态的再扩展，将AIGC的技术推向高潮，也让AIGC的应用离大众越来越近。

当前，全球视频生成的技术路线主要有两种：一种是扩散模型，这其中又分为两类，一类是基于卷积神经网络的扩散模型，如Meta的Emu Video、腾讯等推出的VideoCrafter；另一类是基于Transformer架构的扩散模型，如生数科技的Vidu、OpenAI的Sora、快手的可灵AI等。第二种是自回归路线，如谷歌的VideoPoet、Phenaki等。

“国内视频生成的主流选择是基于Transformer架构的扩散模型，这一架构能使模型在处理语言、计算机视觉、图像生成等领域表现出扩展能力，遵从‘规模定律’。”徐东说。

这一选择也意味着，更大的算力、更高的质量与更大规模的数据，以及复杂的算法。

“首当其冲的是算法。视频在图像的基础上增加了时间维度，算法的复杂程度会指数级增长。”徐东说，数据、算力一定的条件下，模型性能关键在于算法的能力，取决于算法人才水平的高低。

其次，最为缺乏的是数据。“视频生成强依赖于数据。与文本数据相比，视频数据的积累难度更大。数据的质量提升，不仅包括视频的解析度、风格、分镜、组合、连续性等，还包括数据的清洗、筛选、处理。”张鹏说。

视频生成模型更是“吞卡巨兽”。从Sora的实践来看，持续提高模型的数据量、参数规模，迄今依然是AIGC进化的核心。中信证券测算，一个60帧的视频（约6至8秒）大约需要6万个Patches（补片），如果去噪步数是20的话，相当于生成120万个Tokens（词元）。考虑到扩散模型在实际使用中需多次生成，实际计算量会远超120万个Tokens（词元）。

“大模型参数正以每年十倍的速度增长。不论对科技企业还是研究机构而言，如何持续训练高性能的模型，依然是巨大挑战。但与此同时，C端的‘杀手级应用’让人充满期待。从创意的生成，到图片、音乐、视频的制作，AI都将有大施拳脚之地。未来，视频制作也许就像今天做PPT一样简单便捷。”北京智源人工智能研究院院长王仲远说。

打印关闭