如何创作 AI 视频?给新手创作者的微指南

kidult00 开智学堂

作者:00 来源:公众号「 设计极客 00」

AI 生成视频,是当下最火热的内容创作和技术话题。根据给定的文本、图像、视频等,AI 能够自动生成符合描述的、高保真的视频内容。

最近 00 用 AI 制作了一个短视频《New Vega City》,脚本、图像、视频、配音、字幕全部由 AI 完成。

AI 生成视频发展太快了,你可能感到不知所措,不知从何入手。受中国 AIGC产业联盟(AIGCxChina)的邀请,00 尝试做一次比较系统的梳理。

这篇文章写给即将开始 AI 视频创作的朋友,所以重点不是视频生成技术的研究,而是介绍 AI 生成视频的基本流程和比较成熟的工具。我会避开需要编程知识的原生工具,帮助大家解答几个问题:

  • 有哪些 AI 生成视频的方法和工具?
  • AI 生成视频目前能力如何?
  • 如果想创作 AI 视频,从哪里开始?

如果你身边有想用 AI 创作视频的朋友,请分享这篇文章给他吧!

01 有哪些 AI 生成视频的方法和工具?

视频的本质是什么?是一组连续的动态图像。

在以前,获取动态的图像主要有两种方法:拍摄视频,或者制作 2D 或 3D 动画。在文生图技术大爆发之后,生成图片的质量不错而成本很低,静态图像开始取代部分实景拍摄,成为视频的基础素材。

图片是视频的基础,但这不是本文的重点,现在市面上已经有数不清的 AI 生成图像的工具:Midjourney,Stable Diffusion,DALL-E 3……

有了图片,就可以用剪映、After Effect、 Final Cut 等工具剪辑成视频。不过,直接用图片拼接成视频有一个问题:它太像 PPT 了,我们需要更连贯的动态素材。

于是问题变成:如何让图像动起来?

研究试用了市面上五花八门的 AI 视频工具,00 把它们总结为三种方法:

图片

在第三部分我会详细介绍这些方法。

02 AI 生成视频目前能力如何?

AI 视频生成技术,依赖于生成视频的 AI 模型,目前主流依然是扩散模型,近期也出现了基于多模态的 VideoPoet。

训练视频生成模型的难度很大,瓶颈包括:计算成本高,缺乏高质量的视频和指令数据集,融合自然语言处理+视觉处理+画面合成的技术难度大,等等。

文生视频当前还处于起步阶段,随着文生图、图片对话技术的成熟,文生视频将成为多模态大模型下一步发展的重点。

AI 生成视频的难点在哪里?生成并不难,但是我们已经看过太多优质的影视内容,对 AI 视频的预期一开始就很高。可用的视频需具备一定的时长,优良的画面质量,一定的创意逻辑性及还原指令要求能力。

接下来让我们看看目前主流的技术能做到什么程度。

1、生成时长

图片

部分数据来自:国盛证券《2023年人工智能行业专题报告:AI文生视频,多模态应用的下一站》

目前,受限于训练资源,这些模型通常只能生成非常短的视频片段(大都为 3~4 秒)。不过,生成的时长会快速突破,创作者的重点还是在整合分段视频和加强叙事性上面。

2、镜头/运动控制

1)运镜方法

Runway 和 Pika 提供了推拉摇移等基本的镜头运动控制,并且可以控制运动的幅度。

图片

Runway Camera Motion

图片

Pika Camera control

2)运动幅度

上面已经看到 Runway 和 Pika 提供了运动幅度的调整。在 Stable Video Diffusion 中,也有一个可以简单控制运动变化幅度的参数 motion bucket,下面的视频展示了不同 motion bucket 的值如何影响画面变化:

https://www.reddit.com/r/StableDiffusion/comments/183mg95/stable_vide_diffusion_motion_bucket_id_comparison/

3、姿态控制

复杂人物动作的视频生成,非常考验视频模型的帧连续效果及动作理解能力。很容易出现动作不连贯、身体器官重叠/变形/消失等问题。

最近有大量的研究旨在解决姿态控制的问题,效果已经非常不错。比较有代表性的研究包括:

MagicAnimate

图片

AnimateAnyone

图片

还有很多类似的研究,比如 DreaMoving、MotionCtrl 等,目前还是在研究转化为成熟应用的阶段。比如最近刷屏的通义千问全民舞王,相信很快各大视频平台就会充斥群魔乱舞的小视频了。

4、语意理解

能否通过 prompt 准确体现创作者的意图,决定了文生视频的天花板。

图片

pika

在近期的研究中,Google 推出的 VideoPoet 体现了较强的语意理解能力,无需特定数据便可生成视频。只要为输入的图像增加文字描述,就可以添加动态效果。还可以修改提示来调整画面来达到预期的效果。

图片

左:转身看镜头;右:打哈欠 (原图为 gif)

厉害的是,VideoPoet 一次能够生成 10 秒的视频,而且动作幅度较大,连贯性好,碾压 Gen-2 仅有小幅动作的视频生成。(哦,VideoPoet 是个多模态模型,它还能生成音频)不过 VideoPoet 还没有开放使用,大家还要再等一等。

图片

5、连续性

现在 AI 生成视频的工具大多数一次只能生成 3~4 秒的视频,然后可以基于生成视频再延长 4 秒。这就对视频的连续性和一致性提出了要求。Runway 在延长视频时,容易出现后续动作变化不自然且幅度小、脸部变形等情况,Pika 则更为连贯顺畅一些。

如果视频里面有多个人物或者主体,就更是考验 AI 视频模型处理复杂场景的能力及细微语言的理解能力,否则画面很容易变成一锅粥。

图片

6、局部修改/视频编辑

Runway 很早就提供了视频智能编辑的系列功能,包括移除背景、抠图、运动跟踪等等。

图片

最近 Runway 不断更新局部修改的功能 Motion Brush,能够结合镜头运动和文字 prompt 来控制画面:

图片

Pika 也提供了局部修改和修改视频尺寸的功能,非常智能:

图片

图片

03 如果想创作 AI 视频,从哪里开始?

在开始之前,不妨问自己一个问题:

我有没有明确要表达的主旨/议题/观点?

如果没有,就把自己当成一个艺术家,尝试 AI 这种最新的“艺术材料”能做什么。

如果有,那么你可以更有意识地构思整个创作流程。下一个问题可以问自己:

这个视频的目标是什么?是对哪一个人群做到 A.营造氛围,B.传递信息,C.影响说服,D.…?

目前 AI 生成视频还在早期阶段,生成的内容比较随机、难以控制,但是能够快速地构建一个风格化的场景,尤其是现实中不存在的场景,这会更加考验创作者“讲故事”的能力。

在目标相对清晰以后,我们可以进入动手创作的阶段。这时候的关键问题是:

视频的内容形态是什么?——讲故事?动态影像?人物口播?运动捕捉?……

00 整理出几种 AI 生成视频的方式,下面详细讲解一下这几种方式的大致创作思路。

图片

1、叙事图像逐段生成

叙事性生成,其实就是“讲好一个故事”。皮克斯每一部动画都深入人心,除了人物形象立体丰富、制作精良、技术出众,更为关键的是它把大量精力投入到了“讲好故事”上面,才有了一个又一个老少皆宜、经久不衰的经典。

1)确定角色、场景、叙事线索,即故事脚本

想要讲好一个故事,不能一上来就开始用 AI 出图,而是构思整个故事。故事脚本这个环节,不是 AI 视频技术的范围,但我们依然可以借助 AI 的能力。

比如 00 在创作《New Vega City》的时候,用到了视频脚本 GPTs Video Script,帮助我快速生成一个关于火星城市的宣传短片的脚本。

图片

2)整理分镜,生成各镜头的画面

有了满意的脚本以后,接下来要把抽象的概念转换成具体的图像画面,然后给到 AI 生成图像和视频。在传统的影视动画制作中,这一步往往需要制作“故事板”,也就是艺术家把一个一个镜头里面的场景和人物用草稿描绘出来,再不断修改优化,最后拍摄出来。

我们可能没有制作经验和绘制草图的技术,这时候还是请 AI 来帮忙。大家可以搜索并找一些描述画面提示词的工具,比如词图 AI 的组词工具,或者文生图提示词的 GPTs,让 AI 把故事脚本中的场景描述成具体的图像 prompt。

图片

有了画面描述以后,就可以开始用文生图工具,比如 Stable Diffusion,Midjourney 等生成每一个场景的静态图像了。

当然,Runway 和 Pika 等视频工具也提供了文生图的功能,可以直接在里面生成,不过它们并不是很擅长图像生成,如果想获得更好、更可控的图像,还是推荐用专门的文生图工具。这些是我用 Stable Diffusion 生成的部分视频关键帧。

图片

3)生成视频片段,组织画面

有了关键帧画面以后,要让它们“动起来”。这回终于轮到 AI 视频工具上场了。

在 Runway、Pika 等工具中,重点是把图片变成“镜头”。最常用的让图片动起来的方法有两种:

第一种:

镜头本身的运动:画面的主体内容不动,只是改变镜头的运动。

友情提示:如果只需要实现简单的镜头运动,更简单的办法是移动图片,比如在 PPT 里让图片淡入淡出,或者在视频编辑工具里面让图片实现各种变形或运动。)

图片

第二种:

画面元素的运动:选定画面的某些部分,并设置如何运动。

可以通过 prompt 调整,不过效果一般都不太好,更常见的方式是设置修改区域(Runway 最近支持一个画面设置 5 个区域),然后指定运动方式。这是 AI 生成视频工具的核心功能,具体的操作可以查看软件的官方教程。

图片

图片

这里需要提醒一下费用问题。Runway 生成 1 秒视频需要 5 个 credit,每个月有 125 个免费 credit,只能生成 25 秒,用完需要充值,$12/月 可以生成 125 秒的视频。Pika 10 个 credit 可以生成 3 秒视频,每天有 30 个免费 credit,充值 $8/月 可以生成 210 秒的视频。

有了每一个场景的视频片段,接下来要完成叙事的部分。我们需要用剪辑工具(剪映/必剪/After Effect/Premiere/iMovie)把这些只有几秒的片段衔接起来。

如果之前的脚本写得好,并且场景画面的风格、人物比较一致,在衔接的时候就轻松很多。这个环节主要处理情节连贯性、主体一致性等问题,让画面节奏更加流畅。

2、视频转绘

第二种生成视频的方式要轻松不少,因为视频是现成的,省去了我们构思故事、脚本、场景、画面的工作,核心是把原有视频转绘成另外一种风格。能完成转绘的工具就更多了,这里主要介绍 2 个。

Runway Gen-1

上面我们已经了解过 Runway 的 Gen-2,它提供了强大的文生视频的能力。而 Gen-1 是更早推出的功能,它主攻的就是风格转绘。

DomoAI

DomoAI 凭借出色的画面稳定性赢得了大批用户,尤其在动漫风格上面表现突出。不过目前还只有 Discord 渠道可以使用。

3、运动对象生成

这一类视频的重点不是”讲故事“,而是人或运动物体的“表演”。

1)数字人/人脸驱动

“数字人”的概念我们并不陌生,这类视频的主体非常明确:一个人物形象,可以是真人录制,也可以是建模出来的完全虚拟形象。让人物或虚拟形象说话,就完成了 AI 视频的制作,目前这种技术已经广泛用在直播间、智能客服、数字员工等领域。

去年 10 月,美国著名歌手 Taylor Swift 在一个节目中受访的片段引起热议。视频中莓莓用流利的中文回答问题,无论是发音还是口型都非常标准。视频一发布就爆火,后来大家才知道这是用 HeyGen 完成的。

https://twitter.com/Gorden_Sun/status/1716075577117929841

Heygen 是一个功能全面、效果很好的 AI 虚拟人应用,以 AI 虚拟人形象和声音克隆两大技术作为基础,支持一键换衣、虚拟主播、文本转声音等各种操作。类似的工具还有 D-ID、Synthesia 等,都能快速将人物图片转成会说话的视频,口播类的场景非常适合。

2)运动驱动

只是让人动嘴讲话,还是不能满足我们在更多场景的需求。能不能让人整个动起来呢?能不能让动物、机器人之类的其他物体动起来呢?

当然可以,这就是另外一类 AI 可以生成的视频——基于运动对象来生成,并且可以做到实时生成。这背后是已经发展多年的运动捕捉技术。

在 AI 的加持下,运动捕捉已经已经达到非常高的精度,并且解决了文生视频难以处理的画面抖动、主体不一致的问题。这是 00 最看好的能在影视动画广泛商用的技术。

Wonder Studio 和 Move.ai 都是这个领域不错的工具,但是使用时最好配合 3D 建模软件来调整角色,有一定的使用门槛。

3)后期(画面/配音/字幕)

前面我们总结了各种 AI 生成动态视频的方法。如果顺利,你会得到很多动态的视频素材,接下来是最后一个环节:后期制作。

图片

一个完整的视频,并不是只有动态的画面,它还需要调节画面的质量、颜色,需要加入让人更加有代入感的背景音乐、音效和旁白,以及方便观看和理解的字幕等等。

这其中也涉及到非常多传统影视制作的工序,未来也会涌现很多 AI 驱动的工具,有机会再跟大家逐一分享。

小结

这一期的内容还真不少,相信你看完以后,对如何用 AI 生成视频已经有更加全局和深入的了解:

  • AI 生成视频有三种常见方法:叙事图像逐段生成,视频转绘,运动对象驱动。
  • AI 目前生成视频的时长比较短,可以简单控制镜头的运动和修改画面局部内容,但模型在语意理解和一致性方面还有很大提升空间。
  • 创作叙事类 AI 视频,有故事脚本、分镜、分段生成图像、叙事优化、后期这几个环节,也介绍了对应的工具。

相信你已经跃跃欲试,想把脑海中的想法变成精彩的画面了。如果你身边有想用 AI 创作视频的朋友,也请分享这篇文章给他吧!

AI 时代,工具极大赋能创作者,每个人都有机会更好地展现自己的创意。AI 生成视频的大门正在向你我开启,期待见到你的作品!■