深度学习开始成为视觉特效制作的主要工具。虽然这些功能正在处于初级开发阶段,但是它们正在改变视觉特效的制作方式。这些新的制作方式并不是由建模、纹理、照明和渲染组成的操作流程,而是以训练数据集为基础,生成的虚幻或拟真的图像。
机器学习、深度学习和类似的方法在图像分类、图像识别和图像合成方面取得了巨大的成功。英国的Synthesia是一家通过研究Face2Face而诞生的公司。Synthesia公司正在寻求语言配音和ADR中存在的制片问题的解决方案。“Native dubbing(本地配音)”是他们翻译视频内容的新方法,旨在利用人工智能或机器学习将演员的嘴唇动作,同步到其他演员的新对话轨道中。
现在,一家针对类似市场的新公司应运而生,但是其技术实施方面有所不同。Canny AI公司即将发布他们的VDRTM(视频对话替换)程序,以替换视频中的所有对话。为了演示这种方法,他们发布了演示视频,上方的视频中展示了世界各国领导人演唱约翰·列侬歌曲《Imagine》的场景。
Canny AI是以色列特拉维夫的一家初期创业公司。该公司的两位创始人都是前以色列军人,奥马尔·本·阿米(Omer Ben Ami)说,他曾是军队中情报部门的软件开发人员,后来获得了理论物理学博士学位。同时他也是以色列初创公司的的一名开发人员。他的联合创始人乔纳森·海曼(Jonathan Heimann)表示他在特拉维夫大学学习计算机科学,然后参军六年多。
《3%》是导演佩德罗·阿奎莱拉创作的巴西反乌托邦惊悚网剧。在以色列播出的这部电视剧是由最初的葡萄牙语配音的,受到了广泛的关注。本·阿米回忆说:“我当时正在看这部剧,在以色列非常受欢迎。但是观剧体验很糟糕。然后当时我们就在查找这一领域已发布的技术,还没有太多。当时只有华盛顿大学发布的关于奥巴马采访的论文。那时我们就基本确定自己的努力方向了,也确定了如何创建完美的唇形同步体验”。
华盛顿大学的研究人员根据音频文件创作了逼真的视频:
上方展示的是华盛顿大学发布的原始视频,表明他们的工具是由以Supasorn Suwajanakorn带头的计算机视觉研究人员开发的,仅以音频文件为基础,创建逼真的视频效果。在上方的演示视频中,该团队利用电视脱口秀的音频文件和几十年前录制的访谈视频,创建了奥巴马在白宫演讲的真实视频。这篇论文是在SIGGRAPH 2017年度那个发表的。该团队之所以选择奥巴马,是因为机器学习需要供机器学习的该角色的真实视频,而网络上就有很多总统的采访视频。制作这段视频的时候,Suwajanakorn使用了奥巴马的14个小时的视频素材。这种方法是使用一个循环神经网络,将音频转换成主要的嘴部形状(一组稀疏的形状系数)。然后他们合成了纹理,增强了牙齿等部位的细节,并在源视频的头部和背景上合成了新的嘴巴。这个过程非常复杂,因为往往我们在说某个词汇之前,嘴部就已经发生移动,所以仅仅根据“过去”音频的输入,来调节嘴部的形状是不够的,还需要神经网络进行进一步的调节。
华盛顿大学2017年发布的论文中,重点关注“嘴、下巴、脸颊以及鼻子和嘴周围的区域”,并进行了一些下颌矫正。奥巴马的其他外貌元素(包括眼睛、头部、身躯、背景)均来自奥巴马以前的录像资料。华盛顿大学团队最终的解决方案是由四层金字塔混合组成复合效果,按一下顺序从前到后混合:
1. 下半部分面部的纹理(不包括颈部) 2. 身躯(衬衫和夹克) 3. 脖子 4. 其余部分
第1部分和第3部分来自于合成纹理,第2部分和第4部分来自于目标帧画面。
Face2Face技术
Canny AI团队还观看了Face2Face: Real-time Face Capture and Reenactment of RGB Videos(Face2Face:实时面部捕捉和RGB视频的重新激活视频),该视频的创作标志着面部置换技术的有一次里程碑式的发展。该视频首次在2016年度Siggraph大会上,于新兴技术大厅展示,“但是当时Face2Face技术在唇形同步方面不太精准,所以我们看到了这一领域的发展潜力”, 本·阿米说道。
《Imagine》视频
为了推广Canny AI公司的VDR方法,该团队发布了一个视频(文章开头的视频)。该视频纯粹是为了做演示而制作的,但是希望这个演示视频可以给大家传递一个积极的信息,即这种人工智能处理技术,不必仅让人联想到围绕着Deep Fakes的道德问题。
“围绕着这个技术有很多假新闻和炒作信息。我们希望想要创建强大而统一的信息,来展示这个技术的一些积极用途”,本·阿米表示。
乔纳森·海曼解释说:“让金正恩或者贾斯廷·特鲁多等领导人嘴唇运动的驱动力是我,我在唱这首歌并进行了嘴唇同步处理”。
《Imagine》视频是根据供全球观众观看的之前的视频素材创建的。该团队使用传统的方法,将处理过的视频合成到这些视频素材中。以色列工作室The Hive花费了时间和资源,创作和编辑了最终的歌曲效果。
Canny AI团队制作了世界各国领导人唱这首歌的长片段,然后编辑们决定哪位领导人演唱这首歌曲的哪个部分。实际上他们制作的材料比真正需要的要多得多。这也反映出一个事实,即培训网络需要时间,但是一旦培训完成,实际的制作过程就非常迅速了。
简单地说,如果要将一个30分钟的视频片断,转换为另一种语言,假设整个过程使用相同的演讲人,该团队预计他们可以在几天的时间内,轻松地完成转换任务。
CannyAI公司
由于他们对精确的唇形同步非常感兴趣,所以去年CannyAI公司一直致力于开发他们的VDR程序。他们的产品是一个端到端的解决方案,可以:
- 为电视节目配音 - 重复利用现有的视频素材 - 将培训视频转换为不同的语言
该公司目前正积极地参与项目制作,为一些主要潜在客户提供投标工作和关键测试。
与其他原始方法不同,该过程不需要数小时的培训材料,并且团队一直在关注此类设置中出现的主要复杂问题:
- 瞬时闪烁 - 转动头部时的透视问题 - 照明变化和匹配
目前,他们将遮挡问题抛在一边,希望更多传统方法可以为这些特殊情况提供解决方案。
该团队需要的培训数据比其他方法要少得多。
为了解决照明问题,唇形匹配过程需要每个场景逐一制作,并针对每个场景进行调整。对于瞬时闪烁,团队经过长期的努力工作,开发了专门的IP来解决这个问题。得出的最终视频结果并没有出现闪烁,事实上,对于领导人的形象,他们并没有进行特殊的后期制作和视觉特效。
目前Canny AI公司只有两个人,奥马尔·本·阿米和乔纳森·海曼。但是他们有两位主要的顾问:乌里·沙哈姆博士和迈克尔·汉密尔顿。本·阿米解释说:“他们其中一人正在攻读耶鲁大学的统计学博士学位,另一位则来自于电影行业,从事的是音频后期制作。”
根据韩国总统音频制作的动画:
上方视频中展示的是根据韩国总统的音频(右),重新制作的动画效果(左)。
这项技术当然是双向的。上方视频中的人物是韩国总统文在寅。在这个测试视频中,最重要的一个方面是使用了不同角度的视频片段,展示了该系统在处理源视频角度时的强大功能。
更多相关内容请关注:CG视频教程专区
|