Canny AI公司发布了各国领导人演唱同一首歌的演示视频为唇形同步带来的新的解决方案

Susan1 · 发表于 2019-4-17 12:51:09

深度学习开始成为视觉特效制作的主要工具。虽然这些功能正在处于初级开发阶段，但是它们正在改变视觉特效的制作方式。这些新的制作方式并不是由建模、纹理、照明和渲染组成的操作流程，而是以训练数据集为基础，生成的虚幻或拟真的图像。

机器学习、深度学习和类似的方法在图像分类、图像识别和图像合成方面取得了巨大的成功。英国的Synthesia是一家通过研究Face2Face而诞生的公司。Synthesia公司正在寻求语言配音和ADR中存在的制片问题的解决方案。“Native dubbing（本地配音）”是他们翻译视频内容的新方法，旨在利用人工智能或机器学习将演员的嘴唇动作，同步到其他演员的新对话轨道中。

Canny AI公司发布了各国领导人演唱同一首歌的演示视频为唇形同步带来的新的解决方案

Canny AI公司发布了各国领导人演唱同一首歌的演示视频为唇形同步带来的新的解决方案

现在，一家针对类似市场的新公司应运而生，但是其技术实施方面有所不同。Canny AI公司即将发布他们的VDRTM（视频对话替换）程序，以替换视频中的所有对话。为了演示这种方法，他们发布了演示视频，上方的视频中展示了世界各国领导人演唱约翰·列侬歌曲《Imagine》的场景。

Canny AI是以色列特拉维夫的一家初期创业公司。该公司的两位创始人都是前以色列军人，奥马尔·本·阿米（Omer Ben Ami）说，他曾是军队中情报部门的软件开发人员，后来获得了理论物理学博士学位。同时他也是以色列初创公司的的一名开发人员。他的联合创始人乔纳森·海曼（Jonathan Heimann）表示他在特拉维夫大学学习计算机科学，然后参军六年多。

《3%》是导演佩德罗·阿奎莱拉创作的巴西反乌托邦惊悚网剧。在以色列播出的这部电视剧是由最初的葡萄牙语配音的，受到了广泛的关注。本·阿米回忆说：“我当时正在看这部剧，在以色列非常受欢迎。但是观剧体验很糟糕。然后当时我们就在查找这一领域已发布的技术，还没有太多。当时只有华盛顿大学发布的关于奥巴马采访的论文。那时我们就基本确定自己的努力方向了，也确定了如何创建完美的唇形同步体验”。

华盛顿大学的研究人员根据音频文件创作了逼真的视频：

上方展示的是华盛顿大学发布的原始视频，表明他们的工具是由以Supasorn Suwajanakorn带头的计算机视觉研究人员开发的，仅以音频文件为基础，创建逼真的视频效果。在上方的演示视频中，该团队利用电视脱口秀的音频文件和几十年前录制的访谈视频，创建了奥巴马在白宫演讲的真实视频。这篇论文是在SIGGRAPH 2017年度那个发表的。该团队之所以选择奥巴马，是因为机器学习需要供机器学习的该角色的真实视频，而网络上就有很多总统的采访视频。制作这段视频的时候，Suwajanakorn使用了奥巴马的14个小时的视频素材。这种方法是使用一个循环神经网络，将音频转换成主要的嘴部形状（一组稀疏的形状系数）。然后他们合成了纹理，增强了牙齿等部位的细节，并在源视频的头部和背景上合成了新的嘴巴。这个过程非常复杂，因为往往我们在说某个词汇之前，嘴部就已经发生移动，所以仅仅根据“过去”音频的输入，来调节嘴部的形状是不够的，还需要神经网络进行进一步的调节。

华盛顿大学2017年发布的论文中，重点关注“嘴、下巴、脸颊以及鼻子和嘴周围的区域”，并进行了一些下颌矫正。奥巴马的其他外貌元素（包括眼睛、头部、身躯、背景）均来自奥巴马以前的录像资料。华盛顿大学团队最终的解决方案是由四层金字塔混合组成复合效果，按一下顺序从前到后混合：

1. 下半部分面部的纹理（不包括颈部）

2. 身躯（衬衫和夹克）

3. 脖子

4. 其余部分

第1部分和第3部分来自于合成纹理，第2部分和第4部分来自于目标帧画面。

Face2Face技术

Canny AI团队还观看了Face2Face: Real-time Face Capture and Reenactment of RGB Videos（Face2Face：实时面部捕捉和RGB视频的重新激活视频），该视频的创作标志着面部置换技术的有一次里程碑式的发展。该视频首次在2016年度Siggraph大会上，于新兴技术大厅展示，“但是当时Face2Face技术在唇形同步方面不太精准，所以我们看到了这一领域的发展潜力”，本·阿米说道。

《Imagine》视频

为了推广Canny AI公司的VDR方法，该团队发布了一个视频（文章开头的视频）。该视频纯粹是为了做演示而制作的，但是希望这个演示视频可以给大家传递一个积极的信息，即这种人工智能处理技术，不必仅让人联想到围绕着Deep Fakes的道德问题。

“围绕着这个技术有很多假新闻和炒作信息。我们希望想要创建强大而统一的信息，来展示这个技术的一些积极用途”，本·阿米表示。

乔纳森·海曼解释说：“让金正恩或者贾斯廷·特鲁多等领导人嘴唇运动的驱动力是我，我在唱这首歌并进行了嘴唇同步处理”。

Canny AI公司发布了各国领导人演唱同一首歌的演示视频为唇形同步带来的新的解决方案

《Imagine》视频是根据供全球观众观看的之前的视频素材创建的。该团队使用传统的方法，将处理过的视频合成到这些视频素材中。以色列工作室The Hive花费了时间和资源，创作和编辑了最终的歌曲效果。

Canny AI团队制作了世界各国领导人唱这首歌的长片段，然后编辑们决定哪位领导人演唱这首歌曲的哪个部分。实际上他们制作的材料比真正需要的要多得多。这也反映出一个事实，即培训网络需要时间，但是一旦培训完成，实际的制作过程就非常迅速了。

简单地说，如果要将一个30分钟的视频片断，转换为另一种语言，假设整个过程使用相同的演讲人，该团队预计他们可以在几天的时间内，轻松地完成转换任务。

CannyAI公司

由于他们对精确的唇形同步非常感兴趣，所以去年CannyAI公司一直致力于开发他们的VDR程序。他们的产品是一个端到端的解决方案，可以：

- 为电视节目配音

- 重复利用现有的视频素材

- 将培训视频转换为不同的语言

该公司目前正积极地参与项目制作，为一些主要潜在客户提供投标工作和关键测试。

与其他原始方法不同，该过程不需要数小时的培训材料，并且团队一直在关注此类设置中出现的主要复杂问题：

- 瞬时闪烁

- 转动头部时的透视问题

- 照明变化和匹配

目前，他们将遮挡问题抛在一边，希望更多传统方法可以为这些特殊情况提供解决方案。

该团队需要的培训数据比其他方法要少得多。

为了解决照明问题，唇形匹配过程需要每个场景逐一制作，并针对每个场景进行调整。对于瞬时闪烁，团队经过长期的努力工作，开发了专门的IP来解决这个问题。得出的最终视频结果并没有出现闪烁，事实上，对于领导人的形象，他们并没有进行特殊的后期制作和视觉特效。

目前Canny AI公司只有两个人，奥马尔·本·阿米和乔纳森·海曼。但是他们有两位主要的顾问：乌里·沙哈姆博士和迈克尔·汉密尔顿。本·阿米解释说：“他们其中一人正在攻读耶鲁大学的统计学博士学位，另一位则来自于电影行业，从事的是音频后期制作。”

根据韩国总统音频制作的动画：

上方视频中展示的是根据韩国总统的音频（右），重新制作的动画效果（左）。

这项技术当然是双向的。上方视频中的人物是韩国总统文在寅。在这个测试视频中，最重要的一个方面是使用了不同角度的视频片段，展示了该系统在处理源视频角度时的强大功能。

更多相关内容请关注：CG视频教程专区

tao617238 · 发表于 2019-4-17 12:56:51

爱习大大，，抱抱

liuzdk · 发表于 2019-4-17 14:26:53

为了解决问题

影视制作中心 · 发表于 2019-4-17 15:13:17

感谢分享，thanks for shareing

慢慢相见 · 发表于 2019-4-17 22:06:31

不错不错，谢谢分享

ulucifer · 发表于 2019-4-18 13:53:20

想知道唱歌的视频哪里有

whitenight233 · 发表于 2019-4-18 22:01:34

这个是用的什么软件，给我也整一个！

电子邮件

【中文字幕】Photoshop 2025全面核心技术训

424张亚洲女性角色持剑等动态姿势高清参考

330张多角度动态女性姿势高清参考图合集

900张高质量女性人物动态姿势参考图集

1230张白人女性红色背景站姿坐姿躺姿高清参

Megascans系列3D模型与纹理材质全收集持续

120组电影级别爆炸火焰燃烧视觉特效4K高清

700张插画师建模师人体解剖高清参考图合集

400张部落毒蛇女王肖像特写高清参考图合集

【中文字幕】Clo3D服装设计基础核心技能训

Particle Illusion Pro 2025幻影粒子软件V1

8250组雕刻用Zbrush笔刷与Alphas自定义贴图

Canny AI公司发布了各国领导人演唱同一首歌的演示视频为唇形同步带来的新的解决方案

精彩评论6

300组人体8K高清参考图合集

【中文字幕】InDesign 2024排版设计全面核

【中文字幕】3dsmax与AE数字动画与合成技术

【中文字幕】DALL-E 3人工智能创意图像制作

【中文字幕】Adobe Firefly生成式人工智能A

【中文字幕】Premiere Pro合成与遮罩技术训

推荐 /2

帮助中心

新手指南

关于我们

精品课程

联系方式

反馈建议

电子邮件

Canny AI公司发布了各国领导人演唱同一首歌的演示视频 为唇形同步带来的新的解决方案

精彩评论6

推荐 /2

帮助中心

新手指南

关于我们

精品课程

联系方式

反馈建议

Canny AI公司发布了各国领导人演唱同一首歌的演示视频为唇形同步带来的新的解决方案