Meta Talk: Learning to Data

链接
摘要
音频驱动说话人脸,通过音频驱动说话人脸,由于其在虚拟现实中的广泛应用,在多模态学习中受到了相当大的关注 。然而,大多数现有的音频驱动的说话人脸研究都需要长时间录制目标高质量视频,这显着增加了定制成本 。本文提出了一种新颖的数据高效音频驱动的说话人脸生成方法,该方法仅使用一个短目标视频来生成由任意音频驱动的口型同步和高清人脸视频 。目前的方法存在许多问题,例如清晰度低、嘴唇运动和声音不同步,以及对训练视频的强烈需求 。在这项工作中,原始目标人物的人脸图像被分解为 3D 人脸模型参数,包括表情、几何、照明等 。然后,由适应的目标人脸视频生成的低清晰度伪视频桥接强大的预训练音频驱动模型到我们的音频到表达转换网络,并帮助转移音频身份解开的能力 。该表情通过音频替换,然后与其他面部参数组合以呈现合成面部 。最后,神经渲染网络将合成人脸转换为说话人脸,而不会丢失定义 。实验结果表明,与现有的最先进方法相比,所提出的方法在高清图像质量方面具有最佳性能,并且在唇部同步方面具有可比性 。
关键字:说话的脸生成、唇形同步、高清、音频驱动的动画
1. 简介
人脸生成在多模态人机交互领域引起了广泛关注 。其强大的通信方式使其广泛应用于虚拟教育、视频会议、虚拟主播、游戏娱乐、影视动画制作等领域 。口型同步和逼真的视频肖像期间准确的嘴唇运动是更好的用户体验反馈的关键 [1, 2, 3, 4, 5],自然的头部姿势和眨眼也可以增强这些应用场景中的用户体验 [ 6、7、8] 。然而,现有的说话人脸生成不能同时实现高清和口型同步 。如何实现它们并开发音频驱动的说话人脸生成引起了许多研究人员的兴趣 。
传统的基于图像的方法 [1] 需要大量目标角色的视频,因为它从数据库中检索最佳匹配的嘴唇图像并将其拼接回原始背景图像 。基于 3D 可变形模型 (3DMM) [2] 的方法减少了目标视频获取的负担,但由于其音频驱动性能很大程度上取决于音频身份 。基于 GAN [4] 的方法使用预训练的鉴别器来准确检测唇形同步错误,并强制生成器准确地生成唇形运动,使其与新音频同步 。虽然它产生了不错的说话人脸唇形同步视频,并实现了音频身份与模型和目标身份的解耦,但唇部区域的定义对于视觉体验来说总是很差,无法满足应用需求 。
在本文中,我们提出了一种新颖的说话人脸生成框架,并努力仅使用短训练目标视频将强大的音频驱动的唇形同步能力从预训练模型 [4] 转移到我们的模型中 。本文的主要贡献总结如下:
(1) 在所提出的方法中,引入了由 [4] 预测的具有目标视频和 LRS2 音频 [9] 的低清晰度伪视频,以增强音频驱动的说话人脸生成的身份解纠缠能力 。
(2) 我们训练了一个改进的音频到表达(A2E)网络,以保证由任意音频驱动的准确嘴唇运动,这使得我们的方法具有与[4] 相媲美的强大音频驱动性能 。
(3) 引入了修改后的裁剪模块,用于自动将 3DMM 合成人脸的大小适应原始人脸区域,从而使我们的框架能够满足 4K 清晰度照片般逼真的说话人脸视频的要求 。
2. 我们的方法
图1 总结了我们提出方法的流程 。在训练阶段,我们首先将原始目标视频裁剪成目标人脸视频,然后将其调整为低分辨率,以使用预训练模型[4] 生成带有 LRS2 [9] 音频的低清晰度说话人脸视频 。生成的视音频对自成标签,具有丰富的音素和对应的说话人脸视频,具有出色的音画同步效果 。对伪视频和目标视频都进行3D人脸重建,从它们的每一帧中提取面部3D可变形模型(3DMM)参数,包括表情、几何、纹理、姿势、光照系数 。为了获得一个强大的将音频映射到表达系数的模型,我们使用伪视频的音频-表情系数对训练了一个新的audio-to-转换网络 。然后,使用 3DMM 参数重新渲染目标视频中的合成人脸图像 。最后,我们用合成和真实目标人脸的下半部分训练神经渲染网络,以生成高清照片般逼真的说话人脸视频 。