Meta Talk: Learning to Data( 四 )


所有实验均使用在单个 V100 上进行训练和测试 。我们通过测试我们的方法,并且在多人音频的驱动性能上与 ATVG[3]、[4]、[2] 和 [5] 进行了比较 。这些方法之间的比较结果如图3所示 。

Meta Talk: Learning to Data

文章插图
与其他四种方法相比,我们的方法产生更多同步的嘴唇运动 。生成的视频可以更清晰地显示面部的更多纹理细节,甚至 F 脸上的雀斑也更清晰 。然后,采用 [4] 中的指标 LSE-D 和 LSE-C 来定量评估在野外的唇形同步性能,并采用 FID [4] 和 SSIM 来评估图像质量(见表 2) 。我们方法的口型同步性能与相当,并且我们的方法在这些方法中产生具有最佳图像质量的视频 。
表 3 显示了我们的消融研究,以证明我们对改进说话人脸生成的贡献 。我们利用在 [2] 上收集的测试数据集的平均分数作为基线来比较我们的 A2E 网络的分数以及 LSE-D、LSE-C、FID 和 SSIM 上的高清修改 。我们改进的 A2E 网络和高清修改分别在图像质量和口型同步方面提高了说话人脸视频的性能
4. 结论
在本文中,我们提出了一种新方法,可以仅使用 3 分钟的视频来生成具有高清晰度的口型同步说话人脸视频,从而实现数据高效的训练 。给定任意任意音频输入,它可以在测试过程中驱动目标角色的语音视频生成 。这种方法减轻了目标视频采集的负担,降低了虚拟现实应用的制作成本,可能会带来各种潜在的应用 。在未来的工作中,我们将专注于基于目标身份解耦的说话人脸生成 。
5. 参考
[1] “ obama:lip sync from audio,”ACMon , vol. 36, no. 4CD, pp.95.1–95.13, 2017.
[2] Xin Wen, Miao Wang,, Ze-Yin Chen,and Shi-Min Hu, “ audio- video ,” IEEEonand, vol. 26, no. 12, pp. 3457–3466,2020.
[3] Lele Chen, Ross K. ,Duan, and Chen-liang Xu, “ cross-modalfacewithpixel-wise loss,” in 2019 IEEE/CVFonand(CVPR), 2019, pp. 7824–7833.
[4] K R ,, Vinay P. , and C.V. , “A lip syncis all you need forto lipin the wild,” inof the 28th ACMon , New York, NY, USA, 2020, MM ’20, p.484–492,for.
[5] Yang Zhou,Han, Eli , Jose ,, andLi, “,” ACMon , vol. 39,no. 6, pp. 1–15, Nov 2020.
[6]Zhang,Ni,Fan,Li, Ming Zeng,, andGuo, “3dface withpose ,” IEEEonand,pp. 1–1, 2021.
[7] Yurui Ren, Ge Li,Chen,H. Li, and Shan Liu, “:imagevia,” 2021.
[8]Zhang, Yifan Zhao, Yifei Huang, Ming Zeng,Ni,, andGuo, “:face with,” CoRR, vol. abs/2108.07938, 2021.
[9], Joon Son Chung,, Oriol , and, “Deep audio-,” IEEEonand, pp. 1–1, 2018.
[10] Yu Deng,Yang,Xu, Dong Chen,Yunde Jia, and Xin Tong, “ 3d facewith - : Fromimage to image set,” in 2019 IEEE/CVFonand(CVPRW), 2019, pp. 285–295.
[11],, Brian , Sami , and, “A 3d face model for pose andface ,” in 2009 Sixth IEEEonVideo andBased , 2009, pp. 296–301.
[12]Guo,zhang,Cai, Boyi Jiang, andZheng, “Cnn-based real-time dense facewith - photo- face ,” IEEEonand, vol. 41, no. 6, pp. 1294–1307, 2019.
[13] Chen Cao,Weng, Shun Zhou,Tong, and Kun Zhou, “: A 3dfor,” IEEEonand, vol. 20, no. 3, pp.413–425, 2014.
[14] R.and P. , “Anformaps,”of the 28thonand, 2001.
[15]Isola, Jun-Yan Zhu,Zhou, andA.Efros, “Image-to-imagewith,” 2018.4852