受到最近扩散模型在高质量的图像以及视频生成方面已经取得了快速( 二 )


文章插图
本方法一共包含四大部分:(1)人脸属性解耦;(2)唇 - 音对比同步;(3)动态连续性属性信息建模;(4)基于去噪扩散模型的说话人生成
人脸属性解耦部分中 , 研究者采用 3DMM 提取源身份图像的头部姿态和表情系数 , 然后借鉴之前 DFA-nerf 的工作采用全连接的自编码器从表情参数解耦得到唇部运动和眨眼动作信息 。
唇 - 音对比同步模块中 , 研究者通过引入自监督跨模态对比学习策略来部署一个确定性模型来同步音频和唇部运动的特征 。
动态连续性属性信息建模模块中 , 由于头部姿势和眨眼等个性化人脸属性是随机的和具有一定概率性的 , 因此为了对人脸属性的概率分布进行建模并生成长时间序列 , 研究者提出采用了基于的变分自动编码器(VAE)的概率模型 , 一是 VAE 可以用于平滑离散的属性信息并映射为高斯分布 , 二是利用的注意力机制充分学习时间序列的帧间长时依赖性 。
基于去噪扩散模型的说话人生成模块中 , 研究者生成的个性化人脸属性序列与同步的音频嵌入相连接作为扩散模型的输入条件 。然后利用条件去噪扩散概率模型(DDPM)将这些驱动条件以及源人脸作为输入 , 通过扩散生成的方式生成最终的高分辨率说话人视频 。这些个性化人脸属性序列与同步的音频嵌入用来丰富扩散模型 , 以保持生成图像序列的一致性 。
实验结果
研究者们通过实验验证了本方法对于基于音频驱动的说话人视频生成任务的优越性能 。
定量比较实验
研究者将本方法与现有音频驱动的人脸视频生成方法通过定量化分析实验进行比较 , 采用了峰值信噪比 (PSNR), 结构相似度(SSIM) , 人脸关键点运动偏移(LMD) , 视听同步置信度 (Sync) 等多个客观的评估指标 , 具体信息如表 1 所示 。

受到最近扩散模型在高质量的图像以及视频生成方面已经取得了快速

文章插图
本文所提出的扩散生成框架在所有的性能指标上都优于其他方法 , 其中 PSNR 和 SSIM 验证了人脸属性解耦方案能够更好地捕捉说话人的头部姿态、眨眼等个性化信息 。而本方法的 LMD 分数意味着本方法的唇音一致性更强 。此外 , 受益于输入音频和唇部运动的跨模态对比学习 , 本方法在 Sync 指标上大幅超越其他方法 。
定性比较实验
研究者将本方法与现有音频驱动的人脸视频生成方法进行比较 。通过个性化属性的学习以及扩散模型的优化 , 我们的方法生成具有个性化的头部运动 , 更加逼真眨眼信息 , 唇 - 音同步性能更好的人脸视频 。
模型中每个模块带来的效益
为了突显出模型中每个模块的重要性 , 研究者们做了消融实验 , 如表 2 所示 , 当添加 DDPM 模块之后 , 在推理速度和视觉质量方面相比于其他模块的提升是最大的 , 其次 , 受益于解耦的人脸属性信息以及 VAE 的属性平滑以及动态连续性建模的作用 , 说话人人脸的自然度得到了提高 。此外 , 唇音对比学习的模块通过自监督的方式显著提高了唇部运动和与输入音频的同步质量 。
模型的效率
研究者们还展示了模型的可训练参数量 , 推理速度以及输出的分辨率大小 , 并和之前的 SOTA 模型进行了对比 , 由于使用去噪扩散概率模型 , 该模型利用变分方法而不是对抗性训练 , 并且不需要部署多个鉴别器 , 因此极大缓解了训练时模型容易陷入模型坍塌的问题 , 并且采用了较短的时间步长 , 推理速度大大提高 , 效率得到了提升 。aiot