Meta Talk: Learning to Data( 二 )


在测试阶段,可以输入任意音频并将其馈送到经过训练的音频到表情转换网络,以预测音频驱动的表情参数 。然后,我们使用预测的表情参数替换原始 3DMM 参数(通过 3D 重建获得的) 。我们使用组合的 3DMM 参数将人脸重新渲染为音频驱动的合成人脸 。然后将生成的合成人脸的下半部分转换为逼真的下半部分脸 。最后,将生成的逼真的下半脸缝合到原始目标视频的背景中,生成高清唇形同步视频
2.1 图像裁剪预处理
图 1. 我们方法的框架,包括训练和测试过程 。标记为灰色的模块需要训练,标记为蓝色的模块不需要 。
【Meta Talk: Learning to Data】给定目标视频,我们首先检测其人脸并将其裁剪成图像大小为或或的目标人脸视频 。图像大小适应原始视频的人脸分辨率 。这一步,接着后面的3D重建和神经人脸渲染器生成,可以生成与目标人脸分辨率相同的人脸,便于高清人脸翻译 。然后,将裁剪后的人脸视频调整为大小的低分辨率视频 。我们将此视频与 LRS2 音频 [9] 一起输入预训练的说话人脸生成模型 [4] 以获得伪视频 。由预测,伪视频具有低清晰度和良好的口型同步 。在所提出的方法中,我们对伪视频进行 3D 重建以获得表情参数并训练 A2E 网络,并将强大的唇形同步性能传输到我们的 A2E 网络 。所以伪视频是我们的方法和之间的重要联接 。调整图像大小操作减小了伪视频的大小,但可以显着加快 3D 重建 。我们的方法侧重于通过音频驱动从 3D 人脸重建中获得的表情参数,这不依赖于输入视频的帧大小,因此我们可以使用低清晰度伪视频来提取表情参数 。
2.2 3D人脸重建
图 2. 我们实验中用于训练的目标角色视频 。

Meta Talk: Learning to Data

文章插图
为了生成音频驱动的说话人脸,首先应针对目标人脸视频和伪视频重建 3D 人脸模型 。并且,从视频每一帧中提取表情、形状、纹理、光照、姿态系数,可以充分描绘出视频人的面部信息,便于渲染回合成人脸图像 。由于 3DMM 的先验特,模型可以对帧分辨率和清晰度低的视频进行 3D 人脸重建,从而进行 3D 人脸参数估计 。我们利用基于深度学习的人脸重建模型 [10],其中输入人脸I I I 表示为 3DMM(一种参数化人脸模型) 。然后训练一个深度 CNN,用于从输入的人脸I I I 估计 3DMM 参数Φ I \Phi_I ΦI? 。人脸形状系数s s s 可以重建为s = s ˉ + s=\bar{s}+ s=sˉ+α T Ξ exp ? + β T Ξ geo \alpha^T \Xi_{\exp }+\beta^T \Xi_{\text {geo }} αTΞexp?+βTΞgeo?,面部反射率r r r 被公式化为r = r ˉ + γ T Ξ r e f r=\bar{r}+\gamma^{\{T}} \Xi_{r e f} r=rˉ+γTΞref? 以描述面部纹理,其中s ˉ \bar{s} sˉ 和r ˉ \bar{r} rˉ 表示为平均面部形状和反射率,α ∈ \alpha \in α∈R 64 , β ∈ R 80 , γ ∈ R 80。
Ξ exp , Ξ geo , ξ ref \{R}^{64}, \beta \in \{R}^{80}, \gamma \in \{R}^{80} 。\Xi_{\text {exp }}, \Xi_{\text {geo }}, \xi_{\text {ref }} R64,β∈R80,γ∈R80 。Ξexp?,Ξgeo?,ξref? 分别表示表情、形状和光照矩阵,它们都是通过主成分分析(PCA)从面部扫描数据中计算出来的 。s ˉ , r ˉ , Ξ geo \bar{s}, \bar{r}, \Xi_{\text {geo }} sˉ,rˉ,Ξgeo? 和Ξ r e f \Xi_{r e f} Ξref? 采用 2009 年的巴塞尔人脸模型 [11] 。并且,我们使用基于 CNN 的粗到细学习方法 [12] 用于获得基于 Face- [13] 的Ξ exp ? \Xi_{\exp } Ξexp?。此外,我们使用球谐函数(SH)[14]来近似环境照明,并假设朗伯表面和远景照明来模拟照明 。具有正常k i k_i ki? 和纹理z i z_i zi? 的顶点μ i \mu_i μi? 的放射性可以计算为C ( k i , z i , δ ) = z i ∑ b = 1 B 2 δ b ψ b ( k i ) C\left(k_i, z_i, \delta\right)=z_i \sum_{b=1}^{B^2} \ \psi_b\left(k_i\right) C(ki?,zi?,δ)=zi?∑b=1B2?δb?ψb?(ki?),其中ψ b : R 3 → R \psi_b: \{R}^3 \ \{R} ψb?:R3→R 是S H \{SH} SH 基函数,δ b \ δb? 是S H \{SH} SH 系数和B = 3 B=3 B=3 波段 。