《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译( 四 )



隐式函数预测采样的三维点的占用值 。利用标记立方体获得了高质量的表面重建 。
3.1.2.损失函数
所提出的网络是由由时间帧渲染的地面真实三维人体模型进行监督,并在来自单眼视频的时间距离帧之间进行自我监督 。为了训练TVRN网络,我们将三维损失
和时间一致性损失

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译

文章插图
相结合 。三维损失函数
计算时间帧t的估计三维体素占用网格(
【《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译】)和三维地面真实值(
)之间的误差 。如式2所示,在网络输出上应用一个s型函数后,计算出二值交叉熵[19] 。特别地,我们使用加权二进制交叉熵损失,
是一个权重来平衡体素体积中的占据和未占据点:
其中,
为一个体素网格V在位置(x、y、z)处的占用值 。训练一个只具有二元交叉熵损失的网络,可以对人体的动态部分进行时间上不一致的重建,如图2所示 。为了提高三维模型的准确性和完整性,我们提出了第二个损失函数,即从多个视频帧重建之间的时间一致性损失(
) 。在时间一致性损失的情况下,表示可以学习出对时间变化、自遮挡和帧间闪烁的稳健特征 。将每帧估计的三维体素占用网格和顶点之间的时间对应转换为体素对应,如图4所示 。时间一致性损失在方程3中定义,L2损失计算了一帧的体素占用估计
和其他N-1个帧之间的损失 。
其中,P为三维点对应之间的变换算子 。
为了训练混合隐式三维重建网络,我们在三维人体模型的表面周围采集三维点样本及其占用值 。我们采样数量为
的点
,i∈1,...,n,通过在每个三维人体模型的地面曲面上采样点,并添加随机位移尼
,即
。然后,我们计算采样点的地面真实占用值,
。如果
在网格表面内,则对应的
,如果不是,则对应的
。我们通过最小化平均均方误差来训练几何预测网络(方程1):
然后,两种训练的网络被用来估计单眼视频的时间一致的三维重建 。下一节描述了对每个三维形状估计的时间一致纹理的估计 。
3.2.学习纹理三维重建
为了重建完整的三维人体模型,我们提出了一个时间上一致的纹理预测网络除了几何重建,即混合隐式三维纹理网络()提出的方法(图3)预测的颜色值重建表面上的每个顶点从一个单目视频 。与之前的方法[43,29]不同,使用所提出的新型混合结构和损失函数,以时间一致的方式学习纹理预测 。
图4 。这张图显示了来自单眼视频的时间距离帧之间的时间三维顶点对应,以训练所提出的网络:TVRN和(Sec 。3)
3.2.1学习架构
总体方法如图3所示,其中包含N个堆叠的混合编解码器网络,其中N是网络学习时间一致纹理的输入视频帧数 。这些参数在混合编解码器网络之间共享 。每个混合编码器-解码器以多个特征编码作为输入,并使用多层感知器(MLP)解码器预测采样的3D点的RGB颜色来预测颜色值 。在训练过程中,如图3所示,将采样的三维点(X)投影到输入图像(x)上,通过连接改进的网络体系结构[21]的中间层输出,提取像素级图像特征 。我们表示为像素级的图像特征H(X) 。解码器的第二个输入是从混合隐式三维重建网络的输出中提取的点向特征,即点占用值 。对于采样的三维点,我们采用三线性插值方法在采样点附近的预测占用值中应用多尺度形状编码[9] 。采样点(X)的形状编码记为S(X) 。该解码器的最后一个输入是采样的3D点(X)相对于相机的深度值,记为D(X) 。整体混合隐式纹理函数为: