《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译( 五 )


该方法学习不同视频帧之间的时间一致性预测,并允许我们使用时间一致性损失(3.2.2节) 。在整个网络中,我们提出了一个神经网络框架来学习时间一致的三维纹理人类重建从视频 。图像编码器和MLP网络的细节在第4节中解释 。与以往的方法[17,43]相比,混合解码器通过形状编码捕获形状的全局拓扑,以最小的计算成本预测三维重建的精确几何和纹理 。
3.2.2损失函数

《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译

文章插图
我们通过最小化两个损失函数,

来训练混合隐式三维纹理网络() 。为了计算
,我们采样点
,i∈1,...,m,通过在每个人类模型的地面真实曲面上采样点 。然后,我们得到采样点的颜色值,
。我们通过最小化平均绝对差分误差来训练纹理预测网络:
为了以时间上一致的方式训练纹理预测网络,我们使用采样点的时间对应,
,并通过最小化一次帧的颜色估计
和N-1其他帧之间的L2损失来训练网络:
整体损失函数L是几何形状和颜色的组合损失函数:
用单眼视频输入法对该方法进行了测试和说明2 。从一个单眼视频中提取的每一帧首先被传递给TVRN 。然后,将占用体积内的每个采样点作为H3DN的输入,以预测每个采样点的占用值 。然后,利用行进立方体算法,从占用体积中估计网格表面重建 。对于外观,我们使用训练过的来预测每个重建的3D点的颜色值,输入值为:预测的占用量和一个视频帧 。
4.实验评价
本节介绍了对具有不同姿势和服装的人的图像和视频的实现细节和合成数据集生成的定性和定量结果 。我们在从数据集中随机选择的单眼视频上评估了所提出的方法 。对于每个视频,我们给出了网络视频帧和相关的分割掩码 。对于一个给定的测试视频,所提出的方法基于在第3节中提出的框架,估计了时间上一致的表面形状和纹理外观重建 。
4.1.数据集
提出的单眼视频的时间一致纹理重建监督从地面三维人体模型和视频帧之间的时间顶点对应 。因此,我们使用公共领域合成人类图像数据生成框架3DVH[7]中使用的类似框架生成了一个新的数据集(图7) 。由于3DVH仅限于3D人类的静态图像,我们生成了400个人类模型的30帧长度的视频序列,其服装、头发和姿势有很大的变化,每帧呈现100个相机视图 。该数据集被称为3DVH视频,并将提供可用于研究 。
4.2.实施细节
该网络在3DVH视频数据集上进行训练,该数据集分为训练集、验证集和测试集 。在时间体素回归网络(TVRN)网络中,输入图像的大小为512×512×3,输出体素网格分辨率为128×128×128 。在地面真实数据中,被占用体积内部和外部的点分别被分配给1和0个值 。在训练期间,批大小设置为4,epoch设置为40 。通过这些设置,网络将使用12gb内存的进行3天的训练 。TVRN在相对较低的内存gpu上进行训练,将分辨率限制在1283;然而,我们可以获得更高的分辨率,因为混合隐式三维重建模块可以从更高的体素分辨率中提取三维形状特征进行训练 。Adam优化器与学习速率lr=2.5e?4一起使用,每20个时代抽取一次步长 。
利用TVRN和视频帧中预测的三维体素输入集,训练混合隐式三维重建(H3DN)网络 。在训练该网络的过程中,在三维地面真实模型(Sec.3.1.2)的表面周围采样三维点 。为了训练网络,我们使用了三维地面真实曲面内外的10000个样本点 。为了从体素中提取点的形状特征,我们使用IFNET[9]的三维卷积结构,正如第二节中解释的那样 。3.1.1.点态特征的大小为[2583×1] 。对于图像编码器,我们使用沙漏网络架构[43]来获得大小的像素级特征[256×1] 。对于最后一个特征编码器,即深度编码器,我们对样本点相对于相机的实际深度值进行了归一化处理 。为了预测采样的三维点的占用值,这些特征的串联通过一个多层感知器(MLP),该感知器分别由5个输入/输出大小的线性层组成[2849、1024、512、256、128,1] 。