《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译( 六 )


对于纹理预测网络,我们使用架构[21]的图像编码器提取5个输入/输出大小线性层的像素级图像特征和MLP[2849,1024,512,256,128,3] 。这两个网络都使用具有12GB内存的进行了5天的训练,有2个批处理大小和100个周期 。优化器与学习速率lr=1e?3一起使用,每60个历元抽取一次步长 。
图5 。[52]、MCNet[7]、PIFU[43]、[44]的重建结果,以及所提出的方法和地面真实的三维人体模型 。
图6 。PIFU[43]的纹理重建结果和所提出的方法和地面真实的三维人体模型 。
图7 。该图显示了来自3DVH视频数据集的样本序列 。
4.3.评估
该方法与最近四种最先进的基于深度学习的单图像三维人体重建方法进行了定性和定量的评估:[52],PIFU[43],MCNet[7],[44] 。为了进行公平的比较,我们使用作者提供的代码,使用3DVH视频数据集对MCNet、PIFU和深度人进行再训练,并使用预先训练过的网络(训练代码不可用) 。对使用所提出的方法和最先进的方法获得的三维形状的定性和定量比较,如图5、6和8所示,以及地面真相 。所有算法均采用单眼视频输入进行测试,图5显示了来自侧视图的三维重建结果 。这些结果表明,基于体素的方法,和MCNet,能够预测没有布和毛发细节的粗三维重建 。另一方面,隐式表面重建方法PIFU、可以重建更好的表面细节,而任意姿态的人体整体拓扑结构则会出现误差 。例如,图5说明了PIFU和预测了不正确的重建 。此外,以前的方法显示了随着时间的推移,相邻重建之间的时间不一致 。例如,PIFU和方法预测了衣服、面部和头发的不一致的三维重建(图5) 。然而,所提出的方法使用损失函数训练的混合体积隐式表示来增强时间一致性,结果得到时间一致的重建,正确预测单眼视频的体型和表面细节 。
纹理预测结果及所提方法与PIFU[43]的比较如图6所示 。纹理三维重建结果显示了可见和看不见的部分的人 。PIFU对不可见部分的精度有限,而所提出的方法能够预测完整表面的高质量的时间一致的纹理外观 。在PIFU中,纹理预测网络使用图像特征,而所提出的方法也将形状特征编码到混合隐式表面解码器中 。所提出的方法还解决了图6中视频帧之间的时间一致性 。
图8.【top】每个顶点的倒角从重建到地面真实模型的距离显示 。三维错误地图说明了可见和不可见的边 。【】对不同的误差指标,比较了所提出的方法与最先进的方法 。CD:倒角距离,3D IoU:联合的三维交叉 。有关更多详情,请参阅正文 。
除了定性结果外,我们还使用地面真实的三维模型计算了两个误差度量,以测量形状重建的全局精度:倒角距离(CD)和联合的三维相交(3DIoU)[18] 。图8显示了通过误差比较模型,将从蓝色到红色的结果与地面真相的比较 。图8显示了重建的精度和视频帧之间的时间一致性 。采用具有时间一致性的方法进行重建,明显优于之前所有方法获得的三维形状:、MCNet、PIFU和 。除了提高重建的精度外,使用该方法估计的三维形状在时间上是一致的,在学习框架中利用时间冗余显著提高了估计的三维形状的准确性和完整性 。
真实数据评估:我们评估我们的方法与最先进的方法,即[52],PIFU[43],MCNet[7],[44],该数据集包括在一个受控的室内工作室的动态真实人类的多个摄像机捕获 。图9中最先进的方法使用真实的数据集来训练他们的模型:具体来说,Deep人类[52]是在数据集上训练的,PIFu[43]和[44]使用真实的人类捕获的渲染人数据集 。与这些方法相比,该网络是在合成的3DVH数据集上进行训练的 。
在图9中,[52]可以恢复人体的粗糙形状,而[52]由于缺少肢体,从粗到细的方法失败了 。虽然PIFu[43]和[44]可以恢复表面细节,但它们在错误的位置重建腿 。在纹理三维重建中,PIFu[43]在可见部位表现合理,但在人体不可见部位表现失败 。与其他方法不同的是,我们的方法能够恢复穿着衣服的3D人体,并预测可见和看不见部分的纹理 。