《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译( 三 )


图2 。所提出的框架,以实现时间一致的三维人体重建学习从视频
3.时间上一致的三维重建
本节解释了新提出的方法,以时间一致的纹理三维人体重建从单眼视频 。该方法的概述如图2所示 。从一个具有任意姿态、服装和视点的动态人体的单目视频中得到N帧作为管道的输入,该网络以时间一致的方式预测纹理化的三维人体重建 。
图3 。该图显示了混合隐式三维重建网络(H3DN)和混合隐式三维纹理网络() 。
3.1.学习三维表面重建
我们提出了一种从单眼视频中学习三维表面重建的方法(图2) 。与以往的单视图三维重建方法相比,表1,从单个图像中学习三维人体表面重建,我们提出了一个级联网络架构来从单眼视频中学习 。该体系结构由时间体素回归网络(TVRN)和混合隐式三维重建网络(H3DN)组成 。TVRN从单眼视频中重建时间一致的体素占用网格,然后H3DN细化表面重建 。所提出的体素回归网络学习以时间一致的方式重建人体形状:给网络N个视频帧,每一帧通过自己的体素回归网络,参数在N个网络之间共享 。通过TVRN网络的体素估计减少了随着时间的推移重建的不一致性 。然而,由于体素的量化,TVRN缺乏高分辨率的表面细节 。因此,将预测的体素重构传递给混合隐式表面函数解码器,以获得高质量的表面重构 。
3.1.1.学习架构
如图2所示的学习架构由两个子网络组成,即时间体素回归网络(TRVN)和混合隐式三维重建网络(H3DN) 。在以前的工作中,体素回归已被用于从单一图像[52,7,20]中处理各种姿态的完整三维重建 。受这些方法的启发,我们使用体素回归网络体系结构,从单个图像重建三维人体的完整拓扑结构 。为了获得时间一致的重建,我们引入了一个新的学习框架,利用通过提出的TVRN架构从视频帧重建之间的时间一致性(图2) 。TVRN网络由多个参数的并行堆叠沙漏网络组成 。这种架构允许在来自输入视频帧的3D重建之间引入一个时间损失函数 。如图2所示,使用N帧训练TVRN网络,包括时刻t的当前帧
和N?1不同时间的其他帧 。TVRN网络学习时间一致的三维形状,并预测所有帧的体素占用网格,使用提出的损失函数,该函数在不同时间帧的预测体素占用网格之间计算(3.1.2节) 。
然而,由于体素的量化,TVRN的时间一致输出限制了表面细节 。为了表示高分辨率的形状细节,我们提出了混合隐式三维重建网络(H3DN)来细化时间上一致的体素占用网格 。在文献中已经提出了从单个图像[43,44,17]中学习和预测隐式表面表示的方法 。这些隐式重建方法在三维表面上提供了一个高水平的细节 。然而,由于训练过程中的采样方案,以往所有的方法都失去了人体的完整拓扑结构 。在本文中,我们通过使用体素占用网格作为隐式表示的输入,而不是单个输入图像来解决以往方法的这一局限性 。这使得我们可以通过隐式功能学习和输入体素占用网格分别重建高水平的表面细节,并保持覆盖人体的完整形状拓扑 。利用所提出的新型混合隐式函数网络得到了隐式曲面,该网络以多个特征编码作为输入,并预测了一个三维点的占用率 。在网络中,来自三个不同输入(图像、体素和深度)的特征编码器和一个多层感知器(MLP)作为解码器来预测占用值 。
如图3所示,将每个采样的三维点(X)投影到输入图像(x)上,并通过连接沙漏网络[43]的中间层输出来提取像素级图像特征 。我们将像素级的图像特征表示为
。到解码器的第二个输入是从TVRN网络的输出中提取的点级特征,即体素占用网格 。对于采样的三维点,我们在对齐的体素占用网格中使用三线性插值,在采样点附近内应用多尺度形状编码[9] 。对三维采样点(X)的形状编码记为S(X) 。该解码器的最后一个输入是采样的3D点(X)相对于摄像机的深度值,记为D(X) 。整体混合隐式曲面函数形式化为