《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译( 二 ) _重建

2.基于形状和外观重建的宽时间框架一致性的时间一致性损失
3.一种学习三维形状的混合表示，它结合了显式体积表示和隐式形状细节的优点
4.第一个真实的合成视频数据集的400人与地面真实的3D模型
与现有的单图像人体重建[52,43,44,29,7]方法相比，所提出的方法学习了一个时间上一致的混合表示，从而显著提高了重建的准确性和完整性。
2. Work 2.1.单眼三维人体重建
从单个图像中解析三维人可以分为基于模型的和无模型的三维人重建。第一组方法使用参数化的人体模型，如SMPL[32,3]，以迭代的方式估计身体姿态和形状参数，使用二维关节位置[22]、二维关节和轮廓[5]或三维关节和网格坐标[41] 。为了提高模型的精度，在回归网络[26]中加入了一个迭代优化阶段。尽管基于参数模型的方法能够从野外的单一图像中可靠地估计人体，但估计的形状是没有头发、衣服或其他表面细节的裸体人体。最近的方法已经将其扩展到紧身衣[33] 。
无模型的非参数三维人体重建方法重建了穿衣服的人，概述如表1所示。无模型方法，如人体[46]，[38]，Deep人类[52]和MCNet[7]，从单一图像中直接推断人体形状的体积。然而，用体素表示三维人体形状限制了服装和头发细节的表面分辨率。引入隐式函数网络，对单幅图像进行高分辨率的三维重建。PIFU[43]通过提出一种隐式解码器来估计单个图像的三维人体重建，该解码器采用像素级图像和深度特征，并预测封装体积中三维点的占用值。在此基础上，[43]对之前的方法进行了改进，将从表面法线映射中提取的特征添加到隐式解码器中，以重建三维人体的形状细节。然而，这两种方法都不能处理人体姿势、衣服和头发的巨大变化。ARCH[17]提出了一种隐式函数网络的变化，利用拟合的参数模型，以改进任意人体姿态的三维重建。在以往的方法中，PIFU和ARCH不仅从单一图像重建人体的三维几何，而且预测重建的完整纹理外观。
以前的方法只考虑一个图像，没有任何时间信息或一致性。这导致了形状和外观的不一致。我们提出了一种新的方法来学习单眼视频的三维重建，使用图像-三维模型对以及视频帧和三维模型之间的时间一致性。
表1 。单视角三维重建方法的比较。
2.2.神经网络中的时间一致性
除了三维形状估计之外，以往的应用方法在风格转移[16]、视频到视频合成[47]或单眼深度估计[51,40]中通过时间一致性损失来加强时间一致性。训练或测试中的时间一致性损失鼓励沿输入视频估计的时间对应有相似的值。现有的时间相干三维重建方法[27,37,35]需要多视图输入视频。将视频中的每一帧独立应用于单图像的三维形状估计方法通常会产生闪烁的结果。为了解决这种基于模型的方法，我们已经利用了时间相干性[23,24] 。然而，我们的目标是从一个视频中预测时间一致的无模型3D服装人类重建，表1 。采用前馈网络对单眼视频进行单视图三维人体重建，同时保持视频帧之间的三维时间一致性。我们的前馈网络是通过强制输出的时间距离帧的三维重建既精确和时间一致来训练的。一个移动的人的单目视频提供了重要的额外信息。这个人的身体/衣服的形状和外观应该在时间上保持一致。
2.3.学习混合三维表示法
无模型的单图像三维人体重建方法使用各种三维表示——体素、点云、几何图像和隐式表示，如表1所示。使用体素表示增加了计算成本，限制了三维表面的分辨率，但它保持了三维重建的全局拓扑性和局部性。隐式表面函数表示在推理过程中失去了三维人体的全局拓扑结构，但以高水平的形状细节重建了表面。最近的研究结合了多种三维表示，以利用它们在三维深度学习[31,15]中的相对优势。[31]以点表示三维输入数据，以减少内存消耗，同时以体素进行卷积，以减少不规则、稀疏的数据访问，提高局部性。另一方面，[15]结合潜在体素特征和内隐式函数学习进行三维几何预测。然而，[9]表明，使用潜在特征限制了学习复杂几何图形的能力，如铰接形状，而潜在特征方法不能保留三维表面细节。因此，[9]提出了一种改进的三维形状编码方法，通过与学习到的卷积相结合，对三维数据进行丰富的编码。在本文中，我们设计了一种混合隐式-体积解码器，利用时间相干三维体素重建和图像特征，在隐式函数学习框架下预测被衣人的三维几何和纹理。