【论文简述】Generalized Binary Search Network( 二 ) _梯度下降

2. 深度假设的预测标签表示真实深度值是否在相应的箱子中。在第k个搜索阶段，在网络输出概率体P后，沿P的D维应用（·）操作，返回标签j，表明真实深度值在箱子Bk,j中。通过将Bk,j划分为两个等宽的箱子Bk+1,1和Bk+1,2，可以进一步生成第（k+1）搜索阶段的新2个箱子，该阶段对应的三条边可以定义为(上一阶段搜索到箱子的两边及中点为新的三个边)
3. 然后，从第（k+1）阶段的箱子Bk+1,1和Bk+1,2的中心点取样新的深度假设。在所提出的二进制搜索中，初始深度区间宽度为R/2，在第k阶段，深度区间宽度为R/(2**k) 。
二分查找策略，将当前深度范围划分为多个箱子，而不是直接在给定深度范围R进行采样，3D代价体的深度维数可以减少到2，内存占用显著减少。整个MVS网络的内存开销由2D图像编码器主导，而不再由3D代价体控制。在实验中，MVS的二分查找策略取得了令人满意的结果。然而，网络分类错误的问题会导致优化不稳定和精度下降。
5. MVS的泛化的二分查找
为解决MVS二分查找中的错误积累和训练问题，将其扩展为MVS的泛化二分查找。具体而言，进一步设计了三种有效的机制，即容错箱、梯度掩码优化和高效梯度更新机制，对二进制搜索方法进行了实质性改进。
为了使网络具有一定的容忍预测误差的能力，在Bk+1,1的左侧和Bk+1,2的右侧分别添加一个小箱子,此过程称为容错箱(ETB)（下图虚线部分，相当于多了两个深度假设，算法类似，找中心点）。
容错箱。为了使网络具有一定的容忍预测误差的能力，在Bk+1,1的左侧和Bk+1,2的右侧分别添加一个小箱子,此过程称为容错箱(ETB) 。下图虚线部分，相当于多了两个深度假设，算法类似，找中心点。容错箱将深度假设的采样扩展到二分搜索中两个原始箱的范围之外，从而使网络能够纠正预测，并在一定程度上减少误差积累。由于深度假设的数量现在是D，所以也改变了第一阶段的深度假设的初始化。当初始深度范围R被分成D个箱子时，初始箱子宽度为R/D，第k阶段料仓宽度为R/(D × 2k?1) 。
在实现中，只在两边垫了1个ETB，因此深度假设数为4，即D = 4 。在实验中，观察到深度预测精度显著提高，同时值得注意的是，内存消耗可以与原始二值搜索相同，因为内存仍然由2D图像编码器主导。使用容错箱，当真实深度在第3个搜索阶段的B3,4时，网络可以预测到正确的标签为4，而原始二分搜索失败。

文章插图
梯度掩码优化。有监督训练中，在第k个搜索阶段获得箱子后，将真实深度图GT转换为具有一个One-hot编码的体G，计算哪个箱子被深度值GT占据。迭代搜索中的一个问题是，某些像素的深度值GT可能超出了预测箱子。在这种情况下，不存在有效标签，无法计算损失。这是网络优化中的一个关键问题。从粗到细方法通常利用连续回归损失，而具有离散分类损失的R-MVS广泛使用密集空间离散化。
在中，根据预测箱和深度图GT计算每个阶段的掩码图。如果某个像素的深度GT在当前箱子中，则认为该像素有效。设像素的GT深度为dgt，当前bin边为em 。那么像素只有在以下情况下才有效：
仅使用有效像素的损失来梯度更新网络中的参数，所有无效像素的梯度不会累积。通过此过程，可以成功地训练Bi-Net和GBi-Net 。梯度掩膜优化类似于流行的自步学习（self-paced ），在自步学习中，一开始，网络训练只涉及简单样本（即简单像素），随着优化的进行，网络可以预测更精确的困难像素标签，大多数像素最终将参与学习过程。