2 文献阅读记录— PointNet++论文学习( 四 )


分支 1 和分支 2 连接起来并馈送到分支 4 。然后,分支 3 和分支 4 的输出连接起来并馈送到 FC(512, 0.5) → FC(256, 0.5) → FC(K) 进行分类 。
用于语义场景标记的网络(FP 中的最后两个全连接层后面是层,丢弃率 0.5):
SA(1024, 0.1, [32, 32, 64]) → SA(256, 0.2, [64, 64, 128]) →
SA(64, 0.4, [128, 128, 256]) → SA(16, 0.8, [256, 256, 512]) →
FP (256, 256) → FP (256, 256) → FP (256, 128) → FP (128, 128, 128, 128, K)
用于语义和部分分割的网络(FP 中的最后两个全连接层后面是层,drop rate 为 0.5):
SA(512, 0.2, [64, 64, 128]) → SA(128, 0.4, [128, 128, 256]) →
SA([256, 512, 1024]) →F P (256, 256) → F P (256, 128) →
FP (128, 128, 128, 128, K)
B.2Scan (虚拟扫描生成)
对于的每个场景,我们将摄像机位置设置在地板平面的中心位置1.5米,并在水平平面上均匀旋转摄像机方向8个方向 。在每个方向,我们使用一个尺寸100px by 75px的图像平面,并通过每个像素投射从相机的射线到场景 。(px:像素)
B.3 MNIST and(MNIST 和实验细节)
对于MNIST图像,我们首先将所有像素强度归一化为范围[0,1],然后选择强度大于0.5的所有像素作为有效数字像素 。然后,我们将图像中的数字像素转换为2D点云,其坐标在[?1,1]内,其中图像中心是原点 。创建增强点是为了将设置为固定基数的点添加到固定基数(在我们的情况下为512) 。我们抖动初始点云(用随机平移高斯分布N(0,0.01)并剪切到0.03)来生成增强点 。对于,我们根据人脸区域从CAD模型表面均匀采样N点 。
对于所有实验,使用学习率为0.001的ADAM[9]优化器进行训练 。对于数据增强,我们随机缩放对象,扰动对象位置以及点样本位置 。我们还遵循[21]随机旋转对象以进行数据增强 。
B.4( 实验细节)
为了从场景生成训练数据,我们从初始场景中采样 1.5m x 1.5m x 3m 的立方体,然后保留 ≥ 2% 的体素被占用且 ≥ 70% 的表面体素具有有效注释的立方体(这是 [5] 中的相同设置) 。我们在运行中对此类训练立方体进行采样,并沿垂直轴随机旋转它 。将增强点添加到点集以形成固定的基数 。在测试期间,我们同样将测试场景分割成更小的立方体,并首先获得立方体中每个点的标签预测,然后合并来自同一场景的所有立方体中的标签预测 。如果一个点从不同的立方体得到不同的标签,我们将只进行多数投票(a )来获得最终的点标签预测 。
B.5( 实验细节)
我们在每个形状上随机抽取1024个点用于训练和测试 。为了生成输入的内在特征,我们分别提取100维WKS、HKS和多尺度高斯曲率,从而为每个点生成300维特征向量 。然后我们进行PCA以将特征维度减少到64 。我们使用[23]之后的8维嵌入来模拟测地距离,用于在选择点邻域时描述我们的非欧几里德度量空间 。
C MoreC.1Part (语义部分分割)
假设每个形状的类别标签是已知的 。以点云表示的形状作为输入,任务是预测每个点的零件标签 。
分层特征学习对于详细语义理解的重要性 。
C.2Query: kNN v.s. Ball Query.(邻域查询:kNN vs. 球查询 。)
【2文献阅读记录— PointNet++论文学习】论文中使用了基于半径的球查询 。