五 点云深度学习系列博客: 注意力机制原理概述( 三 )


似乎随着每个词元维度的升高 , 其间隔对应的频率会随之降低 。为了搞清楚这种频率变化与绝对位置的关系 , 这里使用一个例子来解释 。这里打印出0-7的二进制表示(右图为频率热图):
这里较高比特位的交替频率低于较低位 。通过使用位置编码 , 实现词源不同维度基于频率变换的编码 , 进而实现对位置信息的添加 。相对位置编码此处不再详述 。
4. 模型
终于到了激动人心的时候了!我们在理解了上述知识之后 , 就打好了学习的基础 。相比之前依然依赖循环神经网络实现输入表示的自注意力模型 , 模型完全基于自注意力机制 , 没有任何卷积层或循环神经网络层 。
模型是一个编解码架构 , 整体架构图如下所示:
是由编码器和解码器组成的 , 基于自注意力模块构建 , 源(输入)序列和目标(输出)序列嵌入表示将加上位置编码 , 再分别输入到编码器和解码器中 。编码器是由多个相同的层叠叠加而成的 , 每个层都有两个?层 。第一个子层是多头自注意力汇聚 , 第二个子层是基于位置的前馈网络 。编码器层计算的查询 , 键 , 值均来自于上一层的输出 。每个子层都使用了残差连接 。解码器同编码器类似 , 也是由多个相同的层叠加?成 , 且使用了残差连接和层规范化 。除了编码器中描述的两个子层外 , 解码器还添加了一个中间子层 , 称为编码器-解码器注意力层 。该层中查询来自前一个解码器层的输出 , ?键和值来?整个编码器的输出 。在解码器自注意力中 , 查询 , 键和值都来自上一个解码器层的输出 。解码器中的每个位置只能考虑之前的所有位置 。这种遮蔽注意力保留了自回归属性 , 确保预测仅依赖于已生成的输出词元 。不同的具体实现不再详述 。
注:以上关于注意力机制的名词解释 , 原理介绍以及公式 , 主要参考李沐老师的教材 [2] 。
基于上述注意力机制原理 , 针对点云处理任务的注意力机制深度学习模型被提出 。我们将在下篇博客详细介绍相关工作 , 欢迎持续关注我的博客 。
[1] MH. Guo, TX, Xu, JJ. Liu, et al.in: A [J].Media, 2022, 8(3): 331-368.
[2] A. Zhang, ZC. , M.Li, and AJ. Smola. 动手学深度学习(Dive into Deep ) [B].
[3] EA. . On[J].of& Its , 1964, 9(1): 141-142.
[4] GS. .. ā: Theof , A, pp. 359?372.
[5] A. , N. , N. , et al.is all you need.ing , 2017,5998?6008.