五点云深度学习系列博客: 注意力机制原理概述( 三 ) _编码

似乎随着每个词元维度的升高，其间隔对应的频率会随之降低。为了搞清楚这种频率变化与绝对位置的关系，这里使用一个例子来解释。这里打印出0-7的二进制表示（右图为频率热图）：
这里较高比特位的交替频率低于较低位。通过使用位置编码，实现词源不同维度基于频率变换的编码，进而实现对位置信息的添加。相对位置编码此处不再详述。
4. 模型
终于到了激动人心的时候了！我们在理解了上述知识之后，就打好了学习的基础。相比之前依然依赖循环神经网络实现输入表示的自注意力模型，模型完全基于自注意力机制，没有任何卷积层或循环神经网络层。
模型是一个编解码架构，整体架构图如下所示：
是由编码器和解码器组成的，基于自注意力模块构建，源（输入）序列和目标（输出）序列嵌入表示将加上位置编码，再分别输入到编码器和解码器中。编码器是由多个相同的层叠叠加而成的，每个层都有两个?层。第一个子层是多头自注意力汇聚，第二个子层是基于位置的前馈网络。编码器层计算的查询，键，值均来自于上一层的输出。每个子层都使用了残差连接。解码器同编码器类似，也是由多个相同的层叠加?成，且使用了残差连接和层规范化。除了编码器中描述的两个子层外，解码器还添加了一个中间子层，称为编码器-解码器注意力层。该层中查询来自前一个解码器层的输出， ?键和值来?整个编码器的输出。在解码器自注意力中，查询，键和值都来自上一个解码器层的输出。解码器中的每个位置只能考虑之前的所有位置。这种遮蔽注意力保留了自回归属性，确保预测仅依赖于已生成的输出词元。不同的具体实现不再详述。
注：以上关于注意力机制的名词解释，原理介绍以及公式，主要参考李沐老师的教材 [2] 。
基于上述注意力机制原理，针对点云处理任务的注意力机制深度学习模型被提出。我们将在下篇博客详细介绍相关工作，欢迎持续关注我的博客。
[1] MH. Guo, TX, Xu, JJ. Liu, et al.in: A [J].Media, 2022, 8(3): 331-368.
[2] A. Zhang, ZC. , M.Li, and AJ. Smola. 动手学深度学习（Dive into Deep ） [B].
[3] EA. . On[J].of& Its , 1964, 9(1): 141-142.
[4] GS. .. ā: Theof , A, pp. 359?372.
[5] A. , N. , N. , et al.is all you need.ing , 2017,5998?6008.

五 点云深度学习系列博客: 注意力机制原理概述( 三 )

五点云深度学习系列博客: 注意力机制原理概述( 三 )