一 关于Transformer的通俗理解( 二 )


一  关于Transformer的通俗理解

文章插图
总得来说作者把词语都先透视一遍,得到了隐藏着更深信息的q 、k 、v,所以关系看得准不准,关键看隐藏在背后的东西 。
好,下面就用单词的这些背后的东西来看看单词之间的关系 。。怎么验证他们的关系?“滴血验亲!!”哈哈,开玩笑,不是我的错,后面实在是太像了 。拿你们的血出来接触接触就知道了(古装电视剧神法) 。。。相似相溶原理(高中化学都扯出来了) 。。。
对X1单词来说有q1、k1、v1,对X2单词来说有q2、k2、v2 。。。。。以此类推
先上图,更好理解 。我最喜欢图了,对于人类来说,图就是效率!
为了简化说明,这里只举两个单词的句例 。
图2 词的权重系数求法
图2假设了一句话就只有这两个单词,照前面的思想,那我们可以写成:X1 = 0.88*X1 + 0.12*X2 这种表达式子 。这里的 0.88和0.12怎么来的呢?假如q1*k1 = 112; q1*k2 = 96 ,dk是词向量的长度,例如64,那么如下可以如下求得0.88和0.12:
有的人说:这个好像有点熟但又陌生 。。。。那快快复习一下吧,动动手自己计算一下记忆更加深刻 。
简要说就一句话,用我的q(q1)和我自的k(k1)可以求出我自己和自己的关系,用我的q(q1)和你的k(k2)可以求出我和你的关系 。为啥要除以一个
?为的是排除词向量的长度对关系的影响 。总不能两个长得越高的人,亲密度就越好吧!那还了得 。。
X2要表示成X1和X2的线性叠加关系,遵照同样方法计算 。
像这样的每个词表达成所有词的线性叠加关系以及权重系数的求法,就是self-了---自注意力机制!
未完 。。。。。。待续 。。。。。。。。。。。还没讲完整个哦 。。