神经网络与深度学习-4( 三 )


输入 :The cat sat on the mat
RNN模型
结果评价
训练精度 : 89.2%,验证精度 : 84.3%,测试精度 : 84.4%,比之前的结果好一些 。
RNN问题
随着输入的增加,会产生“遗忘”问题
LSTM模型
?短期记忆?络的设计灵感来?于计算机的逻辑? 。?短期记忆?络引?了记忆元( cell),或简称为单元(cell) 。有些?献认为记忆元是隐状态的?种特殊类型,它们与隐状态具有相同的形状,其设 计?的是?于记录附加的信息 。为了控制记忆元,我们需要许多? 。其中?个??来从单元中输出条?,我 们将其称为输出?( gate) 。另外?个??来决定何时将数据读?单元,我们将其称为输??(input gate) 。我们还需要?种机制来重置单元的内容,由遗忘?( gate)来管理,这种设计的动机与?控循 环单元相同,能够通过专?机制决定什么时候记忆或忽略隐状态中的输? 。
候选记忆元
它的计算与 上?描述的三个?的计算类似,但是使?tanh函数作为激活函数,函数的值范围为(?1, 1) 。下?导出在时间 步t处的?程:
记忆元
在?短期记忆?络中,也有两个??于 这样的?的:输??It控制采?多少来?C? t的新数据,?遗忘?Ft控制保留多少过去的记忆元Ct?1 ∈ R n×h的 内容 。使?按元素乘法,得出:
如果遗忘?始终为1且输??始终为0,则过去的记忆元Ct?1 将随时间被保存并传递到当前时间步 。引?这种 设计是为了缓解梯度消失问题,并更好地捕获序列中的?距离依赖关系 。