首页 1 2 3 4 5 6 7

手搓GPT系列之 - 通过理解LSTM的反向传播过程，理解LSTM解决梯度消失的原理 - 逐条解释LSTM创始论文全部推导公式，配超多图帮助理解（中篇）

近期因俗事缠身，《通过理解LSTM的反向传播过程，理解LSTM解决梯度消失的原理 - 逐条解释LSTM创始论文全部推导公式，配超多图帮助理解》的中下篇鸽了实在太久有些不好意思了。为了避免烂尾，还是抽时间补上（上篇在此）。本文承接上篇，继续就Sepp Hochreiter 1997年的开山大作 Long Short-term Memory 中APPENDIX A.1和A.2所载的数学推导过程进行详细解读。希望可以帮助大家理解了这个推导过程，进而能顺利理解为什么那几个门的设置可以解决RNN里的梯度消失和梯度爆炸的问题。一家之言，若有任何错漏欢迎大家评论区指正。好了，Dig in！

上篇文章最后讲到了LSTM中记忆单元的激活状态关于各权重值的求偏导公式（公式15）。这里我们将从公式16开始。

5. 后向传播过程

前面介绍了那么多截断求导，后向传播过程将应用这些经过截断处理的求导公式来计算每个权重的误差值。

5.1 总误差

总误差是指输出单元在第 $t t 时刻的输出值与目标值之间的方差。我们设 t t 时刻目标值为 t k ( t ) t^k(t) 。则有： E ( t ) = ∑ k : k o u t p u t u n i t ( t k ( t ) − y k ( t ) ) 2 , (16) E(t) = \sum_{k:\ k\ output\ unit} (t^k(t) - y^k(t))^2 \tag{16},$

5.2 输出单元误差计算

令 $，我们通过式18可以得到输出单元在时刻的误差：$

下图为输出单元的梯度传播示意图：

5.3 隐藏单元误差计算

令 $，我们可以得到隐藏单元在时刻的误差：$

下图显示了隐藏单元的梯度传播路线：

式20的第一个因子很好理解，就是隐藏单元的激活函数的求导。第二个因子会有点难以理解。
$\sum_{k:\ k\ output\ unit}w_{ki}e_k(t) = \frac{\partial E(t)}{\partial y^i}$

5.4 输出门误差计算

令 $l=out_j$

$f_{out_j}'(net_{out_j}(t))$
$h(s_{c_j}(t))$
$\sum_{k:\ k\ output\ unit}w_{kc_j}e_k(t)$

我们同样可以通过梯度传播图来理解这个公式：

对于任何单元或门 $l l ，在时间点 t t ，对权重 w l m w_{lm}$

我们可以把前文中得到的 $e_i(t),e_{out_j}(t), e_k(t)$

5.5 输入门的误差计算

由于输入门藏得比较深，因此需要先计算一个中间节点 $s_{c_j}$

这个式子有三个因子：

$f_{out_j}(net_{out_j}(t))$
$h'(s_{c_{j}}(t))$
$\sum_{k:\ k\ output\ unit}w_{kc_j}e_k(t)$

我们令 $l=in_j$

到此我们可得在时间 $t t ， w i n j m w_{in_j m}$

5.5 记忆单元的误差计算

令 $l=c_j$

因此记忆单元的权重 $w_{c_j m}$

5.6 权重更新算法的时间复杂度

令 $为输出向量的长度，为记忆单元块的个数（在我们简化的单记忆块的版本中，该值为1），为每个记忆块中记忆单元的个数，为隐藏单元的向量长度，为与记忆单元、门、和隐藏单元互相连接的向量度。这个指的就是向量的长度，如下图所示：所有权重数据的个数为：$

$为的权重个数。$
$C S I CSI ： w c j w_{c_j}$
$2 C I 2CI ： w i n j , w o u t j w_{in_j},w_{out_j}$
$：的权重个数。$

更新所有权重需要

在程序开发过程中，我们只需要实现等式(19)，(20)，(21)，(22)，(23)，(25)，(26)，(27)，(28)。因此我们只需要逐步计算每个等式的时间复杂度即可算出整个算法的时间复杂度。

式19： $e_k(t) = f'(net_k(t))(t^k(t) - y^k(t))$
式20： $e_i(t) = f_i'(net_i(t))\sum_{k:\ k\ output\ unit}w_{ki}e_k(t)$
式21： $e_{out_j}(t) = f_{out_j}'(net_{out_j}(t))(\sum_{v=1}^{s_j} h(s_{c_j^v})\sum_{k:\ k\ output\ unit}w_{kc_j^v}e_k(t))$
式22： $\Delta w_{lm}(t) = \alpha e_l(t)y^m(t-1)$
式23： $e_{s_{c_j}}(t) = f_{out_j}(net_{out_j}(t))h'(s_{c_{j}}(t)) (\sum_{k:\ k\ output\ unit}w_{kc_j}e_k(t))$
式25： $\frac{\partial s_{c_j}(t)}{\partial w_{in_j m}} = \frac{\partial s_{c_j}(t-1)}{\partial w_{in_j m}}+ g(net_{c_j}(t))f_{in_j}'(net_{in_j}(t))y^m(t-1)$
式26： $\Delta w_{in_j m}(t) = \alpha \sum_{v=1}^{s_j} e_{s_{c_j}}(t) \frac{\partial s_{c_j}(t)}{\partial w_{in_j m}}$
式27： $\frac{\partial s_{c_j}(t)}{\partial w_{c_j} m} = \frac{\partial s_{c_j}(t-1)}{\partial w_{c_j m}} + g'(net_{c_j}(t))(f_{in_j}(net_{in_j}(t)))y^m(t-1)$
式28： $\Delta w_{c_j m} (t)=\alpha e_{s_{c_j}}(t) \frac{\partial s_{c_j}(t)}{\partial w_{c_j} m}$

把所有步骤加起来就是：

因此可以得到LSTM每一时间步的计算时间复杂度为：
$HI)=O(W)\tag{29}$

由于文章太长，我把整个文章分为上中下三篇，在下篇我将给大家介绍在LSTM模型的后向传播过程中，误差信号的缩放情况。
上篇：上篇在此
中篇：中篇在此
下篇：下篇在此