说起RNN和LSTM，就绕不过Sepp Hochreiter 1997年的开山大作 Long Short-term Memory。奈何这篇文章写的实在是太劝退，整篇论文就2张图，网上很多介绍LSTM的文章都对这个模型反向传播的部分避重就轻，更少见（反正我没找到）有人解析APPENDIX A.1和A.2所写的详细推导过程。笔者向来做事讲究个从心，这次不知道哪根弦打错竟然头铁硬刚这个推导过程。本文逐条参照原论文中的公式，记录整个推导过程的思路和笔者的理解，学习神经网络的同学如果不满足于仅知道LSTM里各个门的功能，本文可以帮助大家理解了这个推导过程，进而能顺利理解为什么那几个门的设置可以解决RNN里的梯度消失和梯度爆炸的问题。好了，Dig in！

2. LSTM模型

2.1 原文中的示意图

先给大家看最原汁原味的模型（LSTM论文中的图）：

记忆细胞模型图示：
网络拓扑图示：

2.2 便于理解的示意图

上边这两个图，第一张图还好，第二张图笔者一开始是看得一头雾水，第一张图有些关键信息也没有表现出来，不看也罢，所以笔者特地画了一张全景体现论文中所涉及到的所有节点的网络示意图。

总图

上图展示了一个包含一个记忆单元（在一些文章中称为记忆细胞） $c_j$

3. 前向过程

APPENDIX A.1的公式从（3）开始，所以我们也从（3）开始，以便于跟原文对应：

3.1 激活函数

总图中涉及到3中激活函数，分别为 $，其中是输入输出门，以及隐藏节点的激活函数，是一个sigmoid函数：$

3.2 隐藏节点激活状态的计算

隐藏单元 $i i 的激活函数计算公式： n e t i ( t ) = ∑ u w i u y u ( t − 1 ) y i ( t ) = f i ( n e t i ( t ) ) . (6) \begin{aligned} net_i(t) &= \sum_u w_{iu}y_u(t-1) \\ y^i(t) &= f_i(net_i(t)). \end{aligned} \tag{6}$

3.3 输入门激活状态的计算

$\begin{aligned} net_{in_j}(t) &= \sum_u w_{{in_j}u}y_u(t-1) \\ y^{in_j}(t) &= f_{in_j}(net_{in_j}(t)). \end{aligned} \tag{7}$

3.4 输出门激活状态的计算

$\begin{aligned} net_{out_j}(t) &= \sum_u w_{{out_j}u}y_u(t-1) \\ y^{out_j}(t) &= f_{out_j}(net_{out_j}(t)). \end{aligned} \tag{8}$

3.5 记忆单元的激活状态的计算

$\begin{aligned} net_{c_j}(t) &= \sum_u w_{{c_j}u}y_u(t-1) \\ s_{c_j}(t) &= s_{c_j}(t-1) + y^{in_j} (t) g(net_{c_j}(t)) \\ y^{c_j}(t) &=y^{out_j}(t) h(s_{c_j}(t)). \end{aligned} \tag{9}$

其中输入 $y^u$

3.6 输出单元激活状态的计算

$\begin{aligned} net_{k}(t) &= \sum_{u:\ u\ not\ a\ gate} w_{{k}u}y_u(t-1) \\ y^{k}(t) &= f_{k}(net_{k}(t)). \end{aligned} \tag{8}$

其中输入 $y^u$

4. 截断反向传播近似求导（Approximate derivatives for truncated backprop）

在本文中通过这个技术来简化反向传播过程。直觉上来说，就是将流入门或者记忆单元的误差信息截断在门或者记忆单元之内，确保门或者记忆单元的误差信息不会继续往外流动。由此确保了恒定误差转盘（CEC, Constant Error Carrousel）的实现。LSTM一文中，通过 $\approx_{tr}$

4.1 截断求导的应用范围

应用截断后向传播之后，以下的求导公式的值会被设置为0：
$\begin{aligned} \frac{\partial net _{in_j}(t)}{\partial y^u(t-1)} \approx_{tr} 0\ \forall{u},\\\\ \frac{\partial net _{out_j}(t)}{\partial y^u(t-1)} \approx_{tr} 0\ \forall{u},\\\\ \frac{\partial net _{c_j}(t)}{\partial y^u(t-1)} \approx_{tr} 0\ \forall{u}.\\ \end{aligned}$

从记忆单元激活状态 $y^{c_j}$

红色箭头和数字，表示 $t t 时间步下，从 y c j y^{c_j}$

4.2 输出单元的截断求导

关于输出节点在t时刻的截断求导公式是：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} = & f'_k(net_k(t-1))( \sum_{u:\ u\ not\ a\ gate} w_{ku} \frac{\partial y^u(t-1)}{\partial w_{lm}} + \delta_{kl}y^m(t-1))\\ \approx_{tr} & f'_k(net_k(t)) \begin{cases} y^m(t-1) & l=k \\ w_{kc_{j}}\frac{\partial y^{c_j}(t-1)}{\partial w_{lm}} & l=c_j\\ w_{kc_{j}}\frac{\partial y^{c_j}(t-1)}{\partial w_{lm}} & l=in_j\ or\ l=out_j\\ \sum_{i:\ i\ hidden\ unit} w_{ki} \frac{\partial y^i(t-1)}{\partial w_{lm}} & otherwise \end{cases} \end{aligned} \tag{10}$

当 $l=c_j$

当 $l=in_j$

由于我们的例子中简化了记忆单元的结构，LSTM原文中，实际上是有多个记忆单元，并且多个记忆单元可以组成一个记忆单元块。每个记忆单元块可以直接连接其前面所有的记忆单元的输出，因此原文中，当 $l=in_j$

当 $l=out_j$

当 $，我们可以得到：$

4.3 隐藏单元的截断求导

隐藏单元的求导公式如下：
$\frac{\partial y^i}{\partial w_{lm}} = f'_i(net_i(t))\frac{net_i(t)}{\partial w_{lm}}\approx_{tr}\delta_{li}f'_i(net_i(t))y^m(t-1). \tag{11}$

4.4 输入输出门及记忆单元的激活状态的截断求导

先看输入门的截断求导公式：
$\begin{aligned} \frac{\partial y^{in_j}(t)}{\partial w_{lm}} =& f'_{in_j}(net_{in_j}(t))\frac{\partial net_{in_j}(t)}{\partial w_{lm}} \\ \approx_{tr} & \delta_{in_jl}f'_{in_j}(net_{in_j}(t))y^m(t-1) \end{aligned} \tag{12}$

接下来是 $s_{c_j}$

最后就是记忆单元的激活状态求导：
$\begin{aligned} \frac{\partial y^{c_j}(t)}{\partial w_{lm}} =& \frac{\partial y^{out_j}(t)}{\partial w_{lm}} h(s_{c_j}(t)) + \frac{\partial h(s_{c_j}(t))}{\partial w_{lm}} y^{out_j}(t)\\ =& \frac{\partial y^{out_j}(t)}{\partial w_{lm}} h(s_{c_j}(t)) + h'(s_{c_j}(t))\frac{\partial s_{c_j}(y)}{\partial w_{lm}}y^{out_j}(t)\\ =& f'_{out_j}(net_{out_j}(t))y^m(t-1) h(s_{c_j}(t)) + h'(s_{c_j}(t))\frac{\partial s_{c_j}(y)}{\partial w_{lm}}y^{out_j}(t)\\ \approx_{tr}& \delta_{out_jl}f'_{out_j}(net_{out_j}(t))y^m(t-1) h(s_{c_j}(t)) + (\delta_{{c_j}l} + \delta_{{in_j}l})h'(s_{c_j}(t))\frac{\partial s_{c_j}(y)}{\partial w_{lm}}y^{out_j}(t)\\ \end{aligned} \tag{15}$

根据公式（14），（15）可知，若要计算记忆单元 $j j 在 t t 时间步下的激活状态 y c j ( t ) y^{c_j}(t)$

参数	条件	获取方法
$\frac{\partial s_{c_j}(t-1)}{\partial w_{lm}}$	$l=in_{j}\ or\ l=c_j$	正向传播过程中计算并保存
$g(net_{c_j}(t))$	$l=in_{j}$	实时计算
$f'_{in_j}(net_{in_j}(t))$	$l=in_{j}$	实时计算
$y^m(t-1)$	$l=in_{j}\ or\ l=c_j\ or\ l=out_j$	正向传播过程中计算并保存
$y^{in_j}(t)$	$l=c_j$	实时计算
$g'(net_{c_j}(t))$	$l=c_j$	实时计算
$f'_{out_j}(net_{out_j}(t))$	$l=out_j$	实时计算
$h(s_{c_j}(t))$	$l=out_j$	实时计算
$h'(s_{c_j}(t))$	$l=in_{j}\ or\ l=c_j$	实时计算
$y^{out_j}(t)$	$l=in_{j}\ or\ l=c_j$	实时计算

需要在正向传播过程中保存偏导数的情况为：当 $l=in_{j}\ or\ l=c_j$

由于文章太长，我们将把整个文章分为上中下三篇，上篇介绍正向传播过程的公式以及各个计算单元的截断求导公式的详细解读。在中下篇我将给大家介绍后向传播过程的详细解读。
上篇：上篇在此
中篇：中篇在此
下篇：下篇在此

当先锋百科网

手搓GPT系列之 - 通过理解LSTM的反向传播过程，理解LSTM解决梯度消失的原理 - 逐条解释LSTM创始论文全部推导公式，配超多图帮助理解（上篇）

1. 前言