首页 1 2 3 4 5 6 7

AI作业11-RNN

一、前馈网络存在的问题

1.只能处理静态输入，无法考虑上下文信息；

2.对于高维输入，需要大量的训练数据来避免过拟合；

3.容易受到局部极小值的影响，导致训练过程不稳定；

4.无法处理序列数据，如文本和时间序列等。

二、序列数据

序列数据是常见的数据类型，前后数据通常具有关联性

三、循环神经网络（RNN）为什么能解决前馈网络中的问题

循环神经网络通过引入“记忆单元”（memory cell）来解决这些问题，每一次处理时序数据时，记忆单元都会接收前一次的处理结果和上一次的记忆状态作为输入，这样就能够记忆之前的信息，同时根据之前的信息来影响下一次的处理。另外，循环神经网络还可以有可变长度的输入和输出。这是因为记忆单元的状态是动态更新的，可以根据不同的输入长度进行扩展或者缩短。

四、卷积神经网络（CNN）与循环神经网络（RNN）的异同

异：

卷积神经网络通常用于计算机视觉中，可以用来识别和分类图像。CNN用于提取图像的空间特征，通过不断的卷积和池化操作实现特征提取和降维。

循环神经网络通常用于自然语言处理和语音识别中，可以用来处理时间序列数据。RNN的主要思想是把前面的信息传递到后面，这样网络就可以利用之前的信息做出预测，能够处理序列中每个时间步的数据。
同：

卷积神经网络和循环神经网络都是深度学习的重要框架。

五、沿时间反向传播算法（BPTT）

通过时间反向传播是一种用于训练循环神经网络的方法。它是反向传播算法的一种扩展，可以将误差从网络的输出层向后传播到网络的隐藏层和输入层，从而更新网络的权重。

BPTT方法可以追溯到1986年，由Rumelhart、Hinton和Williams提出。它是一种基于梯度下降的优化方法，通过反向传播计算每个时间步的误差，然后更新网络的权重。BPTT方法的优点是可以处理任意长度的序列数据，适用于语音识别、自然语言处理等任务。

六、序列到序列模型 seq2seq

seq2seq(sequence to sequence)模型是NLP中的一个经典模型，基于RNN网络模型构建，用途非常广泛：语言翻译，人机对话，问答系统等。

Seq2Seq，就如字面意思，输入一个序列，输出另一个序列，比如在机器翻译中，输入英文，输出中文。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。而Seq2Seq模型也经常在输出的长度不确定时采用。

七、梯度消失、梯度爆炸

1. 梯度消失(gradient vanishing problem)
我们知道神经网络在进行反向传播(BP)的时候会对参数W进行更新，梯度消失就是靠后面网络层(如layer3)能够正常的得到一个合理的偏导数，但是靠近输入层的网络层，计算的到的偏导数近乎零，W几乎无法得到更新。

2. 梯度爆炸(gradient exploding problem)
梯度爆炸的意思是，靠近输入层的网络层，计算的到的偏导数极其大，更新后W变成一个很大的数(爆炸)。