当先锋百科网

首页 1 2 3 4 5 6 7

一、前馈网络存在的问题                                                                                               

1.只能处理静态输入,无法考虑上下文信息;

2.对于高维输入,需要大量的训练数据来避免过拟合;

3.容易受到局部极小值的影响,导致训练过程不稳定;

4.无法处理序列数据,如文本和时间序列等。

二、序列数据

序列数据是常见的数据类型,前后数据通常具有关联性

三、循环神经网络(RNN)为什么能解决前馈网络中的问题

       循环神经网络通过引入“记忆单元”(memory cell)来解决这些问题,每一次处理时序数据时,记忆单元都会接收前一次的处理结果和上一次的记忆状态作为输入,这样就能够记忆之前的信息,同时根据之前的信息来影响下一次的处理。另外,循环神经网络还可以有可变长度的输入和输出。这是因为记忆单元的状态是动态更新的,可以根据不同的输入长度进行扩展或者缩短。

四、卷积神经网络(CNN)与循环神经网络(RNN)的异同

异:

卷积神经网络通常用于计算机视觉中,可以用来识别和分类图像。CNN用于提取图像的空间特征,通过不断的卷积和池化操作实现特征提取和降维。

循环神经网络通常用于自然语言处理和语音识别中,可以用来处理时间序列数据。RNN的主要思想是把前面的信息传递到后面,这样网络就可以利用之前的信息做出预测,能够处理序列中每个时间步的数据。
同:

卷积神经网络和循环神经网络都是深度学习的重要框架。

五、沿时间反向传播算法(BPTT)

通过时间反向传播是一种用于训练循环神经网络的方法。它是反向传播算法的一种扩展,可以将误差从网络的输出层向后传播到网络的隐藏层和输入层,从而更新网络的权重。

BPTT方法可以追溯到1986年,由Rumelhart、Hinton和Williams提出。它是一种基于梯度下降的优化方法,通过反向传播计算每个时间步的误差,然后更新网络的权重。BPTT方法的优点是可以处理任意长度的序列数据,适用于语音识别、自然语言处理等任务。

六、序列到序列模型 seq2seq

seq2seq(sequence to sequence)模型是NLP中的一个经典模型,基于RNN网络模型构建,用途非常广泛:语言翻译,人机对话,问答系统等。

Seq2Seq,就如字面意思,输入一个序列,输出另一个序列,比如在机器翻译中,输入英文,输出中文。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。而Seq2Seq模型也经常在输出的长度不确定时采用。

七、梯度消失、梯度爆炸

1. 梯度消失(gradient vanishing problem)
     我们知道神经网络在进行反向传播(BP)的时候会对参数W进行更新,梯度消失就是靠后面网络层(如layer3)能够正常的得到一个合理的偏导数,但是靠近输入层的网络层,计算的到的偏导数近乎零,W几乎无法得到更新。

2. 梯度爆炸(gradient exploding problem)
    梯度爆炸的意思是,靠近输入层的网络层,计算的到的偏导数极其大,更新后W变成一个很大的数(爆炸)。