deeplearning.ai学习RNN

佚名 7年前 (2019-04-09) 随笔 892人围观抢沙发百度已收录

一、RNN基本结构

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

普通神经网络不能处理时间序列的信息，只能割裂的单个处理，同时普通神经网络如果用来处理文本信息的话，参数数目将是非常庞大，因为如果采用one-hot表示词的话，维度非常大。

RNN可以解决这两个问题：

1）RNN属于循环神经网络，当从左到右读取文本信息的时候，上一时刻的状态输出可以传递到下一时刻，例如上图的a表示状态，a(1)向下传递，这样就考虑了前面的信息，如果是双向RNN的话，上下文都考虑进去了。

2）RNN参数是共享的。为方便理解，上述图示是展开的RNN结构，其实RNN只有一个循环体，一组共享参数。

上述图是一个最基本的RNN结构，a<T>代表不同时刻的状态，a0是一个初始化的零时刻的状态，可以设置为零向量；x<T>代表不同时刻的输入，y<T>代表不同时刻的输出，计算公式如下：

其中g为激活函数。

二、反向传播

1）计算损失

以命名实体识别作为例子，如果是地名就为1，不是地名就为0。输入是一句文本信息X=[he come from NewYork]，输出一组Y=[0,0,0,1]，X与Y的长度一致。模型预测的输出就是该输入x是地名的概率值，比如0.2，所以其实就是一个二分类问题，损失函数可以采用标准的逻辑回归损失或者说交叉熵损失。

第一个是元素级别的损失，也就是单个时刻的损失，第二个是整体序列的损失。

2）反向传播更新参数

因为RNN是一个循环体，其展开形式就是上述图所示，因为后面的状态a与输出y都依赖于前面的计算得到的，所以在进行反向传播的时候，跟普通神经网络一样，需要一层层向后利用梯度下降法计算梯度，并更新参数。与普通神经网络更新参数不同的一点就是，RNN因为是共享参数，所以在进行反向传播的时候，每传播一层更新的都是同一组参数。

三、其它形式的RNN结构

之前讲的例子是属于many-to-many的形式，且输入X与输出Y的长度相等，这种形式适合解决序列标注问题。还有其它形式的RNN结构

1）many-to-one (情感分析问题)

情感分析问题的输入是一个连续序列，例如对电影的描述“There is nothing to like in this movie”，而输出y=1/0,表示正面与负面；或者y=1,2,3,4,5表示对电影的评分等级，这种结构设计如下形式：