反向传播(BP)算法理解以及Python实现
全文参考《机器学习》-周志华中的5.3节-误差逆传播算法;整体思路一致,叙述方式有所不同;
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。使用如上图所示的三层网络来讲述反向传播算法;
首先需要明确一些概念,
假设数据集\(X=\{x^1, x^2, \cdots, x^n\}, Y=\{y^i, y^2, \cdots, y^n\}\),反向传播算法使用数据集中的每一个样本执行前向传播,之后根据网络的输出与真实标签计算误差,利用误差进行反向传播,更新权重;
使用一个样本\((x, y)\),其中\(x=(x_1, x_2, \cdots, x_d)\)
输入层:
有\(d\)个输入结点,对应着样本\(x\)的\(d\)维特征,\(x_i\)表示输入层的第\(i\)个结点;
隐藏层:
有\(q\)个结点,\(b_h\)表示隐藏层的第\(h\)个结点;
输出层:
有\(l\)个输出结点,\(y_j\)表示输出层的第\(j\)个结点;
权重矩阵:
两个权重矩阵\(V, W\),分别是位于输入层和隐藏层之间的\(V\in R^{d\times q}\),其中\(v_{ih}\)表示连接结点\(x_i\)与结点\(b_h\)之间的权重;以及位于隐藏层与输出层之间的\(W\in R^{q\times l}\),其中\(w_{hj}\)表示连接结点\(b_h\)与结点\(y_j\)的权重;
激活函数:
激活函数使用sigmoid函数;
\[ f(x) = \dfrac{1}{1+e^{-x}} \]
其导数为:
\[ f'(x) = f(x)(1-f(x)) \]
其他:
在隐藏层,结点\(b_h\)在执行激活函数前为\(\alpha_h\),即隐藏层的输入;所以有:
\[ \alpha_h = \sum_{i=1}^{d}v_{ih}x_i \]
之后经过sigmoid函数:
\[ b_h = sigmoid(\alpha_h) \]
在输出层,结点\(y_j\)在执行激活函数前为\(\beta_j\),即输出层的输入;所以有:
\[ \beta_j = \sum_{h=1}^{q}w_{hj}b_h \]
之后经过sigmoid函数:
\[ \hat{y}_j = sigmoid(\beta_j) \]
前向传播
所以,根据上面一系列的定义,前向传播的过程为:由输入层的结点\((x_1, x_2, \cdots, x_i, \cdots, x_d)\),利用权重矩阵\(V\)计算得到\((\alpha_1, \alpha_2, \cdots, \alpha_h, \cdots, \alpha_q)\),经过激活函数sigmoid得到\((b_1, b_2, \cdots, b_h, \cdots, b_q)\),这就得到了隐藏层的输出;之后,利用权重矩阵\(W\)计算得到\((\beta_1, \beta_2, \cdots, \beta_j, \cdots, \beta_l)\),经过激活函数sigmoid得到\((\hat{y}_1,\hat{y}_1, \cdots, \hat{y}_j , \cdots, \hat{y}_l )\),也就是最后的输出;
步骤:
Step 1: 输入层\(x \in R^{1\times d}\),计算隐藏层输出\(b = sigmoid(x\times V), \quad b\in R^{1\times q}\);
Step 2: 输出层输出\(\hat{y} = sigmoid(b \times W), \quad \hat{y}\in R^{1\times l}\);
注意,在前向传播的过程中,记录每一层的输出,为反向传播做准备,因此,需要保存的是\(x, b, \hat{y}\);
前向传播还是比较简单的,下面来看反向传播吧;
反向传播
想一下为什么要有反向传播过程呢?其实目的就是为了更新我们网络中的参数,也就是上面我们所说的两个权重矩阵\(V, W\),那么如何来更新呢?
《机器学习》周志华
BP是一个迭代算法,在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计,任意参数v的更新估计式为:
\[ v \leftarrow v + \Delta v \]
BP算法基于梯度下降策略,以目标的负梯度方向对参数进行调整;
我们如何来更新参数呢?也就是如何更新\(V, W\)这两个权重矩阵;以\(W\)中的某个参数\(w_{hj}\)举例,更新它的方式如下:
\[ w_{hj} \leftarrow w_{hj} + \Delta w_{hj} \]
那么,如何计算\(\Delta w_{hj}\)的呢?计算如下:
\[ \Delta w_{hj} = -\eta \dfrac{\partial{E_k}}{\partial{w_{hj}}} \]
其中,\(E_k\)表示误差,也就是网络的输出\(\hat{y}\)与真实标签\(y\)的均方误差;\(\eta\)表示学习率;负号则表示沿着负梯度方向更新;
\[ E_k = \dfrac{1}{2}\sum_{j=1}^{l}(\hat{y}_j - y_j)^2 \]
也就是说,我们想要对哪一个参数进行更新,则需要计算当前网络输出与真实标签的均方误差对该参数的偏导数,即\(\dfrac{\partial{E_k}}{\partial{w_{hj}}}\),之后再利用学习率进行更新;
在这个三层的网络结构中,有两个权重矩阵\(V, W\),我们该如何更新其中的每一个参数呢?
就以权重矩阵\(W\)中的参数\(w_{hj}\)来进行下面的解释,
那么根据上面所叙述的,更新\(w_{hj}\)得方式为:
\[ w_{hj} \leftarrow w_{hj} + \Delta w_{hj} \]
\[ \Delta w_{hj} = -\eta \dfrac{\partial{E_k}}{\partial{w_{hj}}} \]
那么如何来计算\(\dfrac{\partial{E_k}}{\partial{w_{hj}}}\)呢?
这里就需要用到链式法则了,如果不熟悉的,建议查找再学习一下;
\[ f(x) = g(x)+x \]
\[ g(x) = h(x) + x^2 \]
\[ h(x) = x^3 + 1 \]
想一下是怎么求\(\dfrac{df(x)}{dx}\)的;
如果对上文中讲述的网络结构,能够将其完整的呈现的在脑海中的话,对于下面的推导应该不会很困难。
再回顾一遍前向传播:
所以,根据上面一系列的定义,前向传播的过程为:由输入层的结点\((x_1, x_2, \cdots, x_i, \cdots, x_d)\),利用权重矩阵\(V\)计算得到\((\alpha_1, \alpha_2, \cdots, \alpha_h, \cdots, \alpha_q)\),经过激活函数sigmoid得到\((b_1, b_2, \cdots, b_h, \cdots, b_q)\),这就得到了隐藏层的输出;之后,利用权重矩阵\(W\)计算得到\((\beta_1, \beta_2, \cdots, \beta_j, \cdots, \beta_l)\),经过激活函数sigmoid得到\((\hat{y}_1,\hat{y}_1, \cdots, \hat{y}_j , \cdots, \hat{y}_l )\),也就是最后的输出;
那么如何来计算\(\dfrac{\partial{E_k}}{\partial{w_{hj}}}\)呢?
我们想一下在网络的均方误差\(E\)与参数\(w_{hj}\)之间有哪些过程,也就是说需要想明白参数\(w_{hj}\)是怎么对误差\(E\)产生影响的;
\(w_hj\)是连接隐藏层结点\(b_h\)与输出层结点\(\hat{y}_j\)的权重,因此过程是:\(b_h \rightarrow \beta_j \rightarrow \hat{y}_j \rightarrow E\)
那么根据链式法则就可以有:
\[ \dfrac{\partial E_k}{\partial w_{hj}} = \dfrac{\partial E_k}{\partial \hat{y}_j}\dfrac{\partial \hat{y}_j}{\partial \beta_j} \dfrac{\partial \beta_j}{\partial w_{hj}} \]
分别来求解\(\dfrac{\partial E_k}{\partial \hat{y}_j}\), \(\dfrac{\partial \hat{y}_j}{\partial \beta_j}\), $ \dfrac{\partial \beta_j}{\partial w_{hj}}$这三项;
(1)第一项:\(\dfrac{\partial E_k}{\partial \hat{y}_j}\)
想一下\(E_k\)与\(\hat{y}_j\)之间有什么关系,即:
\[ E_k = \dfrac{1}{2}\sum_{j=1}^{l}(\hat{y}_j-y_j)^2 = \dfrac{1}{2}[(\hat{y}_1-y_1)^2+\cdots +(\hat{y}_j-y_j)^2+\cdots+(\hat{y}_l-y_l)^2] \]
那么,\(E_k\)对\(\hat{y}_j\)求偏导:
\[ \dfrac{\partial E_k}{\partial \hat{y}_j} = -(\hat{y}_j-y_j) \]
(2)第二项:\(\dfrac{\partial \hat{y}_j}{\partial \beta_j}\)
再想一下\(\hat{y}_j\)与\(\beta_j\)之间有什么关系呢,即
\[ \hat{y}_j = sigmoid(\beta_j) \]
那么,\(\hat{y}_j\)对\(\beta_j\)求偏导,即:
\[ \dfrac{\partial \hat{y}_j}{\partial \beta_j} = \hat{y}_j(1-\hat{y}_j) \]
(3)第三项:$ \dfrac{\partial \beta_j}{\partial w_{hj}}$
再想一下\(\beta_j\)与\(w_{hj}\)之间又有什么关系呢,即:
\[ \beta_j = \sum_{h=1}^{q}w_{hj}b_h= w_{1j}b_1 + \cdots+w_{hj}b_h+\cdots+w_{qj}b_q \]
所以从上式中能够看清\(\beta_j\)与\(w_{hj}\)之间的关系了吧,其实再想一下,\(\beta_j\)是输出层的第\(j\)个结点,而\(w_{hj}\)是连接隐藏层结点\(b_h\)与结点\(\beta_j\)的权重;
那么\(\beta_j\)对\(w_{hj}\)的偏导数,即:
\[ \dfrac{\partial \beta_j}{\partial w_{hj}} = b_h \]
上面三个偏导数都求出来了,那么就有:
\[ \dfrac{\partial E_k}{\partial w_{hj}} = \dfrac{\partial E_k}{\partial \hat{y}_j}\dfrac{\partial \hat{y}_j}{\partial \beta_j} \dfrac{\partial \beta_j}{\partial w_{hj}} =-(\hat{y}_j-y_j)\hat{y}_j(1-\hat{y}_j)b_h \]
那么更新参数\(w_{hj}\)
\[ w_{hj} \leftarrow w_{hj}+\Delta w_{hj} \]
\[ \Delta w_{hj} = -\eta \dfrac{\partial E_k}{\partial w_{hj}} = -\eta(-(\hat{y}_j-y_j)\hat{y}_j(1-\hat{y}_j)b_h) \]
即:
\[ w_{hj} = w_{hj}+\Delta w_{hj} = w_{hj} -\eta(-(\hat{y}_j-y_j)\hat{y}_j(1-\hat{y}_j)b_h) \]
从上式可以看出,想要对参数\(w_{hj}\)进行更新,我们需要知道上一次更新后的参数值,输出层的第\(j\)个结点\(\hat{y}_j\),以及隐藏层的第\(h\)个结点\(b_h\);其实想一下,也就是需要知道参数\(w_{hj}\)连接的两个结点对应的输出;那么这里就提醒我们一点,在网络前向传播的时候需要记录每一层网络的输出,即经过sigmoid函数之后的结果;
现在我们知道如何对权重矩阵\(W\)中的每一个参数\(w_{hj}\)进行更新,那么如何对权重矩阵\(V\)中的参数\(v_{ih}\)进行更新呢?其中,\(v_{ih}\)是连接输入层结点\(x_i\)与隐藏层结点\(b_h\)之间的权重;
同样是利用网络的输出误差\(E_k\)对参数\(v_{ih}\)的偏导,即:
\[ v_{ih} \leftarrow v_{ih} + \Delta v_{ih} \]
\[ \Delta v_{ih} = -\eta \dfrac{\partial{E_k}}{\partial{v_{ih}}} \]
那么如何来计算\(\dfrac{\partial{E_k}}{\partial{v_{ih}}}\)呢?同样是利用链式求导法则,有:
\[ \dfrac{\partial{E_k}}{\partial{v_{ih}}} = \dfrac{\partial E_k}{\partial b_h}\dfrac{\partial b_h}{\partial \alpha_h}\dfrac{\partial \alpha_h}{\partial v_{ih}} \]
同样地,分别来求解\(\dfrac{\partial E_k}{\partial b_h}\),\(\dfrac{\partial b_h}{\partial \alpha_h}\),\(\dfrac{\partial \alpha_h}{\partial v_{ih}}\)这三项;
(1)第一项:\(\dfrac{\partial E_k}{\partial b_h}\)
与上述思路相同,想一下\(E_k\)与\(b_h\)之间的关系,又可以分解为:
\[ \dfrac{\partial E_k}{\partial b_h} =\sum_{j=1}^{l}\dfrac{\partial E_k}{\partial \beta_j} \dfrac{\partial \beta_j}{\partial b_h} \]
其中,
\[ \dfrac{\partial E_k}{\partial \beta_j} = \dfrac{\partial E_k}{\partial \hat{y}_j}\dfrac{\partial \hat{y}_j}{\partial \beta_j} = -(\hat{y}_j-y_j)\hat{y}_j(1-\hat{y}_j) \]
(2)第二项:\(\dfrac{\partial b_h}{\partial \alpha_h}\)
同样地,\(b_h\)与\(\alpha_h\)之间的关系,有:
\[ b_h = sigmoid(\alpha_h) \]
那么有:
\[ \dfrac{\partial b_h}{\partial \alpha_h} = b_h (1-b_h) \]
(3)第三项:\(\dfrac{\partial \alpha_h}{\partial v_{ih}}\)
同样地,\(\alpha_h\)与\(v_{ih}\)之间的关系,有:
\[ \alpha_h = \sum_{i=1}^{d}v_{ih}x_i= v_{1h}x_1 + \cdots+v_{ih}x_i+\cdots+v_{dh}x_d \]
因此,\(\alpha_h\)对\(v_{ih}\)的偏导数为:
\[ \dfrac{\partial \alpha_h}{\partial v_{ih}} = x_i \]
综合上面三项,有:
\[ \dfrac{\partial{E_k}}{\partial{v_{ih}}} = \dfrac{\partial E_k}{\partial b_h}\dfrac{\partial b_h}{\partial \alpha_h}\dfrac{\partial \alpha_h}{\partial v_{ih}} =\dfrac{\partial E_k}{\partial \hat{y}_j}\dfrac{\partial \hat{y}_j}{\partial \beta_j} = -(\hat{y}_j-y_j)\hat{y}_j(1-\hat{y}_j) b_h (1-b_h) x_i \]
我们来对比一下\(\dfrac{\partial{E_k}}{\partial{v_{ih}}}\)与\(\dfrac{\partial E_k}{\partial w_{hj}}\),两者分别为:
\[ \dfrac{\partial E_k}{\partial w_{hj}} =-(\hat{y}_j-y_j)\hat{y}_j(1-\hat{y}_j)b_h \]
\[ \dfrac{\partial{E_k}}{\partial{v_{ih}}} = -(\hat{y}_j-y_j)\hat{y}_j(1-\hat{y}_j) b_h (1-b_h) x_i \]
稍微换一种形式,将负号放进去:
\[ \dfrac{\partial E_k}{\partial w_{hj}} =(y_j- \hat{y}_j)\hat{y}_j(1-\hat{y}_j)b_h \]
\[ \dfrac{\partial{E_k}}{\partial{v_{ih}}} = (y_j - \hat{y}_j)\hat{y}_j(1-\hat{y}_j) b_h (1-b_h) x_i \]
未完待续....
