机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

佚名 6年前 (2019-03-30) 人工智能 1153人围观抢沙发百度已收录

有关各种优化算法的详细算法流程和公式可以参考【这篇blog】，讲解比较清晰，这里说一下自己对他们之间关系的理解。

BGD 与 SGD

首先，最简单的 BGD 以整个训练集的梯度和作为更新方向，缺点是速度慢，一个 epoch 只能更新一次模型参数。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

SGD 就是用来解决这个问题的，以每个样本的梯度作为更新方向，更新次数更频繁。但有两个缺点：

更新方向不稳定、波动很大。因为单个样本有很大的随机性，单样本的梯度不能指示参数优化的大方向。
所有参数的学习率相同，这并不合理，因为有些参数不需要频繁变化，而有些参数则需要频繁学习改进。

第一个问题

Mini-batch SGD 和 Momentum 算法做出的改进主要是用来解决第一个问题。

Mini-batch SGD 算法使用一小批样本的梯度和作为更新方向，有效地稳定了更新方向。

Momentum 算法则设置了动量（momentum）的概念，可以理解为惯性，使当前梯度小幅影响优化方向，而不是完全决定优化方向。也起到了减小波动的效果。

第二个问题

AdaGrad 算法做出的改进用来解决第二个问题，其记录了每个参数的历史梯度平方和（平方是 element-wise 的），并以此表征每个参数变化的剧烈程度，继而自适应地为变化剧烈的参数选择更小的学习率。

但 AdaGrad 有一个缺点，即随着时间的累积每个参数的历史梯度平方和都会变得巨大，使得所有参数的学习率都急剧缩小。

RMSProp 算法解决了这个问题，其采用了一种递推递减的形式来记录历史梯度平方和，可以观察其表达式：早期的历史梯度平方和会逐渐失去影响力，系数逐渐衰减。

Adam

简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的一种算法，其既记录了历史梯度均值作为动量，又考虑了历史梯度平方和实现各个参数的学习率自适应调整，解决了 SGD 的上述两个问题。

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

转载请注明 : 文章转载自小翔博客机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

本文标题：机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

本文链接：https://www.liuyixiang.com/post/14504.html

上一篇 : SparkSQL执行时参数优化

下一篇 : 吴恩达机器学习笔记61-应用实例：图片文字识别(Application Example: Photo OCR)【完结】

评论列表暂无评论

发表评论

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

BGD 与 SGD

第一个问题

第二个问题

Adam

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

BGD 与 SGD

第一个问题

第二个问题

Adam

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

User Login

帐号或密码错误,请重试.