机器学习/数据挖掘——摘自牛客网
SGD,Momentum,Adagard,Adam原理
SGD为随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行跟新。
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。Momentum参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。
Adagard在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的参数模和的开方成反比。
Adam利用梯度的一阶矩估计和二阶矩估计,动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数较为平稳。
L1不可导的时候该怎么办
1,当损失函数不可导,梯度下降不再有效,可以使用坐标轴下降法,梯度下降是沿着当前点的负梯度方向进行参数更新,而坐标轴下降法是沿着坐标轴的方向,假设有m个特征个数,坐标轴下降法进参数更新的时候,先固定m-1个值,然后再求另外一个的局部最优解,从而避免损失函数不可导问题。
2,使用Proximal Algorithm对L1进行求解,此方法是去优化损失函数上界结果。(对于目标函数不是处处连续可微的情况,通常是使用次梯度来进行优化,由于次梯度自身的原因会导致两方面问题:求解慢
,通常不会产生稀疏解。Proximal Algorithm主要解决这两个问题)
sigmoid函数特性
值域为(-1,1)
函数在定义域内为连续和光滑的函数
切比雪夫不等式
一根绳子,随机截成3段,可以组成一个三角形的概率有多大
设绳子长为a,折成三段的长度为x,y,a-x-y从而得到,满足这三个约束条件在平面直角坐标系中的可行域为一个直角三角形,面积为1/2 a2。而构成三角形的条件,任意两边和大于第三边的条件 x+y>a-x-y , a-y>y , a-x>x 同时成立。满足以上不等式在平面直角坐标系中也是一个直角三角形,面积为1/8 a2,所以构成三角形概率为 (1/2 a2 ) / (1/8 a2 ) = 0.25
最大似然估计和最大后验概率的区别?
最大似然估计提供了一种给定观察数据来评估模型参数的方法,而最大似然估计中的采样满足所有采样都是独立同分布的假设。
最大后验概率是根据经验数据获难以观察量的点估计,与最大似然估计最大的不同是最大后验概率融入了要估计量的先验分布在其中,所以最大后验概率可以看做规则化的最大似然估计。
什么是共轭先验分布
假设 θ 为总体分布中的参数, θ 的先验密度函数为 π(θ),而抽样信息算得的后验密度函数与π(θ)具有相同的函数形式,则称 π(θ) 为 θ 的共轭先验分布。
