岭回归
一、线性回归
我们先回顾一下普通线性回归。一般来说,线性回归方程:y=w1x1+w2x2...+wnxn。我们把这组变量 xn 定成一个矩阵 X,把回归系数存放在向量W中,则 y=X*W。
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。二、存在的问题
(1)、特征数大于样本数
当特征数大于样本数的时候,上面的式子就存在问题了。矩阵要求逆,就必须为满秩矩阵,当特征数大于样本数的时候,就不为满秩了。可以通俗地理解为由于样本数量太少,没有办法提供足够的有效的信息。
(2)、多重共线性
多重共线性指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。举个例子,对于一般人来说,体重和身高是有很强的关联的,但如果我们需要预测某样东西,以这两者作为自变量,即使可以很好的拟合,但这个模型的解释性还是不够。
三、岭回归
由于上面两个问题的存在,岭回归就出现了。它解决回归中重大疑难问题:排除多重共线性,进行变量的选择,在存在共线性问题和病态数据偏多的研究中有较大的实用价值。按照度娘的解释:岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
岭回归在上面式子的基础上做了点儿改进:,(其中
称为岭参数)很好地解决了上面的问题,假如
是一个奇异矩阵(不满秩),添加
后可以保证其可逆。

更多精彩