chapter-1

监督学习:分类,回归
无监督学习:聚类

泛化能力:具有强泛化能力的模型能很好地适用与整个样本空间。

NFL定理(没有免费的午餐定理):总误差与学习算法无关,任意两个学习算法,他们的期望性相同。即学习算法的期望性跟随机胡猜差不多。
要具体问题具体分析,谈论算法的优劣,必须针对具体的学习问题。

统计学习:支持向量机(SVM),核方法(kernel methods)

数据挖掘(data mining)

迁移学习(transfer learning)

 

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

chapter-2模型评估与选择

 

留出法(hold-out):直接将数据集D划分为两个互斥的集合,即一个作为训练集,一个为测试集。

交叉验证法(cross validation):将数据集D划分为K个大小相似的互斥子集,进行K次训练和测试,最终返回K个结果均值。

交叉验证法的特例:留一法(Leave One-Out,LOO)

自助法(bootstrapping),随机从D中采样,将其拷贝到D‘,再将样本放回D,使得该样本在下一次仍有可能被采到。在数据集较小,难以有效划分训练/测试集时很有作用。

验证集(validation set):模型评估与选择中用于评估测试的数据集,把训练数据划分训练集和验证集,基于验证集的性能来进行模型选择和调参。

性能度量(performance measure):衡量模型泛化能力。

均方误差(mean squared error)

Roc(Receiver Operating Characteristic):受试者工作特征
AUC(Area Under ROC Curve):ROC曲线下的面积
损失(loss):对应ROC曲线之上的面积

泛化误差可分解为偏差、方差与噪声之和。

 

chapter-3线性模型

均方误差(square loss):平方损失,对应欧式距离
最小二乘法(least square method):基于均方误差最小化来进行模型求解的方法,在线性回归中,最小二乘法试图找到一条直线,使所有样本到直线的欧氏距离之和最小。

线性判别分析(LDA):一种经典的线性学习方法,亦称“Fisher判别分析”

chapter-4决策树

信息熵(information entropy):度量样本集合纯度的一种指标。

使用信息增益来选择最优划分属性,当信息增益过大时,不具有泛化能力。著名的C4.5决策树算法不直接使用信息增益,使用增益率(gain ratio)来选择最优划分属性

剪枝(pruning)是决策树学习算法对付过拟合的主要手段。

chapter-5神经网络

阈值,亦称bias,如果某神经元的点位超过了一个“阈值”,就会被激活。

感知机(Perceptron)由两层神经元组成。很容易实现逻辑与或非运算。

“前馈”:不存在环成回路

学习率控制着算法每一轮迭代中更新步长,太大容易振荡,太小收敛速度会过慢。

累积BP算法直接针对累积误差最小化,在读取训练集D一遍后才对参数进行更新,参数更新的频率低。累积误差下降到一定程度后,进一步下降会非常缓慢。

标准BP和累积BP的区别 类似 随机梯度下降(SGD)与标准梯度下降的区别。

BP过拟合策略:
1.早停:将数据分成训练集和验证集,训练集计算梯度、更新连接权和阈值,验证集用来估计误差。
2.正则化(regularization),增加一个描述网络复杂的部分。使网络输出更加“光滑”。

BP下降方向,沿负梯度方向,负梯度方向是函数值下降最快的方向。

陷入局部极小,怎么“跳出”?
1.从不同点开始搜索
2.模拟退火(simulated annealing),每一步以一定的概率接受比当前解更差的结果,有助于“跳出”局部极小,接受“次优解”的概率随着时间的推移逐渐降低,保证算法稳定。
3.使用随机梯度下降

遗传算法(genetic algorithm)也常用来训练神经网络以更好地逼近全局最小。

RBF(Radial Basis Function,径向基函数)网络,一种但隐含层前馈神经网络,使用径向基函数作为隐含层神经元激活函数,输出是对神经元的线性组合。

可塑性,神经网络学习新知识的能力。
稳定性,学习新知识要保持对旧知识的记忆。

训练的目的,利用训练样本来确定合适的连接权,阈值等参数。

级联相关网络(Cascade-Correlation),结构自适应网络代表。
级联:建立层次连接的层次结构
相关:通过最大化新神经元的输出与网络误差之间的相关性来训练相关的参数。

递归神经网络,允许出现环形结构,Elman,最常用的递归神经网络之一。

特征映射(feature map)

汇合(pooling),池化,基于局部相关性原理进行采样,减少数据量同时保留有用信息。

深度学习(deep learning)通过多层处理,逐渐将初始的“底层”特征表示转化为“高层”特征表示之后,用“简单模型”完成复杂的分类等学习任务,可理解为“特征学习”或“表示学习”。

chapter-6支持向量机

SMO(Sequential Minimal Optimization),固定ai之外的所有参数,然后求ai上的极值。由于存在约束,选择两个变量ai和aj。SMO先选取违背KTT条件程度最大的变量,第二个变量选择一个是目标函数值减少最快的变量。由于对应目标函数减幅复杂度过高,采用启发式,使选取的两变量所对应样本之间的间隔最大。

支持向量回归(support vector regression,SVR),以f(x)为中心,构建一个宽度为2c的间隔带,若训练样本落入此间隔带,则认为是被预测正确的。

chapter-7贝叶斯分类器

贝叶斯决策论,考虑如何基于这些概率和误判损失来选择最优的类别标记。

贝叶斯网,亦称“信念网”借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布。

EM(expectation maximization)算法是常用的估计参数隐变量的利器,一种迭代式的方法。

数据挖掘十大算法:c4.5,CART决策树,支持向量机,朴素贝叶斯算法,EM算法,AdaBoost,k均值聚类,k近邻算法

一、C4.5     C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。

二、The k-means algorithm 即K-Means算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割(k < n)。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。

三、 Support vector machines
支持向量机,英文为Support Vector Machine,简称SV机。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。

四、The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

五、最大期望(EM)算法
在统计计算中,最大期望 (EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。

六、 PageRank
PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里•佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票, 被链接的越多,就意味着被其他网站投票越多。

七、AdaBoost    Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最后的决策分类器。

八、 kNN: k-nearest neighbor classification
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

九、 Naive Bayes
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。
朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。
但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。

十、 CART: 分类与回归树
CART, Classification and Regression Trees。 在分类树下面有两个关键的思想:第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。

chapter-8集成学习

集成学习,构建并结合多个学习器来完成学习任务,也称为多分类器系统。

目前集成学习分为两大类,1.个体学习器之间存在强依赖关系,必须串行生成的序列化方法,代表是Boosting,2.个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表是Bagging和“随机森林”(Random Forest)

Boosting是一种可将弱学习器提升为强学习器的算法。

Bagging 是并行式集成学习方法著名的代表,基于自助采样法

随机森林(random Forest,RF)的Bagging的一个变体,在RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后从这个子集中选择一个最优属性用于划分。

chapter-9聚类

聚类,试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个“簇”(cluster),每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。

聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可以作为分类等其他学习任务的前驱过程。

chapter-10降维与度量学习

k近邻(k-Nearest Neighbor,简称KNN)学习是一种常用的监督学习方法,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。

主成分分析(principal component analysis,PCA)是常用的一种降维方法。

线性判别(LDA),监督线性降维最著名的方法。

chapter-11特征选择与稀疏学习

常见的特征选择可分为三类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。

chapter-12计算学习理论

 

chapter-13半监督学习

半监督学习(semi supervised learning),让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能。

chapter-14概率图模型

隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯网,是一种著名的有向图模型,主要用于时序数据建模,在语音识别,自然语言处理等领域有广泛应用。

chapter-15规则学习

 

chapter-16强化学习

强化学习,可看作具有“延迟标记信息”的监督学习问题。



扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄