机器学习-----笔记
花了2个星期看完了《机器学习实战》这本书,感觉好像入门算法了,特此做个看书总结。
本书大致包括3个部分:
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。第一部分:监督学习:分类+利用回归预测数值型数据
这部分包括分类算法:k-近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost元算法;回归算法:树回归;
1.k-近邻分类算法
概述:采用测量不同特征值之间的距离方法进行分类。
工作原理:现在有一个样本数据集合,其中每个数据都存在标签,换言之,我们知道数据集中每一数据于所属分类的对应关系。
之后输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
(注:一般只取数据集中前k个最相似的数据)
2.决策树
概念:如上图所示,上图是一个根据天气情况来决定是否出去玩的人数的决策树,决策树的任务就是为了数据中所蕴含的知识信息,我们从决策树中提取出一系列规则,这就是机器学习的过程。
3.朴素贝叶斯
本节介绍了基于概率论的分类器,之所以称之为‘朴素’,是因为整个形式化过程只做最原始、最简单的假设;
看上图,首先我们设p1(x,y)表示数据点(x,y)属于类别1(图中圆点表示的类别)的概率,p2(x,y)表示数据点(x,y)属于类别2(图中三角形表示的类别)的概率,
现在有2种情况:
① p1(x,y)>p2(x,y) 那么类别为1
②p1(x,y)<p2(x,y) 那么类别为2
最终我们会选择高概率对应的类别,这就是贝叶斯理论的核心思想。
4.Logistic回归
本节介绍了Logisitc回归,它的思想是根据现有的数据对分类边界线建立回归公式,以此来分类。
这里的‘回归’意思是最佳拟合,换言之,就是要找到最佳拟合参数集。
5.支持向量机
SVM支持向量机是一种分类器,之所以称之为‘机’是因为它会产生一个二值决策的结果,即它是一种决策'机',支持向量机的泛化错误率较低,具有良好的学习能力和推广性,是监督学习中最好的定式算法。
SVM尝试通过求解一个二次优化问题来最大化分类间隔。
6.AdaBoost元算法
本节介绍了2种集成方法是bagging和boosting,其中介绍了boosting方法中较为流行的算法-----AdaBoost算法,AdaBoost算法以弱学习器作为基分类器,输入数据,使其通过权重向量进行加权,在第一次迭代中,所有数据都等权重,
但在后续的迭代中,前次迭代中分错的数据权重会增大,这种针对错误的调节能力正是AdaBoost的长处。
7.回归
回归同分类一样,也是监督学习,回归与分类的
第二部分:无监督学习
这部分包括:K-均值聚类算法,Apriori算法,FP-growth算法
第三部分:其他工具
这部分包括:PCA(主成分分析),SVD(奇异值分解),MapReduce(规约)
