决策树原理(一)
小伙伴们,欢迎浏览我的博客,从今天开始,我将为大家开始讲解机器学习的基础算法,如决策树、KNN算法、SVM、神经网络等。本节先讲解决策树算法。
一、机器学习中分类与预测算法评估
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。1、准确率
2、速度
3、强壮性
4、可规模性
5、可解释性
在机器学习算法当中、评价一个算法的好坏或者比较两个算法的优劣,主要以上5个方面进行评估。首先准确率是指算法分类或者预测的准确程度,这是个非常重要的标准,而速度是指算法的复杂度高不高,其次强壮行是指一个算法在包含噪音、缺失值、异常值的数据中依然保持非常好的效率 ,可规模性是指一个算法不仅可以在小规模数据上保持高效,在呈指数型增长的数据中依然能保持高效,最后可解释性是指算法在做出特征值的选取和归类能容易的解释这种归类和我们的直觉是相符的。
二、决策树
1、什么是决策树/判定书(decision tree)?
决策树是类似于流程图的树结构:其中,每个内部节点表示在一个属性上的测试,每个分支表示一个属性的输出,而每个树叶节点表示一个类或者类分布。树的最顶层是根节点。
以上图为例,该决策树的属性有:OUTLOOK、HUMIDITY、WINDY,以OUTLOOK属性为根节点,OUTLOOK有三个取值,即sunny、overcast、rain,根节点的三个分支就是它三个值的输出。决策树有五个叶子,叶子代表已经分好的类,即Play或者Don't Play。
2、构造ID3决策树基本算法
概念
信息熵(entropy):
信息和抽象,如何度量? 1948年,香农提出了 ”信息熵(entropy)“的概念 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者 是我们一无所知的事情,需要了解大量信息==>信息量的度量就等于不确定性的多少 所以信息熵就是指信息的不确定度,不确定度越高,信息越复杂。 样本D中第i个类样本所占的概率为pi(i=1,2,3,.....y),则信息熵的定义公式为:








在决策树算法中,ID3决策树只是一种常用的算法,还有更多的算法 1、C4.5: Quinlan 2、Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone) 着两个算法和ID3有共同点也有区别 共同点:都是贪心算法,自上而下(Top-down approach) 区别:属性选择度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain) 关于这两个算法,我再后续发表的文章会继续讲解,请继续关注我的博客。 4、决策树的优缺点 决策树的优点: 直观,便于理解,小规模数据集有效 决策树的缺点: 处理连续变量不好 类别较多时,错误增加的比较快 可规模性一般 下一篇文章是 决策树应用(一),敬请期待
