读---白话大数据与机器学习
第二章 步入数据之门
什么是数据
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。承载了信息的东西
什么是信息
信息是用来消除随机不定性的东西
算法
在同一个算 法中,不同的参数和阈值设置同样会带来大相径庭的结果,甚至影响数据解读的科学性
第三章 排列组合与古典概型
1.古典概型
如果一个随机试验所包含的单位事件(就是刚才说的3次朝上分别为“正正正”、“正正 反”……这其中每一种情况都是单位事件)是有限的,且每个单位事件发生的可能性均相 等,则这个随机试验叫做拉普拉斯试验,这种条件下的概率模型就叫古典概型。古典概型也 叫传统概率,该定义是由法国著名数学家拉普拉斯(Laplace)提出的。 第4章 统计与分布 4.1.1 加和值 以使用加和值来对一群事物进行描述是一种非常自然的描述方式,比如:超市结账,使用加和值来对整体进行描述 4.1.2 平均值 “一年级一班有40名学生,3门课程平均分为80分”。 “一年级二班有60名学生,3门课程平均分为75分”。 “一年级三班有50名学生,3门课程平均分为80分”。 从这组数据来看,基本可以得到一个印象,就是一年级一班的成绩“普遍”比一年级二 班“好”,至少是从“宏观体现”上看比二班好,它和一年级三班“一样好”。但是一年级一班和 一年级三班这两个班的每个人的成绩都是一样的吗?至少人数是不一样的。那么也许还需要 进一步地描述这平均下来的80分和每个学生具体的课程分数之间的差异性有多大,这就涉及 另一个描述的需求——标准差。 4.1.3 标准差 我们先上公式,标准差公式如下:

第8章 回归 8.1 线性回归 回归的英文是Regression,单词原型的regress大概的意思是“回退,退化,倒退”。其实 Regression——回归分析的意思借用了“倒退,倒推”的含义。简单说就是“由果索因”的过 程,是一种归纳的思想——当看到大量的事实所呈现的样态,推断出原因是如何的;当看到 大量的数字对(pair)是某种样态,推断出它们之间蕴含的关系是如何的 线性回归是利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量 关系的一种统计分析方法。其表达形式如下: y = ax + b + e e为误差服从均值为0的正态分布 8.2拟合 这种把平面上一系列的点用一条光滑的曲线连接起来的过程就叫做拟合 8.4 过拟合 过拟合简称“过拟”,是在拟合过程中出现的一种“做过头”的情况 过度拟合的危害有以下几点。 (1)描述复杂。所有的过度拟合的模型都有一个共同点,那就是模型的描述非常复杂 ——参数繁多,计算逻辑多。 (2)失去泛化能力。所谓泛化能力就是通过学习(或机器学习)得到的模型对未知数 据的预测能力,即应用于其他非训练样本的向量时的分类能力。对于待分类样本向量分类正 确度高,表示泛化能力比较好;反之,如果对于待分类样本向量分类正确度低,则表示泛化 能力较差。 8.5 欠拟合 欠拟顾名思义,就是由于操作不当——也可以说建模不当产生的误差e分布太散或者太 大的情况。这种情况下,通常体现出来的都是在线性回归中的因素考虑不足的情况,常见的 原因有以下两种。 (1)参数过少 对于训练样本向量的维度提取太少会导致模型描述的不准确。 例如,要根据银行储户的信息来判断其信誉好或不好,通常需要综合考虑用户的年龄、 流水总和、账户余额、借贷频次、借贷额度、归还准时程度等信息特征。这些因素考虑得越 充分,通常对于用户的信誉好或不好,给予的信用额度多少为宜就会有比较可靠的预测程 度。而如果参数太少,如只有账户余额一项,那么就不得不用账户余额一个参数和信誉好坏 去建立一个模型映射关系。这个模型是很不科学的,通过一个余额的数字就能断言一个人信 誉几何太过武断。 (2)拟合不当。拟合不当的原因比较复杂,通常是拟合方法不正确造成的。 ,
1.古典概型
如果一个随机试验所包含的单位事件(就是刚才说的3次朝上分别为“正正正”、“正正 反”……这其中每一种情况都是单位事件)是有限的,且每个单位事件发生的可能性均相 等,则这个随机试验叫做拉普拉斯试验,这种条件下的概率模型就叫古典概型。古典概型也 叫传统概率,该定义是由法国著名数学家拉普拉斯(Laplace)提出的。 第4章 统计与分布 4.1.1 加和值 以使用加和值来对一群事物进行描述是一种非常自然的描述方式,比如:超市结账,使用加和值来对整体进行描述 4.1.2 平均值 “一年级一班有40名学生,3门课程平均分为80分”。 “一年级二班有60名学生,3门课程平均分为75分”。 “一年级三班有50名学生,3门课程平均分为80分”。 从这组数据来看,基本可以得到一个印象,就是一年级一班的成绩“普遍”比一年级二 班“好”,至少是从“宏观体现”上看比二班好,它和一年级三班“一样好”。但是一年级一班和 一年级三班这两个班的每个人的成绩都是一样的吗?至少人数是不一样的。那么也许还需要 进一步地描述这平均下来的80分和每个学生具体的课程分数之间的差异性有多大,这就涉及 另一个描述的需求——标准差。 4.1.3 标准差 我们先上公式,标准差公式如下:

第8章 回归 8.1 线性回归 回归的英文是Regression,单词原型的regress大概的意思是“回退,退化,倒退”。其实 Regression——回归分析的意思借用了“倒退,倒推”的含义。简单说就是“由果索因”的过 程,是一种归纳的思想——当看到大量的事实所呈现的样态,推断出原因是如何的;当看到 大量的数字对(pair)是某种样态,推断出它们之间蕴含的关系是如何的 线性回归是利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量 关系的一种统计分析方法。其表达形式如下: y = ax + b + e e为误差服从均值为0的正态分布 8.2拟合 这种把平面上一系列的点用一条光滑的曲线连接起来的过程就叫做拟合 8.4 过拟合 过拟合简称“过拟”,是在拟合过程中出现的一种“做过头”的情况 过度拟合的危害有以下几点。 (1)描述复杂。所有的过度拟合的模型都有一个共同点,那就是模型的描述非常复杂 ——参数繁多,计算逻辑多。 (2)失去泛化能力。所谓泛化能力就是通过学习(或机器学习)得到的模型对未知数 据的预测能力,即应用于其他非训练样本的向量时的分类能力。对于待分类样本向量分类正 确度高,表示泛化能力比较好;反之,如果对于待分类样本向量分类正确度低,则表示泛化 能力较差。 8.5 欠拟合 欠拟顾名思义,就是由于操作不当——也可以说建模不当产生的误差e分布太散或者太 大的情况。这种情况下,通常体现出来的都是在线性回归中的因素考虑不足的情况,常见的 原因有以下两种。 (1)参数过少 对于训练样本向量的维度提取太少会导致模型描述的不准确。 例如,要根据银行储户的信息来判断其信誉好或不好,通常需要综合考虑用户的年龄、 流水总和、账户余额、借贷频次、借贷额度、归还准时程度等信息特征。这些因素考虑得越 充分,通常对于用户的信誉好或不好,给予的信用额度多少为宜就会有比较可靠的预测程 度。而如果参数太少,如只有账户余额一项,那么就不得不用账户余额一个参数和信誉好坏 去建立一个模型映射关系。这个模型是很不科学的,通过一个余额的数字就能断言一个人信 誉几何太过武断。 (2)拟合不当。拟合不当的原因比较复杂,通常是拟合方法不正确造成的。

更多精彩