机器学习——Day 3 多元线性回归

佚名 6年前 (2019-05-28) 人工智能 1944人围观抢沙发百度已收录

写在开头

由于某些原因开始了机器学习，为了更好的理解和深入的思考（记录）所以开始写博客。

学习教程来源于github的Avik-Jain的100-Days-Of-MLCode

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

英文版：https://github.com/Avik-Jain/100-Days-Of-ML-Code

中文翻译版：https://github.com/MLEveryday/100-Days-Of-ML-Code

本人新手一枚，所以学习的时候遇到不懂的会经常百度，查看别人的博客现有的资料。但是由于不同的人思维和写作风格都不一样，有时候看到一些长篇大论就不想看，杂乱不想看（实力懒癌患者+挑剔）。看到别人写的不错的就不想再费时间打字了，所以勤奋的找了自认为简洁明了的文章分享在下面，希望能帮助到大家。

注意这是一篇记录博客，非教学。

数据部分截图：

Step 1：数据预处理

部分详情请看前两篇：

Day1: https://www.cnblogs.com/hidari26/p/10923822.html

Day2:https://www.cnblogs.com/hidari26/p/10927574.html

#导入库
import pandas as pd
import numpy as np
#导入数据集
dataset = pd.read_csv('50_Startups.csv')
print(dataset[:10])
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 4].values
#将类别数据数字化
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
X[ : , 3] = labelencoder.fit_transform(X[ : , 3])
onehotencoder = OneHotEncoder(categorical_features = [3])
X = onehotencoder.fit_transform(X).toarray()

#躲避虚拟变量陷阱
X1 = X[ : , 1: ]

虚拟变量的内容在图片中有说明，这里不重复。

说实话，这里我不是很懂。这里居然采用的是去掉第一列的数据？？？有人能告诉我是为什么吗？

#拆分数据集为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0)
X1_train, X1_test, Y1_train, Y1_test = train_test_split(X1, Y, test_size = 0.2, random_state = 0)

Step 2：在训练集上训练多元线性回归模型

这里和简单线性回归模型一样使用就好了。

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, Y_train)
regressor1 = LinearRegression()
regressor1.fit(X1_train, Y1_train)

Step 3: 在测试集上预测结果

Y_pred表示原始预测结果，Y1_pred表示躲避虚拟变量陷阱后的预测结果。

Y_pred = regressor.predict(X_test)
Y1_pred = regressor1.predict(X1_test)
print(Y_pred)
print(Y1_pred)

Step 4: 输出误差

最后我们比较一下两个数据哪个得出的模型更好，更精确。这里介绍一个新的类 sklearn.metrics.r2_score 相关指数R2（也称决定系数 coefficient of determinantion），表示一元多项式回归方程拟合度的高低，或者说表示一元多项式回归方程估测的可靠程度的高低。越接近1，模型越好；越接近0，模型越差。

英文说明：https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html

from sklearn.metrics import r2_score
print(r2_score(Y_test, Y_pred))
print(r2_score(Y1_test, Y1_pred))

0.9347068473282246

0.9347068473282292

可一看出，虽然差别不大，但是Y1_pred更精确一些。

总结

这一章的内容和上一章相似，主要在数据预处理时，有必要的话编辑虚拟变量并注意避免虚拟变量陷阱。至于这里为什么采用这种方式避免虚拟变量陷阱，不懂啊~

欢迎评论中提问，相关问题将在此更新！

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

转载请注明 : 文章转载自小翔博客机器学习——Day 3 多元线性回归

本文标题：机器学习——Day 3 多元线性回归

本文链接：https://www.liuyixiang.com/post/103216.html

上一篇 : Kaggle八门神器（一）：竞赛神器之XGBoost介绍

下一篇 : 迪杰斯特拉算法（Dijkstra）

评论列表暂无评论

发表评论

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

机器学习——Day 3 多元线性回归

写在开头

Step 1：数据预处理

Step 2：在训练集上训练多元线性回归模型

Step 3: 在测试集上预测结果

Step 4: 输出误差

总结

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

机器学习——Day 3 多元线性回归

写在开头

Step 1：数据预处理

Step 2： 在训练集上训练多元线性回归模型

Step 3: 在测试集上预测结果

Step 4: 输出误差

总结

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

User Login

帐号或密码错误,请重试.

Step 2：在训练集上训练多元线性回归模型