机器学习实战_KNN（一）

佚名 6年前 (2019-09-30) 人工智能 1264人围观抢沙发百度已收录

【是什么】

KNN 即 k_近邻算法（k- nearest neighbor) ，就是寻找K个邻居作为该样本的特征，近朱者赤，近墨者黑，你的邻居是什么特征，那么就认为你也具备该特征；核心公式为：

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

数据来源：https://github.com/apachecn/AiLearning/blob/master/data/2.KNN/datingTestSet2.txt

读取数据转换成矩阵

# 提取文件中的数据 转换成矩阵
def file2matric(filename):
    """
    disc:
    param: filename: 导入数据文本
    return: 数据矩阵
    """
    f = open(filename,'r',encoding= 'utf-8')
    # 获取文件的行数
    lines_list = f.readlines()
    num_of_lines = len(lines_list)
    # 创建存放标签的列表
    class_label_list = []
    # 生成对应的空矩阵 zeros(2,3) 就是生成2行3列的0矩阵
    returnMat = np.zeros((num_of_lines,3))
    # 将文本中的数据放到矩阵中
    for i in range(num_of_lines):
        lines = lines_list[i].strip().split('\t')
        # 将文本中的前3个数据放到矩阵中
        returnMat[i,:] = lines[0:3]
        # 将标签存到列表中
        class_label_list.append(int(lines[-1]))

    # print(returnMat)
    return returnMat, class_label_list

利用 matplotlib 绘制散点图

def DrawScatter(dataMat,label_list):
    # 导入中文字体，及字体大小
    zhfont = FontProperties(fname='C:/Windows/Fonts/simsun.ttc', size=14)
    # 绘制绘图窗口 2行2列
    fig,ax = plt.subplots(2,2,figsize=(13,8))
    # 不同标签赋予不同颜色
    label_color = []
    for i in label_list:
        if i == 1:
            label_color.append('black')
        elif i == 2:
            label_color.append('orange')
        elif i == 3:
            label_color.append('red')
    # 开始绘制散点图 设定散点尺寸与透明度
    scatter_size = 12
    scatter_alpha = 0.5
    # ===================散点图========================
    ax[0][0].scatter(dataMat[:,0], dataMat[:,1],color = label_color,s = scatter_size ,alpha = scatter_alpha)
    ax[0][1].scatter(dataMat[:, 1], dataMat[:, 2], color=label_color, s=scatter_size , alpha=scatter_alpha)
    ax[1][0].scatter(dataMat[:, 0], dataMat[:, 2], color=label_color, s=scatter_size , alpha=scatter_alpha)

    # 坐标轴标题
    title_list = ['每年获得的飞行常客里程数和玩视频游戏所消耗时间占比',
                  '每年获得的飞行常客里程数和每周消费的冰激淋公升数',
                  '玩视频游戏所消耗时间占比和每周消费的冰激淋公升数']
    x_name_list = ['每年获得的飞行常客里程数','玩视频游戏所消耗时间占比','每周消费的冰激淋公升数']
    y_name_list = ['玩视频游戏所消耗时间占比','每周消费的冰激淋公升数','每年获得的飞行常客里程数']
    #设置图例
    didntLike = mlines.Line2D([], [], color='black', marker='.',
                      markersize=6, label='didntLike')
    smallDoses = mlines.Line2D([], [], color='orange', marker='.',
                      markersize=6, label='smallDoses')
    largeDoses = mlines.Line2D([], [], color='red', marker='.',
                      markersize=6, label='largeDoses')

    p = 0
    for i in range(2):
        for j in range(2):
            if p > 2:
                break
            # 设置坐标轴名称和标题
            plt.setp(ax[i][j].set_title(u'%s'%(title_list[p]),FontProperties = zhfont),size=9, weight='bold', color='red')
            plt.setp(ax[i][j].set_xlabel(u'%s'%(x_name_list[p]),FontProperties = zhfont), size=7, weight='bold', color='black')
            plt.setp(ax[i][j].set_ylabel(u'%s'%(y_name_list[p]),FontProperties = zhfont), size=7, weight='bold', color='black')
            p+=1
    # 添加图例
    ax[0][0].legend(handles=[didntLike, smallDoses, largeDoses])
    ax[0][1].legend(handles=[didntLike, smallDoses, largeDoses])
    ax[1][0].legend(handles=[didntLike, smallDoses, largeDoses])

    plt.show()

对数据进行归一化处理

由于不同数据的范围波动不同，在权重一样的情况下，需要进行归一化，即将数据转换成0-1之间

# 对矩阵进行归一化处理
def dataNorm(dataMat):
    """
    :param dataMat:
    :return: 归一化后的数据集
    归一化公式： Y = (X - Xmin)/(Xmax - Xmin)
    """
    # max(0) min(0) 求出每列的最大值和最小值
    d_min = dataMat.min(0)
    d_max = dataMat.max(0)
    # 计算极差
    d_ranges = d_max - d_min
    # 创建输出矩阵
    normDataSet = np.zeros(np.shape(dataMat))
    print(normDataSet)
    # 获得矩阵行数 .shape 获取矩阵的大小  3x3
    m = dataMat.shape[0]
    # 计算 (X - Xmin) 这部分 首先要创建Xmin矩阵 将d_min扩展到m行
    # 需要使用np.tile 函数进行扩展   将d_min扩展成m行1列 变成m x 3 矩阵
    normDataSet = dataMat - np.tile(d_min,(m,1))
    print(normDataSet)
    # 计算Y
    normDataSet = normDataSet / np.tile(d_ranges,(m,1))

    print(normDataSet)
    return normDataSet

创建分类函数与分类器（kNN算法的实现）

（ps:每次都需要将测试数据与所有训练数据进行对比，感觉比较繁琐)

def classfy_fun(test_data, train_data, labels, k):
    """

    :param test_data: 测试集
    :param train_data: 训练集
    :param labels: 训练集标签
    :param k:  KNN 算法参数 选择距离最小的个数
    :return:  分类结果
    """
    # 计算训练集的矩阵行数
    train_size = train_data.shape[0]
    # 接下来按照欧氏距离进行元素距离计算 公式
    #     将测试集扩充成与训练集相同行数 求差
    diffMat = np.tile(test_data,(train_size,1)) - train_data
    # 将差值矩阵的每个元素平方
    sq_diffMat = diffMat**2
    # 差值平方矩阵每行元素相加 axis = 1 是按行相加
    sum_diffMat = sq_diffMat.sum(axis = 1)
    # 对新的求和矩阵进行开方 得到距离值
    distances = sum_diffMat ** 0.5
    # 获得距离值中从小到大值的索引
    sorted_distant = distances.argsort()
    # 定义一个字典 存放标签 与 出现的数量
    class_count = {}
    for i in range(k):
        # 找出前k个距离值最小的对应标签
        temp_label = labels[sorted_distant[i]]
        # 将标签作为 key 存放到字典中 出现次数作为 value
        class_count[temp_label] = class_count.get(temp_label,0) + 1
    # 将字典按照value 大小进行排序
    sort_class_count = sorted(class_count.items(),key = operator.itemgetter(1))
    return sort_class_count[0][0]
    pass
# 创建分类器函数
def dating_class_test():

    # 首先获取文件，将文件分成测试集和训练集
    dating_Mat, dating_label = file2matric('datingdata.txt')
    # 设置测试集的比例
    test_ratio = 0.1
    # 数据归一化
    normMat = dataNorm(dating_Mat)
    #获得矩阵的行数
    m = normMat.shape[0]
    # 计算测试集的数量
    numTestData = int(m * test_ratio)
    # 错误分类的数量
    error_count = 0.0

    for i in range(numTestData):
        class_result = classfy_fun(dating_Mat[i,:], dating_Mat[numTestData:m,:],
                                   dating_label[numTestData:m],4 )
        print("分类结果:%s,实际分类：%s"%(class_result,dating_label[i]))
        if class_result != dating_label[i]:
            error_count += 1
    # print("错误识别的数量：%f" %error_count)
    print("正确率：%f%% \n" %((1 - error_count / numTestData)*100))

从结果看识别率还是很低的，目前k值为4 ，可以改变k值看看正确率的变化

完整代码

  1 #!/usr/bin/python
  2 # -*- coding: UTF-8 -*-
  3 """
  4    【KNN 实战】
  5 
  6 """
  7 import  numpy as np
  8 import matplotlib.pyplot as plt
  9 import matplotlib.lines as mlines
 10 from matplotlib.font_manager import FontProperties
 11 import operator
 12 
 13 # 提取文件中的数据 转换成矩阵
 14 def file2matric(filename):
 15     """
 16     disc:
 17     param: filename: 导入数据文本
 18     return: 数据矩阵
 19     """
 20     f = open(filename,'r',encoding= 'utf-8')
 21     # 获取文件的行数
 22     lines_list = f.readlines()
 23     num_of_lines = len(lines_list)
 24     # 创建存放标签的列表
 25     class_label_list = []
 26     # 生成对应的空矩阵 zeros(2,3) 就是生成2行3列的0矩阵
 27     returnMat = np.zeros((num_of_lines,3))
 28     # 将文本中的数据放到矩阵中
 29     for i in range(num_of_lines):
 30         lines = lines_list[i].strip().split('\t')
 31         # 将文本中的前3个数据放到矩阵中
 32         returnMat[i,:] = lines[0:3]
 33         # 将标签存到列表中
 34         class_label_list.append(int(lines[-1]))
 35 
 36     # print(returnMat)
 37     return returnMat, class_label_list
 38 
 39 def DrawScatter(dataMat,label_list):
 40     # 导入中文字体，及字体大小
 41     zhfont = FontProperties(fname='C:/Windows/Fonts/simsun.ttc', size=14)
 42     # 绘制绘图窗口 2行2列
 43     fig,ax = plt.subplots(2,2,figsize=(13,8))
 44     # 不同标签赋予不同颜色
 45     label_color = []
 46     for i in label_list:
 47         if i == 1:
 48             label_color.append('black')
 49         elif i == 2:
 50             label_color.append('orange')
 51         elif i == 3:
 52             label_color.append('red')
 53     # 开始绘制散点图 设定散点尺寸与透明度
 54     scatter_size = 12
 55     scatter_alpha = 0.5
 56     # ===================散点图========================
 57     ax[0][0].scatter(dataMat[:,0], dataMat[:,1],color = label_color,s = scatter_size ,alpha = scatter_alpha)
 58     ax[0][1].scatter(dataMat[:, 1], dataMat[:, 2], color=label_color, s=scatter_size , alpha=scatter_alpha)
 59     ax[1][0].scatter(dataMat[:, 0], dataMat[:, 2], color=label_color, s=scatter_size , alpha=scatter_alpha)
 60 
 61     # 坐标轴标题
 62     title_list = ['每年获得的飞行常客里程数和玩视频游戏所消耗时间占比',
 63                   '每年获得的飞行常客里程数和每周消费的冰激淋公升数',
 64                   '玩视频游戏所消耗时间占比和每周消费的冰激淋公升数']
 65     x_name_list = ['每年获得的飞行常客里程数','玩视频游戏所消耗时间占比','每周消费的冰激淋公升数']
 66     y_name_list = ['玩视频游戏所消耗时间占比','每周消费的冰激淋公升数','每年获得的飞行常客里程数']
 67     #设置图例
 68     didntLike = mlines.Line2D([], [], color='black', marker='.',
 69                       markersize=6, label='didntLike')
 70     smallDoses = mlines.Line2D([], [], color='orange', marker='.',
 71                       markersize=6, label='smallDoses')
 72     largeDoses = mlines.Line2D([], [], color='red', marker='.',
 73                       markersize=6, label='largeDoses')
 74 
 75     p = 0
 76     for i in range(2):
 77         for j in range(2):
 78             if p > 2:
 79                 break
 80             # 设置坐标轴名称和标题
 81             plt.setp(ax[i][j].set_title(u'%s'%(title_list[p]),FontProperties = zhfont),size=9, weight='bold', color='red')
 82             plt.setp(ax[i][j].set_xlabel(u'%s'%(x_name_list[p]),FontProperties = zhfont), size=7, weight='bold', color='black')
 83             plt.setp(ax[i][j].set_ylabel(u'%s'%(y_name_list[p]),FontProperties = zhfont), size=7, weight='bold', color='black')
 84             p+=1
 85     # 添加图例
 86     ax[0][0].legend(handles=[didntLike, smallDoses, largeDoses])
 87     ax[0][1].legend(handles=[didntLike, smallDoses, largeDoses])
 88     ax[1][0].legend(handles=[didntLike, smallDoses, largeDoses])
 89     plt.savefig('.\\123.png', bbox_inches='tight')
 90     plt.show()
 91 
 92 # 对矩阵进行归一化处理
 93 def dataNorm(dataMat):
 94     """
 95     :param dataMat:
 96     :return: 归一化后的数据集
 97     归一化公式： Y = (X - Xmin)/(Xmax - Xmin)
 98     """
 99     # max(0) min(0) 求出每列的最大值和最小值
100     d_min = dataMat.min(0)
101     d_max = dataMat.max(0)
102     # 计算极差
103     d_ranges = d_max - d_min
104     # 创建输出矩阵
105     normDataSet = np.zeros(np.shape(dataMat))
106     print(normDataSet)
107     # 获得矩阵行数 .shape 获取矩阵的大小  3x3
108     m = dataMat.shape[0]
109     # 计算 (X - Xmin) 这部分 首先要创建Xmin矩阵 将d_min扩展到m行
110     # 需要使用np.tile 函数进行扩展   将d_min扩展成m行1列 变成m x 3 矩阵
111     normDataSet = dataMat - np.tile(d_min,(m,1))
112     print(normDataSet)
113     # 计算Y
114     normDataSet = normDataSet / np.tile(d_ranges,(m,1))
115 
116     print(normDataSet)
117     return normDataSet
118 
119 def classfy_fun(test_data, train_data, labels, k):
120     """
121 
122     :param test_data: 测试集
123     :param train_data: 训练集
124     :param labels: 训练集标签
125     :param k:  KNN 算法参数 选择距离最小的个数
126     :return:  分类结果
127     """
128     # 计算训练集的矩阵行数
129     train_size = train_data.shape[0]
130     # 接下来按照欧氏距离进行元素距离计算 公式
131     #     将测试集扩充成与训练集相同行数 求差
132     diffMat = np.tile(test_data,(train_size,1)) - train_data
133     # 将差值矩阵的每个元素平方
134     sq_diffMat = diffMat**2
135     # 差值平方矩阵每行元素相加 axis = 1 是按行相加
136     sum_diffMat = sq_diffMat.sum(axis = 1)
137     # 对新的求和矩阵进行开方 得到距离值
138     distances = sum_diffMat ** 0.5
139     # 获得距离值中从小到大值的索引
140     sorted_distant = distances.argsort()
141     # 定义一个字典 存放标签 与 出现的数量
142     class_count = {}
143     for i in range(k):
144         # 找出前k个距离值最小的对应标签
145         temp_label = labels[sorted_distant[i]]
146         # 将标签作为 key 存放到字典中 出现次数作为 value
147         class_count[temp_label] = class_count.get(temp_label,0) + 1
148     # 将字典按照value 大小进行排序
149     sort_class_count = sorted(class_count.items(),key = operator.itemgetter(1))
150     return sort_class_count[0][0]
151     pass
152 # 创建分类器函数
153 def dating_class_test():
154 
155     # 首先获取文件，将文件分成测试集和训练集
156     dating_Mat, dating_label = file2matric('datingdata.txt')
157     # 设置测试集的比例
158     test_ratio = 0.1
159     # 数据归一化
160     normMat = dataNorm(dating_Mat)
161     #获得矩阵的行数
162     m = normMat.shape[0]
163     # 计算测试集的数量
164     numTestData = int(m * test_ratio)
165     # 错误分类的数量
166     error_count = 0.0
167 
168     for i in range(numTestData):
169         class_result = classfy_fun(dating_Mat[i,:], dating_Mat[numTestData:m,:],
170                                    dating_label[numTestData:m],4 )
171         print("分类结果:%s,实际分类：%s"%(class_result,dating_label[i]))
172         if class_result != dating_label[i]:
173             error_count += 1
174     # print("错误识别的数量：%f" %error_count)
175     print("正确率：%f%% \n" %((1 - error_count / numTestData)*100))
176 
177 def main():
178     # reMat, label = file2matric('datingdata.txt')
179     # DrawScatter(reMat,label )
180     # dataNorm(reMat)
181     # 测试分类情况
182     dating_class_test()
183     pass
184 
185 
186 if __name__ =='__main__':
187     main()