【小白啃书】统计学习方法(李航第二版)代码实现 (C++) 之 2.K近邻(1)

2023-11-21 12:20

本文主要是介绍【小白啃书】统计学习方法(李航第二版)代码实现 (C++) 之 2.K近邻(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【统计学习方法(C++)】 K近邻(1)遍历法

  • K近邻
    • 写在前面(可以不看)
    • 算法原理
    • 训练
    • 判断标签值
      • 计算距离
      • 根据距离排序
      • 统计标签数量
      • 将标签赋给待分类样本
    • 调用这个函数
    • 运行结果
    • 一些说明

本文仅梳理总结自己在学习过程中的一些理解和思路,水平有限,理解粗鄙浅薄且不一定正确。文章所有观点均不保证绝对正确,请酌情参考。如果各位朋友发现任何错误请及时告诉我,大家一起讨论共同提高。
(不要问我为什么用C++写机器学习,问就是导师要求的)
希望我不鸽,咕咕

相关内容
0.导入数据
1.感知机

K近邻

写在前面(可以不看)

上一篇刚刚说过面向对象的思维不强的问题,写本次的程序的时候就切切实实地深受其害了。上课的时候老师曾经做过这样一个比方,一个对象就仿佛一个完整的人,有鼻子有眼睛有手,能说话能吃饭能跳舞。面向对象的方法要求我们在代码中,饭吃进嘴里,嘴连着喉管,把饭送进肠胃,而不是直接打开这个人的肠胃把食物塞进去,吃个饭都要拎着肠子到处乱跑。这次的代码让我切实地体会到了这种“拎着肠子满街乱跑”的感觉,无法拆分成独立的函数,更将某些部分无法移植到其他代码中使用,整个代码像一团乱码搅在一起竟然也实现了功能,就也还挺“鹅妹子嘤”的。
在本文中,我会把原本的代码贴上来,而在KNN(2)中则会放上修改过后的代码,以便让大家直观地感受一些两者之间的区别,也许会对大家更好地理解“面向对象”这一概念有些许帮助。

算法原理

网上总结太多了,书上也讲的详细,不多赘述。简而言之就是:

  • 我离哪个(或k个)样本最近,我的标签就跟谁一样

当距离最近的k个样本标签不同的时候,通常选择少数服从多数的方法确定最后的标签。

训练

很显然,K近邻算法中不涉及训练,k为超参数,需要不断实验寻找效果最好的k值(所谓调参)

判断标签值

步骤如下

  • 计算与每个样本的的距离
  • 按距离排序
  • 统计与待定样本点最近的K个样本的标签数量
  • 最多的标签即视为待定样本点的标签

计算距离

计算距离使用的为欧氏距离,其计算公式为

d = sqrt( (x1-x2)2+(y1-y2)2 )

for (auto iter : Sample_feature){for (int i = 0; i < feature_num; i++){dis += pow((it_test.first[i] - iter.second[i]), 2);}dis = sqrt(dis);distance.insert(map<int, double>::value_type(iter.first, dis));}

这段代码中用到的pow(平方)函数和sqrt(开方)函数需要包括头文件cmath

#include<cmath>

根据距离排序

map一般会默认按照键值进行排序,而我们这里需要的确是按照值的大小进行排序,以便筛选出距离代求的样本点最近的K个样本。直接对map的value进行相对来说复杂,一般常用的方法是将map放入vector中,利用vector的sort函数进行排序。
将map中的内容放入vector

for (map<int, double>::iterator it = distance.begin(); it != distance.end(); it++){vec_distance.push_back(pair<int, double>(it->first, it->second));}

sort函数的参数有三个,sort(begin, end, storFun),分别为排序的起始位,终止位和排序方式。第三个参数缺省时默认从大到小排列,其他特殊的排序方式需要单独构建排序函数进行说明。我们这里的排序方式为按照vector的second项进行排序。

bool storFun(pair<int, double> a, pair<int, double> b)
{return a.second < b.second;
}

在此基础上,排序只需要一行代码就可以实现

		sort(vec_distance.begin(), vec_distance.end(), storFun); //从大到小排序

统计标签数量

遍历前k项并统计其标签。特别的,map可以通过键值直接索引,当所查找的键值在map中不存在时还会自动增加此键值,这就给我们的统计带来了方便。我们不需要先得知总共出现了哪些标签值,只需要一行代码就可以完成标签的计数。

			map_label_freq[label]++;

当程序读取到标签值时,会将map中对应的计数结果(value)加一,若map中没有这个标签,则会添加这个标签为新的键值。

将标签赋给待分类样本

通过遍历计数结果map来找到出现次数最多的标签,完成样本的分类。

for (auto it_map : map_label_freq){if (it_map.second>max_freq){max_freq = it_map.second;label = it_map.first;}}

调用这个函数

可以看到,我并没有写输出结果的代码(因为想偷懒),所以在KNN函数的最后我打了一个断点以便查看运行结果。

因为前面讲过的原因,整个代码中除了读取数据只有KNN一个功能函数,各种数据纠缠在一起,极度混乱:<

运行结果

在这里插入图片描述
最后的数字1为分类的正确率(虽然数据集是我自己写的在学习过程中这个数字并没有什么意义)

一些说明

为了方便大家看这个代码有多屎,我把这个代码完整复制在这里,如果对这一部分不感兴趣这篇文章阅读到这里就结束了。
结构更加清晰的程序我会在(2)中继续贴出来(如果我写得出来的话)

typedef string TLabel;
typedef double TFeature;
ifstream fin;
ofstream fout;bool storFun(pair<int, double> a, pair<int, double> b){……}int data_read(map<vector<TFeature>, TLabel> &Sample, string data_add, int &sample_num){……}void Sample_data_read(map<int, vector<TFeature>> &Sample_feature, map<int, TLabel>&Sample_label, map<vector<TFeature>, TLabel> &Sample, string data_add, int &sample_num){……}void KNN(int k)
{string data_add = ("F:\\learning ML\\KNN\\data.txt");string test_add = ("F:\\learning ML\\KNN\\test.txt");int feature_num = 0;int sample_num = 0;int test_sample_num = 0;double accuracy = 0;map<vector<TFeature>, TLabel> Sample;map<vector<TFeature>, TLabel> Test_Sample;map<int, vector<TFeature>> Sample_feature;map<int, TLabel>Sample_label;Sample_data_read(Sample_feature, Sample_label, Sample, data_add, sample_num);feature_num = data_read(Test_Sample, test_add, test_sample_num);//计算距离for (auto it_test : Test_Sample){double dis = 0;int index = 0;map<int, double> distance;vector<pair<int, double>> vec_distance;map<TLabel, int> map_label_freq;vector<pair<TLabel, int>>vec_label_freq;for (auto iter : Sample_feature){for (int i = 0; i < feature_num; i++){dis += pow((it_test.first[i] - iter.second[i]), 2);}dis = sqrt(dis);distance.insert(map<int, double>::value_type(iter.first, dis));}for (map<int, double>::iterator it = distance.begin(); it != distance.end(); it++){vec_distance.push_back(pair<int, double>(it->first, it->second));}sort(vec_distance.begin(), vec_distance.end(), storFun); //从大到小排序TLabel label;//统计分类for (int i = 0; i < k; i++){index = vec_distance[i].first;label = Sample_label[index];map_label_freq[label]++;}int max_freq = 0;for (auto it_map : map_label_freq){if (it_map.second>max_freq){max_freq = it_map.second;label = it_map.first;}}cout << "The test data belongs to the " << label << " label" << endl;if (label == it_test.second){accuracy++;}}accuracy = accuracy / test_sample_num;cout << accuracy << endl;system("pause");
}int main()
{int k;cout << "please input the k value : " << endl;cin >> k;KNN(k);}

源码和用到的数据集我打包放在KNN(1)
在这里插入图片描述

最后,错误及有待改进之处,希望各位大佬不吝赐教。

这篇关于【小白啃书】统计学习方法(李航第二版)代码实现 (C++) 之 2.K近邻(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/402306

相关文章

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

C++右移运算符的一个小坑及解决

《C++右移运算符的一个小坑及解决》文章指出右移运算符处理负数时左侧补1导致死循环,与除法行为不同,强调需注意补码机制以正确统计二进制1的个数... 目录我遇到了这么一个www.chinasem.cn函数由此可以看到也很好理解总结我遇到了这么一个函数template<typename T>unsigned

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Nginx部署HTTP/3的实现步骤

《Nginx部署HTTP/3的实现步骤》本文介绍了在Nginx中部署HTTP/3的详细步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前提条件第一步:安装必要的依赖库第二步:获取并构建 BoringSSL第三步:获取 Nginx

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函