白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九)

2023-11-22 12:08

本文主要是介绍白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

设想一下,你正在预测接下来总统选举”我将要选择谁”,如果你不知道关于我的任何信息,一个合乎情理的方法是看我的邻居计划投谁,我们居住在西雅图,我的邻居一定按着计划投给Democratic候选人,这个暗示”Democratic候选人”对我也是个不错的猜想。

设想你知道更多关于我的信息,而不只是地理信息,也许你知道我的年龄、收入、我有几个孩子等等,这些特性扩大了影响我的行为,观察跟我这些特性相似的邻居们做出的选择,来预测我的选择,比观察我的所有邻居要更加靠谱,这个思想就是最近邻分类器(nearest neighbors classification)。

模型(The Model)

最近邻模型是最简单预测模型之一,它没有数学假设,不需要任何排序,只需要一下两点:
* 距离的概念;
* 假设一个点和另外一个临近的点是相似的。

我们在整个章节中所看到的大多数技术都是对覆盖整个数据集上,目的在数据集上学习模型。然而另一方面,最近邻有意识的忽略了很多信息,这是因为,每个新的点预测只依赖离它最近的极少数点。

而且,最近邻模型不可能让你理解你正在观察的现象(特征)为什么驱动模型选择这样一个结果。基于我的邻居的投票来预测我的投票,不会告诉你是什么原因引起我的投票方式。

一般情况,我们有一些数据点并且这些数据点对应着标签,这些标签可能是True或者False,暗示每个输入满足一定条件下为”是垃圾邮件”或者”是有毒的”,或者是一些名目属性标签,像电影的评级(G,PG,PG-13,NC-17)。或者是总统候选人的名字,或者是最喜爱的程序语言。

在我们的例子中,数据点是一些向量,这个意味着我们可以使用距离函数(线性代数篇中有介绍)。

为了做这个,我们需要一个函数计数投票结果:

def raw_majority_vote(labels):votes = Counter(labels)winner, _ = votes.most_common(1)[0]return winner

但是这个没有做任何智能的绑定。例如,设想一下我们正在评级电影,5个电影评级为G,G,PG,PG和R,那么G有2个票数,PG也有2个票数,这种情况下,我们有几个选择:
* 随机选择其中一个;
* 根据距离加权重,选择距离大的为winner;
* 减少k值,直到我们找到唯一的winner。

我们会实现第3种方法:

def majority_vote(labels):"""assumes that labels are ordered from nearest to farthest"""vote_counts = Counter(labels)winner, winner_count = vote_counts.most_common(1)[0]num_winners = len([countfor count in vote_counts.values()if count == winner_count])if num_winners == 1:return winner # unique winner, so return itelse:return majority_vote(labels[:-1]) # try again without the farthest

这个方法很有效,因此,在最坏的情况下,我们一直去掉一个数据点,直到最后只有一个label赢了:

def knn_classify(k, labeled_points, new_point):"""each labeled point should be a pair (point, label)"""# order the labeled points from nearest to farthestby_distance = sorted(labeled_points,# find the labels for the k closestk_nearest_labels = [label for _, label in by_distance[:k]]# and let them votereturn majority_vote(k_nearest_labels)

接下来,让我们看如何在实际中应用它。

这篇关于白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/410023

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

MySQL使用binlog2sql工具实现在线恢复数据功能

《MySQL使用binlog2sql工具实现在线恢复数据功能》binlog2sql是大众点评开源的一款用于解析MySQLbinlog的工具,根据不同选项,可以得到原始SQL、回滚SQL等,下面我们就来... 目录背景目标步骤准备工作恢复数据结果验证结论背景生产数据库执行 SQL 脚本,一般会经过正规的审批