本文主要是介绍白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
设想一下,你正在预测接下来总统选举”我将要选择谁”,如果你不知道关于我的任何信息,一个合乎情理的方法是看我的邻居计划投谁,我们居住在西雅图,我的邻居一定按着计划投给Democratic候选人,这个暗示”Democratic候选人”对我也是个不错的猜想。
设想你知道更多关于我的信息,而不只是地理信息,也许你知道我的年龄、收入、我有几个孩子等等,这些特性扩大了影响我的行为,观察跟我这些特性相似的邻居们做出的选择,来预测我的选择,比观察我的所有邻居要更加靠谱,这个思想就是最近邻分类器(nearest neighbors classification)。
模型(The Model)
最近邻模型是最简单预测模型之一,它没有数学假设,不需要任何排序,只需要一下两点:
* 距离的概念;
* 假设一个点和另外一个临近的点是相似的。
我们在整个章节中所看到的大多数技术都是对覆盖整个数据集上,目的在数据集上学习模型。然而另一方面,最近邻有意识的忽略了很多信息,这是因为,每个新的点预测只依赖离它最近的极少数点。
而且,最近邻模型不可能让你理解你正在观察的现象(特征)为什么驱动模型选择这样一个结果。基于我的邻居的投票来预测我的投票,不会告诉你是什么原因引起我的投票方式。
一般情况,我们有一些数据点并且这些数据点对应着标签,这些标签可能是True或者False,暗示每个输入满足一定条件下为”是垃圾邮件”或者”是有毒的”,或者是一些名目属性标签,像电影的评级(G,PG,PG-13,NC-17)。或者是总统候选人的名字,或者是最喜爱的程序语言。
在我们的例子中,数据点是一些向量,这个意味着我们可以使用距离函数(线性代数篇中有介绍)。
为了做这个,我们需要一个函数计数投票结果:
def raw_majority_vote(labels):votes = Counter(labels)winner, _ = votes.most_common(1)[0]return winner
但是这个没有做任何智能的绑定。例如,设想一下我们正在评级电影,5个电影评级为G,G,PG,PG和R,那么G有2个票数,PG也有2个票数,这种情况下,我们有几个选择:
* 随机选择其中一个;
* 根据距离加权重,选择距离大的为winner;
* 减少k值,直到我们找到唯一的winner。
我们会实现第3种方法:
def majority_vote(labels):"""assumes that labels are ordered from nearest to farthest"""vote_counts = Counter(labels)winner, winner_count = vote_counts.most_common(1)[0]num_winners = len([countfor count in vote_counts.values()if count == winner_count])if num_winners == 1:return winner # unique winner, so return itelse:return majority_vote(labels[:-1]) # try again without the farthest
这个方法很有效,因此,在最坏的情况下,我们一直去掉一个数据点,直到最后只有一个label赢了:
def knn_classify(k, labeled_points, new_point):"""each labeled point should be a pair (point, label)"""# order the labeled points from nearest to farthestby_distance = sorted(labeled_points,# find the labels for the k closestk_nearest_labels = [label for _, label in by_distance[:k]]# and let them votereturn majority_vote(k_nearest_labels)
接下来,让我们看如何在实际中应用它。
这篇关于白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!