【机器学习】k近邻（k-nearest neighbor ）算法

本文主要是介绍【机器学习】k近邻（k-nearest neighbor ）算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

0. 前言
1. 算法原理
- 1.1 距离度量
- 1.2 参数k的选择
2. 优缺点及适用场景
3. 改进和扩展
4. 案例
5. 总结

0. 前言

k近邻（k-nearest neighbors，KNN）算法是一种基本的监督学习算法，用于分类和回归问题。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。

1. 算法原理

给定一个训练数据集，KNN算法通过计算待分类样本与训练数据集中各个样本的距离，选取距离最近的k个样本，然后根据这k个样本的类别进行投票（分类问题）或者求平均值（回归问题），以确定待分类样本的类别或者值。

注：分类问题中常使用多数表决作为决策规则，回归问题中常使用平均或加权平均作为决策规则

1.1 距离度量

距离度量在机器学习和数据挖掘领域中是一项基础且至关重要的工作。它用于衡量数据集中样本之间的相似性或差异性。在KNN算法中，距离度量被用来衡量待分类样本与训练数据集中各个样本之间的距离，以便确定最近的邻居。KNN算法常用的距离度量方法包括欧氏距离和曼哈顿距离。

欧氏距离（Euclidean Distance）
欧氏距离是最常见的距离度量方法之一，也是我们通常所理解的“直线距离”。对于两个样本向量 $\mathbf{p}=(p_1, p_2, ...,p_n)$ 和 $\mathbf{q}=(q_1, q_2, ...,q_n)$ ，它们之间的欧氏距离可以表示为：
$d(\mathbf{p}, \mathbf{q}) = \sqrt{\sum_{i=1}^{n}(p_i - q_i)^2}$
曼哈顿距离（Manhattan Distance）
曼哈顿距离又称为城市街区距离，它是两个点在标准坐标系上的绝对轴距总和。两个样本向量之间的曼哈顿距离可以表示为： $d(\mathbf{p}, \mathbf{q}) = \sum_{i=1}^{n}|p_i - q_i|$

1.2 参数k的选择

选择适当的 k 值对 K 近邻算法的性能至关重要。选择 k 值时，需要权衡模型的复杂度和泛化能力，通常通过交叉验证等方法来确定。

下面是一些常见的选择 k 值的方法：

经验法：选择一个较小的 k 值，例如 3 或 5。这种方法适用于较小的数据集和较简单的问题
奇数选择：为了避免平局情况的发生，通常选择奇数的 k 值，这样在进行投票时可以避免平票的情况
交叉验证：通过交叉验证来选择最优的 k 值。可以采用 k 折交叉验证，将训练数据集划分为 k 个子集，每次将其中一个子集作为验证集，其余子集作为训练集，重复 k 次计算模型的性能指标（如准确率、F1 分数等），然后选取性能最好的 k 值
网格搜索：结合交叉验证，使用网格搜索方法在指定范围内搜索最优的 k 值。通过在给定的 k 值范围内进行搜索，并评估每个 k 值的性能，最终选择性能最好的 k 值。
调整邻域大小：对于特定问题，可能需要调整邻域的大小，即样本点在特征空间中的密度。可以通过逐步增加或减少 k 值来探索模型的性能变化。

在实践中，选择 k 值时需要考虑数据集的大小、类别分布、特征的数量和类型等因素。较大的 k 值会使模型更加平滑，减少噪声的影响，但可能导致模型欠拟合；而较小的 k 值可能会使模型更加复杂，容易受到局部极值点的影响，但也更容易受到噪声的干扰。因此，选择合适的 k 值需要在模型的泛化能力和准确性之间进行权衡。