机器学习的敲门砖：kNN算法（下

本文主要是介绍机器学习的敲门砖：kNN算法（下，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

plt.scatter(X2[:,0],X2[:,1])

plt.show()

640?wx_fmt=jpeg

计算其均值/方差

np.mean(X2[:,0])

np.std(X2[:,1])

首先我们来看一个在实际使用归一化时的一个小陷阱。

我们在建模时要将数据集划分为训练数据集&测试数据集。

训练数据集进行归一化处理，需要计算出训练数据集的均值mean_train和方差std_train。

问题是：我们在对测试数据集进行归一化时，要计算测试数据的均值和方差么？

答案是否定的。在对测试数据集进行归一化时，仍然要使用训练数据集的均值train_mean和方差std_train。这是因为测试数据是模拟的真实环境，真实环境中可能无法得到均值和方差，对数据进行归一化。只能够使用公式(x_test - mean_train) / std_train

因此我们要保存训练数据集中得到的均值和方差。

在sklearn中专门的用来数据归一化的方法：StandardScaler。

下面我们加载鸢尾花数据集

import numpy as npfrom sklearn import datasetsfrom sklearn.model_selection import train_test_split

iris = datasets.load_iris()

X = iris.data

y = iris.target

X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=666)

使用数据归一化的方法：

from sklearn.preprocessing import StandardScaler

standardScaler = StandardScaler()# 归一化的过程跟训练模型一样standardScaler.fit(X_train)

standardScaler.mean_

standardScaler.scale_ # 表述数据分布范围的变量，替代std_# 使用transformX_train_standard = standardScaler.transform(X_train)

X_test_standard = standardScaler.transform(

这篇关于机器学习的敲门砖：kNN算法（下的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！