sklearn.preprocessing中的标准化StandardScaler与scale的区别

2024-01-30 13:52

本文主要是介绍sklearn.preprocessing中的标准化StandardScaler与scale的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

StandardScaler与scale

    • 1、标准化概述
    • 2、两种标准化的区别



1、标准化概述


标准化主要用于对样本数据在不同特征维度进行伸缩变换,目的是使得不同度量之间的特征具有可比性,同时不改变原始数据的分布

一些机器学习算法对输入数据的规模和量纲非常敏感,如果输入数据的特征之间存在数量级差异,可能会影响算法的准确性和性能

标准化处理的好处是我们在进行特征提取时,可以忽略不同特征之间由于噪声所导致的度量差异,而保留样本在各个维度上的信息分布,提高算法的准确性和性能,增加数据的可解释性

标准化的过程如下:

  • 计算数据列的算数平均值(mean)
  • 计算数据列的标准差/方差(std)
  • 对每个数据列分别进行转化:(X-mean)/std

sklearn.preprocessing提供了两种直接对给定数据进行标准化的方式:scale()函数和StandardScaler类,它们之间有什么区别呢?

2、两种标准化的区别


1)scale()函数

import numpy as np
from sklearn.preprocessing import scale, StandardScaler# A、scale(X, axis)函数:axis:用来计算均值和标准差的轴,默认0,对每个特征进行标准化(列),1为对每个样本进行标准化(行)
# 样本数据
X = np.array([[1, -1, 2], [2, 1, 0]])
# 直接标准化处理
X_scaled = scale(X)
print(X_scaled)
'''
[[-1. -1.  1.][ 1.  1. -1.]]
'''
# 处理后数据的均值和方差
print(X_scaled.mean(axis=0))    # [0. 0. 0.]
print(X_scaled.std(axis=0))     # [1. 1. 1.]

2)StandardScaler类

# B、StandardScaler类
ss = StandardScaler()
# 标准化处理,如果在训练集上进行标准化,同时可以使用保存在训练集中的参数(均值、方差)对测试集数据进行转化
X_scaled = ss.fit_transform(X)
print(X_scaled)
'''
[[-1. -1.  1.][ 1.  1. -1.]]
'''
# 处理后数据的均值和方差
print(X_scaled.mean())    # 0.0
print(X_scaled.std())     # 1.0
# 使用训练集标准化后的均值和方差对测试集数据进行转换
print(ss.transform([[-1, 2, 0]]))
'''
[[-5.  2. -1.]]
'''

StandardScaler类与scale函数标准化的区别总结如下:

  • scale()函数:不能将原数据集(训练集)的均值和方差应用到新的数据集(测试集),如果使用全部样本,标准化计算的结果是训练集和测试集共同的期望和方差
  • StandardScaler类:可以将原数据集(训练集)的均值和方差应用到新的数据集(测试集),即假设训练集的期望和测试集的期望是一样的,测试集的标准化是用的训练集的期望和方差

在机器学习中,我们通常是从整体中以抽样的方式抽出训练集,这意味着我们默认这部分训练集可以代替整体,也就是训练集的期望就是整体的期望,测试集标准化时,它的期望采用的正是训练集的期望,所以StandardScaler类才是我们经常用的方式

更多关于StandardScaler类的使用见文章:传送门



这篇关于sklearn.preprocessing中的标准化StandardScaler与scale的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/660454

相关文章

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

CSS Padding 和 Margin 区别全解析

《CSSPadding和Margin区别全解析》CSS中的padding和margin是两个非常基础且重要的属性,它们用于控制元素周围的空白区域,本文将详细介绍padding和... 目录css Padding 和 Margin 全解析1. Padding: 内边距2. Margin: 外边距3. Padd

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

分辨率三兄弟LPI、DPI 和 PPI有什么区别? 搞清分辨率的那些事儿

《分辨率三兄弟LPI、DPI和PPI有什么区别?搞清分辨率的那些事儿》分辨率这个东西,真的是让人又爱又恨,为了搞清楚它,我可是翻阅了不少资料,最后发现“小7的背包”的解释最让我茅塞顿开,于是,我... 在谈到分辨率时,我们经常会遇到三个相似的缩写:PPI、DPI 和 LPI。虽然它们看起来差不多,但实际应用

GORM中Model和Table的区别及使用

《GORM中Model和Table的区别及使用》Model和Table是两种与数据库表交互的核心方法,但它们的用途和行为存在著差异,本文主要介绍了GORM中Model和Table的区别及使用,具有一... 目录1. Model 的作用与特点1.1 核心用途1.2 行为特点1.3 示例China编程代码2. Tab

Nginx指令add_header和proxy_set_header的区别及说明

《Nginx指令add_header和proxy_set_header的区别及说明》:本文主要介绍Nginx指令add_header和proxy_set_header的区别及说明,具有很好的参考价... 目录Nginx指令add_header和proxy_set_header区别如何理解反向代理?proxy

Java中&和&&以及|和||的区别、应用场景和代码示例

《Java中&和&&以及|和||的区别、应用场景和代码示例》:本文主要介绍Java中的逻辑运算符&、&&、|和||的区别,包括它们在布尔和整数类型上的应用,文中通过代码介绍的非常详细,需要的朋友可... 目录前言1. & 和 &&代码示例2. | 和 ||代码示例3. 为什么要使用 & 和 | 而不是总是使

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程

Spring中@RestController和@Controller的使用及区别

《Spring中@RestController和@Controller的使用及区别》:本文主要介绍Spring中@RestController和@Controller的使用及区别,具有很好的参考价... 目录Spring中@RestController和@Controller使用及区别1. 基本定义2. 使