独热编码的两种实现形式

2024-01-01 16:12

本文主要是介绍独热编码的两种实现形式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

独热编码的两种实现形式:

OneHotEncoderDictVectorizer是两种常用的特征向量化方法,用于将分类特征转换为数值特征。但还是有一定的区别不管是再输入格式还是在输出类型上都有一些不同。

区别:

  1. 输入格式要求:
    • OneHotEncoder:接受二维数组或稀疏矩阵作为输入。需要先对分类特征进行编码为整数标签,然后再使用OneHotEncoder进行转换。
    • DictVectorizer:接受字典列表或Pandas DataFrame作为输入。每个字典表示一个样本,键表示特征名称,值表示特征值。
  2. 输出类型:
    • OneHotEncoder:输出稀疏矩阵。对于大规模数据集和高维度特征,可以节省内存空间。
    • DictVectorizer:输出稠密矩阵。对于小规模数据集和低维度特征,输出的是一个数组。
  3. 处理缺失值:
    • OneHotEncoder:不直接处理缺失值,需要在进行编码之前对缺失值进行处理。
    • DictVectorizer:可以通过设置sparse=False参数将缺失值编码为0或使用其他指定的值。
  4. 特征名称的处理:
    • OneHotEncoder:不保留特征名称,只生成数值编码后的特征。
    • DictVectorizer:保留特征名称,可以通过get_feature_names()方法获取特征名称。

基础铺垫:

X.to_dict()这将返回一个字典,其中键是特征列的名称,值是特征列对应的 Series 对象。

import pandas as pddata = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}
df = pd.DataFrame(data)
print(df)
print(df.to_dict())# 字典套字典
print('-----------------')
print(df.to_dict(orient='records')) # 列表套字典

在这里插入图片描述

X.to_dict():

{'A': {0: 1, 1: 2, 2: 3},'B': {0: 4, 1: 5, 2: 6}}

X.to_dict(orient='records'):

[{'A': 1, 'B': 4},{'A': 2, 'B': 5},{'A': 3, 'B': 6}]

X.values.tolist()这将返回特征矩阵 X 的值作为一个二维列表。每一行代表一个样本,每一列代表一个特征。这种方法将DataFrame转换为一个二维列表,可以方便地在某些情况下使用,例如一些需要输入列表形式的机器学习算法。

import pandas as pddata = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}df = pd.DataFrame(data)
print(df)
print(df.values.tolist())

在这里插入图片描述

独热编码实现:

方法一:
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
data = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}df = pd.DataFrame(data)
print(df)
vectorizer = DictVectorizer(sparse=False)
# 注意需要将dataframe类型转化为键值对的形式
X_encoded = vectorizer.fit_transform(df.to_dict(orient='records')) 
print(X_encoded,type(X_encoded))

在这里插入图片描述

方法二:
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
data = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}df = pd.DataFrame(data)
print(df)X_list=df.values.tolist()
enc = OneHotEncoder()
# enc.fit_transform(X_list) 结果是csr_matrix稀疏矩阵类型
X_encoded=enc.fit_transform(X_list).toarray()
print(X_encoded,type(X_encoded))

在这里插入图片描述

总结:

​ 总的来说,OneHotEncoder适用于处理整数标签编码的分类特征,输出稀疏矩阵,不处理缺失值,并且需要显式拟合和转换数据。DictVectorizer适用于处理字典格式或DataFrame格式的分类特征,输出稠密矩阵,可以处理缺失值,并且不需要显式拟合。选择哪种方法取决于数据的特点和使用的上下文。

这篇关于独热编码的两种实现形式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/559806

相关文章

Java实现将byte[]转换为File对象

《Java实现将byte[]转换为File对象》这篇文章将通过一个简单的例子为大家演示Java如何实现byte[]转换为File对象,并将其上传到外部服务器,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言1. 问题背景2. 环境准备3. 实现步骤3.1 从 URL 获取图片字节数据3.2 将字节数组

Win32下C++实现快速获取硬盘分区信息

《Win32下C++实现快速获取硬盘分区信息》这篇文章主要为大家详细介绍了Win32下C++如何实现快速获取硬盘分区信息,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实现代码CDiskDriveUtils.h#pragma once #include <wtypesbase

Nginx实现前端灰度发布

《Nginx实现前端灰度发布》灰度发布是一种重要的策略,它允许我们在不影响所有用户的情况下,逐步推出新功能或更新,通过灰度发布,我们可以测试新版本的稳定性和性能,下面就来介绍一下前端灰度发布的使用,感... 目录前言一、基于权重的流量分配二、基于 Cookie 的分流三、基于请求头的分流四、基于请求参数的分

Python Excel实现自动添加编号

《PythonExcel实现自动添加编号》这篇文章主要为大家详细介绍了如何使用Python在Excel中实现自动添加编号效果,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍简单的说,就是在Excel中有一列h=会有重复

MySQL的隐式锁(Implicit Lock)原理实现

《MySQL的隐式锁(ImplicitLock)原理实现》MySQL的InnoDB存储引擎中隐式锁是一种自动管理的锁,用于保证事务在行级别操作时的数据一致性和安全性,本文主要介绍了MySQL的隐式锁... 目录1. 背景:什么是隐式锁?2. 隐式锁的工作原理3. 隐式锁的类型4. 隐式锁的实现与源代码分析4

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

MySQL中Next-Key Lock底层原理实现

《MySQL中Next-KeyLock底层原理实现》Next-KeyLock是MySQLInnoDB存储引擎中的一种锁机制,结合记录锁和间隙锁,用于高效并发控制并避免幻读,本文主要介绍了MySQL中... 目录一、Next-Key Lock 的定义与作用二、底层原理三、源代码解析四、总结Next-Key L

Java中数组转换为列表的两种实现方式(超简单)

《Java中数组转换为列表的两种实现方式(超简单)》本文介绍了在Java中将数组转换为列表的两种常见方法使用Arrays.asList和Java8的StreamAPI,Arrays.asList方法简... 目录1. 使用Java Collections框架(Arrays.asList)1.1 示例代码1.

Redis实现RBAC权限管理

《Redis实现RBAC权限管理》本文主要介绍了Redis实现RBAC权限管理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1. 什么是 RBAC?2. 为什么使用 Redis 实现 RBAC?3. 设计 RBAC 数据结构

SpringBoot基于沙箱环境实现支付宝支付教程

《SpringBoot基于沙箱环境实现支付宝支付教程》本文介绍了如何使用支付宝沙箱环境进行开发测试,包括沙箱环境的介绍、准备步骤、在SpringBoot项目中结合支付宝沙箱进行支付接口的实现与测试... 目录一、支付宝沙箱环境介绍二、沙箱环境准备2.1 注册入驻支付宝开放平台2.2 配置沙箱环境2.3 沙箱