【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch)

2024-08-21 14:28

本文主要是介绍【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简单的数据预处理(pytorch)

读取数据集

创建一个简单的CSV文件,并使用Python中的Pandas库加载并读取这个文件的数据

  1. 创建CSV文件并写入数据

    import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)  # 创建文件夹路径
    data_file = os.path.join('..', 'data', 'house_tiny.csv')  # 指定CSV文件的路径
    with open(data_file, 'w') as f:  # 打开文件进行写操作f.write('NumRooms,Alley,Price\n')  # 写入列名f.write('NA,Pave,127500\n')  # 写入数据行f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')
    
    • 这段代码首先创建了一个新的目录(如果不存在的话),然后在该目录下创建了一个名为house_tiny.csv的文件。
    • 文件内容包括三列:NumRooms(房间数),Alley(巷子类型),和Price(房价)。共写入了4行数据。
  2. 读取CSV文件

    import pandas as pddata = pd.read_csv(data_file)  # 使用Pandas读取CSV文件
    print(data)  # 打印读取的数据
    
    • pandas 是一个强大的数据分析库,read_csv 是其提供的用于读取CSV文件的函数。
    • 读取后的数据以DataFrame的形式存储并打印出来。
  3. 输出结果

    • 读取数据后,你会得到如下表格形式的输出:
        NumRooms Alley   Price
      0       NaN  Pave  127500
      1       2.0   NaN  106000
      2       4.0   NaN  178100
      3       NaN   NaN  140000
      
    • 其中,NaN 表示缺失值。

这个例子展示了如何创建一个简单的数据集,保存为CSV文件并使用Pandas读取它。这样的技术在数据科学和机器学习领域非常常见,用于准备和探索数据。

处理缺失值

处理数据中的缺失值,并将类别数据转换为适合模型训练的形式。

# 分割数据为输入和输出部分
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]  # inputs包含前两列,outputs包含最后一列# 处理数值列中的缺失值,用该列的均值填充
numeric_inputs = inputs.select_dtypes(include=['float64', 'int64'])  # 选择数值列
numeric_inputs = numeric_inputs.fillna(numeric_inputs.mean())  # 使用均值填充数值列中的NaN值# 处理类别数据的缺失值并进行独热编码
categorical_inputs = inputs.select_dtypes(exclude=['float64', 'int64'])  # 选择非数值列
categorical_inputs = pd.get_dummies(categorical_inputs, dummy_na=True)  # 使用独热编码处理类别列,并将NaN视为一个类别# 将数值列和处理后的类别列合并
inputs = pd.concat([numeric_inputs, categorical_inputs], axis=1)
print("\nProcessed Inputs:\n", inputs)  # 打印处理后的输入数据

转化为张量

经过处理的inputsoutputs数据转换为PyTorch张量,以便在后续的操作中使用PyTorch的张量操作。

  1. 转换数据为NumPy数组

    • inputs.to_numpy(dtype=float)outputs.to_numpy(dtype=float) 将Pandas DataFrame中的数据转换为NumPy数组,同时确保数据类型为float
  2. 将NumPy数组转换为PyTorch张量

    • torch.tensor(inputs.to_numpy(dtype=float))torch.tensor(outputs.to_numpy(dtype=float)) 将NumPy数组转换为PyTorch的张量(tensor),从而使这些数据可以被PyTorch进一步操作。

以下是完整的代码:

import torch# 将inputs和outputs数据转换为NumPy数组,并转换为PyTorch张量
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))# 打印输出张量
print(X)
print(y)

输出结果

tensor([[3., 1., 0.],[2., 0., 1.],[4., 0., 1.],[3., 0., 1.]], dtype=torch.float64)tensor([127500., 106000., 178100., 140000.], dtype=torch.float64)

解释

  • X 是输入数据转换后的张量,包含房间数(NumRooms)、巷子类型Alley_PaveAlley_nan的one-hot编码结果。
  • y 是输出数据转换后的张量,包含房价Price

完整代码

import os
import pandas as pd# 创建文件夹并写入CSV文件
os.makedirs(os.path.join('..', 'data'), exist_ok=True)  # 创建保存数据的目录
data_file = os.path.join('..', 'data', 'house_tiny.csv')  # 指定CSV文件的路径
with open(data_file, 'w') as f:  # 打开文件进行写操作f.write('NumRooms,Alley,Price\n')  # 写入列名f.write('NA,Pave,127500\n')  # 写入数据行1f.write('2,NA,106000\n')  # 写入数据行2f.write('4,NA,178100\n')  # 写入数据行3f.write('NA,NA,140000\n')  # 写入数据行4# 读取CSV文件
data = pd.read_csv(data_file)  # 使用Pandas读取CSV文件
print("Original Data:\n", data)  # 打印原始数据# 分割数据为输入和输出部分
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# inputs包含前两列,outputs包含最后一列# 处理数值列中的缺失值,用该列的均值填充
numeric_inputs = inputs.select_dtypes(include=['float64', 'int64'])
# 选择数值列
numeric_inputs = numeric_inputs.fillna(numeric_inputs.mean())
# 使用均值填充数值列中的NaN值# 处理类别数据的缺失值并进行独热编码
categorical_inputs = inputs.select_dtypes(exclude=['float64', 'int64'])
# 选择非数值列
categorical_inputs = pd.get_dummies(categorical_inputs, dummy_na=True)
# 使用独热编码处理类别列,并将NaN视为一个类别# 将数值列和处理后的类别列合并
inputs = pd.concat([numeric_inputs, categorical_inputs], axis=1)
print("\nProcessed Inputs:\n", inputs)  # 打印处理后的输入数据import torch# 将inputs和outputs数据转换为NumPy数组,并转换为PyTorch张量
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))# 打印输出张量
print(X)
print(y)

这篇关于【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093412

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

Goland debug失效详细解决步骤(合集)

《Golanddebug失效详细解决步骤(合集)》今天用Goland开发时,打断点,以debug方式运行,发现程序并没有断住,程序跳过了断点,直接运行结束,网上搜寻了大量文章,最后得以解决,特此在这... 目录Bug:Goland debug失效详细解决步骤【合集】情况一:Go或Goland架构不对情况二:

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首