【动手学深度学习】04 数据操作 + 数据预处理(个人向笔记)

2024-09-08 00:04

本文主要是介绍【动手学深度学习】04 数据操作 + 数据预处理(个人向笔记),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据操作

  • N维数组是机器学习和神经网络的主要数据结构
  • 其中 2-d 矩阵中每一行表示每一行表示一个样本
    在这里插入图片描述
  • 当维度来到三维的时候则可以表示成一张图片,再加一维就可以变成多张图片,再加一维则可以变成一个视频
    在这里插入图片描述

访问元素

  • 冒号表示从冒号左边的元素到冒号右边的前一个元素(开区间),其中如果左边为空,那么表示从第一个开始,如果右边为空,那么表示访问到最后一个,如果两边都为空,则表示全部访问
  • 其中一行中我们指定了第一行:1,然后我们想要第一行的所有元素,所以我们把列冒号左右两边的元素都设置为空
  • 下图的列的标注有误,应该为:[:,1]
  • 其中还可以再添加一个冒号,表示访问的间隔,如最后一个示例所示:两个冒号后面的3表示下一次访问+3,两个冒号后面的2表示下一次访问+2
    在这里插入图片描述

数据操作实现

  • 张量(tensor): 一个数值组成的数组,这个数组可能有多个维度,如下图所示是一个一维的,长度为12的向量
  • 把变量放在jupyter的最后一行可以直接把它打印出来

在这里插入图片描述

  • 可以通过 shape 来访问张量的形状和张量中元素的总数,下图所示表示向量的维度为一,有 12 个元素
  • numel 为 number of element 表示总共有 12 个元素
    在这里插入图片描述
  • 可以通过 reshape 来更改张量的形状而不改变元素的个数
    在这里插入图片描述
  • zeros: 创造全 0 的张量
  • ones: 创造全1的张量
  • 2,3,4 可以理解成 2 个通道,3*4 的矩阵。也可以理解为 2 个,3 行,4 列
    在这里插入图片描述
  • 还可以传入列表来生成张量,需要把全部列表都包含在一个列表里面传入:
    在这里插入图片描述
  • 常见的标准运算符:+, -, *, /, ** 都可以被视为tensor间的按元素运算
    在这里插入图片描述
  • 可以用 cat 来进行指定维度的张量连接
    在这里插入图片描述
  • 可以通过逻辑运算符构建二元张量
    在这里插入图片描述
  • 可以对所有元素求和生成一个只有一个元素的张量
    在这里插入图片描述
  • 张量的广播机制: 一个在实际运用中很容易出错的地方。当两个张量的维度相同且两个张量都有一个是一维的,但是每一维的元素数量不同时,数量较少的那个张量会进行复制自己到和数量较大的数量相同后运算。
  • 下图第一维 b 的数量较少,于是 b 又额外复制了两个 [0. 1] 到第一维参与运算。而第二维 a 的数量较少,于是 a 的每个都复制了自身变成了 [0, 0], [1, 1], [2, 2]
    在这里插入图片描述
  • 我们可以指定索引来读取的修改张量:
    在这里插入图片描述
  • 张量操作的内存相关内容: 其中 id 是类似 c 语言指针的东西。下面的第一段代码表示直接用一个相同名字的变量来接收的话是会开辟新的内存的,即使它们名字一样。但是如果是指定所有元素[ : ]的话则不会
    在这里插入图片描述
  • 所以如果后续没有再使用 X 的话,可以用 X[ : ] 来进行操作来减少内存的开销:
    在这里插入图片描述
  • 可以用numpy的数组来构建张量:
    在这里插入图片描述
  • 可以将大小为 1 的张量转化为 python 中的标量:
    在这里插入图片描述

数据预处理实现

  • 课堂代码如下:
    在这里插入图片描述
  • 其中沐神并未解释前面几行代码的含义:问gpt结果如下
    在这里插入图片描述
    在这里插入图片描述
  • 可以用 pandas 里面的 read_csv 来读取csv文件:
    在这里插入图片描述
  • 可以用 iloc 来按索引取文件中的内容
  • 可以用 fillna 来填充数据中的 NaN 值,可以用 mean() 来取数据中的平均值,下面表示用均值填充
    在这里插入图片描述
  • 对于数据中的类别值或者离散值,我们可以将NaN变为一个类别:
    在这里插入图片描述
    在这里插入图片描述
  • 在经过上述处理后,input 和 output 都变成了数值,现在可以转化成 tensor 了
    在这里插入图片描述

Q&A

  • reshape 和 view 的区别:reshape 是浅拷贝,如果修改 reshape 后的张量,那么被 reshape 的张量也会被修改:
    在这里插入图片描述

这篇关于【动手学深度学习】04 数据操作 + 数据预处理(个人向笔记)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146544

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映