【R数据科学读书笔记】R语言的数据结构原来可以这样理解

2024-06-23 20:58

本文主要是介绍【R数据科学读书笔记】R语言的数据结构原来可以这样理解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

R语言的数据结构原来可以这样理解

这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。

最早接触R语言的时候看的是《R语言实战》, 在第二章里,该书将R语言的数据结构分为6种,向量、矩阵、数组、数据框、因子和列表。当时的理解是,矩阵是二维的向量,数组是二维以上的向量,数据框是特殊性质的列表。

但是读完《R数据科学》的第15章:向量后,我发现原来R语言的数据结构原来可以只分为两类

  • 原子向量: 包含6种类型,逻辑性、整型、双精度型、字符型、复数型和原始型
  • 递归向量: 更常见的名字叫做列表

原子向量和递归向量的 唯一区别 就在于其中存放的值是否都是同种类型。

  • 向量(vector), 矩阵(matrix)和数组(array)以及因子(factor)都只能存放一种数据类型,因此is.atomic的判断结果都是TRUE, 所以都是原子向量
  • 数据库和列表可以包含不同类型的数据,所以用is.recursive的判断结果是TRUE,所以都是递归向量

此外,每个向量都有两个关键属性(properties),类型和长度, 分别用typeof()length()进行查看。分别去用typeof()查看向量、矩阵、数组、因子、数据框和列表时,你会发现前面4个返回都是6种基本数据类型,而数据框和列表返回的都是"list".

我们还可以在向量上附加任意多的元数据(metadata),这些元数据称之为特征(attributes)。 附加不同的特性后就得到了扩展向量(augmented vectors), 其中名称、维度和类是三种特别重要的属性。

如果你去查看attribute和property的中文翻译时,你会发现两者都有一个释义叫做属性

从扩展向量的角度上看数据类型时,可以得到如下洞见

第一: 矩阵和数组相对于普通向量主要就多了一个dim属性,所以我们可以通过如下的操作来创建矩阵和数组

is.v.m.a <- function(x) {c(is.vector(x), is.matrix(x), is.array(x))}
v <- c(1,2,3,4)
is.v.m.a(v) # TRUE FALSE FALSE
attr(v,'dim') <- c(2,2)
is.v.m.a(v) # FALSE  TRUE  TRUE
attr(v,'dim') <- c(1,2,2)
is.v.m.a(v) # FALSE FALSE  TRUE  

注: 矩阵是特殊的数组。

第二:名称是一种额外属性, 对于向量是"names", 对于数组则是"dimnames[[x]]", x表示不同维度, 对于列表而言则是"names",对于数据框是"names"对于列名和"row.names"对于行名

v <- c(1,2,3,4)
attr(v,'names') <- c('a','b','c','d')

第三:类(class)也是一种属性,类是面向对象编程的一个概念。在R语言中,我们会发现同一个函数居然可以用在不同的数据集,比如说print用在ggplot2的对象中,结果是输出图片,这种函数就称之为泛型函数

methods(print)# 内容过多,不在这里展示
# 我们可以具体某个函数的代码
getS3method("print","data.frame")

关于泛型函数的更多知识会在后续的面向对象编程里介绍。

其他知识点

R语言的缺失值一般都标记为"NA", 因此在读取数据的时候默认也将文件中的"NA"当作缺失值,但是很有可能其他人会用"null"作为缺失值的标记,所以结果就会导致这一列全部被当做是字符串,影响后续的分析。

在向量取子集时,熟悉Python的人需要注意一点,Python中x=[1,2,3,4]; x[-1]表示选择最后一个元素,而在R语言里x= c(1,2,3,4); x[-1]表示删除第一个元素,即R用负整数取子集时会丢弃对应位置的元素。

[[[在提取列表时,一定要注意,[[会使列表降低一个层次,而[会返回一个新的、更小的列表,也就是

l <- list(c(1,2,3))
l[1] # 返回列表
l[[1]] # 返回向量

为了更好理解这两者在列表中的差异,作者还提供了一个非常形象的例子,我用另一个例子来说明下:

我所就读的初中每个年级段大概有10个班级,每个班级的人数都不太一样。那么这里的一个年级段就是一个列表x,每个班级都是列表里元素。那么x[1]表示的是解散其他所有班级,只留下第一个班级组成年级段。而x[[1]]表示是第一个班级。x[[1]][1]表示的可能是第一个班级里的第一个学生。

这篇关于【R数据科学读书笔记】R语言的数据结构原来可以这样理解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088258

相关文章

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》:本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

Go语言中nil判断的注意事项(最新推荐)

《Go语言中nil判断的注意事项(最新推荐)》本文给大家介绍Go语言中nil判断的注意事项,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.接口变量的特殊行为2.nil的合法类型3.nil值的实用行为4.自定义类型与nil5.反射判断nil6.函数返回的

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文