【R数据科学读书笔记】R语言的数据结构原来可以这样理解

本文主要是介绍【R数据科学读书笔记】R语言的数据结构原来可以这样理解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

R语言的数据结构原来可以这样理解

这是R数据科学的读书笔记之一，《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了，但是读这本书还是受益颇多。

最早接触R语言的时候看的是《R语言实战》，在第二章里，该书将R语言的数据结构分为6种，向量、矩阵、数组、数据框、因子和列表。当时的理解是，矩阵是二维的向量，数组是二维以上的向量，数据框是特殊性质的列表。

但是读完《R数据科学》的第15章:向量后，我发现原来R语言的数据结构原来可以只分为两类

原子向量: 包含6种类型，逻辑性、整型、双精度型、字符型、复数型和原始型
递归向量: 更常见的名字叫做列表

原子向量和递归向量的 唯一区别 就在于其中存放的值是否都是同种类型。

向量(vector), 矩阵(matrix)和数组(array)以及因子(factor)都只能存放一种数据类型，因此is.atomic的判断结果都是TRUE，所以都是原子向量
数据库和列表可以包含不同类型的数据，所以用is.recursive的判断结果是TRUE，所以都是递归向量

此外，每个向量都有两个关键属性(properties),类型和长度, 分别用typeof()和length()进行查看。分别去用typeof()查看向量、矩阵、数组、因子、数据框和列表时，你会发现前面4个返回都是6种基本数据类型，而数据框和列表返回的都是"list".

我们还可以在向量上附加任意多的元数据(metadata),这些元数据称之为特征(attributes)。附加不同的特性后就得到了扩展向量(augmented vectors), 其中名称、维度和类是三种特别重要的属性。

如果你去查看attribute和property的中文翻译时，你会发现两者都有一个释义叫做属性

从扩展向量的角度上看数据类型时，可以得到如下洞见

第一：矩阵和数组相对于普通向量主要就多了一个dim属性，所以我们可以通过如下的操作来创建矩阵和数组

is.v.m.a <- function(x) {c(is.vector(x), is.matrix(x), is.array(x))}
v <- c(1,2,3,4)
is.v.m.a(v) # TRUE FALSE FALSE
attr(v,'dim') <- c(2,2)
is.v.m.a(v) # FALSE  TRUE  TRUE
attr(v,'dim') <- c(1,2,2)
is.v.m.a(v) # FALSE FALSE  TRUE

注: 矩阵是特殊的数组。

第二：名称是一种额外属性, 对于向量是"names", 对于数组则是"dimnames[[x]]", x表示不同维度，对于列表而言则是"names"，对于数据框是"names"对于列名和"row.names"对于行名

v <- c(1,2,3,4)
attr(v,'names') <- c('a','b','c','d')

第三：类(class)也是一种属性，类是面向对象编程的一个概念。在R语言中，我们会发现同一个函数居然可以用在不同的数据集，比如说print用在ggplot2的对象中，结果是输出图片，这种函数就称之为泛型函数。

methods(print)# 内容过多，不在这里展示
# 我们可以具体某个函数的代码
getS3method("print","data.frame")

关于泛型函数的更多知识会在后续的面向对象编程里介绍。

其他知识点

R语言的缺失值一般都标记为"NA"，因此在读取数据的时候默认也将文件中的"NA"当作缺失值，但是很有可能其他人会用"null"作为缺失值的标记，所以结果就会导致这一列全部被当做是字符串，影响后续的分析。

在向量取子集时，熟悉Python的人需要注意一点，Python中x=[1,2,3,4]; x[-1]表示选择最后一个元素，而在R语言里x= c(1,2,3,4); x[-1]表示删除第一个元素，即R用负整数取子集时会丢弃对应位置的元素。

[和[[在提取列表时，一定要注意，[[会使列表降低一个层次，而[会返回一个新的、更小的列表，也就是

l <- list(c(1,2,3))
l[1] # 返回列表
l[[1]] # 返回向量

为了更好理解这两者在列表中的差异，作者还提供了一个非常形象的例子，我用另一个例子来说明下:

我所就读的初中每个年级段大概有10个班级，每个班级的人数都不太一样。那么这里的一个年级段就是一个列表x，每个班级都是列表里元素。那么x[1]表示的是解散其他所有班级，只留下第一个班级组成年级段。而x[[1]]表示是第一个班级。x[[1]][1]表示的可能是第一个班级里的第一个学生。

这篇关于【R数据科学读书笔记】R语言的数据结构原来可以这样理解的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【R数据科学读书笔记】R语言的数据结构原来可以这样理解

R语言的数据结构原来可以这样理解

其他知识点

相关文章

R语言中的正则表达式深度解析

Go语言结构体标签(Tag)的使用小结

Python在二进制文件中进行数据搜索的实战指南

C#实现将XML数据自动化地写入Excel文件

MySQL数据目录迁移的完整过程

Python数据验证神器Pydantic库的使用和实践中的避坑指南

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

详解C++ 存储二进制数据容器的几种方法

C语言逗号运算符和逗号表达式的使用小结

Go语言实现桥接模式