《R数据科学》学习笔记|Note6:使用tibble实现简单数据框

2023-10-15 11:10

本文主要是介绍《R数据科学》学习笔记|Note6:使用tibble实现简单数据框,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击蓝字

关注我!

写在前面

本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据科学。更新过程中,读者朋友如发现错误,欢迎指正。如果有疑问,也可以在评论区留言或后台私信。希望各位读者朋友能学有所得!

BOOK

6.1

简介

tibble 是一种简单数据框,它对传统数据框的功能进 行了一些修改,以便更易于使用。本章会介绍 tibble 包,其所提供的简单数据框更易于在 tidyverse 中使用。多数情况下,我们会交替使用 tibble 和数据框这两个术语;如果想要特别强调 R 内置的传统数据框,我们会使用 data.frame 来表示。如果读完本章后你还想学习有关 tibble 的更多知识,可以使用 vignette("tibble") 命令。

6.2

创建tibble

本书中使用的所有函数几乎都可以创建 tibble,因为 tibble tidyverse 的标准功能之一。由于多数其他 R 包使用的是标准数据框,因此你可能想要将数据框转换为 tibble。可以使 用 as_tibble() 函数来完成转换:

library(tidyverse)#同样先加载tidyverse
as_tibble(iris)
> as_tibble(iris)
# A tibble: 150 x 5Sepal.Length Sepal.Width Petal.Length Petal.Width Species<dbl>       <dbl>        <dbl>       <dbl> <fct>  1          5.1         3.5          1.4         0.2 setosa 2          4.9         3            1.4         0.2 setosa 3          4.7         3.2          1.3         0.2 setosa 4          4.6         3.1          1.5         0.2 setosa 5          5           3.6          1.4         0.2 setosa 6          5.4         3.9          1.7         0.4 setosa 7          4.6         3.4          1.4         0.3 setosa 8          5           3.4          1.5         0.2 setosa 9          4.4         2.9          1.4         0.2 setosa 
10          4.9         3.1          1.5         0.1 setosa 
# ... with 140 more rows

可以通过 tibble() 函数使用一个向量来创建新 tibbletibble() 会自动重复长度为 1 的输 入,并可以使用刚刚创建的新变量,如下所示:

tibble(x = 1:5,y = 1,z = x ^ 2 + y
)
> tibble(
+   x = 1:5,
+   y = 1,
+   z = x ^ 2 + y
+ )
# A tibble: 5 x 3x     y     z<int> <dbl> <dbl>
1     1     1     2
2     2     1     5
3     3     1    10
4     4     1    17
5     5     1    26

创建 tibble 的另一种方法是使用 tribble() 函数,tribble transposed tibble(转置 tibble) 的缩写。tribble() 是定制化的,可以对数据按行进行编码:列标题由公式(以 ~ 开头) 定义,数据条目以逗号分隔,这样就可以用易读的方式对少量数据进行布局:

tribble(~x, ~y, ~z,"a", 2, 3.6,"b", 1, 8.5
)
> tribble(
+   ~x, ~y, ~z,
+   "a", 2, 3.6,
+   "b", 1, 8.5
+ )
# A tibble: 2 x 3x         y     z<chr> <dbl> <dbl>
1 a         2   3.6
2 b         1   8.5

6.3

对比 tibble data.frame

tibble 和传统 data.frame 的使用方法主要有两处不同:打印和取子集。

6.3.1

打印

tibble 的打印方法进行了优化,只显示前 10 行结果,并且列也是适合屏幕的,这种方式非 常适合大数据集。除了打印列名,tibble 还会打印出列的类型。

tibble(a = lubridate::now() + runif(1e3) * 86400, 
#lubridate::now() 当前时间
#runif()函数用于生成从0到1区间范围内的服从正态分布的随机数。b = lubridate::today() + runif(1e3) * 30,
#lubridate::today()当前日期c = 1:1e3,d = runif(1e3),e = sample(letters, 1e3, replace = TRUE)
)
#sample(x, size, replace = FALSE)
#具体参数说明:
#x 整体数据,以向量形式给出
#size 抽取样本的数目
#replace 如果为F(默认),则是不重复抽样,此时size不能大于x的长度;
#如果为T,则是重复抽样,此时size允许大于x的长度
> tibble(
+   a = lubridate::now() + runif(1e3) * 86400, 
+   #runif()函数用于生成从0到1区间范围内的服从正态分布的随机数
+   b = lubridate::today() + runif(1e3) * 30,
+   c = 1:1e3,
+   d = runif(1e3),
+   e = sample(letters, 1e3, replace = TRUE)
+ )
# A tibble: 1,000 x 5a                   b              c     d e    <dttm>              <date>     <int> <dbl> <chr>1 2021-02-27 05:14:50 2021-03-22     1 0.604 c    2 2021-02-26 16:27:32 2021-03-07     2 0.745 p    3 2021-02-26 17:47:30 2021-03-19     3 0.999 g    4 2021-02-27 05:24:29 2021-03-01     4 0.758 a    5 2021-02-26 14:02:13 2021-03-04     5 0.211 u    6 2021-02-27 05:40:53 2021-03-14     6 0.850 r    7 2021-02-26 21:34:07 2021-03-09     7 0.152 o    8 2021-02-27 06:28:12 2021-03-11     8 0.548 f    9 2021-02-26 17:22:06 2021-03-24     9 0.655 d    
10 2021-02-26 21:26:52 2021-03-17    10 0.656 h    
# ... with 990 more rows

在打印大数据框时,tibble 的这种设计避免了输出占满整个控制台。但有时需要比默认显示更多的输出,这时就要设置几个选项。首先,可以明确使用 print() 函数来打印数据框,并控制打印的行数(n)和显示的宽度(width)width = Inf 可以显示出所有列:

nycflights13::flights %>%print(n = 10, width = Inf)

还可以通过设置以下选项来控制默认的打印方式。 

options(tibble.print_max = n, tibble.pring_min = m):如果多于 m 行,则只打印出 n 行。options(tibble.print_min = Inf) 表示总是打印所有行。 

options(tibble.width = Inf) 表示总是打印所有列,不考虑屏幕的宽度。

最后一种方式是使用 RStudio 内置的数据查看器,以滚动方式查看整个数据集。进行一长串数据处理操作后,经常会使用这种查看方式:

nycflights13::flights %>%View()

或者直接点击右上区域相应的数据名进行查看。当数据量小时,这个方法比较简单,但当数据比较大时,如要处理转录组数据或单细胞数据,则需加载一定时间。这个时候我个人倾向于直接查看数据部分内容,节省时间。

6.3.2

取子集

迄今为止,你学到的所有工具都是作用于整个数据框。如果想要提取单个变量,那么就需 要一些新工具,如 $ [[[[ 可以按名称或位置提取变量;$ 只能按名称提取变量,但可以减少一些输入:

df <- tibble(x = runif(5),y = rnorm(5)
)
# 按名称提取
df$x
> [1] 0.434 0.395 0.548 0.762 0.254
df[["x"]]
> [1] 0.434 0.395 0.548 0.762 0.254
# 按位置提取
df[[1]]
> [1] 0.434 0.395 0.548 0.762 0.254

要想在管道中使用这些提取操作,需要使用特殊的占位符 .

df %>% .$x
> [1] 0.434 0.395 0.548 0.762 0.254
df %>% .[["x"]]
> [1] 0.434 0.395 0.548 0.762 0.254

6.4

与旧代码进行交互

有些比较旧的函数不支持 tibble。如果遇到这种函数,可以使用 as.data.frame() 函数将tibble 转换回 data.frame

> class(as.data.frame(df))
[1] "data.frame"

有些旧函数不支持 tibble 的主要原因在于 [ 的功能。本书没有使用太多的 [,因为dplyr::filter()dplyr::select() 可以通过更加清晰的代码解决同样的问题。对于 R 基础包中的数据框,[ 有时返回一个数据框,有时返回一个向量。对于 tibble[ 则总是返回另一个 tibble

6.5

练习

本章内容较少,放个练习。如果对本章内容或者练习有疑问的小伙伴,可以后台私信或者评论区留言。欢迎互相交流。

— END —

往期 · 推荐

《R数据科学》学习笔记|Note1:绪论

《R数据科学》学习笔记|Note2:使用ggplot2进行数据可视化(上)

《R数据科学》学习笔记|Note3:使用ggplot2进行数据可视化(下)

《R数据科学》学习笔记|Note4:使用dplyr进行数据转换(上)

《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下)

零基础"机器学习"自学笔记|Note6:正规方程及其推导(内附详细推导过程)

零基础"机器学习"自学笔记|Note6:正规方程及其推导(内附详细推导过程)

欢迎关注 木舟笔记

               

这篇关于《R数据科学》学习笔记|Note6:使用tibble实现简单数据框的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/217280

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本