「Debug R」明明我用的是数据框,为啥运行结果有点不对劲

2024-06-23 20:38

本文主要是介绍「Debug R」明明我用的是数据框,为啥运行结果有点不对劲,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在「Debug R」有些你认为的报错不是报错(error),是警告(warnnings)里,我解决了一个使用者在 tibble 数据结构赋予行名出现的问题。

这次问题和上次类似,也是没有注意到自己用的数据结构其实不是普通的数据框了,只不过这次的问题的主角是 data.table

果子老师很喜欢用data.table的一个函数---fread, 它的读取速度非常快,而且使用非常方便,基本不怎么需要加参数,唯独有个问题要特别注意下,就是它的数据结构不是普通的数据框 data.frame,还是一个data.table

> library(data.table)
> write.csv(mtcars, "mtcars.csv")
> df <- fread("mtcars.csv")
> class(df)
[1] "data.table" "data.frame"

在大部分情况下,它和普通的数据框的表现的差不多,也可以有行名,但是用headtail是看不出来,必须要用rownames才行

> rownames(df)[1] "1"  "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10" "11" "12" "13" "14" "15" "16" "17"
[18] "18" "19" "20" "21" "22" "23" "24" "25" "26" "27" "28" "29" "30" "31" "32"
> rownames(df) <- paste0("Id", rownames(df))
> head(df)V1  mpg cyl disp  hp drat    wt  qsec vs am gear carb
1:         Mazda RX4 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
2:     Mazda RX4 Wag 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
3:        Datsun 710 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
4:    Hornet 4 Drive 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
5: Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
6:           Valiant 18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
> rownames(df)[1] "Id1"  "Id2"  "Id3"  "Id4"  "Id5"  "Id6"  "Id7"  "Id8"  "Id9"  "Id10" "Id11" "Id12"
[13] "Id13" "Id14" "Id15" "Id16" "Id17" "Id18" "Id19" "Id20" "Id21" "Id22" "Id23" "Id24"
[25] "Id25" "Id26" "Id27" "Id28" "Id29" "Id30" "Id31" "Id32"

而且在选取列的时候,也看起来没啥毛病

> df[1:2, c("V1","mpg")]V1 mpg
1:     Mazda RX4  21
2: Mazda RX4 Wag  21

一切看起来都挺美好的,直到你做了下面这个操作

>  df[, colnames(df)][1] "V1"   "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear" "carb"

为啥结果不是输出所有列呢,咋和mtcars[,colnames(mtcars)]结果居然不一样。

当然不一样了,因为data.table也有自己的一套数据处理思想,对于DT[i,j]而言,j表示的如何对列运算或直接筛选,如下,详见http://r-datatable.com,

# select|compute columns
DT[, v]                                     # v column (as vector)
DT[, list(v)]                               # v column (as data.table)
DT[, .(v)]                                  # same; .() is an alias for list()
DT[, sum(v)]                                # sum of column v, returned as vector
DT[, .(sum(v))]                             # same but return data.table
DT[, .(sv=sum(v))]                          # same but name column "sv"
DT[, .(v, v*2)]                             # return two column data.table
# select columns the data.frame way
DT[, 2]                                     # 2nd column, a data.table always
colNum = 2                                  
DT[, ..colNum]                              # same as DT[,2]; ..var => one-up
DT[["v"]]                                   # same as DT[,v] but lower overhead

也就是说,在 data.table里,df[, colnames(df)]的含义其实就是获取列名而已,而不是简单的先得到列名,然后根据列名选取列。

如果你要通过变量名选择列的话,你的代码要换种方式写

> rn <- colnames(df)
> df[, ..rn]

如果已经是data.table类,那么解决方法就是,要么用as.data.frame 把数据结构进行转换,要们就花点时间学习data.table的数据处理体系, 见<r-datatable.com>

但是对于之后想用datat.table::fread读取数据,那么参考评论区Tanyongjun的策略,设置data.table=F就会输出data.frame,比用as.data.frame要快。特别是数据较大的时候。

这篇关于「Debug R」明明我用的是数据框,为啥运行结果有点不对劲的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088222

相关文章

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

eclipse运行springboot项目,找不到主类

解决办法尝试了很多种,下载sts压缩包行不通。最后解决办法如图: help--->Eclipse Marketplace--->Popular--->找到Spring Tools 3---->Installed。

22.手绘Spring DI运行时序图

1.依赖注入发生的时间 当Spring loC容器完成了 Bean定义资源的定位、载入和解析注册以后,loC容器中已经管理类Bean 定义的相关数据,但是此时loC容器还没有对所管理的Bean进行依赖注入,依赖注入在以下两种情况 发生: 、用户第一次调用getBean()方法时,loC容器触发依赖注入。 、当用户在配置文件中将<bean>元素配置了 lazy-init二false属性,即让

21.手绘Spring IOC运行时序图

1.再谈IOC与 DI IOC(lnversion of Control)控制反转:所谓控制反转,就是把原先我们代码里面需要实现的对象创 建、依赖的代码,反转给容器来帮忙实现。那么必然的我们需要创建一个容器,同时需要一种描述来让 容器知道需要创建的对象与对象的关系。这个描述最具体表现就是我们所看到的配置文件。 DI(Dependency Injection)依赖注入:就是指对象是被动接受依赖类

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

java中查看函数运行时间和cpu运行时间

android开发调查性能问题中有一个现象,函数的运行时间远低于cpu执行时间,因为函数运行期间线程可能包含等待操作。native层可以查看实际的cpu执行时间和函数执行时间。在java中如何实现? 借助AI得到了答案 import java.lang.management.ManagementFactory;import java.lang.management.Threa

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

数据时代的数字企业

1.写在前面 讨论数据治理在数字企业中的影响和必要性,并介绍数据治理的核心内容和实践方法。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。企业需要重视这些方面以实现数字化转型和业务增长。 数字化转型行业小伙伴可以加入我的星球,初衷成为各位数字化转型参考库,星球内容每周更新 个人工作经验资料全部放在这里,包含数据治理、数据要

如何在Java中处理JSON数据?

如何在Java中处理JSON数据? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨在Java中如何处理JSON数据。JSON(JavaScript Object Notation)作为一种轻量级的数据交换格式,在现代应用程序中被广泛使用。Java通过多种库和API提供了处理JSON的能力,我们将深入了解其用法和最佳

两个基因相关性CPTAC蛋白组数据

目录 蛋白数据下载 ①蛋白数据下载 1,TCGA-选择泛癌数据  2,TCGA-TCPA 3,CPTAC(非TCGA) ②蛋白相关性分析 1,数据整理 2,蛋白相关性分析 PCAS在线分析 蛋白数据下载 CPTAC蛋白组学数据库介绍及数据下载分析 – 王进的个人网站 (jingege.wang) ①蛋白数据下载 可以下载泛癌蛋白数据:UCSC Xena (xena