代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!

2024-04-29 01:12

本文主要是介绍代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1.前言
    • 2.GPL空了怎么办
      • 2.1 google/官网
      • 2.2 GSE164011
      • 2.3 GSE213001
      • 2.4 GSE212067(看漏眼情况)
      • 2.5 GSE242881(还是看漏眼)
      • 2.6 GSE146621
    • 3.转换ID代码分享链接

1.前言

前因是小编在接近两年前回复了C站小伙伴一条帖子,这一年多来陆续有20几个问题,同样是问GPL没有基因注释文件怎么转换Symbol ID

说实话我也不知道,如果是做大队列的话一般为了省事我直接换一个GSE,但如果这个数据集真的很好,含泪也要想办法去搞定。而且第一时间看到soft里无symbol或者GPL是空的不要慌:

  • 一般情况下,作者都会在补充文件上传已经注释好ID的表达矩阵,或者把注释文件,直接下载使用即可。
  • 第二般情况下,在谷歌检索这个GSE+symbol,或者检索GPL+gene,或者其中一个id+ann/symbol/gene,比较热门的平台网上都会有大神提供的文件或者结果。常见的都是在github上的
  • 第三般情况,真的很新很新这个平台,上官网,Agilent的去AgilentIllumina的去Illumina,发邮件联系,祝你好运。
  • 最后情况,见招拆招,歪门邪道,完全看经验,归根结底还是需要知道这是什么ID,才能去找到对应的注释。小编在后面分享一下解决方案吧。

代码已打包,公众号多线程核糖体后台回复geo转换id即可领取

2.GPL空了怎么办

2.1 google/官网

这两种情况比较繁琐且特殊,没有找到太好的例子去示范,就按上面说的方法去查即可。

2.2 GSE164011

这是第一种情况,GPL21697、GPL24676、GPL29487空空如也

但是看一下补充文件,其实作者已经做了一个转换完ID的矩阵了,留意一下每个sheet,有原始reads的有靶点的还有蛋白的,根据自己需求,一般拿raw_count最就行了

2.3 GSE213001

这个GSE的GPL也是空无一物,不过作者也上传了表达矩阵上来,但是

但是是EntrezID,是的,也不算Symbol ID

不过做过TCGA的小伙伴应该能GET到,这个拿TCGA官网的ann文件转换即可,所以还是熟能生巧,经验法。

2.4 GSE212067(看漏眼情况)

这种不过多阐述了,提问的小伙伴应该看漏了,
gene_assignment这列里有Symbol ID。简单点用excel分列提取可以,这个在R用正则表达式提取第二个//和第三个//之间的内容即可,可以用sub或者gsub,用stringr也行:

library(stringr)
df$ann <- str_extract(df$gene_assignment, "(?<=// ).+?(?= //)")

2.5 GSE242881(还是看漏眼)

这种也是空GPL的,不过补充文件有表达矩阵,先下载

不要看到第一列Ensemble ID就开始找文件,其实Symbol ID也在里面,稍微往后喵点,gene_name这列,这是老鼠的基因所以小写

2.6 GSE146621

这个GEO数据集依旧是无平台注释文件,google也搜不到,官网也不好找,这种怎么办呢。其实做多了GEO的可以一眼看出这个NM_,这个其实是RefSeq,这是NCBI给基因/蛋白做的标识探针靶向的基因序列

关于RefSeq转Symbol网上好像有标准文件的,这里偷了个懒,直接拿个之前带有NM的注释文件,提取了RefSeqSymbol拿来merge

看了下有点牵强,能转换大概一万两千个左右,能用但不算太好,因为去完重后估计还得少一大段,所以很不推荐


上面是错误示范,标准答案

还是用org.Hs.eg.db包来注释吧,试了一下,全部都能转换成功,一共35064个,说明还是术业有专攻,这个懒偷不得。。。。

> library('org.Hs.eg.db')
> columns(org.Hs.eg.db)[1] "ACCNUM"       "ALIAS"        "ENSEMBL"      "ENSEMBLPROT"  "ENSEMBLTRANS" "ENTREZID"    [7] "ENZYME"       "EVIDENCE"     "EVIDENCEALL"  "GENENAME"     "GENETYPE"     "GO"          
[13] "GOALL"        "IPI"          "MAP"          "OMIM"         "ONTOLOGY"     "ONTOLOGYALL" 
[19] "PATH"         "PFAM"         "PMID"         "PROSITE"      "REFSEQ"       "SYMBOL"      
[25] "UCSCKG"       "UNIPROT"     
> length(keys(org.Hs.eg.db, keytype = 'REFSEQ'))
[1] 481819
> ids <- select(org.Hs.eg.db, keys=data$ID, columns = 'SYMBOL', keytype = 'REFSEQ')
> colnames(ids) <- c("ID","Symbol")
> write.table(ids,"ids_all.txt",sep = "\t",row.names = F,quote = F)
> genes <- intersect(data$ID,ids$ID)
> length(genes)
[1] 35064

3.转换ID代码分享链接

此外还有之前分享过的用注释文件转换基因ID的标准流程:

公众号多线程核糖体后台回复geo转换id即可领取项目代码及文件

里面还包含了人源lncRNAmRNAmiRNA的基因信息汇总文件,方便大家根据研究需求做筛选和过滤

  • 如果还有其他难处理的或找不到注释文件的数据集留言讨论

这篇关于代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944738

相关文章

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

《SpringBoot3.4.3基于SpringWebFlux实现SSE功能(代码示例)》SpringBoot3.4.3结合SpringWebFlux实现SSE功能,为实时数据推送提供... 目录1. SSE 简介1.1 什么是 SSE?1.2 SSE 的优点1.3 适用场景2. Spring WebFlu

java之Objects.nonNull用法代码解读

《java之Objects.nonNull用法代码解读》:本文主要介绍java之Objects.nonNull用法代码,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录Java之Objects.nonwww.chinasem.cnNull用法代码Objects.nonN

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

mysql数据库重置表主键id的实现

《mysql数据库重置表主键id的实现》在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,本文主要介绍了mysql数据库重置表主键id的实现,具有一定的参考价值,感兴趣的可以了... 目录关键语法演示案例在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,当我们

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤