代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!

2024-04-29 01:12

本文主要是介绍代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1.前言
    • 2.GPL空了怎么办
      • 2.1 google/官网
      • 2.2 GSE164011
      • 2.3 GSE213001
      • 2.4 GSE212067(看漏眼情况)
      • 2.5 GSE242881(还是看漏眼)
      • 2.6 GSE146621
    • 3.转换ID代码分享链接

1.前言

前因是小编在接近两年前回复了C站小伙伴一条帖子,这一年多来陆续有20几个问题,同样是问GPL没有基因注释文件怎么转换Symbol ID

说实话我也不知道,如果是做大队列的话一般为了省事我直接换一个GSE,但如果这个数据集真的很好,含泪也要想办法去搞定。而且第一时间看到soft里无symbol或者GPL是空的不要慌:

  • 一般情况下,作者都会在补充文件上传已经注释好ID的表达矩阵,或者把注释文件,直接下载使用即可。
  • 第二般情况下,在谷歌检索这个GSE+symbol,或者检索GPL+gene,或者其中一个id+ann/symbol/gene,比较热门的平台网上都会有大神提供的文件或者结果。常见的都是在github上的
  • 第三般情况,真的很新很新这个平台,上官网,Agilent的去AgilentIllumina的去Illumina,发邮件联系,祝你好运。
  • 最后情况,见招拆招,歪门邪道,完全看经验,归根结底还是需要知道这是什么ID,才能去找到对应的注释。小编在后面分享一下解决方案吧。

代码已打包,公众号多线程核糖体后台回复geo转换id即可领取

2.GPL空了怎么办

2.1 google/官网

这两种情况比较繁琐且特殊,没有找到太好的例子去示范,就按上面说的方法去查即可。

2.2 GSE164011

这是第一种情况,GPL21697、GPL24676、GPL29487空空如也

但是看一下补充文件,其实作者已经做了一个转换完ID的矩阵了,留意一下每个sheet,有原始reads的有靶点的还有蛋白的,根据自己需求,一般拿raw_count最就行了

2.3 GSE213001

这个GSE的GPL也是空无一物,不过作者也上传了表达矩阵上来,但是

但是是EntrezID,是的,也不算Symbol ID

不过做过TCGA的小伙伴应该能GET到,这个拿TCGA官网的ann文件转换即可,所以还是熟能生巧,经验法。

2.4 GSE212067(看漏眼情况)

这种不过多阐述了,提问的小伙伴应该看漏了,
gene_assignment这列里有Symbol ID。简单点用excel分列提取可以,这个在R用正则表达式提取第二个//和第三个//之间的内容即可,可以用sub或者gsub,用stringr也行:

library(stringr)
df$ann <- str_extract(df$gene_assignment, "(?<=// ).+?(?= //)")

2.5 GSE242881(还是看漏眼)

这种也是空GPL的,不过补充文件有表达矩阵,先下载

不要看到第一列Ensemble ID就开始找文件,其实Symbol ID也在里面,稍微往后喵点,gene_name这列,这是老鼠的基因所以小写

2.6 GSE146621

这个GEO数据集依旧是无平台注释文件,google也搜不到,官网也不好找,这种怎么办呢。其实做多了GEO的可以一眼看出这个NM_,这个其实是RefSeq,这是NCBI给基因/蛋白做的标识探针靶向的基因序列

关于RefSeq转Symbol网上好像有标准文件的,这里偷了个懒,直接拿个之前带有NM的注释文件,提取了RefSeqSymbol拿来merge

看了下有点牵强,能转换大概一万两千个左右,能用但不算太好,因为去完重后估计还得少一大段,所以很不推荐


上面是错误示范,标准答案

还是用org.Hs.eg.db包来注释吧,试了一下,全部都能转换成功,一共35064个,说明还是术业有专攻,这个懒偷不得。。。。

> library('org.Hs.eg.db')
> columns(org.Hs.eg.db)[1] "ACCNUM"       "ALIAS"        "ENSEMBL"      "ENSEMBLPROT"  "ENSEMBLTRANS" "ENTREZID"    [7] "ENZYME"       "EVIDENCE"     "EVIDENCEALL"  "GENENAME"     "GENETYPE"     "GO"          
[13] "GOALL"        "IPI"          "MAP"          "OMIM"         "ONTOLOGY"     "ONTOLOGYALL" 
[19] "PATH"         "PFAM"         "PMID"         "PROSITE"      "REFSEQ"       "SYMBOL"      
[25] "UCSCKG"       "UNIPROT"     
> length(keys(org.Hs.eg.db, keytype = 'REFSEQ'))
[1] 481819
> ids <- select(org.Hs.eg.db, keys=data$ID, columns = 'SYMBOL', keytype = 'REFSEQ')
> colnames(ids) <- c("ID","Symbol")
> write.table(ids,"ids_all.txt",sep = "\t",row.names = F,quote = F)
> genes <- intersect(data$ID,ids$ID)
> length(genes)
[1] 35064

3.转换ID代码分享链接

此外还有之前分享过的用注释文件转换基因ID的标准流程:

公众号多线程核糖体后台回复geo转换id即可领取项目代码及文件

里面还包含了人源lncRNAmRNAmiRNA的基因信息汇总文件,方便大家根据研究需求做筛选和过滤

  • 如果还有其他难处理的或找不到注释文件的数据集留言讨论

这篇关于代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944738

相关文章

[职场] 护理专业简历怎么写 #经验分享#微信

护理专业简历怎么写   很多想成为一名护理方面的从业者,但是又不知道应该怎么制作一份简历,现在这里分享了一份护理方面的简历模板供大家参考。   蓝山山   年龄:24   号码:12345678910   地址:上海市 邮箱:jianli@jianli.com   教育背景   时间:2011-09到2015-06   学校:蓝山大学   专业:护理学   学历:本科

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

uniapp接入微信小程序原生代码配置方案(优化版)

uniapp项目需要把微信小程序原生语法的功能代码嵌套过来,无需把原生代码转换为uniapp,可以配置拷贝的方式集成过来 1、拷贝代码包到src目录 2、vue.config.js中配置原生代码包直接拷贝到编译目录中 3、pages.json中配置分包目录,原生入口组件的路径 4、manifest.json中配置分包,使用原生组件 5、需要把原生代码包里的页面修改成组件的方

公共筛选组件(二次封装antd)支持代码提示

如果项目是基于antd组件库为基础搭建,可使用此公共筛选组件 使用到的库 npm i antdnpm i lodash-esnpm i @types/lodash-es -D /components/CommonSearch index.tsx import React from 'react';import { Button, Card, Form } from 'antd'

17.用300行代码手写初体验Spring V1.0版本

1.1.课程目标 1、了解看源码最有效的方式,先猜测后验证,不要一开始就去调试代码。 2、浓缩就是精华,用 300行最简洁的代码 提炼Spring的基本设计思想。 3、掌握Spring框架的基本脉络。 1.2.内容定位 1、 具有1年以上的SpringMVC使用经验。 2、 希望深入了解Spring源码的人群,对 Spring有一个整体的宏观感受。 3、 全程手写实现SpringM

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

Eureka高可用注册中心registered-replicas没有分布式注册中心

自己在学习过程中发现,如果Eureka挂掉了,其他的Client就跑不起来了,那既然是商业项目,还是要处理好这个问题,所以决定用《Spring Cloud微服务实战》(PDF版在全栈技术交流群中自行获取)中说的“高可用注册中心”。 一开始我yml的配置是这样的 server:port: 8761eureka:instance:hostname: 127.0.0.1client:fetch-r

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

android一键分享功能部分实现

为什么叫做部分实现呢,其实是我只实现一部分的分享。如新浪微博,那还有没去实现的是微信分享。还有一部分奇怪的问题:我QQ分享跟QQ空间的分享功能,我都没配置key那些都是原本集成就有的key也可以实现分享,谁清楚的麻烦详解下。 实现分享功能我们可以去www.mob.com这个网站集成。免费的,而且还有短信验证功能。等这分享研究完后就研究下短信验证功能。 开始实现步骤(新浪分享,以下是本人自己实现

记录AS混淆代码模板

开启混淆得先在build.gradle文件中把 minifyEnabled false改成true,以及shrinkResources true//去除无用的resource文件 这些是写在proguard-rules.pro文件内的 指定代码的压缩级别 -optimizationpasses 5 包明不混合大小写 -dontusemixedcaseclassnames 不去忽略非公共