基因名坑你没商量 -- 有关基因名的坑

2023-11-09 18:30
文章标签 基因 名坑 没商量

本文主要是介绍基因名坑你没商量 -- 有关基因名的坑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基因名字是我们日常数据分析、阅读文献中最常见的一类术语,以下根据自己工作经验探讨下基因名在生物信息学数据分析中常见的坑!

坑1:一个基因有两种名字

基因的名字分成两种:

一种是给计算机看的,也就是各种数据库中的基因ID,最常用的基因id数据库来源包括:Ensembl,NCBI,UCSC等;

另一种是给人看的,就是我们常见的gene symbol,例如TP53。

所以,根据名字来判断是哪个数据库中的id,是数据分析小伙伴的“职业修养”。

对于human来说,推荐使用Genecards(GeneCards - Human Genes | Gene Database | Gene Search)网站进行查询。

坑2:基因名字是变化的

基因名不是一成不变的。随着我们对基因更加深入地了解,基因名也会更新。

以这篇M5C regulator-mediated methylation modification patterns and tumor microenvironment infiltration characterization in lung adenocarcinoma(Translational lung cancer research,IF:6.498)为例。

 啥?13个m5C修饰相关基因中仅11个有表达。TCGA LUAD中有几百例样品,其中有2个基因在这几百例里边都没有表达?不合逻辑啊!

经过查询,我们发现,不是这两个基因没有表达,是人家名字变了。

DNMT2的新名字是TRDMT1;NSUN1的新名字是NOP2。估计是分析人员直接用的旧名字搜索,发现TCGA里边没有这两个名字,所以就认为人家没有表达了。这个坑有点大啊!

因为文献里边的名字一般都是滞后的,当遇见报告里边只给一列gene symobl的时候,你文献里边的基因可能在你数据里边就查不到。

坑3:Excel会改变你的基因名

这个坑影响面很广,很早之前就被期刊报告过。

 由于我们一般都是用excel打开数据,所以如果公司给你的不是真正的excel格式的文件,比如txt文件,tsv文件,csv文件,实际为txt格式的xls文件等的时候,这个坑你就要想办法自己填了。直接粘贴到excel里边也不一定行,你需要的是真正的excel格式。

常见被excel改变的基因包括:

2310009E13

FEB2

MAR1

DEC1

2310009E13

OCT4

APR1

SEP2

SEP-1

FEB1–FEB11

MARCH1–MARCH11

SEPT1–SEPT14

小贴士:我们是直接给客户excel格式文件滴,虽然增加了代码量,但是不会让客户踩坑。

坑4:基因名是区分大小写的

对于纯数字id的基因名是无所谓的,但是对于带有字母的基因名来说,字母是区分大小写的,有的是全部大写,有的是首字母大写,有的是全部小写。比如人类的基因名字绝大部分都是大写,但是也有极个别是小写,例如C12orf45。所以在做匹配等的时候,C12orf45和C12ORF45是不一样的。这时需要使用lower或者upper函数将名字全部转成小写或者大写,然后再进行匹配。

坑5:Not Available的基因名

基因名也是很诡异的,比如你见过基因名为NA的基因吗?虽然它现在已经华丽丽地变身成了XK,BUT部分数据库中用的还是NA。例如我们下载的cBioportal网站数据集Stomach Adenocarcinoma (TCGA Firehose Legacy) RNAseq数据中,基因名还是NA。

 NA本身没有问题,但是如果你用R来读取的话,坑就出现了:In R (or R Studio), NA stands for Not Available. Each cell of your data that displays NA is a missing value。难怪我读了好多次都读不进去,这个坑也太坑了。

坑6:一个名字两个基因?

这种现象也非常常见,以人类为例,在TCGA最新版的RNAseq数据集中,TMSB15B这个基因,在Ensembl数据库中是两条记录。在数据分析的时候,如果以genesymbol这列作为标识符的话,它就是一个基因,而以Ensembl geneid为标识符的话,它是两个基因。这个坑令人费解啊!所以一般在进行诸如cibersort免疫浸润分析,GSEA分析时,需要先collaspe这些基因名,也就是名字要unique(唯一),不能有重复。

 坑7:Affymetrix一个探针集对应多个基因

做GEO芯片分析时,经常看到这种基因sybol被//分割的现象,这种在处理的时候也要注意。例如做GO分析时,我们一般把SUPT20H和DES作为两个基因来处理。

 8:中文基因名

很遗憾,所有的资料都是英文的,没有中文版的。我们在全国科学技术名词审定委员会事务中心的术语在线(https://www.termonline.cn/)官网查不到,能查到的仅仅是散落在各个期刊里的中文翻译。当然也有老师总结过这些中文基因名,例如昆明医学院张闻老师所著的《人类基因功能手册》,手册对两万多个人类基因的功能注解进行整理和翻译,内容包 括基因的 NCBI 正式符号、中英文名称、细胞成分、分子功能、生命过程、相关疾病、 OMIM 编号和染色体定位等八项内容。但是很可惜,网上能够拿到的版本是2006年的发布的。

 9:权威 vs官网

NCBI是我们日常工作中用的最多的网站,那么该数据库中的基因名是“官方”的吗?在科研界,committee(委员会)和consensus(共识)很流行,而基因名也是这两者的产物,所以HUGO Gene Nomenclature Committee网站Home | HUGO Gene Nomenclature Committee就是获得认可的人类基因命名资源(The resource for approved human gene nomenclature),即我们说所的official gene symbol。

坑10:到底有多少基因?

要回答这个问题,首先要明确你对基因的定义。如果你认为的“基因”是蛋白质编码基因,那么人类有约2w个基因;如果你认为的“基因”还包括非编码RNA,假基因等等,那么HUGO数据库中有约4w个approved基因名,而Ensembl数据库有约6w个geneid,当然TCGA也是约6w个。

坑11:坑你没商量,坑我也没商量

以上都是坑别人的,当然也有被坑的时候。比如客户给我100个基因名,有新有旧,有全拼还有只言片语,要我在分析结果中标注下,怎么办?这时只能一个一个去genecards上搜索,十分麻烦啊!比如给我这些:cintillo,collagen,Six1/2-2, POU2/3基因,我是不是想吐血呢?所以当你给别人基因的时候,最好给数据库中的ID,而不是你随手写的名字,否则我们做数据分析的小伙伴怎么办?给你查吧,浪费时间,不给你查吧,结果肯定出问题。

总结:

  1. 基因名区分大小写,且不是固定不变的
  2. 基因名可能被excel改变
  3. 基因名没有中文版
  4. 数据分析时要确定你使用的是哪个版本的注释

So,小小的基因名也有大学问。欢迎大家在后台留言讨论基因名的问题!

最后,附上这两篇文章,有兴趣的同学可以看看:

1. Mistaken identifiers: gene name errors can be introduced inadvertently when using Excel in bioinformatics

2. Gene name errors: Lessons not learned

微生信云平台 注册用户38000 引用399

微生信云平台(微生信-您身边的数据分析、可视化专家)以150多款在线作图、在线数据分析为基本方式,致力于0代码分析科研数据,0代码展示数据结果,帮助生命科学、医学等领域的科研工作者更便捷地分析数据,了解数据,挖掘数据背后的生物医学意义,助力科研,促进知识传播。

这篇关于基因名坑你没商量 -- 有关基因名的坑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/377859

相关文章

临床基础两手抓!这个12+神经网络模型太贪了,免疫治疗预测、通路重要性、基因重要性、通路交互作用性全部拿下!

生信碱移 IRnet介绍 用于预测病人免疫治疗反应类型的生物过程嵌入神经网络,提供通路、通路交互、基因重要性的多重可解释性评估。 临床实践中常常遇到许多复杂的问题,常见的两种是: 二分类或多分类:预测患者对治疗有无耐受(二分类)、判断患者的疾病分级(多分类); 连续数值的预测:预测癌症病人的风险、预测患者的白细胞数值水平; 尽管传统的机器学习提供了高效的建模预测与初步的特征重

bedtools subtract 基因区段取差集

基本概述: bedtools subtract 通俗的说,得到 A - B 的区段。如果在A中发现了B区段,就把 B 扣除,通过不同的参数,扣除的标准不一样。其中,参数 -A 可以达成 Remove features with any overlap 的效果(第四行)。 使用方法: bedtools subtract [OPTIONS] -a <BED/GFF/VCF> -b <BE

【佳学基因检测】网站加密证书失效后,如何移除并为新的证书安装准备环境?

【佳学基因检测】网站加密证书失效后,如何移除并为新的证书安装准备环境? 当WoTrus DV Server CA证书失效后,你需要确保你的Nginx配置中不再引用该证书,并且移除或替换相关的证书文件。以下是具体步骤: 1. 确认Nginx配置文件 首先,检查Nginx的配置文件,确保它不再引用旧的WoTrus证书。如果你已经使用Certbot安装了Let’s Encrypt证书,Certbo

外泌体相关基因肝癌临床模型预测——2-3分纯生信文章复现——5.拷贝数变异及突变图谱(2)

内容如下: 1.外泌体和肝癌TCGA数据下载 2.数据格式整理 3.差异表达基因筛选 4.预后相关外泌体基因确定 5.拷贝数变异及突变图谱 6.外泌体基因功能注释 7.LASSO回归筛选外泌体预后模型 8.预后模型验证 9.预后模型鲁棒性分析 10.独立预后因素分析及与临床的相关性分析 11.列线图,ROC曲线,校准曲线,DCA曲线 12.外部数据集验证 13.外泌

在线绘制哑铃图(dumbbell chart)展示基因拷贝数变异(CNV)

导读: 哑铃图的名称来源于其形状,它看起来像一个哑铃,有两个圆形的“重量”在两端,通过一根“杆”连接。常用于展示两个或多个数据集之间的差异。本文介绍了如何使用哑铃图展示基因的拷贝数变异。 Journal of Translational Medicine文章《SLC26A4 correlates with homologous recombination deficiency and pa

基因敲除小鼠技术

转基因、基因敲入/敲除动物技术已经成为现代生命科学基础研究和药物研发领域不可或缺的重要技术,该技术从上世纪七八十年代诞生以来,至今已有近四十年的历史,经典技术如DNA原核显微注射、胚胎干细胞显微注射技术一直以来经久不衰,在小鼠模型构建方面日趋完善,并且如同剪切酶和抗体等常规分子生物学试剂的制备技术一样,逐渐从基础研究实验室转向商业模式,成为一项高度标准化的新兴产业,催生了数以百计的创新药

一个新基因的产生

一个新基因的产生,不仅仅是产生一个新的基因序列,其对应的调控机制和调控原件也应该伴随产生,不然这个基因就是个不受调控的基因,对生物体造成不可逆的伤害,导致个体死亡,这个基因也就无法遗传得以保留。

印记基因

最近在做杂交方面的转录组,无意中看到了印记基因(imprinted gene),觉得有用,收集资料,备用。 http://users.rcn.com/jkimball.ma.ultranet/BiologyPages/I/Imprinting.html

与PC1显著相关的基因 | p值计算

1. 相关系数的显著性 t=r*sqrt(n-2) / sqrt(1-r**2) 其中,统计量t符合自由度为 n-2 的t分布。 2. 与PC1显著相关的基因 就是求相关系数r=cor(PC1_score, Xk),其中 PC1_score 长度为样品总数,是PC1 的loading * 每个变量的scale后的值Xk是第k个变量在每个样品的值 然后由r计算t统计量,及对用的p值,见上文

零基础入门转录组数据分析——单基因ROC分析

零基础入门转录组数据分析——单基因ROC分析 目录 零基础入门转录组数据分析——单基因ROC分析1. ROC分析的基础知识2. 单基因ROC分析(Rstudio)——代码实操2. 1 数据处理2. 2 单基因ROC分析2. 3 ROC曲线简单可视化 1. ROC分析的基础知识 1.1 ROC分析是什么? ROC(Receiver Operating Characte