【生信笔记】Emsenbl的BioMart工具:对RNA进行多种ID批量转换

2023-10-12 13:30

本文主要是介绍【生信笔记】Emsenbl的BioMart工具:对RNA进行多种ID批量转换,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好我是lotusng,本期blog我跟大家分享一个RNA的ID转换方法:利用Emsenbl的BioMart工具。

众所周知(?),Emsenbl网站提供了多种物种的多种DNA与RNA的序列等信息,其实Emsenbl还有一个功能很强大的RNA 在线ID转换工具BioMart,我来安利一下~

Emsenbl的BioMart工具: http://asia.ensembl.org/biomart/martview/db73e9d48b0fb03717654a65c72012c4


文章目录

    • 0 数据输入格式与输出要求
    • 1 选择人类基因数据库
        • (1)-> Emsenbl
        • (2)-> 点BioMart
        • (3)-> 点Dataset
        • (4)-> 选择输入的基因来自什么库
    • 2 输入的ID列表
        • (1)-> 点Fliters(过滤器)
        • (2)-> 勾选Input ereferences ID list
        • (3)-> 选择输入的基因ID类别
        • (4) 文本框内输入Gene Name列表
    • 3 输出的属性选项
        • (1)-> Attributes(属性)
        • (2)-> GENE -> Ensembl 选择输出格式
        • (3)-> External References
    • 4 结果的输出及下载保存
        • (1)-> (网页左上角)点Results
        • (2)-> 下载格式选 XLS
        • (3)-> GO
    • 下面开始BioMart的技术总结
    • 附 Excel分列小技巧


0 数据输入格式与输出要求

 首先,看一下我们的例子,我们的数据是人类的miRNA的Gene name,目的是转换得到 Gene ID、Transcript ID、miRBase ID


1 选择人类基因数据库

(1)-> Emsenbl

  Emsenbl 网址:http://asia.ensembl.org/index.html

(2)-> 点BioMart
(3)-> 点Dataset
(4)-> 选择输入的基因来自什么库

 人类基因选择:选择 Ensembl Genes 92Human genes(GRCh38.p12) (注:目前最新的选项更新为Ensembl Genes 95,选它)

在这里插入图片描述


2 输入的ID列表

(1)-> 点Fliters(过滤器)
(2)-> 勾选Input ereferences ID list
(3)-> 选择输入的基因ID类别

  我们的数据是miRNA的Gene Name,如图选Gene Name(s)

(4) 文本框内输入Gene Name列表

在这里插入图片描述

  如果数据是Gene ID:ENSG12345678910这样的,选Gene stable ID(s)。以此类推。
  根据自己数据的类型,选择对应的ID格式。(注意看选项后括号里给出的例子,要和自己的数据完全对应上)
在这里插入图片描述

3 输出的属性选项

(1)-> Attributes(属性)
(2)-> GENE -> Ensembl 选择输出格式

  注意,所有要显示在结果里的输出格式都要选(包括我们输入的是Gene name格式,那么“Gene name”选择一样要选。否则,结果里不会显示输入的数据,只有一堆转换后的ID,无法输入输出一一对应)。
  所以,我们选择了Gene stable ID(输出)、Transcript stable ID(输出)、Gene name(输入)。
在这里插入图片描述

(3)-> External References

  同样还在Attributes下GENE里的子选项,下拉。在External References 中,其它的输出格式按需求选择。我们选择了miRBase ID(输出)。此处最多能选择3项。
在这里插入图片描述

4 结果的输出及下载保存

(1)-> (网页左上角)点Results

  得到结果,包括了我们的输入列Gene name,输出列 Gene stable ID、Transcript stable ID和miRBase ID。

(2)-> 下载格式选 XLS
(3)-> GO

  然后就可以下载到这个表格的xls版本啦。
在这里插入图片描述

下面开始BioMart的技术总结

  1. 流程就是以上这么个流程,步骤做一遍就清晰了。
  2. 关键是输入格式要选对,注意BioMart所给的ID例子,一定要完全对应,否则无法识别。
  3. 输出选项里,注意要把输入格式也选上,否则输入选项并不会显示在结果里。
  4. 例子里一共选了4个属性选项,所以得到4个输出列。合理运用BioMart,按需选择输入格式和输出格式,就能对多种RNA做多种ID转换了。

附 Excel分列小技巧

之前同学的同学问我怎么把带版本号的mRNA的Gene ID转换成mRNA的Gene name。
一开始他是在NCBI一个一个查,我觉得吧,可以是可以,没必要是真的没必要,这时BioMart就很好用啦。

他的原数据是这样的(第一列):


由于他的原始数据中mRNA Gene ID 是带小数的,而这个小数并不影响转换得到对应Gene name,直接把放入BioMart作为Gene stable ID又无法被识别。可以选择用excel的分列功能,批量将小数删去。(当然还有很多种删掉小数的方法,这里只是示范一种简单的方法,来让我们的数据和BioMart的要求对应上。)

操作如下:
用Excel打开数据 -> 全选我们的数据 -> 工具栏[数据] -> [分列] -> 选[分隔符号] -> [下一步]
在这里插入图片描述


-> 选[其它] -> 输入“.” -> [下一步] -> [完成]


结果如下图。



欢迎留言讨论与交流~

lotusng:
major in CS
foucs on 生信数据挖掘与算法设计

这篇关于【生信笔记】Emsenbl的BioMart工具:对RNA进行多种ID批量转换的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/196172

相关文章

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

超强的截图工具:PixPin

你是否还在为寻找一款功能强大、操作简便的截图工具而烦恼?市面上那么多工具,常常让人无从选择。今天,想给大家安利一款神器——PixPin,一款真正解放双手的截图工具。 想象一下,你只需要按下快捷键就能轻松完成多种截图任务,还能快速编辑、标注甚至保存多种格式的图片。这款工具能满足这些需求吗? PixPin不仅支持全屏、窗口、区域截图等基础功能,它还可以进行延时截图,让你捕捉到每个关键画面。不仅如此

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个