miRNA命名规范

2024-03-14 19:08
文章标签 命名 规范 mirna

本文主要是介绍miRNA命名规范,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

miRNA命名规范

上一篇:microRNA简介

(如果想快速了解miRNA命名规则,请看本篇博客的总结部分)

miRNA的研究起步很早,最早发现的miRNA是线虫中的let-7和lin-4,随着越来越多的miRNA被发现,为了方便学术交流,有科学家提出了一套统一的命名规范,对应的文献如下:

A uniform system for microRNA annotation
Ambros, Victor, et al. 3, 2003, RNA, Vol. 9, pp. 277-279

该文献中的规范主要用于为新发现的miRNA提供一个统一的名字,对于之前发现并在文献中给出名称的miRNA, 依然保留其原来的名称,比如hsa-let-7, 一个典型的成熟miRNA的名称如下所示:

hsa-miR-1290

可以看做由-分隔的3个字段组成,第一个三字母缩写表示miRNA来源的物种,比如hsa代表human, mmu代表mouse;第二个字段为miR,代表成熟的miRNA;第三个字段位数字,代表miRNA发现的顺序。

正常来讲,看懂以下图片,就已经可以明了关于miRNA命名的大部分问题了。

img

  • 对于miRNA前体(pre-miRNA), 只需要miR替换成mir就可以了,比如hsa-mir-1290; 对于来自同一个miRNA前体的两个成熟miRNA, 分别用-5p-3p的后缀表示,比如hsa-miR-12-5phsa-miR-12-3p

  • 对于同源性非常高的两个miRNA, 用小写的英文字母a, b等进行区分,比如hsa-miR-5a, hsa-miR-5b;

  • 对于由不同基因编产生的完全相同的miRNA,则用添加数字后缀的方式进行区分,比如hsa-miR-1290-1, hsa-miR-1290-2

    以上这些就是一个miRNA命名的基本规则。

miRBase的miRNA命名

miRBase是由曼彻斯特大学的研究人员开发的一个在线的miRNA数据库,该数据库中收录了来自200多个物种,接近4万个miRNA的信息,是最全面的miRNA数据库,网址如下:

http://www.mirbase.org/index.shtml

miRBase数据库是miRNA研究最基本的参考数据库,在该数据库中,miRNA前体用mir加数字表示, 编号用MI表示,如hsa-mir-122, 编号为MI00042;成熟miRNA采用miR加数字标识, 编号用MIMAT表示, 如hsa-miR-122-5p对应编号为MIMAT000421

关于microRNA的数据库在接下来的博客会详细说明,本篇博客主要关注点为miRNA命名规则,在此不对数据库做过多的介绍。

以下内容选自miRBase命名法说明,翻译不当,敬请谅解。

What’s in a name?

名字内有什么含义?

As I briefly mentioned in a previous post, miRBase 17 included two conceptual changes in the miRNA nomenclature scheme, which deserve further detail and clarification.

正如我在之前的一则公告中提到的,miRNA17版本在命名规则上有了两个概念上的变化,在这里需要要做进一步的说明。

The name of a miRNA contains some human-readable information. If you stop reading this post halfway, you’ll likely think this is a good thing. Which of course it is, as long as we recognise the limitations. Hold on to the end and hopefully you’ll see that names can create some issues.

关于miRNA命名的可读性,如果你读这篇文章的时候半途而废,那该庆幸是一件好事。当然如果你坚持读下去了,你会发现有很多的问题。

Take for example, hsa-mir-20b. The “hsa” tells us it is a human miRNA. The “20″ tells us that was discovered early — it’s only the 20th family that was named. “20b” tells us that it is related to another miRNA that we can guess is probably called hsa-mir-20a. We can go further — the (lack of) capitalisation of “mir” tells us we’re talking about the miRNA precursor. Or maybe the genomic locus, or maybe the primary transcript, or maybe the extended hairpin that includes the precursor. So that’s already less useful.

比如hsa-mir-20b,hsa表示这是一个人类的miRNA,20代表第20个家族(排在第20位,可能发现的比较早),20b告诉我们它与另外一个miRNA有关,那个miRNA可能是hsa-mir-20a,mir表示miRNA前体,或者可能是基因组的位置,或者可能是初级转录物,或者是包括前体的发夹结构的延伸。

hsa-mir-20b has two mature products, named hsa-miR-20b and hsa-miR-20b* (as of this moment — as you’ll see below, this will change). “miR” tells us we’re talking about a mature sequence. In this case miR-20b arises from the 5′ arm of the mir-20b hairpin, and miR-20b* arises from the 3′ arm. The “” tells us that miR-20b is considered a “minor” product. That means miR-20b* is found in the cell at lower concentration than miR-20b. It is often inferred that miR-20b* is non-functional, and you’ve probably noticed that miR* sequences in general magically disappear in most pictures of miRNA biogenesis, while the dominant arm is magically incorporated into the RISC complex.

hsa-mir-20b有两个成熟体产物,分别是hsa-miR-20b 和 hsa-miR-20b* (现在是这样,但是后文会说到这个会改的)。这样的话,“miR”表示一个成熟体序列。miR-20b 来自于mir-20b发夹结构的5’臂,而miR-20b* 则来自于3’臂,带 “ * ” 的被认为是未成熟的产物,也就是说,miR-20b* 在细胞中的浓度比miR-20b 要低,一直以来人们推测 miR-20b* 是无作用的。你可能发现miR* 的序列经常在很多miRNA起源的图片中神奇的消失了,然而居然只有优势臂会和RISC结合。

But hang on a minute, a bunch of papers now tell us that miR* sequences can be functional (eg Yang et al. 2011), perhaps through binding different Agonaute proteins (a glut of papers in the past couple of years nicely reviewed by Czech and Hannon, 2011). And, of course, the miR* sequence from one hairpin might be expressed at orders of magnitude higher level than the dominant miR sequence from another hairpin. Perhaps the arm that makes the dominant product can change in different tissues, stages and species (G-J et al. 2011). Should we rename miR and miR* sequences every time someone produces an ever deeper sequencing dataset? To cap it all, the “*” character causes problems for database searches and the like.

但是请再想一下,一些文献中告诉我们miR* 序列可能是有作用的( Yang et al. 2011),作用途径可能是通过结合不同的Ago蛋白(过去的两年里有大量的文献都提到了,Czech and Hannon, 2011)。当然,从发夹结构中的一条miR* 序列可能比另一条优势序列的表达量还要高一个水平,也有可能在不同组织、不同时期、不同物种中,优势序列的表达量也会不一样(G-J et al. 2011),那在产生一个深度测序数据中就要改变一下miR和miR* 序列的名字吗?那么加不加“*”就会对数据库的检索等操作带来麻烦。

We therefore intend to retire the miR/miR* nomenclature, in favour of the -5p/-3p nomenclature (the latter has been used in parallel for mature products of approximately equal expression, and will in future be applied to all sequences). We will make this transition in phases, as we can make companion data available to show the expression of mature products from each arm. In miRBase 17, all Drosophila melanogaster mature sequences are renamed as -5p/-3p, and many previously missing second mature products have been added. The available deep sequencing data makes clear which of the potential mature products is dominant. Other species will follow suit in due course.

所以为了解决miR/miR*的命名问题,我们提出了用 -5p/-3p的命名法(后者可以同时表示两个成熟产物而不考虑他们的表达量水平的高低,未来可能会应用在所有的序列上),我们会分阶段进行转换,并且会提供两个成熟体相关的表达量数据,在miRBase17版本中,所有的果蝇黑腹菌属成熟序列都用-5p/-3p来命名,还有很多之前没有的第二成熟体也增加进去了。现在的深度测序可以测到哪个成熟体可能是占优势的,后面我们也会按照这种个方式更新其他的物种。

The second change in miRBase 17 concerns the small number of pairs of miRNA sequences that are transcribed from the same locus in opposite directions — that is, sense/antisense pairs. For example, the dme-mir-307 locus has been shown to be transcribed in both directions, and both transcripts are processed to produce mature miRNAs. These miRNAs were previously named dme-mir-307 and dme-mir-307-as in miRBase. The -as is confusing, because it is similar to the suffixes used to denote families of related miRNAs. The classification of sense and antisense is arbitrary. To confuse matters further, -as and -s were used in early miRNA literature to refer to mature products produced from the 5′ and 3′ arms of a hairpin precursor. From miRBase 17 onwards, the -as nomenclature is retired. Sense and antisense miRNAs will be named independently and in the same way as all other sequences: If the sequences are similar then they get a, b suffixes (eg dme-mir-307a and dme-mir-307b), and if they are not deemed similar enough then they get different numbers (eg rno-mir-151 and rno-mir-3586).

miRBase17版本的第二个变化也涉及到了在基因组相对的位置上转录成的小的成对的miRNA序列-也就是正反义链,比如dme-mir-307 在位置上可以从两个方向上转录,这两个转录本经过转录后处理产生两个成熟的miRNA,这些miRNA在miRBase上之前叫做dme-mir-307 and dme-mir-307-as,“-as”会有点难解释清楚,因为这个后缀和表示miRNA家族的方法很像,这种正反义链的分类的方式是随意的。在更早以前, 早期的文献中,-as 和-s也用来表示从一个发夹前体上产生的5’和3‘的两个成熟体。不过在miRBase17版本之前,就没有用-as命名的方式了。我们现在把来自同一个DNA正反义链的两条序列用自己单独的名字来命名:如果序列是相似的,会在后面加一个a或者b的后缀(比如dme-mir-307a 和 dme-mir-307b),如果序列的相似度不高就用不同的数字来表示(比如 rno-mir-151 and rno-mir-3586)。

The combined result of these changes is that the name of a miRNA contains less information than previously. This may seem like a retrograde step. However, the problem with encoding information in the name is that people are tempted to use it. MicroRNA names are often pragmatic compromises, and have been overloaded with relatively complex meaning, for example, regarding family relationships and expression levels. Names should be useful, but should never be used in place of the correct analysis, for example, of sequence relationships or expression. We therefore suggest that you’ll find your miRNA life easier if you bear in mind some simple concepts:

这一系列的改变导致的结果就是miRNA的命名所展示的信息会比以前更少,这看上去好像是退步了。但是人们更倾向于使用名字的编码信息。miRNA命名在实际用法上就妥协了,因为以前超载了太多的复杂意义,比如把家族和表达水平也考虑进去了。命名规则确实是需要一些用处的,却不应该用来替代精确的分析,比如给一些序列相关性或者表达量做排序。我们相信如果记住了以下几点,你会在miRNA的工作中进行地更加顺利:

  1. Be explicit. If you are referring to the mature miR-20b sequence, you could rely on the capitalisation in miR-20b to say that for you. But it is much better to say “the mature miR-20b sequence”. Even better, show the sequence along with the name; names are not formally stable, but quoting the specific sequence you’ve used in your paper will ensure the entity is traceable forever.

1.确切地说,如果你要表示成熟体 miR-20b序列,你可以用大写的 miR-20b来表示。这比用“the mature miR-20b sequence”要好的多。或者有更好的办法,用序列和名字一起来表示;由于名字还没有正式固定下来,所以在文章中用特定的序列可以在以后更能追本溯源。

  1. Never use the name to encode or derive complex meaning. If you are interested in sequence relationships, you should do some sequence analysis. If you care about expression levels of alternate mature miRNAs, look at expression data. If you derive all your information about miRNA sequence relationships from the name, you will miss a great deal. If you rely on the name to tell you about relative expression then all hope is lost.

2.不让命名去编码或者得到什么复杂的含义。如果对序列的相关性有兴趣,你可以做一些序列的分析。如果想关注成熟miRNA的表达量水平,你可以分析表达量数据。如果从miRNA的名字中得到序列的相关性,那可能会不如你所愿,如果想让名字告诉你相关的表达量,你会大失所望的。

参考:(以上内容节选自)http://www.mirbase.org/blog/category/nomenclature/

总结
miRNA名称与编号

1) miRNA成熟体命名规则(以动物miRNA为例)

①确定命名规则之前发现的miRNA,则保留原来名字,如hsa-let-7。

②miRNA成熟体简写成miR,再根据其物种名称,及被发现的先后顺序加上阿拉伯数字,如hsa-miR-122;

③高度同源的miRNA在数字后记上英文小写字母(a,b,c,…),如hsa-miR-34a,hsa-miR-34b,hsa-miR-34c等;

④由不同染色体上的DNA序列转录加工而成的具有相同成熟体序列的miRNA,则在后面机上阿拉伯数字以示区分,如hsa-miR-199a-1和hsa-miR-199a-2;

⑤通常一个miRNA前体长度大约为70~80nt,很可能两个臂分别产生miRNA。

以前的做法是:表达水平较高的miRNA后面不加任何符号,而表达水平较低的miRNA后面加上* 号,如rno-miR-9* 。有时带“*”的miRNA就根本不出现。在miRBase 17中则以“-5p”和“-3p”分别命名。如hsa-miR-26b-5p和hsa-miR-26b-3p,分别表明从hsa-mir-26b前体的5’端臂和3’端臂加工而来的。

在以前的命名中,有时也会以“-s”和“-as”来命名,但现在已经取消了这种命名方式。

案例请见:http://www.mirbase.org/cgi-bin/mirna_entry.pl?acc=MI0000442

2) miRNA编号及名称(以动物miRNA为例)

miRBase记录了miRNA前体序列及miRNA成熟体序列,其中:

① miRNA前体

发夹状结构的miRNA前体转录本以“mir”命名,其编号以“MI”编号,如人的miRNA 122的前体ID为hsa-mir-122,Accession为MI0000442。

② miRNA成熟体

大约20~23nt的miRNA成熟体以“miR”命名,其编号以“MIMAT”编号,如人的miR-122有两个成熟体,其中之一ID为hsa-miR-122-5p ,Accession为 MIMAT0000421;另一个为ID为hsa-miR-122-3p ,Accession为 MIMAT000 4590。

案例请见:http://www.mirbase.org/cgi-bin/mirna_entry.pl?acc=MI0000442

3) 不同物种命名方式差别

①动物:

miRNA前体:以动物物种缩写+“-”+ mir+“-”+命名顺序,如hsa-mir-122;

miRNA成熟体:以动物物种缩写+“-”+ miR+“-”+命名顺序,如hsa-miR-122-5p;

②植物:

miRNA前体:以植物物种缩写+“-”+ MIR+命名顺序,如ath-MIR156a。注意:MIR是大写,并与命名顺序之间没有“-”;

miRNA成熟链:以植物物种缩写+“-”+ miR+命名顺序,如ath-miR156a。注意:miR是小写,并与命名顺序之间没有“-”;

③ 病毒:

miRNA前体:以病毒物种缩写+“-”+ mir+命名顺序,如bhv1-mir-B1;

miRNA成熟链:以病毒物种缩写+“-”+ miR+命名顺序,如bhv1-miR-B1。

参考资料来源:

作者:生信修炼手册
链接:https://www.jianshu.com/p/38ffb0953574
来源:简书

作者:gaowei2010
链接:http://meeting.dxy.cn/rbmiRNA2012/article/i18707.html
来源:丁香园

翻译来源:

作者:初阳_l
链接:https://www.jianshu.com/p/5feb4740075a
来源:简书

这篇关于miRNA命名规范的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/809431

相关文章

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

JavaEE7 Servlet 3.1(JSR 340)规范中文版

http://www.iteye.com/news/27727-jinnianshilongnian     Jave EE 7中的部分规范已正式获得批准通过,其中包括JSR340 Java Servlet 3.1规范,去年翻译了该规范,在此分享出来,希望对某些朋友有所帮助,不足之处请指正。   点击直接下载    在线版目录   Servlet3.1规范翻译

BERN2(生物医学领域)命名实体识别与命名规范化工具

BERN2: an advanced neural biomedical named entity recognition and normalization tool 《Bioinformatics》2022 1 摘要 NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。 BERN2:BERN2是一个工具,

三维布尔运算对不规范几何数据的兼容处理

1.前言 上一篇文章谈过八叉树布尔运算,对于规范几何数据的情况是没有问题的。 在实际情况中,由于几何数据来源不一,处理和生成方式不一,我们无法保证进行布尔运算的几何数据都是规范的,对于不规范情况有时候也有需求,这就需要兼容不规范数据情况,当然这种兼容不是一味的让步,而是对于存在有限的不规范数据的兼容处理。 2.原始数据示例 下图是一个大坝模型和之上要对其进行布尔运算的立方体。 大坝模型由

【C/C++】变量命名规范

在 C++ 中,为 bool 类型的变量命名时,通常遵循以下命名规范,以确保代码的可读性和一致性: 表示状态或条件: 使用 is 前缀表示某个状态或条件,例如 isReady、isValid。使用 has 前缀表示是否拥有某个属性,例如 hasData、hasError。使用 can 前缀表示是否具备某种能力,例如 canExecute、canRead。使用 should 前缀表示是否应该执行

大话C++:第6篇 命名空间namespace作用域

1 命名空间概述 在一个大型的软件项目中,可能会有许多不同的代码文件,这些文件可能由不同的开发者编写,或者来自不同的库和模块。如果这些代码文件中存在同名的变量、函数、类或其他标识符,那么在编译或运行时就可能发生命名冲突,导致程序无法正确执行。 通过使用命名空间(namespace),开发者可以将相关的代码、变量、函数等组织在一起,形成一个独立的命名空间。这样,即使不同的代码片段中使用了相同的标

VsCode中 找不到UnityEngine.AddressableAssets命名空间

Unity2019.3.5 VsCode中 找不到UnityEngine.AddressableAssets命名空间 命名空间“UnityEngine”中不存在类型或命名空间名“AddressableAssets”(是否缺少程序集引用?) 由于在Unity2019.3.5 AddressableAssets模块的dll文件移到其他位置了,vscode还是找的以前的路径所以会导致引用不正确 解

二、Java之关键字与命名规范

Java之关键字与命名规范 零基础学Java什么是关键字命名规范的重要性 零基础学Java Java学习交流 : V:study_51ctofx 什么是关键字 关键字:含有特殊意义,编译器解析成特定的含义; 比如 private、int、void、class、enum 等等, 这些关键字都不能用作变量、方法名、类名等. //错误,static 是关键字 不能用作变量名