生物信息数据格式：gff,gtf格式

本文主要是介绍生物信息数据格式：gff,gtf格式，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

gff
- 示例
gtf
- 示例
gff和gtf的区别

gff

GFF(General Feature Format)是一种用来描述基因组特征的文件，现在我们所使用的大部分都是第三版（gff3）。

gff文件除gff1以外均由9列数据组成，前8列在gff的3个版本中信息都是相同的，只是名称不同：

第9列attributes的内容存在很大的版本特异性。这9列信息（以gff3为例）分别是：

seqid source type start end score strand strand attributes

seqid ：参考序列的id。
source：注释的来源。如果未知，则用点（.）代替。一般指明产生此gff3文件的软件或方法。
type：类型，此处的名词是相对自由的，建议使用符合SO惯例的名称（sequenceontology），如gene，repeat_region，exon，CDS等。
start：开始位点，从1开始计数（区别于bed文件从0开始计数）。
end：结束位点。
score：得分，对于一些可以量化的属性，可以在此设置一个数值以表示程度的不同。如果为空，用点（.）代替。
strand：“＋”表示正链，“－”表示负链，“.”表示不需要指定正负链。
phase ：步进。对于编码蛋白质的CDS来说，本列指定下一个密码子开始的位置。可以是0、1或2，表示到达下一个密码子需要跳过的碱基个数。
attributes：属性。一个包含众多属性的列表，格式为“标签＝值”（tag=value），不同属性之间以分号相隔。

http://gmod.org/wiki/GFF3

awk分析拟南芥gff文件

示例

##gff-version 3
ctg123 . mRNA            1300  9000  .  +  .  ID=mrna0001;Name=sonichedgehog
ctg123 . exon            1300  1500  .  +  .  ID=exon00001;Parent=mrna0001
ctg123 . exon            1050  1500  .  +  .  ID=exon00002;Parent=mrna0001
ctg123 . exon            3000  3902  .  +  .  ID=exon00003;Parent=mrna0001
ctg123 . exon            5000  5500  .  +  .  ID=exon00004;Parent=mrna0001
ctg123 . exon            7000  9000  .  +  .  ID=exon00005;Parent=mrna0001

gtf

gtf全称为gene transfer format，主要是用来对基因进行注释，当前所广泛使用的gtf格式为第二版（gtf2）。以下均基于gtf2叙述。

gtf同gff3很相似，也是9列内容，其内容如下：

seqname source feature start end score strand frame attributes

seqname: 序列的名字。通常格式染色体ID或是contig ID。
source：注释的来源。通常是预测软件名或是公共数据库。
start：开始位点，从1开始计数。
end：结束位点。
feature ：基因结构。CDS，start_codon，stop_codon是一定要含有的类型。
score ：这一列的值表示对该类型存在性和其坐标的可信度，不是必须的，可以用点“.”代替。
strand：链的正向与负向，分别用加号+和减号-表示。
frame：密码子偏移，可以是0、1或2。
attributes：必须要有以下两个值：

gene_id value; 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开，如果值为空，则表示没有对应的基因。

transcript_id value; 预测的转录本的唯一ID。transcript_id与value值用空格分开，空表示没有转录本。

示例

AB000381 Twinscan  exon         150   200   .   +   .  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  exon         300   401   .   +   .  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  CDS          380   401   .   +   0  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  exon         501   650   .   +   .  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  CDS          501   650   .   +   2  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  exon         700   800   .   +   .  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  CDS          700   707   .   +   2  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  exon         900  1000   .   +   .  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  start_codon  380   382   .   +   0  gene_id "AB000381.000"; transcript_id "AB000381.000.1";
AB000381 Twinscan  stop_codon   708   710   .   +   0  gene_id "AB000381.000"; transcript_id "AB000381.000.1";

基因组注释文件（gtf）数据示例

gff和gtf的区别

gtf2的内容和gff3也是很相似的，区别：

-	gtf2	gff3
type/feature	必须注明	可以是任意名称
attributes	key和value以空格分割	key和value以“=”隔开

这篇关于生物信息数据格式：gff,gtf格式的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

生物信息数据格式：gff,gtf格式

文章目录

gff

示例

gtf

示例

gff和gtf的区别

相关文章

一文详解如何使用Java获取PDF页面信息

Java中读取YAML文件配置信息常见问题及解决方法

Mysql常见的SQL语句格式及实用技巧

利用Python脚本实现批量将图片转换为WebP格式

C++ 函数 strftime 和时间格式示例详解

C#实现将Office文档(Word/Excel/PDF/PPT)转为Markdown格式

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

SpringBoot如何对密码等敏感信息进行脱敏处理

Ubuntu上手动安装Go环境并解决“可执行文件格式错误”问题