使用MAKER进行基因注释(基础入门)

2024-06-23 20:58

本文主要是介绍使用MAKER进行基因注释(基础入门),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2013053-3219030babf92e35.png
maker

在基因组注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测,并在最后整合这三个结果保证结果的可靠性。此外,MAKER还可以不断训练,最初的输出结果可以继续用作输入训练基因预测的算法,从而获取更高质量的基因模型。

Maker的使用比较简单,在软件安装成后,会有一个"data"文件夹存放测试数据

ls ~/opt/biosoft/maker/data
dpp_contig.fasta  dpp_est.fasta  dpp_protein.fasta  hsap_contig.fasta  hsap_est.fasta  hsap_protein.fasta  te_proteins.fasta

以"dpp"开头的数据集为例,protein表示是同源物种的蛋白序列,est是表达序列标签,存放的是片段化的cDNA序列,而contig则是需要被预测的基因组序列。

让我们新建一个文件夹,并将这些测试数据拷贝过来。

mkdir test01 ; cd test01
cp ~/opt/biosoft/maker/data/dpp* .

由于基因组注释设计到多个程序,多个步骤,每个步骤可能都有很多参数需要调整,因此就需要建立专门的配置文件用来告诉maker应该如何控制流程的运行。

如下步骤创建三个以ctl结尾的配置文件

~/opt/biosoft/maker/bin/maker -CTL
ls *.ctl
maker_bopts.ctl  maker_exe.ctl  maker_opts.ctl
  • maker_exe.ctl: 执行程序的路径
  • maker_bopt.ctl: BLAST和Exonerat的过滤参数
  • maker_opt.ctl: 其他信息,例如输入基因组文件

maker_exe.ctl和maker_bopt.ctl可以简单用less查看,可不做修改,maker_opt.ctl是主要调整的对象。 使用vim maker_opt.ctl修改如下内容

genome=dpp_contig.fasta
est=dpp_est.fasta
protein=dpp_protein.fasta
est2genome=1

修改完之后多花几分钟看看每个参数的设置,尽管很枯燥,但是考虑这个工具你可能会反复多次使用,所以这点时间是一定要花的。

随后就可以在当前路径运行程序

~/opt/biosoft/maker/bin/maker &> maker.log &

输出结果见"dpp_contig.maker.output", 重点是"dpp_contig_master_datastore_index.log"文件,由于maker会拆分数据集并行计算,因此该文件记录总体的运行情况,需要关注其中是否有"FAILED","RETRY","SKIPPED_SAMLL","DIED_SIPPED_PERMANET",因为这意味着有些数据出于某些原因没有运算。

最后,我们需要将并行运算的结果进行整合,导出GFF文件, 转录本序列和蛋白序列

~/opt/biosoft/maker/bin/fasta_merge -d dpp_contig_master_datastore_index.log
~/opt/biosoft/maker/bin/gff3_merge -d dpp_contig_master_datastore_index.log

在该目录下就会出现, "dpp_contig.all.gff", "dpp_contig.all.maker.proteins.fasta","dpp_contig.all.maker.transcripts.fasta"

其中GFF文件就需要用IGV,JBrowse, Apollo下展示来检查下注释是否正确。

附录

软件安装:MAKER可以免费用于学术用途,但是未经许可不可商用。目前有两个版本2018年5月4日更新的2.31.10和测试版3.01.02.出于稳定性考虑,安装前者。后续假设已经在http://yandell.topaz.genetics.utah.edu/cgi-bin/maker_license.cgi进行登记,并且下载了压缩包"maker-2.31.10.tgz"

先检查下自己的系统情况,看需要补充哪些库

tar xf maker-2.31.10.tgz
cd maker/src
perl Build.PL

这一步之后会罗列出后续需要运行的命令来完成安装

./Build installdeps
./Build installexes
./Build install
./Build status

这篇关于使用MAKER进行基因注释(基础入门)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088263

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画