本文主要是介绍StringTie在注释基因组时的注意事项,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
在利用RNA-seq注释基因组时,有一个问题就是,我将不同组织来源的转录组数据和参考基因组比对之后,那下一步是1)先将这三个比对结果进行合并,然后用StringTie进行预测,还是2)用StringTie分别进行预测,然后用StringTie的merge模式进行合并?
这个问题的提出,是我采取第二种方式时,发现合并后的基因数减少,觉得哪里不太对劲,于是用IGV检查了不同分析策略的结果,
结论如下:
StringTie 的merge模式能够合并不同的来源的结果,但在合并的同时会根据FPKM,TPM和转录本长度过滤,最终结果可以认为是在所有样本里面都是有所表达的基因,因此最终的数目会少一些。同时由于某些基因表达量低,单个样本里由于read数少无法覆盖基因,因此最终的预测结构还完整。
因此,需要先将BAM合并后,然后进行预测,如果为了输出结果的可靠性,还可以根据FPKM和TPM做过滤。
这篇关于StringTie在注释基因组时的注意事项的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!