本文主要是介绍「学转录组入门生信」第二周来获取表达量矩阵,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
我们第二周目标有四个:
- 整理数据RNA-seq格式
- 了解数据质控
- 数据比对
- read定量
首先,我们得要知道我们在转录组分析过程中会遇到很多格式,建议先通过搜索查找了解这些格式是什么
- fasta/fas/fa
- gtf/gff
- bed
- sam/bam
- csv/tsv/txt
接着,我们会在分析过程中时刻检查我们的数据质量,所以你要尝试回答下面这几个问题
- 数据质控要在哪个阶段做
- 不同阶段要看什么标准
- 质控有哪些软件
之后,我们要将我们的二代测序结果和参考基因组/转录组进行比对,建议将比对结果用IGV进行查看
- 转录组比对和基因组比对的区别
- 比对有哪些工具
- 什么要建立索引
比对结果中存放着每个read的位置信息,我们就可以根据位置信息来计算每个转录本的表达量
- read定量有哪些工具
- read定量分为哪几种水平
对于初学者而言,推荐的分析流程是,trimmomatic或fastp质 -> hisat2建立索引或下载索引 -> hisat2比对 -> featureCount定量。
以上就是第二周的内容了。这一周必读篇文献是:http://www.ncbi.nlm.nih.gov/pubmed/26813401
第一周我录制了如下的视频,如有需要,https://space.bilibili.com/249108235可以观看,
这篇关于「学转录组入门生信」第二周来获取表达量矩阵的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!