本文主要是介绍BSA分析拟南芥F2代分离群体混池测序,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. 实验背景
为了研究拟南芥对高温响应的基因,我们对拟南芥的野生型Col进行了EMS诱变,通过对诱变后的种子多代的高温筛选,我们发现了一个对高温敏感的突变体,该突变体的下胚轴的长度在高温下要比野生型显著的短。之后,将此突变体和野生型Col进行杂交,F1表现长下胚轴,F1自交,F2出现了明显的性状分离,即表现长下胚轴和短下胚轴两种类型(长:短~3:1),遗传分析表明该突变是一个隐形突变,有单基因控制。
2. 实验设计及测序
对F2群体中的长,短下胚轴的两种类型的材料分别取30株,然后混合提取DNA,建立两个DNA池,long-pool, short-pool。之后选取亲本Col,及突变体进行建库测序。 一共四个样品,采用ILUMINA双端测序。每个材料测序40~50X。 公司返回的数据,每个样品大约是7Gb.根据拟南芥基因组的大小125Mb,本次测序每个样品的深度大约是56X。返回的原始数据如下:
mkdir BSA_project
cd BSA_project
mkdir Rawdata
#move your raw data here
cd Rawdata/
ls
Cf-long_R1.fq.gz Cf-short_R1.fq.gz Col_R1.fq.gz mutant_R1.fq.gz md5.txt
Cf-long_R2.fq.gz Cf-short_R2.fq.gz Col_R2.fq.gz mutant_R2.fq.gz
3. 数据分析。
(1)创建序列回帖的参考基因组index, GATK call SNP 的index。根据参考基因组fastq名称运行一下脚本
cd BSA_project
mkdir ref #参考基因组文件,INDEX,GATK的dict等
cd ref
ls
Athaliana_447_TAIR10.fa
mkdir script
# put scripts here
#!/bin/bash
# building sequence alginment dictionary, samtools faidx and gatk creatSequenceDictionary
#Usage: sh gatk_step1.sh /path/your_genome.fasta
bwa=/home/zhanghuairen/bin/bwa # set where to find software
gatk=/home/zhanghuairen/software/gatk-4.1.7.0/gatk
samtools=/home/biosoftware/bin/samtools#bwa index
reference=$1
time $bwa index "$reference" && echo "** bwa index done! ** "
#samtools index
time $samtools faidx $reference && echo "** samtools faidx done! ** "#注意:使用GATK之前,需要先建立参考基因组索引文件.dict和.fai
#.dict中包含了基因组中contigs的名字,也就是一个字典;
#.fai也就是fasta index file,索引文件,可以快速找出参考基因组的碱基,由samtools faidx构建
#构建.dict文件(原来要使用picard的CreateSequenceDictionary模块,但是现在gatk整合了此模块,可以直接使用)
# gatk createSequenceDictionary
time $gatk --java-options "-Xmx100G -Djava.io.tmpdir=./tmp" CreateSequenceDictionary \-R "$reference" \-O "$reference.dict" \&& echo "** gatk createSequenceDictionary done! **"
在上面的ref文件夹中运行该脚本,会生成bwa比对的参考基因组文件的INDEX。 以及GATK所需要的dict.这个时候要把GATK的dict 该一个名称,比如:mv Athaliana_447_TAIR10.fa.dict Athaliana_447_TAIR10.dict。 不然下边GATKcall SNP 会报错
运行完之后的ref 包含如下:
Athaliana_447_TAIR10.fa.amb Athaliana_447_TAIR10.fa.pacAthaliana_447_TAIR10.fa.ann Athaliana_447_TAIR10.fa.sa
Athaliana_447_TAIR10.dict Athaliana_447_TAIR10.fa.bwt
Athaliana_447_TAIR10.fa Athaliana_447_TAIR10.fa.fai
(2)对每个原始数据进行质控,去除接
这篇关于BSA分析拟南芥F2代分离群体混池测序的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!