BSA分析拟南芥F2代分离群体混池测序

本文主要是介绍BSA分析拟南芥F2代分离群体混池测序，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. 实验背景

为了研究拟南芥对高温响应的基因，我们对拟南芥的野生型Col进行了EMS诱变，通过对诱变后的种子多代的高温筛选，我们发现了一个对高温敏感的突变体，该突变体的下胚轴的长度在高温下要比野生型显著的短。之后，将此突变体和野生型Col进行杂交，F1表现长下胚轴，F1自交，F2出现了明显的性状分离，即表现长下胚轴和短下胚轴两种类型（长：短～3:1），遗传分析表明该突变是一个隐形突变，有单基因控制。

2. 实验设计及测序

对F2群体中的长，短下胚轴的两种类型的材料分别取30株，然后混合提取DNA，建立两个DNA池，long-pool, short-pool。之后选取亲本Col，及突变体进行建库测序。一共四个样品，采用ILUMINA双端测序。每个材料测序40～50X。公司返回的数据，每个样品大约是7Gb.根据拟南芥基因组的大小125Mb，本次测序每个样品的深度大约是56X。返回的原始数据如下：

mkdir BSA_project
cd BSA_project
mkdir Rawdata
#move your raw data here
cd Rawdata/
ls
Cf-long_R1.fq.gz  Cf-short_R1.fq.gz  Col_R1.fq.gz  mutant_R1.fq.gz  md5.txt
Cf-long_R2.fq.gz  Cf-short_R2.fq.gz  Col_R2.fq.gz  mutant_R2.fq.gz

3. 数据分析。

（1）创建序列回帖的参考基因组index， GATK call SNP 的index。根据参考基因组fastq名称运行一下脚本

cd BSA_project
mkdir ref #参考基因组文件，INDEX，GATK的dict等
cd ref
ls 
Athaliana_447_TAIR10.fa 
mkdir script 
# put scripts here

#!/bin/bash 
# building sequence alginment dictionary, samtools faidx and gatk creatSequenceDictionary
#Usage: sh gatk_step1.sh /path/your_genome.fasta 
bwa=/home/zhanghuairen/bin/bwa                   # set where to find software 
gatk=/home/zhanghuairen/software/gatk-4.1.7.0/gatk
samtools=/home/biosoftware/bin/samtools#bwa index
reference=$1
time $bwa index "$reference" && echo "** bwa index done! ** "
#samtools index
time  $samtools faidx $reference && echo "** samtools faidx done! ** "#注意：使用GATK之前，需要先建立参考基因组索引文件.dict和.fai
#.dict中包含了基因组中contigs的名字，也就是一个字典；
#.fai也就是fasta index file，索引文件，可以快速找出参考基因组的碱基，由samtools faidx构建
#构建.dict文件（原来要使用picard的CreateSequenceDictionary模块，但是现在gatk整合了此模块，可以直接使用）
# gatk createSequenceDictionary
time $gatk --java-options "-Xmx100G -Djava.io.tmpdir=./tmp" CreateSequenceDictionary \-R "$reference" \-O "$reference.dict" \&& echo "** gatk createSequenceDictionary done! **"

在上面的ref文件夹中运行该脚本,会生成bwa比对的参考基因组文件的INDEX。以及GATK所需要的dict.这个时候要把GATK的dict 该一个名称，比如：mv Athaliana_447_TAIR10.fa.dict Athaliana_447_TAIR10.dict。不然下边GATKcall SNP 会报错

运行完之后的ref 包含如下：

 Athaliana_447_TAIR10.fa.amb      Athaliana_447_TAIR10.fa.pacAthaliana_447_TAIR10.fa.ann      Athaliana_447_TAIR10.fa.sa
Athaliana_447_TAIR10.dict          Athaliana_447_TAIR10.fa.bwt
Athaliana_447_TAIR10.fa            Athaliana_447_TAIR10.fa.fai

（2）对每个原始数据进行质控，去除接

这篇关于BSA分析拟南芥F2代分离群体混池测序的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！