生信技能46 - Call人类线粒体变异和提取chrM变异位点

2024-05-25 21:44

本文主要是介绍生信技能46 - Call人类线粒体变异和提取chrM变异位点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用bwa将样本fastq文件比对到线粒体参考基因组, 并使用bcftools进行call变异。

基础软件安装

conda install bcftools -y
conda install samtools-y
conda install bwa -y

一、Call人类线粒体变异

1. 构建线粒体参考基因组

参考基因组: 人类线粒体参考基因组NC_012920.1

# NCBI下载参考基因组fasta序列, 重命名为mt.fasta
mv NC_012920.1.MT.fasta mt.fastabwa index mt.fasta
# 生成一下5个文件
# mt.fasta.amb  mt.fasta.ann  mt.fasta.bwt  mt.fasta.pac  mt.fasta.sasamtools faidx mt.fasta
# 生成mt.fasta.

这篇关于生信技能46 - Call人类线粒体变异和提取chrM变异位点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1002697

相关文章

leetcode刷题(46)——236. 二叉树的最近公共祖先

这道题比235略难一些 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是它自己的祖先)。” 例如,给定如下二叉树: root = [3,5,1,6,2,0,8,null,null,7,4] 示例 1: 输入:

可视化生信分析利器-Galaxy(第一讲)

什么是Galaxy 很多公司开始推广他们的可视化生信分析工具,有人说未来的趋势是无代码,分析只要拖拖点点就行了。无代码只能说是一个噱头,毕竟人人都会“用"excel,也不是人人都是数据分析师。 但是一个数据分析师肯定知道如何正确的使用excel,所以一个真正的生信媛/猿也不会嫌弃那些可视化的工具。毕竟写代码累了,没事拖拖点点也是别样的乐趣。 Galaxy就是很多年前在云计算背景下诞生的开源项

如何从BAM文件中提取fastq

虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq。最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了相应的工具samtools fastq. 以biostar handbook的Ebola病毒数据为例,首先获取比对得到的BAM文件。 # 建立文件夹mkdir -p refs# 根据Acces

biostar handbook(十)|如何进行变异检测

变异检测流程 什么是基因组变异 基因组变异是一个定义比较模糊的概念. 所谓的变异是相对于一个完美的“参考基因组”而言。但是其实完美的“参考基因组”并不存在,因为我们只是选择某一个物种里的其中似乎比较正常的个体进行测序组装,然后基于它进行后续的研究。简单的说,参考和变异是相对而言,变异也可能完全正常。 常见的基因组变异一般可以归为如下几类: SNP, 单核苷酸多态性, 一

「答果子问」R语言如何提取特定的字符串

R语言如何提取特定的字符串 这个帖子是为了果子的一个提问 R语言能不能实现匹配括号里面的内容, 但是不包括括号 这个问题来自于他的一篇帖子有些GEO平台的探针转换比较麻烦, 里面提取字符串的代码不够简洁。 果子在原帖里面引用我的一句话,"正则表达式是我们认识这个世界的哲学".既然我说了这句话,那么我就得贯彻我的哲学理念,在R里面用正则表达式把数据给提取了。 首先在https://w

「学转录组入门生信」第二周来获取表达量矩阵

我们第二周目标有四个: 整理数据RNA-seq格式了解数据质控数据比对read定量 首先,我们得要知道我们在转录组分析过程中会遇到很多格式,建议先通过搜索查找了解这些格式是什么 fasta/fas/fagtf/gffbedsam/bamcsv/tsv/txt 接着,我们会在分析过程中时刻检查我们的数据质量,所以你要尝试回答下面这几个问题 数据质控要在哪个阶段做不同阶段要看什么标准质控有哪

「生信基础课」如何利用好手头的电脑,节省上千的服务器租用费

对于一个专业的生信分析人员,一台高性能的服务器是必不可少的,因此会在上面投入能力承受范围的资金。 关于为何要用Linux系统,我录制了一个2分钟的视频,https://www.bilibili.com/video/av58133450 但是对于一个仅仅想了解生信是什么, 想跑跑简单的流程的初学者而言,动辄月租上千的服务器并不是好的选择。 某厂商报价 最好的策略是先

「学转录组入门生信」第一周从环境配置开始

image 我们第一周目标有三个: 熟悉Linux环境 登录服务器Linux基本命令PATH的意义学习conda管理环境 如何在conda中添加channel如何用conda安装和卸载软件如何创建新的环境和切换环境数据准备 首先,你需要有一个Linux环境,Windows10用户可以安装WSL,MacOS请在应用程序中搜索终端 Windows10配置WSL: https

「生信Debug」OpenBLAS blas_thread_init: pthread_create: Resource temporarily unavailable

BLAS(Basic Linear Algebra Subprograms),翻译为基础线性代数子程序库,里面拥有大量已经编写好的关于线性代数运算的程序。OpenBLAS是其中一个实现了相关运算的开源程序库,其他软件在开发的时候就不需要额外造轮子,直接调用相关的API即可。 之前在使用OrthoFinder遇到了类似的问题,见https://github.com/davidemms/OrthoF

「单细胞转录组系列」如何从稀疏矩阵中提取部分数据进行分析

这一篇文章是回答知识星球中一位星友的提问,她的电脑内存有限,无法直接使用所有数据,只能分析部分数据。 数据来源: https://content.cruk.cam.ac.uk/jmlab/atlas_data.tar.gz 解压缩之后,得到下面数据 数据清单 其中raw_counts.mtx是以稀疏矩阵格式存放的表达量数据,文件为6.5G, 用普通的文本编辑器无法打开,