本文主要是介绍生信技能48 - 如何获取基因的SNP及RefSeq参考序列命名规则,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. SNP概念
SNP 是指基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性,在群体中的发生频率不小于1 %,包括单个碱基的转换、颠换、插入和缺失等。每核苷酸发生突变的概率大约为10 -9 , 由于压力选择,SNP在单个基因和基因组以及动物不同种群间分布是不均匀的,在非编码区区SNP数量要多于编码区。
1.1 转换
转换是指同类型碱基之间的转换,如嘌呤与嘌呤( G2A) 、嘧啶与嘧啶( T2C) 间的替换。
1.2 颠换
颠换是指发生在嘌呤与嘧啶(A2T、A2C、C2G、G2T) 之间的替换。
通过排列组合,SNP 一共可以有6种替换情况,即A2G、A2T、A2C、C2G、C2T 和G2T ,但实际上转换的发生频率占较高,而且是C2T(胞嘧啶转换为胸腺嘧啶) 转换为主,其原因是CpG的C 是甲基化的,容易自发脱氨基形成胸腺嘧啶T ,CpG 因此变为突变热点。
2. RefSeq数据库
RefSeq数据库存储了公开可用的核酸序列(DNA、RNA)及其蛋白产物数据,包含基因组、 转录本和蛋白质的参考序列。
RefSeq命名采用2个英文字母+下划线_+数字gi
这篇关于生信技能48 - 如何获取基因的SNP及RefSeq参考序列命名规则的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!