本文主要是介绍CADD数据库简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
欢迎关注"生信修炼手册"!
衡量一个变异位点的影响时,通常都是给定一个变异类型,比如synonymous SNV 等,来表明其影响。CADD独创了一种打分算法,来衡量变异位点的有害程度。
对于一组变异位点,CADD 结合等位基因的多态性,变异的致病性等多个因素,构建了一套模型,对每个变异位点进行评估,并给出一个具体的得分,简称C-Scores
。 统计模型直接给出的打分叫做RawScore
, 这个值越高,代表该变异位点是一个有害突变的概率越高。
对于不同组的变异位点,比如对于1000G和ESP两批变异位点而言,由于各因素的差异,其模型是不同的,RawScore
在不同模型间是无法直接比较的。所以提出了scaled C-scores
的概念。对RawScores
进行从大到小排序,采用-10*log10(rank/total)
的公式计算出scaled C-scores
。由于这个公式和phread的定义方式类似,所以scaled C-scores
也叫做PHREAD
。
在分析潜在的致病变异位点时,通常会对PHREAD
进行过滤。官方推荐阈值为10,15,20都可以,但是更加推荐结合C-Scores
和其他实验证据来对变异位点的致病性进行评估,而不是单纯的进行一个数值过滤。
CADD官网提供了以下3种服务
1. 下载服务
链接如下:
http://cadd.gs.washington.edu/download
对应不同的数据集,比如1000G
, ESP
, Exac
等都给出了对应的 CADD score
下载的文件内容如下:
#Chrom Pos Ref Alt RawScore PHRED
1 861349 C T 6.591020 31
1 865545 G A 5.989520 27.8
1 865584 G A 3.632951 23.2
1 865625 G A 5.624605 26.6
1 865628 G A 2.938829 22.0
1 865662 G A 1.597527 13.84
2. 在线注释服务
通过在线服务,可以对变异位点进行CADD打分。链接如下:
http://cadd.gs.washington.edu/score
上传VCF
格式的文件,一次最多允许10000个变异位点,然后点击Upload variants
就可以开始分析。结果如下
## CADD v1.3 (c) University of Washington and Hudson-Alpha Institute for Biotechnology 2013-2015. All rights reserved.
#CHROM POS REF ALT RawScore PHRED
16 50745926 C T 4.355927 24.1
20 1110696 A G 0.142763 4.068
20 1110696 A T 0.005222 2.636
20 1234567 TTCT T -0.369022 0.459
20 1234569 C AC -0.290183 0.699
3. 在线检索
链接如下:
http://cadd.gs.washington.edu/snv
在如下所示的页面中输入SNV位点的位置,然后点击Lookup variant
按钮进行提交
返回结果如下
扫描关注微信号,更多精彩内容等着你!
这篇关于CADD数据库简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!