蛋白质治病突变的计算方法(三)

2024-04-22 14:04

本文主要是介绍蛋白质治病突变的计算方法(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

3 用于识别致病突变的特征

文献中使用了几种特征来识别蛋白质中的致病突变。它们大致分为三类:(1)序列,(2)结构和(3)网络,以及它们的组合。图1说明了这三组中的一些重要属性。

                                      图1 用于识别致病突变和热点的重要特征。

基于氨基酸序列的特性包括理化特性、二级结构、位置特异性得分矩阵(PSSM)、特异性基序(motifs)和保守性得分。基于结构的性质包括界面分布(interface profiles)、残基的位置在核心和表面、相对溶剂可及面积(RSA)、体积、氢键供体和受体以及统计势能(statistical potentials)。基于网络的特征主要集中在分子相互作用网络、度、介数(betweenness)、紧密度(closeness)、特征向量和聚类系数等方面(eigen vector and clustering coefficient)。

3.1 基于序列的性质

3.1.1 理化性质

Gromiha等人(1999)收集了一组49种氨基酸特性,它们代表了物理、化学、构象(conformational)和能量特性。这些特性被广泛用于理解蛋白质的结构和功能,以及预测突变的后果。AAindexis是另一个数据库,它包含氨基酸各种理化和生化性质的数值指数。(没看懂这个数据库,但是链接是:AAindex: Amino acid index database (genome.jp))

3.1.2 预测的二级结构和溶剂可及性

蛋白质中每个残基的二级结构和可及表面面积(ASA)被用作识别致病突变的特征。二级结构主要有螺旋、股(stand)和盘管(coil)。一个残基的ASA分为暴露型(ASA > 25%)和埋型(ASA < 25%)。常用的基于序列的方法预测二级结构和溶剂可及性,包括JPred4,NetSurfP,SPIDER2 和SARPred。 

3.1.3 Motifs

motif代表氨基酸序列中的特定模式,由二肽中相邻残基的连续出现(XM;X:任何残基和M:感兴趣残基)、三肽等,以及在它们之间引入间隙(例如X*M;*:差距)。motif提取细节如图2所示。

            图2 从蛋白质序列中提取不同的基序以识别致病突变和热点残基。

这些motifs的偏好用“odds score”来解释,它被定义为特定基序在疾病易感位点和中性位点(突变)中的比例。它由以下公式计算:

其中NdP(disease-prone)和NnP(neutral)分别表示在疾病易感位点和中性位点(或突变)出现特定的二肽或三肽基序。Nd和Nn是数据集中易患病位点和中性位点(或突变)的总数。

(公式总体来看像是易感/中性,然后每个小的又是二/三肽比所有)

3.1.4 氨基酸组成

氨基酸组成表示从热点残基(或致病突变)开始的序列在选定的窗口长度内氨基酸残基的出现情况。窗口长度为3的残基包括中心残基,并且在中心残基的两侧各有一个(图2中的R175包括VRC)。一般情况下,计算组成时考虑3 ~ 21个残差的窗口长度。它计算公式是:

其中,i表示20种的氨基酸,ni表示其中i这种氨基酸的数量,N表示所有氨基酸的数量。

这篇关于蛋白质治病突变的计算方法(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/925983

相关文章

IBS和IBD的区别和计算方法介绍

大家好,我是邓飞。 今天介绍一下IBS和IBD的区别: IBS(肠易激综合症)和IBD(炎症性肠病)是两种不同的消化系统疾病,主要区别如下: IBS(Irritable Bowel Syndrome):是一种功能性肠道疾病,主要表现为腹痛、腹胀、腹泻或便秘,症状通常与饮食、压力和心理因素相关,没有明显的器质性病变。 IBD(Inflammatory Bowel Disease):是一组

组合c(m,n)的计算方法

问题:求解组合数C(n,m),即从n个相同物品中取出m个的方案数,由于结果可能非常大,对结果模10007即可。       共四种方案。ps:注意使用限制。 方案1: 暴力求解,C(n,m)=n*(n-1)*...*(n-m+1)/m!,n<=15 ; int Combination(int n, int m) { const int M = 10007; int

纳米材料咋设计?蛋白质模块咋用?看这里就知道啦!

大家好,今天我们来了解一项关于蛋白质纳米材料设计的研究——《Blueprinting extendable nanomaterials with standardized protein blocks》发表于《Nature》。蛋白质结构复杂,其组装体的设计颇具挑战。但近期的研究取得了新突破,通过设计标准化的蛋白质模块,如线性、曲线和转角模块等,实现了纳米材料的可扩展性和规律性。这

学术分享|无惧数据匮乏!上海交大博士后周子宜详解蛋白质语言模型的小样本学习方法 FSFP

预训练蛋白质语言模型 (PLMs) 能够以无监督的方式学习数百万蛋白质中氨基酸序列的分布特征,在揭示蛋白质序列与其功能之间的隐含关系方面显示出了巨大的潜力。 在此背景下,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀,开发了一种针对蛋白质语言模型的小样本学习方法,能够在使用极少数湿实验数据的情况下大幅提升传统蛋白质语言模型的突变效

外泌体相关基因肝癌临床模型预测——2-3分纯生信文章复现——5.拷贝数变异及突变图谱(2)

内容如下: 1.外泌体和肝癌TCGA数据下载 2.数据格式整理 3.差异表达基因筛选 4.预后相关外泌体基因确定 5.拷贝数变异及突变图谱 6.外泌体基因功能注释 7.LASSO回归筛选外泌体预后模型 8.预后模型验证 9.预后模型鲁棒性分析 10.独立预后因素分析及与临床的相关性分析 11.列线图,ROC曲线,校准曲线,DCA曲线 12.外部数据集验证 13.外泌

电负性的计算方法

保罗电负性标度是广泛使用的方法之一,由Linus Pauling于1932年提出。这个标度基于实验数据,特别是化学键的键能数据。虽然电负性本身不是直接计算得到的,但保罗通过实验数据提出了一个经验公式: [\Delta E = \frac{1}{2} (E_{AB} - (E_{AA} + E_{BB}))] 其中: ( \Delta E ) 是化学键的键能差, ( E_{AB} ) 是AB

maftools癌症体细胞变异(突变)分析工具学习

Maftools 是一个专门用于分析和可视化突变数据的 R 包。全名为 "Mutation Annotation Format Tools",它主要处理 MAF(Mutation Annotation Format)文件,这种文件格式广泛用于存储和共享癌症基因组中的突变数据。 Maftools 的主要功能包括: 突变数据解析:可以方便地加载 MAF 文件,并将其解析为 R 中的对象,便于进一步

建模杂谈系列253 序列突变点的判定

说明 使用pycm3进行推断。 内容 1 环境搭建 使用conda创建对应的包环境,然后再通过jupyter运行 conda create -c conda-forge -n pymc_env "pymc>=5"conda activate pymc_envpip3 install ipython -i https://mirrors.cloud.tencent.com/pypi/s

计算方法——插值法程序实现(一)

例题 给出的函数关系表,分别利用线性插值及二次插值计算的近似值。 0.10.20.30.40.51.1051711.2214031.3498591.4918251.648721 参考代码一:Python代码实现(自编码) import math""":parameter用于计算插值多项式的系数"""def Parameters(data_x,data_y,size):param

图像相似度计算方法

图像相似度计算主要用于对于两幅图像之间内容的相似程度进行打分,根据分数的高低来判断图像内容的相近程度。      可以用于计算机视觉中的检测跟踪中目标位置的获取,根据已有模板在图像中找到一个与之最接近的区域。然后一直跟着。已有的一些算法比如BlobTracking,Meanshift,Camshift,粒子滤波等等也都是需要这方面的理论去支撑。     还有一方面就是基于图像内容的图像检索,