蛋白质治病突变的计算方法(三)

2024-04-22 14:04

本文主要是介绍蛋白质治病突变的计算方法(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

3 用于识别致病突变的特征

文献中使用了几种特征来识别蛋白质中的致病突变。它们大致分为三类:(1)序列,(2)结构和(3)网络,以及它们的组合。图1说明了这三组中的一些重要属性。

                                      图1 用于识别致病突变和热点的重要特征。

基于氨基酸序列的特性包括理化特性、二级结构、位置特异性得分矩阵(PSSM)、特异性基序(motifs)和保守性得分。基于结构的性质包括界面分布(interface profiles)、残基的位置在核心和表面、相对溶剂可及面积(RSA)、体积、氢键供体和受体以及统计势能(statistical potentials)。基于网络的特征主要集中在分子相互作用网络、度、介数(betweenness)、紧密度(closeness)、特征向量和聚类系数等方面(eigen vector and clustering coefficient)。

3.1 基于序列的性质

3.1.1 理化性质

Gromiha等人(1999)收集了一组49种氨基酸特性,它们代表了物理、化学、构象(conformational)和能量特性。这些特性被广泛用于理解蛋白质的结构和功能,以及预测突变的后果。AAindexis是另一个数据库,它包含氨基酸各种理化和生化性质的数值指数。(没看懂这个数据库,但是链接是:AAindex: Amino acid index database (genome.jp))

3.1.2 预测的二级结构和溶剂可及性

蛋白质中每个残基的二级结构和可及表面面积(ASA)被用作识别致病突变的特征。二级结构主要有螺旋、股(stand)和盘管(coil)。一个残基的ASA分为暴露型(ASA > 25%)和埋型(ASA < 25%)。常用的基于序列的方法预测二级结构和溶剂可及性,包括JPred4,NetSurfP,SPIDER2 和SARPred。 

3.1.3 Motifs

motif代表氨基酸序列中的特定模式,由二肽中相邻残基的连续出现(XM;X:任何残基和M:感兴趣残基)、三肽等,以及在它们之间引入间隙(例如X*M;*:差距)。motif提取细节如图2所示。

            图2 从蛋白质序列中提取不同的基序以识别致病突变和热点残基。

这些motifs的偏好用“odds score”来解释,它被定义为特定基序在疾病易感位点和中性位点(突变)中的比例。它由以下公式计算:

其中NdP(disease-prone)和NnP(neutral)分别表示在疾病易感位点和中性位点(或突变)出现特定的二肽或三肽基序。Nd和Nn是数据集中易患病位点和中性位点(或突变)的总数。

(公式总体来看像是易感/中性,然后每个小的又是二/三肽比所有)

3.1.4 氨基酸组成

氨基酸组成表示从热点残基(或致病突变)开始的序列在选定的窗口长度内氨基酸残基的出现情况。窗口长度为3的残基包括中心残基,并且在中心残基的两侧各有一个(图2中的R175包括VRC)。一般情况下,计算组成时考虑3 ~ 21个残差的窗口长度。它计算公式是:

其中,i表示20种的氨基酸,ni表示其中i这种氨基酸的数量,N表示所有氨基酸的数量。

这篇关于蛋白质治病突变的计算方法(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/925983

相关文章

多分类问题中评价指标F1-Score 加权平均权重的计算方法

多分类问题中评价指标F1-Score 加权平均权重的计算方法     众所周知,F1分数(F1-score)是分类问题的一个衡量指标。在分类问题中,常常将F1-score作为评价分类结果好坏的指标。它是精确率和召回率的调和平均数,值域为[0,1]。 F 1 = 2 ∗ P ∗ R P + R F_1=2*\frac{P*R}{P+R} F1​=2∗P+RP∗R​     其中,P代表着准确率(

复活节的计算方法

复活节(Easter),是纪念耶稣基督复活的节日,在西方教会传统里,春分之后第一次满月之后的第一个星期日即为复活节。 下面是一个简单的计算复活节的算法,仅供参考! 1、设要求的那一年是Y年,从Y减去1900,其差记为N。 2、用19作除数去除N,余数记为A。 3、用4作除数去除N,不管余数,把商记为Q。 4、用19去除7A+1,把商记为B,不管余数。 5、用29去除11A+4-B,余数

韩国版AlphaFold?深度学习模型AlphaPPIMd:用于蛋白质-蛋白质复合物构象集合探索

在生命的舞台上,蛋白质扮演着不可或缺的角色。它们是生物体中最为活跃的分子,参与细胞的构建、修复、能量转换、信号传递以及无数关键的生物学功能。同时,蛋白质的结构与其功能密切相关,而它们的功能又通过与蛋白质、多肽、核苷酸以及各种小分子的复杂相互作用来实现。这种蛋白质-蛋白质相互作用 (PPI) 是细胞内许多生物过程的核心,从细胞信号传导到免疫反应,再到细胞周期的调控,无不涉及 PPI。 然而,人们目

推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?

目录 相似度的本质相似度的计算方法:1、欧式距离2、余弦相似度3、皮尔逊相关度4 、杰卡德(Jaccard)相似度 总结 相似度的本质 推荐系统中,推荐算法分为两个门派,一个是机器学习派,一个是相似度门派。机器学习派是后起之秀,而相似度门派则是泰山北斗。 近邻推荐,近邻并不一定只是在三维空间下的地理位置的近邻,也可以是高维空间的近邻。 近邻推荐的核心就是相似度计算方法的选择,由

KMP算法next数组的手工计算方法

KMP是三位大牛:D.E.Knuth、J.H.Morris和V.R.Pratt同时发现的。其中第一位就是《计算机程序设计艺术》的作者!! KMP算法要解决的问题就是在字符串(也叫主串)中的模式(pattern)定位问题。说简单点就是我们平时常说的关键字搜索。模式串就是关键字(接下来称它为P),如果它在一个主串(接下来称为T)中出现,就返回它的具体位置,否则返回-1(常用手段)。 1.next数组

基于STM32的各种数学函数优化计算方法(代码开源)

前言:本文为手把手教学 STM32 的数学计算公式优化方法的教程,本教程的 MCU 使用 STM32F103ZET6 。本篇博客将使用非传统数学库计算手段进行各种数学函数的计算,优化的数学计算包括:sin()、cos()、arctan()、arcsin() 与 1/sqrt()。作为研发的项目产品,实现产品功能往往是很容易的,最重要的核心其实是产品功能的优化,以最优的控制亦或是消耗时间去完成制定的

概率论中两种特殊的 E(x) 计算方法:先求积分再求导,或者先求导再求积分

为了求解某个函数 ( E(x) ),可以使用两种方法:先求积分再求导,或者先求导再求积分。这里我们以数列求和公式为例,分别介绍这两种方法。 1. 先求积分再求导 假设我们有一个函数 ( f(x) ) 的级数展开: E ( x ) = ∑ n = 1 ∞ a n x n E(x) = \sum_{n=1}^{\infty} a_n x^n E(x)=n=1∑∞​an​xn 我们可以通过对

概率论中,积分和再求导的计算方法

为了求解级数 1 + 2 2 q + 3 2 q 2 + … 1 + 2^2q + 3^2q^2 + \ldots 1+22q+32q2+… 的和,可以使用积分再求导的方法。我们考虑如下步骤: 1. 定义函数并进行积分 我们先定义一个函数 S ( q ) S(q) S(q): S ( q ) = ∑ n = 1 ∞ n 2 q n − 1 S(q) = \sum_{n=1}^{\inf

(P107)abcbank框架搭建(四):MD5类使用,包尾作用和包尾计算方法,密码加密方法IDEA+MD5

文章目录 1.MD5类使用2.包尾作用和包尾计算方法3.密码加密方法IDEA+MD5 1.MD5类使用 网站上的使用的MD5 16bit大实际上是32bit大的中间的16个字符 eg:P107\ABCBank\BankClient\main.cpp #include "Server.h"#include "../Public/MD5.h"#include <std

CUDA中线程索引计算方法

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/hujingshuang/article/details/53097222         由于项目需要用到GPU,所以最近开始学习CUDA编程模型,刚开始接触,先搞清楚线程关系和内存模型是非常重要的,但是发现书上和许