蛋白质治病突变的计算方法（三）

本文主要是介绍蛋白质治病突变的计算方法（三），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

3 用于识别致病突变的特征

文献中使用了几种特征来识别蛋白质中的致病突变。它们大致分为三类：(1)序列，(2)结构和(3)网络，以及它们的组合。图1说明了这三组中的一些重要属性。

图1 用于识别致病突变和热点的重要特征。

基于氨基酸序列的特性包括理化特性、二级结构、位置特异性得分矩阵(PSSM)、特异性基序（motifs）和保守性得分。基于结构的性质包括界面分布(interface profiles)、残基的位置在核心和表面、相对溶剂可及面积(RSA)、体积、氢键供体和受体以及统计势能（statistical potentials）。基于网络的特征主要集中在分子相互作用网络、度、介数（betweenness）、紧密度（closeness）、特征向量和聚类系数等方面（eigen vector and clustering coefficient）。

3.1 基于序列的性质

3.1.1 理化性质

Gromiha等人(1999)收集了一组49种氨基酸特性，它们代表了物理、化学、构象（conformational）和能量特性。这些特性被广泛用于理解蛋白质的结构和功能，以及预测突变的后果。AAindexis是另一个数据库，它包含氨基酸各种理化和生化性质的数值指数。（没看懂这个数据库，但是链接是：AAindex: Amino acid index database (genome.jp)）

3.1.2 预测的二级结构和溶剂可及性

蛋白质中每个残基的二级结构和可及表面面积(ASA)被用作识别致病突变的特征。二级结构主要有螺旋、股（stand)和盘管(coil)。一个残基的ASA分为暴露型(ASA > 25%)和埋型(ASA < 25%)。常用的基于序列的方法预测二级结构和溶剂可及性，包括JPred4，NetSurfP，SPIDER2 和SARPred。