生物信息学---蛋白质组学中氨基酸信息编码方式

2023-11-20 14:41

本文主要是介绍生物信息学---蛋白质组学中氨基酸信息编码方式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

特征编码:

1. 基于序列的特征:

 资料来源:

蛋白质序列特征提取方法之——CKSAAP

1.1 CKSAPP(k空间氨基酸对的组成):

CKSAAP(Compositon of k-spaced Amino Acid Pairs)方法中,利用在蛋白质序列片断中k个间隔距离的残基对(residue pairs)在该序列中的组成比例,建立数学模型,提取出特征向量,从而达到预测泛素(Ubiquitin)的目的。
 

残基:

组成多肽的氨基酸在相互结合时,由于其部分基团参与了肽键的形成而失去一分子水,因此把多肽中的氨基酸单位称为氨基酸残基。即由肽键连接的氨基酸失水后剩余部分。

泛素:

泛素(ubiquitin)是一种存在于所有真核生物(大部分真核细胞)中的小蛋白。 泛素由76个氨基酸组成,分子量大约8.451kDa。它的主要功能是标记需要分解掉的蛋白质,使其被26S蛋白酶体降解。26S蛋白酶体上调节亚基上的一些受体可以识别K48和K11位连接的多聚泛素化蛋白,20S核心亚基在ATPase供能下水解底物。泛素也可以标记跨膜蛋白,参与蛋白质的膜泡运输。非典型泛素链在细胞信号传导,内吞,以及DNA损伤修复,调控NF-κB通路中起着重要作用。它在真核生物中具有高度保守性,人类和酵母的泛素有96%的相似性。

数学计算的过程:

以长度为48的序列LEEYRKHVAERAAEGIAPKPLDANQMAALVELLKNPPAGEEEFLLDLL为例(编号是常见的20种氨基酸所代表的符号),

k=0时,我们需要提取的残基对(residue pairs)为{LE,EE,EY,……,LD,DL,LL},即每个氨基酸和它相邻的下一个氨基酸组成一对提取出来,也就是说这两个氨基酸中间的间隔距离是k=0个氨基酸。以此类推,

k=1时,我们需要提取的残基对为{LE,EY,ER,YK,……,LD,LL,DL}……本方法中,每一个氨基酸对都需要间隔一个氨基酸。

k最大为5。一共有6种情况(0,1,2,3,4,5)
细心的你一定会发现k=0时候,结尾会有1个氨基酸L没有配对,而提取的残基对数量为47k=1时,有2个氨基酸LL没有配对,而提取的残基对数量为46;所以,规律就是,当序列长度为N,间隔为k时,一共可以提取的残基对数量为N-k-1,记为

NTotal=N−k−1
由于基本氨基酸数量为20,故而可以形成的残基对数量是20×20=400.我们统计的是这些残基对在这个蛋白质序列当中出现的概率,于是便产生了一个400维的特征向量,即

其中 NTotal 是总组成残基的长度(例如,如果长度为 L 的蛋白质片段残基为 31 且 k = 0、1、2、3、4 和 5,则NTotal = L - k - 1 将是分别为 30、29、28、27、26 和 25)。NAA、NAC、NAD、···、NYY代表片段内氨基酸对的频率。考虑到在本研究中执行 CKSAAP 方案k = 0 , 1 , 2 , 3 , 4 和 5 ,基于 CKSAAP 的特征向量的总维数为 400 × 6 = 2400。

1.2  PWAA(位置权重氨基酸)组成:

为了避免迷失序列顺序信息, Shi 等人[45]提出位置权重氨基酸组成 (position
weight amino acids composition, PWAA) 以提取蛋白质的序列信息。在许多蛋白质预
测的位点中都使用了这种方法,该方法能有效地提取目标位置附近的残差位置信息,
从而提高目标的精度。

给定一个氨基酸残基 ai(i = 1, 2,···, 20),ai在2L+1个氨基酸的序列片段P中的位置信息可以通过下式计算

 其中 L 表示蛋白质序列片段 P 中来自中心位点的上游残基或下游残基的数量,如果ai是蛋白质序列片段 P 中的第 j 个位置残基,则 xi,j = 1,否则 xi,j = 0。通常情况下,残留物ai越靠近中心位置,Ci的绝对值越小。最后,基于 PWAA 的特征向量的维数为 20。

1.3  AARPC(氨基酸相对位置组成):

作者直接为每个氨基酸残基分配不同的位置整数值并计算氨基酸之间的相对位置。

  1. 使用从 1 到 20 的数字来编码 20 个氨基酸;
  2. 给定一个长度为 2L + 1 的蛋白质片段,每个残基距中心的位置记为 d,范围为 [-L, L];
  3. 对于蛋白质片段上的某个残基,对应的特征向量可以用nd来表示。最后,基于 AARPC 的特征向量的维数为 51。

1.4 氨基酸组成:

(1)氨基酸组成:(AAC)

(2)增强氨基酸:(EAAC)

(3)增强分组氨基酸: (EGAAC)

1.5 二肽组成(DC):

2. 基于物理化学性质的特征:

2.1 AAindex(氨基酸物理化学性质):

是一个代表氨基酸及成对氨基酸各种理化和生化性质数值指数的数据库。 AAindex 由三个部分组成:AAindex1、AAindex2 和 AAindex3。

其中,AAindex1 记录了 20 种氨基酸的数值指数,包含 544 个氨基酸指数,每个条目包含收录号、指数的简 短描述、参考信息以及 20 种氨基酸的属性值。

AAindex2 包含 94 个氨基酸置换矩阵: 67 个对称矩阵和 27 个非对称矩阵。

AAindex3 是统计的蛋白质接触电位,包含 47 个氨 基酸接触电位矩阵:44 个对称矩阵和 3 个非对称矩阵。

2.2  CTD(组成、过渡、分布):

CTD方案根据极性、中性和疏水性将20个氨基酸分为三类。然后根据其所属的类别,每个氨基酸由 1、2 或 3 编码。
组成 描述了 20 种天然氨基酸的总体百分比组成,定义为:其中 ns是编码序列中 s 的数量,L 蛋白质片段序列的长度。


过渡(T) 表征一种天然氨基酸类型后跟另一种类型的氨基酸的百分比频率,可以通过以下方式计算:

其中 nxy 是分别编码为“xy”和“yx”的二肽的数量。
分布 (D) 测量每种类型的 20 种天然氨基酸的第一个,25%、50%、75% 和 100% 的各自位置,描述符 Ei 定义为:

其中 P1、P25、P50、P75 和 P100 分别测量第一个残基的位置,x 的出现率分别为 25%、50%、75% 和 100%。最后,基于 CTD 的特征向量的维度是 (3 + 3 + 3 × 5) × 7 = 147。7是使用7种理化性质。

2.3 EBGW(基于分组权重的编码):

计算:

然后,根据以下不相交的组对氨基酸进行分配:C1 + C2 对 C3 + C4,或 C1 + C3 对 C2 + C4,或 C1 + C4 对 C2 + C3。对于蛋白质序列 P,它可以转化为三个二进制序列:

 每一个二进制序列都可以分成一个长度增加的J个子序列。例如,对于 H1,第 j 个子序列定义为:

其中 Sum(j) 是第 j 个子序列中 1 的个数,D(j) = int ( j  ×  L/J ) 指第j个子序列的长度,函数int()将小数四舍五入到最接近的整数。EBGW 方案将蛋白质序列定义为 3 × J 维向量。这里,J 被选择为 1、2、3、4 和 5。因此,基于 EBGW 的特征向量的维度为 3 × 15 = 45。

2.4 三联体组合信息编码(CT)

三联体组合信息编码 (cpnjoint triad, CT)[56]将氨基酸分成 7 类,每三个相邻的氨基酸为一个三联体,故有 7 x 7 x 7=343 种不同的三联体,每个三联体特征在蛋白质序
列中出现的频数 f i ( 1, 2,4... ,343) 为:对于每条蛋白质序列 P ,会得到 343 维特征向量。

3. 基于空间映射信息的特征:

先空着:

4. 进化信息:

4.1 BLOUSUM_62矩阵:

BLOSUM62 通过氨基酸置换矩阵来测量两条氨基酸段相似度,其反映了蛋白质进化信息, BLOSUM62 矩阵是在氨基酸序列的对比上,使两个肽序列的同一性不超过 62%,对 20 个氨基酸所获得的取代得分。对于序列长度为n 的蛋白质,最终形成一个n * M 维元素组成的矩阵, M 代表 21 种氨基酸。其中X表示一种未知的氨基酸。

BLOSUM62矩阵:

    blosum62 = {'A': [4, -1, -2, -2, 0, -1, -1, 0, -2, -1, -1, -1, -1, -2, -1, 1, 0, -3, -2, 0, 0],  # A'R': [-1, 5, 0, -2, -3, 1, 0, -2, 0, -3, -2, 2, -1, -3, -2, -1, -1, -3, -2, -3, 0],  # R'N': [-2, 0, 6, 1, -3, 0, 0, 0, 1, -3, -3, 0, -2, -3, -2, 1, 0, -4, -2, -3, 0],  # N'D': [-2, -2, 1, 6, -3, 0, 2, -1, -1, -3, -4, -1, -3, -3, -1, 0, -1, -4, -3, -3, 0],  # D'C': [0, -3, -3, -3, 9, -3, -4, -3, -3, -1, -1, -3, -1, -2, -3, -1, -1, -2, -2, -1, 0],  # C'Q': [-1, 1, 0, 0, -3, 5, 2, -2, 0, -3, -2, 1, 0, -3, -1, 0, -1, -2, -1, -2, 0],  # Q'E': [-1, 0, 0, 2, -4, 2, 5, -2, 0, -3, -3, 1, -2, -3, -1, 0, -1, -3, -2, -2, 0],  # E'G': [0, -2, 0, -1, -3, -2, -2, 6, -2, -4, -4, -2, -3, -3, -2, 0, -2, -2, -3, -3, 0],  # G'H': [-2, 0, 1, -1, -3, 0, 0, -2, 8, -3, -3, -1, -2, -1, -2, -1, -2, -2, 2, -3, 0],  # H'I': [-1, -3, -3, -3, -1, -3, -3, -4, -3, 4, 2, -3, 1, 0, -3, -2, -1, -3, -1, 3, 0],  # I'L': [-1, -2, -3, -4, -1, -2, -3, -4, -3, 2, 4, -2, 2, 0, -3, -2, -1, -2, -1, 1, 0],  # L'K': [-1, 2, 0, -1, -3, 1, 1, -2, -1, -3, -2, 5, -1, -3, -1, 0, -1, -3, -2, -2, 0],  # K'M': [-1, -1, -2, -3, -1, 0, -2, -3, -2, 1, 2, -1, 5, 0, -2, -1, -1, -1, -1, 1, 0],  # M'F': [-2, -3, -3, -3, -2, -3, -3, -3, -1, 0, 0, -3, 0, 6, -4, -2, -2, 1, 3, -1, 0],  # F'P': [-1, -2, -2, -1, -3, -1, -1, -2, -2, -3, -3, -1, -2, -4, 7, -1, -1, -4, -3, -2, 0],  # P'S': [1, -1, 1, 0, -1, 0, 0, 0, -1, -2, -2, 0, -1, -2, -1, 4, 1, -3, -2, -2, 0],  # S'T': [0, -1, 0, -1, -1, -1, -1, -2, -2, -1, -1, -1, -1, -2, -1, 1, 5, -2, -2, 0, 0],  # T'W': [-3, -3, -4, -4, -2, -2, -3, -2, -2, -3, -2, -3, -1, 1, -4, -3, -2, 11, 2, -3, 0],  # W'Y': [-2, -2, -2, -3, -2, -1, -2, -3, 2, -1, -1, -2, -1, 3, -3, -2, -2, 2, 7, -1, 0],  # Y'V': [0, -3, -3, -3, -1, -2, -2, -3, -3, 3, 1, -2, 1, -1, -2, -2, 0, -3, -1, 4, 0],  # V'X': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],  # X}

5. 补充:

5.1 双剖面贝叶斯:(来源基于深度学习的蛋白质翻译后修饰位点预测相关问题研究_宋丽丽)

5.2 KNN算法

K 近邻 (K-Nearest Neighbor, KNN) 算法[58]通过提取正、负样本相似序列中的特
征来获取修饰位点周围的局部序列相似性。两个查询序列片段c1和c2,序列c1和c2之
间的距离 Dist c c ( , ) 1 2 为:

 N 表示蛋白质序列窗口大小(氨基酸序列长度), Sim 是归一化的氨基酸替代矩阵, M 是
BLOSUM62 替换矩阵, a 和b 表示两个氨基酸, max/ min {M} 分别代表了替换矩阵
M 中的最大值与最小值。对于查询序列 p p p p ( , , , ) 1 2 L ,首先,计算 p 与相同数
量的正负样本之间的距离。其次,选出最近的k 个邻居。最后, k 个最近邻居中的正
邻居所占的百分比记作最终的 KNN 得分。

这篇关于生物信息学---蛋白质组学中氨基酸信息编码方式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/395354

相关文章

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

生信代码入门:从零开始掌握生物信息学编程技能

少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 介绍 生物信息学是一个高度跨学科的领域,结合了生物学、计算机科学和统计学。随着高通量测序技术的发展,海量的生物数据需要通过编程来进行处理和分析。因此,掌握生信编程技能,成为每一个生物信息学研究者的必备能力。 生信代码入门,旨在帮助初学者从零开始学习生物信息学中的编程基础。通过学习常用

生信圆桌x生信分析平台:助力生物信息学研究的综合工具

介绍 少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 生物信息学的迅速发展催生了众多生信分析平台,这些平台通过集成各种生物信息学工具和算法,极大地简化了数据处理和分析流程,使研究人员能够更高效地从海量生物数据中提取有价值的信息。这些平台通常具备友好的用户界面和强大的计算能力,支持不同类型的生物数据分析,如基因组、转录组、蛋白质组等。

Linux命令(11):系统信息查看命令

系统 # uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv

【小迪安全笔记 V2022 】信息打点9~11

第9天 信息打点-CDN绕过篇&漏洞回链8接口探针&全网扫指&反向件 知识点: 0、CDN知识-工作原理及阻碍 1、CDN配置-域名&区域&类型 2、CDN绕过-靠谱十余种技战法 3、CDN绑定-HOSTS绑定指向访问 CDN 是构建在数据网络上的一种分布式的内容分发网。 CDN的作用是采用流媒体服务器集群技术,克服单机系统输出带宽及并发能力不足的缺点,可极大提升系统支持的并发流数目,减少或避

Weex入门教程之4,获取当前全局环境变量和配置信息(屏幕高度、宽度等)

$getConfig() 获取当前全局环境变量和配置信息。 Returns: config (object): 配置对象;bundleUrl (string): bundle 的 url;debug (boolean): 是否是调试模式;env (object): 环境对象; weexVersion (string): Weex sdk 版本;appName (string): 应用名字;

Python批量读取身份证信息录入系统和重命名

前言 大家好, 如果你对自动化处理身份证图片感兴趣,可以尝试以下操作:从身份证图片中快速提取信息,填入表格并提交到网页系统。如果你无法完成这个任务,我们将在“Python自动化办公2.0”课程中详细讲解实现整个过程。 实现过程概述: 模块与功能: re 模块:用于从 OCR 识别出的文本中提取所需的信息。 日期模块:计算年龄。 pandas:处理和操作表格数据。 PaddleOCR:百度的

linux上查看java最耗时的线程信息

找到JAVA进程pid ps -ef|grep java或则jps -mlv 找进行下耗时的线程TID 使用top -Hp pid可以查看某个进程的线程信息 -H 显示线程信息,-p指定pid top -Hp 10906 查看最耗时的 TID即线程id printf "%x\n" [tid] 转成16进制 java中的线程类相关信息 jstack 线程ID 可以查看某个线程的堆栈情况,特别对于h

【生物信息学算法】图算法1:概念和算法

文章目录 1. 图的定义、分类、表达方式图的定义图的分类表达方式Python实现 2.相邻节点和度概念定义python实现 3.路径、距离和搜索路径和距离搜索环 4.图论中的欧拉定理 1. 图的定义、分类、表达方式 图的定义 图G可以由两个集合来定义,即G=(V,E)。其中,V是对象的集合,称为图的顶点或节点; E是V中(u,v)顶点对的集合,称为边或弧,表示u和v之间的关系