Deep neural network and extreme gradient boosting based hybrid classifier for improved prediction 梳理

本文主要是介绍Deep neural network and extreme gradient boosting based hybrid classifier for improved prediction 梳理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Satyajit Mahapatra等

期刊:IEEE TCBB

时间:2021.05

0 写在前面的疑惑

1 动机

了解生命的行为过程和致病机制,了解蛋白质-蛋白质相互作用至关重要。

2 贡献

1.)本文采用深度神经网络(DNN)和极端梯度boosting分类器(XGB)相结合的混合方法预测PPI。

2)采用ACC+CT+LD的方式

3)实验丰富,既包括种内,又包括种间。

4)还可以为信号通路分析、预测药物靶点和理解疾病发病机制提供新的见解

3 模型

3.1 数据库

为了进行交叉验证实验,使用了4个标准种内和2个标准种间数据集。

种内数据集:

1)sacccharomyces cerevisiae (s.c evisiae)核心子集:5594个交互对和相同数量的非交互对。

2)幽门螺杆菌(H.pylori):1458个正交互作用和相同数量的负交互作用。

3)Saccharomyces cerevisiae full PPI数据集:该数据集有17257对相互作用对(剔除小于50个氨基酸且序列一致性超过40%的蛋白质序列后)和48954对非相互作用对。

4)Human:3889个交互对和4262个非交互对。

种间数据集:

1)人类宿主与炭疽芽孢杆菌(b.s Anthracis)菌种间交互作用数据集。Human-B Anthracis PPI数据集包含3090对相互作用对和9500对非相互作用对。

2)人类宿主与鼠疫菌相互作用数据集,正、负相互作用的数量分别为4097和12500。通过对寄主-病原体蛋白序列的随机配对,得到了负数据集。

因此,通过随机选择与正样本数相等的负样本,可以得到一个均衡的数据集。平衡数据集随后被用于开发混合分类器。

3.2 评价指标

3.3 模型

3个模块:特征提取、融合层、预测层

                                                                             图1 DNN

极值梯度增强 改进后

                                                                      图2 DNN-XGB

 输入:ACC+CT+LD编码 (20+343+630维)

1)特征提取层

每个通道由四个完全连接的512-256-128-64神经元层组成,这两个通道具有相同的参数,即神经元数量、学习速率、批量大小和激活功能。在这一层中,一对蛋白质序列的原始特征被映射成一个对预测相互作用有用的表示。

P1蛋白质1,M这一层的节点数,经过Relu和Dropout, 输出经过当前层的向量

2)融合层

把经过特征提取完的两条蛋白质向量拼接起来。

3)预测层

针对DNN:

该层由三个密集层64-32-16级联而成,其激活函数为ReLU,其次是一个具有s形激活函数的单个神经元,该神经元将前一层的输入向量Q(维数d)转换为输出分数。

针对XGB:

XGBOOST—eXtreme Gradient Boosting算法原理_fengziyihang的博客-CSDN博客

4 结果比较

A 对本模型的自身评估是以下实验:

实验一:在种内和种间数据集上的性能

实验二:混合分类器与现有分类器的准确率(%)比较

实验三:提出使用t-statistic评估

 

CA1表示类1 5倍交叉验证的acc的均值,S1表示方差

 实验四:使用幽门螺杆菌数据集比较不同分类器的ROC曲线

 

 B 与已有的预测方法进行比较

实验一:在不同数据集上比较预测方法

1)在酿酒酵母(核心子集)数据集上,比较了该方法与现有方法的预测性能

 

2)与现有的先进方法对幽门螺杆菌(核心子集)数据集的预测性能比较

3)在人-炭疽杆菌数据集上与其他最新方法的预测性能比较

4)表9:本文方法与其他最新方法对人-鼠疫耶尔森菌数据集的预测性能比较

 

 C 独立测试集上预测性能的比较

收集的4个独立数据集(线虫、大肠杆菌、智人和小家鼠)上进一步验证了所提出的混合分类器。利用酿酒酵母数据集对DNN-XGB进行训练,并利用训练后的模型预测独立数据集中的蛋白质相互作用。在生物实验分析中,通过使用另一个生物的相互作用对来预测一个生物的相互作用对是基于同源蛋白具有相似的功能行为的假设,由于它们能够保持它们的相互作用。独立数据集只包含交互对。因此,在本研究中,只计算精度(ACC %)并与现有方法进行比较.

 D 基于PPIs网络数据集的预测性能分析

分析蛋白质相互作用网络及其相关信号通路对了解蛋白质的结构和功能具有重要意义。本文利用该模型预测了两个重要的PPI网络数据集,收集的Wnt相关通路的单核网络和交叉网络。这个单核网络由17个蛋白质组成,其中CD9蛋白质与其他蛋白质相互作用。Wnt相关通路的交叉网络是由78个蛋白组成的多核网络。

下图所示,建议的DNN-XGB分类器预测了单核网络中存在的所有交互。在Wnt相关的交叉网络数据集中,预测了96种交互中的95种。

 

E.在PPI网络数据集上,该方法与其他最新方法的预测性能比较

原始PPI特征和幽门螺杆菌数据集非线性变换后特征的t-SNE图分别如图9 (a)和(b)所示。

此推断,提出的DNN体系结构可以有效地从与交互相关的原始特征中提取有意义的信息。当使用XGB进行分类时,与现有方法相比,该信息产生了更好的结果。使用scikit- learn库在python中实现了t-SNE图。融合层的抽象特征。蓝色代表积极的互动,红色代表消极的互动。

 5 总结

在这项研究中,引入了一种新的基于序列的方法,将深度神经网络与极端梯度增强分类器相结合,以准确预测蛋白质-蛋白质相互作用(PPI)。利用非线性变换技术,采用深度神经网络从蛋白质序列的原始特征中客观而深刻地提取显著信息。然后将提取的特征作为XGB分类器的输入,进一步提高了预测精度。实验结果表明,DNN-XGB在预测种内和种间PPI方面都表现得非常好。此外,该方法在独立测试集上取得了很好的精度,这表明它可以用于跨物种预测。对网络数据集的预测结果表明,所提出的方法能够为信号通路的分析、药物靶点的预测和疾病发病机制的理解提供新的见解。实验结果表明,所提出的混合方法是准确预测潜在蛋白质相互作用的有效工具。

这篇关于Deep neural network and extreme gradient boosting based hybrid classifier for improved prediction 梳理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/273778

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

梳理2024年,螺丝钉们爱用的3款剪辑软件

这年头,视频到处都是,就跟天上的星星一样数不清。不管你是公司里的新面孔,还是职场上的老狐狸,学会怎么剪视频,就好比找到了赢的秘诀。不管是给上司汇报工作,展示你的产品,还是自己搞点小视频记录生活,只要是剪辑得漂亮,肯定能一下子吸引大家的目光,让人记得你。咱们今天就来侃侃现在超火的三款视频剪辑工具,尤其是PR剪辑,你肯定听说过,这货在剪辑界可是大名鼎鼎,用它剪视频,既专业又麻利。 NO1. 福昕轻松

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

Nn criterions don’t compute the gradient w.r.t. targets error「pytorch」 (debug笔记)

Nn criterions don’t compute the gradient w.r.t. targets error「pytorch」 ##一、 缘由及解决方法 把这个pytorch-ddpg|github搬到jupyter notebook上运行时,出现错误Nn criterions don’t compute the gradient w.r.t. targets error。注:我用

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

C语言程序设计 笔记代码梳理 重制版

前言 本篇以笔记为主的C语言详解,全篇一共十章内容,会持续更新基础内容,争取做到更详细。多一句没有,少一句不行!  形而上学者谓之道,形而下学者谓之器 形而上学者谓之道,形而下学者谓之器 第1章 C语言的流程 1.C程序经历的六个阶段 编辑(Edit)预处理(Preprocess)编译(Compile)汇编(Assemble)链接(Link)执行(Execute)  2.

0906作业+思维导图梳理

一、作业: 1、创捷一个类似于qq登录的界面 1)源代码 #include "widget.h"#include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget){ui->setupUi(this);//QPushbutton:登录、退出this->join = new QP

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S