论文解读《Protein subcellular localization based on deep image features and criterion learning strategy》

本文主要是介绍论文解读《Protein subcellular localization based on deep image features and criterion learning strategy》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文解读《Protein subcellular localization based on deep image features and criterion learning strategy》

基于深度图像特征和标准学习策略的蛋白质亚细胞定位

期刊名: BRIEFINGS IN BIOINFORMATICS
期刊名缩写:BRIEF BIOINFORM
国际刊号:1467-5463
2021年影响因子/JCR分区:11.622/Q2
数据链接:数据百度云链接
密码:yl43
中科院分区:大类:生物 2区[Top]
小类:数学与计算生物学 1区|生化研究方法 1区
代码链接:代码链接

一、摘要:

深度神经网络在许多图像任务中表现出了良好的性能,但它在蛋白质亚细胞定位方面的应用还没有得到充分的探索。作者开发了一种基于深度成像的方法来定位亚细胞水平的蛋白质。基于卷积神经网络提取的深度图像特征,可以准确预测单标签和多标签位置
2、标签-属性相关性和标签-标签相关性( the label–attribute relevancy and label–label relevancy)
3、总结了一个最佳的CNN架构,可以给出最好的结果。此外,实验表明,与手工(Hand Crafted)特征相比,深度特征在较少特征的情况下能够提供更准确的预测。该方法的实现可以在https://github.com/RanSuLab/ProteinSubcellularLocation上找到。

手工(Hand Crafted)特征:顾名思义人为设计的特征,即直接设计特征本身,根据仿照人类视觉的特点对什么样的特征敏感,什么样的特征不敏感提取图像中有区分能力的特征,因此提取出来的特征每一维往往都有具体的物理含义。特征提取从思路上有两大类:一类是手动设计(hand crafted)的方式,一类是纯学习的方式,这两种方式都是在某些生物神经理论的基础下进行的, 不同之处是hand crafted的方式设计的是特征本身,而纯学习的方式设计的是特征提取的框架结构。

前言:

这些亚细胞位置提供了一种特定的化学环境和一组相互作用组合,使蛋白质的功能得以实现。有报道称,异常的亚细胞上皮位置的蛋白质与细胞功能障碍和疾病有关。因此,精确预测亚细胞水平上的蛋白质位置可以改善任务,如药物发现中的靶标识别,特别是抗癌研究等。因此,计算方法已经发展为自动化的亚细胞蛋白质定位。
大量手工制作的图像特征已经被用来预测蛋白质的亚细胞位置。纹理特征描述了图像中颜色或强度的空间分布,是亚细胞位置识别中最常用的图像特征类型之一。
目前的研究大多集中在单个标记的蛋白质定位上。在这些研究中,每个蛋白质都假定只对应一个亚细胞位置。事实上,至少20%的人类蛋白质存在于两个以上的亚细胞位置。对于每个标签,随机选择多个标签作为其附加输入特征学习多个二元分类器,然后采用多数投票策略对这些分类器进行聚合。其他算法预测性能仍有待提高,所有方法的最佳准确率仍在70%以下。与依赖先验知识和手工设计的手工特征相比,深度学习可以自动学习用于分类问题的特征。

实验提出了一种基于深度特征提取cnn的蛋白质亚细胞位置预测方法,该方法可以同时处理单标签和多标签样本。特别是,多标签定位是一项非常具有挑战性的任务。目前的研究方法大多缺乏对标签相关性的充分探索;因此,准确性是有限的。为了克服这些缺点,作者提出了一种既能自动学习标签属性关联又能自动学习标签关联的方法。首先,作者生成一个概率向量,其中包含每个类别的预测概率。通过计算最大概率的个数来判断每个样本的标签集。与依靠人工设置的方法不同,该方法的计数过程是通过标准的自动学习来完成的。作者学习了这个标准的阈值来确定标签。作者设计了一系列的实验来验证所提方法的性能,结果证明了所提方法的有效性。该方法的实现可以在https://github.com/RanSuLab/ ProteinSubcellularLocation上找到。

二、方法解析

2.1 算法综述

该方法的总体框架如图1所示。包括三个步骤:
阶段A包括数据收集和预处理;
阶段B进行特征提取与选择;
阶段C,对样品的标签进行预测。这里作者分别处理单标签样本和多标签样本

2.2 阶段A:数据收集和预处理

HPA由六个部分组成:组织图谱、细胞图谱、病理图谱、血液图谱、大脑图谱和代谢图谱。作者从组织图谱中提取了免疫组化图像,它展示了蛋白质在人体所有主要组织和器官中的分布。图像标签来自HPA和通用蛋白资源(UniProt;https://www.uniprot.org/)。作者丢弃了未检测到蛋白表达水平评分的免疫组化图像。

在这里插入图片描述
在这里插入图片描述

2.3 阶段B:进行特征提取与选择

在这里插入图片描述
在这里插入图片描述

在作者的研究中,深度CNN作为特征提取器来学习丰富和有区别的信息,用于蛋白质亚细胞定位预测。在这里,作者从5个流行的网络中提取了5组特征:AlexNet, VggNet, Xception,ResNet和DenseNet。
对于AlexNet、VggNet和ResNet,1024、128和7个节点的全连接层;
*而对于Xception和DenseNet,两个节点128和7的完全连接层。
然后进行特征选择以提高计算效率。

2.4 阶段C:亚细胞定位预测

在这里插入图片描述

对于单标签样本,预测是常规的过程。在确定最优特征子集后,利用支持向量机(SVM)对亚细胞位置进行区分。与单标签分类不同,多个标签预测器必须考虑标签与特征之间的关系以及由于标签共现而导致的标签间的依赖性

**支持向量机(SVM):**支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier)

作者提出了一种多标签预测方法,可以在不需要人工干预的情况下实现标签集的自动决策。
li的取值如下所示:
在这里插入图片描述
在这里插入图片描述

Pdif = {pdif1, pdif2,…, pdif9}是概率差向量。如果p和pmax之间的所有差值(pmax位置除外)都大于θ,或者Pdif中没有元素(pmax位置除外)小于θ,则L的8个值为0,认为样品是单标签。

2.5 评价指标

它们的定义如下:
在这里插入图片描述
在这里插入图片描述

ACCavelab是ACClab在所有标签上的平均值。此外,作者使用接收工作特征曲线(ROC)和ROC下面积(AUC)来评价性能。作者使用10倍交叉验证来验证模型。

三 结果分析

3.1 单标签位点预测

作者首先用单标签蛋白测试了该方法的性能。训练AlexNet、VggNet、Xception、ResNet和DenseNet,分别提取它们的128维深度特征。总共使用24 750张图像对CNN进行训练,使用6160张图像进行测试。网络随机初始化,网络设置如表1所示。然后再使用SVM(支持向量机)进行分类。特征选择的中间结果如图3所示。从图中可以看出,通过特征选择,使用较少的特征可以获得相似或更好的性能。
选取最优特征子集后,根据最优特征对模型进行训练。作者在表2的测试数据上展示了每个网络的性能。
在这里插入图片描述

SVM(支持向量机):支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)
.在这里插入图片描述
AUC:AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

在这里插入图片描述

高尔基体:Golgi apparantus 线粒体:Mitochondrion 囊泡:Vesicles ER
核仁 :Nucleolus 细胞核:Nucleus 细胞骨架:Cytoskeleton
在这里插入图片描述

3.2 混合标签位置分类的预测器性能

多标签和单标签样品的鉴别
如果提供了混合标记样本,所提出的方法必须能够区分单标记和多标记蛋白质。在作者的设计中,根据概率差向量Pdif中概率差小于θ的元素个数来判断一个样本是单标签还是多标签。若数值为0 (pmax位置除外),则表示除pmax以外的其他概率分数与pmax距离较远;因此,该样品是单标记的;如果数值大于0,则表示除了pmax本身之外,至少有一个概率得分与pmax相似;因此,这是一个多标签的样本。假设多标签为1,单标签为0,研究了基于混合标签数据集的单标签样本和多标签样本的识别性能。结果如表4所示。由表可知,VggNet的准确率最高,为93.0%,其次是AlexNet、ResNet、DenseNet和Xception。结果与单标签分类不同,因为Xception在单标签预测中表现最好。
在这里插入图片描述

混合标签位置的预测

在这里插入图片描述

在这里插入图片描述

四、 结论

“基于图像”的方法既能处理单个位置的蛋白质,也能处理多个位置的蛋白质。作者利用标签标签相关性这一在许多多标签分类方法中被忽视的特点,进行了更准确的预测。不同于以往的研究,在概率向量生成后,通过人工设置两个准则来确定最终的标签集,作者采用了一种学习策略来自动寻找合适的准则值,以避免人为干预。

CNN(AlexNet、VggNet、Xception、ResNet、DenseNet

对于单标签样本,Xception的性能最好,而对于混合标签样本,VggNet的精度最高
局限性:参与测试的架构较少,只采用了蛋白质通道检测。

这篇关于论文解读《Protein subcellular localization based on deep image features and criterion learning strategy》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/204897

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

MCU7.keil中build产生的hex文件解读

1.hex文件大致解读 闲来无事,查看了MCU6.用keil新建项目的hex文件 用FlexHex打开 给我的第一印象是:经过软件的解释之后,发现这些数据排列地十分整齐 :02000F0080FE71:03000000020003F8:0C000300787FE4F6D8FD75810702000F3D:00000001FF 把解释后的数据当作十六进制来观察 1.每一行数据

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器