本文主要是介绍论文解读《Protein subcellular localization based on deep image features and criterion learning strategy》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
论文解读《Protein subcellular localization based on deep image features and criterion learning strategy》
基于深度图像特征和标准学习策略的蛋白质亚细胞定位
期刊名: BRIEFINGS IN BIOINFORMATICS
期刊名缩写:BRIEF BIOINFORM
国际刊号:1467-5463
2021年影响因子/JCR分区:11.622/Q2
数据链接:数据百度云链接
密码:yl43
中科院分区:大类:生物 2区[Top]
小类:数学与计算生物学 1区|生化研究方法 1区
代码链接:代码链接
一、摘要:
深度神经网络在许多图像任务中表现出了良好的性能,但它在蛋白质亚细胞定位方面的应用还没有得到充分的探索。作者开发了一种基于深度成像的方法来定位亚细胞水平的蛋白质。基于卷积神经网络提取的深度图像特征,可以准确预测单标签和多标签位置。
2、标签-属性相关性和标签-标签相关性( the label–attribute relevancy and label–label relevancy)。
3、总结了一个最佳的CNN架构,可以给出最好的结果。此外,实验表明,与手工(Hand Crafted)特征相比,深度特征在较少特征的情况下能够提供更准确的预测。该方法的实现可以在https://github.com/RanSuLab/ProteinSubcellularLocation上找到。
手工(Hand Crafted)特征:顾名思义人为设计的特征,即直接设计特征本身,根据仿照人类视觉的特点对什么样的特征敏感,什么样的特征不敏感提取图像中有区分能力的特征,因此提取出来的特征每一维往往都有具体的物理含义。特征提取从思路上有两大类:一类是手动设计(hand crafted)的方式,一类是纯学习的方式,这两种方式都是在某些生物神经理论的基础下进行的, 不同之处是hand crafted的方式设计的是特征本身,而纯学习的方式设计的是特征提取的框架结构。
前言:
这些亚细胞位置提供了一种特定的化学环境和一组相互作用组合,使蛋白质的功能得以实现。有报道称,异常的亚细胞上皮位置的蛋白质与细胞功能障碍和疾病有关。因此,精确预测亚细胞水平上的蛋白质位置可以改善任务,如药物发现中的靶标识别,特别是抗癌研究等。因此,计算方法已经发展为自动化的亚细胞蛋白质定位。
大量手工制作的图像特征已经被用来预测蛋白质的亚细胞位置。纹理特征描述了图像中颜色或强度的空间分布,是亚细胞位置识别中最常用的图像特征类型之一。
目前的研究大多集中在单个标记的蛋白质定位上。在这些研究中,每个蛋白质都假定只对应一个亚细胞位置。事实上,至少20%的人类蛋白质存在于两个以上的亚细胞位置。对于每个标签,随机选择多个标签作为其附加输入特征学习多个二元分类器,然后采用多数投票策略对这些分类器进行聚合。其他算法预测性能仍有待提高,所有方法的最佳准确率仍在70%以下。与依赖先验知识和手工设计的手工特征相比,深度学习可以自动学习用于分类问题的特征。
实验提出了一种基于深度特征提取cnn的蛋白质亚细胞位置预测方法,该方法可以同时处理单标签和多标签样本。特别是,多标签定位是一项非常具有挑战性的任务。目前的研究方法大多缺乏对标签相关性的充分探索;因此,准确性是有限的。为了克服这些缺点,作者提出了一种既能自动学习标签属性关联又能自动学习标签关联的方法。首先,作者生成一个概率向量,其中包含每个类别的预测概率。通过计算最大概率的个数来判断每个样本的标签集。与依靠人工设置的方法不同,该方法的计数过程是通过标准的自动学习来完成的。作者学习了这个标准的阈值来确定标签。作者设计了一系列的实验来验证所提方法的性能,结果证明了所提方法的有效性。该方法的实现可以在https://github.com/RanSuLab/ ProteinSubcellularLocation上找到。
二、方法解析
2.1 算法综述
该方法的总体框架如图1所示。包括三个步骤:
阶段A包括数据收集和预处理;
阶段B进行特征提取与选择;
阶段C,对样品的标签进行预测。这里作者分别处理单标签样本和多标签样本
2.2 阶段A:数据收集和预处理
HPA由六个部分组成:组织图谱、细胞图谱、病理图谱、血液图谱、大脑图谱和代谢图谱。作者从组织图谱中提取了免疫组化图像,它展示了蛋白质在人体所有主要组织和器官中的分布。图像标签来自HPA和通用蛋白资源(UniProt;https://www.uniprot.org/)。作者丢弃了未检测到蛋白表达水平评分的免疫组化图像。
2.3 阶段B:进行特征提取与选择
在作者的研究中,深度CNN作为特征提取器来学习丰富和有区别的信息,用于蛋白质亚细胞定位预测。在这里,作者从5个流行的网络中提取了5组特征:AlexNet, VggNet, Xception,ResNet和DenseNet。
对于AlexNet、VggNet和ResNet,1024、128和7个节点的全连接层;
*而对于Xception和DenseNet,两个节点128和7的完全连接层。
然后进行特征选择以提高计算效率。
2.4 阶段C:亚细胞定位预测
对于单标签样本,预测是常规的过程。在确定最优特征子集后,利用支持向量机(SVM)对亚细胞位置进行区分。与单标签分类不同,多个标签预测器必须考虑标签与特征之间的关系以及由于标签共现而导致的标签间的依赖性。
**支持向量机(SVM):**支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier)
作者提出了一种多标签预测方法,可以在不需要人工干预的情况下实现标签集的自动决策。
li的取值如下所示:
Pdif = {pdif1, pdif2,…, pdif9}是概率差向量。如果p和pmax之间的所有差值(pmax位置除外)都大于θ,或者Pdif中没有元素(pmax位置除外)小于θ,则L的8个值为0,认为样品是单标签。
2.5 评价指标
它们的定义如下:
ACCavelab是ACClab在所有标签上的平均值。此外,作者使用接收工作特征曲线(ROC)和ROC下面积(AUC)来评价性能。作者使用10倍交叉验证来验证模型。
三 结果分析
3.1 单标签位点预测
作者首先用单标签蛋白测试了该方法的性能。训练AlexNet、VggNet、Xception、ResNet和DenseNet,分别提取它们的128维深度特征。总共使用24 750张图像对CNN进行训练,使用6160张图像进行测试。网络随机初始化,网络设置如表1所示。然后再使用SVM(支持向量机)进行分类。特征选择的中间结果如图3所示。从图中可以看出,通过特征选择,使用较少的特征可以获得相似或更好的性能。
选取最优特征子集后,根据最优特征对模型进行训练。作者在表2的测试数据上展示了每个网络的性能。
SVM(支持向量机):支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)
.
AUC:AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
高尔基体:Golgi apparantus 线粒体:Mitochondrion 囊泡:Vesicles ER
核仁 :Nucleolus 细胞核:Nucleus 细胞骨架:Cytoskeleton
3.2 混合标签位置分类的预测器性能
多标签和单标签样品的鉴别
如果提供了混合标记样本,所提出的方法必须能够区分单标记和多标记蛋白质。在作者的设计中,根据概率差向量Pdif中概率差小于θ的元素个数来判断一个样本是单标签还是多标签。若数值为0 (pmax位置除外),则表示除pmax以外的其他概率分数与pmax距离较远;因此,该样品是单标记的;如果数值大于0,则表示除了pmax本身之外,至少有一个概率得分与pmax相似;因此,这是一个多标签的样本。假设多标签为1,单标签为0,研究了基于混合标签数据集的单标签样本和多标签样本的识别性能。结果如表4所示。由表可知,VggNet的准确率最高,为93.0%,其次是AlexNet、ResNet、DenseNet和Xception。结果与单标签分类不同,因为Xception在单标签预测中表现最好。
混合标签位置的预测
四、 结论
“基于图像”的方法既能处理单个位置的蛋白质,也能处理多个位置的蛋白质。作者利用标签标签相关性这一在许多多标签分类方法中被忽视的特点,进行了更准确的预测。不同于以往的研究,在概率向量生成后,通过人工设置两个准则来确定最终的标签集,作者采用了一种学习策略来自动寻找合适的准则值,以避免人为干预。
CNN(AlexNet、VggNet、Xception、ResNet、DenseNet)
对于单标签样本,Xception的性能最好,而对于混合标签样本,VggNet的精度最高。
局限性:参与测试的架构较少,只采用了蛋白质通道检测。
这篇关于论文解读《Protein subcellular localization based on deep image features and criterion learning strategy》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!