论文解读:《LncReader:使用多头自注意机制识别双功能长链非编码 RNA》

本文主要是介绍论文解读:《LncReader:使用多头自注意机制识别双功能长链非编码 RNA》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文解读:《LncReader: identification of dual functional long noncoding RNAs using a multi-head self-attention mechanism》

  • 1.文章概述
  • 2.关键点
  • 3.背景
  • 4.数据
    • 4.1 基准数据集
    • 4.2 细胞培养
    • 4.3 RNA 测序、核糖体分析和 LC-MS
    • 4.4 独立数据集的生物信息学分析
  • 5.方法
    • 5.1 特征提取
    • 5.2 模型框架
    • 5.3 不平衡数据处理
    • 5.4 其他机器学习模型构建
  • 6.结果
    • 6.1 LncReader与传统机器学习分类器的比较
    • 6.2 LncReader在独立内部数据集上的应用与评估
    • 6.3 LncReader 跨物种评价
    • 6.4 RNA 特征对 LncReader 的资源成本和性能影响

文章地址:https://pubmed.ncbi.nlm.nih.gov/36575567/
DOI:https://doi.org/10.1093/bib/bbac579
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区:13.994/Q2
发布时间:2023年1月24日
Github:https://github.com/ShellyCoder/LncReader

1.文章概述

具有蛋白质编码和非编码功能的长链非编码核糖核酸(RNA;LncRNA)被称为“双功能 lncRNA”。最近,双功能 lncRNA 已被确定参与各种基本细胞过程。然而,除了耗时且特定于细胞类型的实验外,几乎没有用于预测双功能 lncRNA 的计算机方法。所以作者开发了一个具有多头自注意机制的深度学习模型:LncReader,用来识别双功能 lncRNA。实验结果表明,与使用之前报告的 cncRNAdb 项目的基准数据集的各种经典机器学习方法相比,LncReader 显示出多种优势。此外,为了获得用于稳健测试的独立内部数据集,质谱蛋白质组学结合 RNA-seq 和 Ribo-seq 被应用于四种白血病细胞系,这进一步证实了 LncReader 与其他工具相比实现了最佳性能。因此,LncReader 是一种准确实用的工具,可实现快速双功能 lncRNA 识别。

2.关键点

  1. LncReader 由改进的 transformer 架构构建,可以根据其序列、物理化学和二级结构特征忠实地预测潜在的双功能 lncRNA。
  2. 基准数据集和内部数据集表明,与各种经典机器学习方法相比,LncReader 显示出多重优势。
  3. LncReader 的跨物种预测能力扩展了这种双功能lncRNA 预测工具的应用,从而促进了对相关先验知识较少的其他物种的研究。

3.背景

通常,大多数RNA根据其编码能力可以专门定义为mRNA或ncRNA。自从在动物、植物和细菌中发现了一组不寻常的RNA,它们既可以作为蛋白质编码 RNA,也可以作为非编码 RNA,界限变得如此模糊。这些 RNA 已被定性为“双功能 RNA”、“二元功能 RNA(双功能 RNA)” 或“cncRNA(自 2015 年以来,该术语被提出为具有编码和非编码功能的 RNA)”。重要的是,根据作者之前报道的【cncRNAdb: a manually curated resource of experimentally supported RNAs with both protein-coding and noncoding function】,翻译的 lncRNA 已被认为是 cncRNA 的主体,最近的研究表明,lncRNA 编码的微肽可能在生理学和病理学中发挥关键作用。首批被鉴定为双重功能的 lncRNA 之一是类固醇 RNA 激活剂 (SRA),它作为调节 RNA 介导真核基因表达的反式激活并编码高度保守的内源性蛋白质。类似地,lncRNA-Six1 作为一种双重功能 lncRNA 调节 Six1 的表达,既作为顺式作用元件又编码微肽
双功能 lncRNA 最近引起了相当大的关注,通过各种实验方法收集了大量数据,但目前没有可用于识别双功能 lncRNA 的算法。作者基于之前的研究 【cncRNAdb】构建了双功能 lncRNA 的机器学习数据集。同时,注意力模型在自然语言处理领域被提出后,也被广泛应用于生物信息学领域。此外,还有研究发现单头注意力机制的预测性能比单注意力架构差。因此,假设采用集成思想的多头自注意力机制可以弥补单头模型的缺点,这已在作者之前发表的研究【DM3Loc: multi-label mRNA subcellular localization prediction and analysis based on multi-head self-attention mechanism】中得到证实。为此,作者开发了 LncReader,这是一种具有多头自注意力机制的深度学习模型,可根据其序列、物理化学和二级结构特征识别双重功能 lncRNA。不仅使用基准数据集,还使用新生成的内部数据集,这些数据集结合了从四种白血病细胞系获得的 Ribo-seq、MS 蛋白质组学和 RNA-seq 数据,旨在探索 LncReader 是否提供了一种准确实用的工具来识别双重功能lncRNA。考虑到有许多先进的研究专注于 RNA 的预测和分类,例如 circDeep 和 ncRDeep,作者还将 CNN,RNN 和 LSTM 包括在比较分析中以评估 LncReader 的性能。

4.数据

4.1 基准数据集

在本研究中,作者使用 cncRNAdb 建立了双功能 lncRNA 的基准数据集。当前版本的 cncRNAdb 记录了大约 2600 个人工整理的 cncRNA 条目和实验证据,包括 20 多个物种的 2000 多个 RNA(超过 1300 个翻译的 ncRNA 和超过 600 个未翻译的 mRNA)。基准数据集是根据以下过程生成的:
(1)总共有 1727 个人工翻译的 lncRNA 条目都是从 cncRNAdb 获得的。
(2)将提取条目中具有多个条目的具有相同基因登录的一些lncRNAs合并。在整合和映射肽后,选择了 1596 个 lncRNA 转录本 FASTA 数据。
(3)通过 CD-HIT-EST 删除具有 90% 序列相似性截止值的冗余序列以构建非冗余数据集。然后,1167个lncRNA转录本FASTA数据被认为是正样本。
(4)与之前的研究类似,作者从 Ensembl 数据库(ftp.ensembl.org/pub/release104/fasta/homo_sapiens/ncrna/Homo_sapiens.GRCh38.ncrna.fa)去除相应gff3文件中没有用Havana注释的lncRNA序列,然后排除正样本的序列和通过CD-HIT-EST截断90%序列相似度的冗余序列。由于带有真实标签的注释数据集有限,剩余的 35 919 个 lncRNA 序列被认为是负样本。
(5)对于性能评估,使用结合正样本和负样本的数据集构建 5 折交叉验证数据集。
最后,作者构建了一个包含 37 086 个 lncRNA 的基准数据集,这些 lncRNA 用正标签或负标签进行了注释。所有示例都简单地显示了三个常用功能(图 1A 和 B)。在这里插入图片描述

4.2 细胞培养

以下细胞系购自 ATCC,并在含有 10% FBS (Hyclone, Logan, Utah) 的相应培养基中于 37°C、5% CO2 的细胞培养箱中培养:MOLM13 (DMEM)、THP-1 (RPMI1640) , 2-巯基乙醇至终浓度为 0.05 mM), HL60 (IMDM), K562 (IMDM)。根据 ATCC 细胞系验证测试的建议,测试细胞系是否存在支原体。

4.3 RNA 测序、核糖体分析和 LC-MS

作者在转录组学、翻译组学和蛋白质组学中对培养的细胞系进行采样和测序。首先,提取带有polyA尾的RNA,并在Illumina NovaSeq 6000平台上进行双端深度测序。然后使用 ART seq™ 核糖体分析试剂盒(Epicentre,RPHMR12126)生成核糖体保护片段的测序文库。最后,将 500 μg 的每个样品等分用于后续的蛋白质消化,并应用液相色谱串联质谱法 (LC-MS)。所有组学实验的详细信息都记录在补充材料中。

4.4 独立数据集的生物信息学分析

使用具有标准过滤要求的 fastp 对来自 RNA-seq 的所有配对末端读数进行修剪以适应接头序列。hg38 参考基因组 (GRCh38) 和基因注释文件(GTF 格式)从 GENCODE Release 28 [36] 下载。使用默认设置的 HISAT2(版本 2.2.1)将读数映射到 hg38 基因组。使用 StringTie(版本 2.1.5)估计相对于转录本的表达水平。通过这些程序,确定了每个细胞系中表达的 RNA 转录本。
接下来,作者在先前的研究中提出定制了蛋白质序列数据库,用于帮助根据管道识别新肽。详细而言,收集了所有 lncRNA 转录本序列并确定了可能最长的转录本ORF(open reading frames);随后,使用标准密码子表翻译了13 013个氨基酸序列。
然后,整合了来自 UniProt 的 202195 个经过验证的人类蛋白质序列和 13013 个新的候选肽序列,构建了一个定制的蛋白质序列数据库。MaxQuant用于根据具有默认参数的蛋白质序列数据库搜索新肽。如果将多个检测到的肽分配给一个 lncRNA 编码的候选者,则相应的转录物被识别为潜在的双功能 lncRNA。
在处理 Ribo-seq 数据期间,使用 trim_galore (v0.6.6) 对三端适配器的所有原始序列读取进行了修剪,并修剪了低质量序列。然后使用 bowtie2 (v2.4.2) 删除映射到参考人类 rRNA 或 tRNA 的保留读数,并使用 STAR (v2.7.8a) 将剩余读数与人类参考基因组 (GENCODE Release 28) 对齐。使用 StringTie(版本 2.1.5)估计相对于转录本的表达水平。如果一个 lncRNA 有多个 reads,则相应的转录本被识别为潜在的双功能 lncRNA。
最后,作者结合了转录组、翻译组和蛋白质组各自的结果,确定了 13 个潜在的双功能 lncRNA,这些 lncRNA 构建了内部数据集。作者观察到没有 lncRNA 在基准数据集和内部数据集中共存,这表明使用内部数据集测试 LncReader 性能的可信度很高。

5.方法

5.1 特征提取

在这项研究中,作者分别提取了 LncRNA在序列信息、物理化学性质和 RNA 二级结构上的特征。
ORF长度是识别编码能力的经典衡量标准。作者将具有起始密码子和终止密码子的最长 ORF 的长度视为一个转录本的 ORF 长度。 ORF coverage是一个 ORF 特征,它与输入 RNA 序列的长度相关。 Fickett 分数是一个根据核苷酸组成和密码子使用偏好的组合效应区分蛋白质编码 RNA 和 ncRNA简单的语言特征。 Hexamer score是一个对数似然比,它是根据编码 RNA 和非编码 RNA 的分布用一个序列的概率计算出来的。 CTD 特征是一组 30 个子特征,同时考虑了 RNA 基频特征和序列全局特征,并能够捕获重要的组合特征,如 GC等。pI)是揭示 lncRNA 和蛋白质编码转录物之间物理化学差异的重要指标。伪电子-离子相互作用 (EIIP) 是物理化学性质的一种特征,它直接外推每个 RNA 碱基的电子,其偏差小于 pI。最小自由能 (MFE) 是 ViennaRNA Package 程序 RNAfold 中广泛认可的 RNA 二级结构指标。
在这里插入图片描述
最后,LncReader 使用了三种不同维度的特征,涉及到上述七种不同的特征概念。根据不同算法的原理,提取序列的特征,特征向量的维数为49。

5.2 模型框架

LncReader 由具有多头自注意力机制的改进型 transformer 架构构建。实际上,self-attention 机制允许输入与自身交互并找出应该更多关注哪个元素。 Transformer 是一种自然语言处理深度学习模型,由多头自注意力层、层归一化和前馈神经网络组成。已经证明,单独使用注意力机制也可以在各种任务中达到高性能。因此,具有多头注意力机制的 transformer 编码器块是建立 LncReader 模型的基本结构。
通过使用提取的工具,可以将变长序列表示为固定的 49 个特征向量。在这项工作中,作者将固定向量处理为长度为 49 的序列,但嵌入大小为 1。LncReader 的第一层是映射特征 fi ∈ R, i = 1, … 49的线性投影层,从R空间到高维空间,fimap∈Rd,这个投影类似于嵌入层。在LncReader模型中,扩展后的嵌入大小为256。多头selfattention层由8个头组成,256个模型维度。该层的输出添加其输入作为最终输出以减轻梯度消失,并在其后添加归一化层。前馈神经网络由两个全连接层和一个激活函数组成。输出功能的两个全连接层的数目分别为 1024 和 256。在前馈中使用的激活函数是 GELU。在一个 transformer 编码器块中添加了两个 dropout 层,以防止过度拟合,并增强 LncReader 的鲁棒性。 dropout的一个位置是selfattention机制中的softmax函数之后,D1 = Dropout(A),其中A是上面提到的attention score矩阵。另一个位置在前馈网络之后,D2 = Dropout(FeedForward(Xi))。受集成方法的启发,不仅在模型中简单地堆叠了 transformer 编码器,而且还扩展了模型的宽度,这意味着一层中有 m 个并行的 transformer 编码器。并行转换器层 (PTL) 可以同时从 m 个独立的转换器编码器生成不同的上下文表示。 PTL 的输出 OPTL 是来自 m 个独立的并行 transformer 编码器的上下文表示的平均值。作者堆叠两个 PTL 来组成PTL组。我们使用跨层参数共享作为提高参数效率的一种方式,这是之前在 ALBERT 中提出的,用于减少模型中的冗余参数。在 PTL 组中共享所有参数 T 次,这意味着 LncReader 的深度(隐藏 PTL 的数量)为 NHiddenLayers = 2 × T,其中 T = 1。通过使用这种技术,LncReader 具有合适的参数大小并且可以有效地训练。
在这里插入图片描述

5.3 不平衡数据处理

训练数据集中有 1167 个正样本和 35919 个负样本。为了平衡数据集,作者对正样本使用了上采样。使用 python 包 numpy 中的 random.choice 函数将正数据集从 1167 缩放到 35919。

5.4 其他机器学习模型构建

作者将 LncReader 与经典机器学习方法进行了比较,包括LR、SVM、BRF 和 DNN。对于DNN 模型包含四个隐藏层,分别有 256、512、256 和 128 个神经元,卷积神经网络由六层组成,它由两个 ReLU 激活层、两个内核大小为 3 的卷积层、一个输入通道和一个值为 256 的输出通道以及两个内核大小为 3、步长为 2 的池化层组成,还配置了两层分别具有 256 和 128 个神经元的 LSTM 和 RNN 神经网络。

6.结果

6.1 LncReader与传统机器学习分类器的比较

使用 5 折交叉验证数据来比较 LncReader 与一些经典机器学习方法的性能,包括逻辑回归、SVM、BRF、DNN、CNN、RNN 和 LSTM。为了进行公正的比较,我们使用相同的数据集来训练和测试这五个模型。 AUC、AUPR、F1score 和 MCC 作为性能评估的多个指标。
在这里插入图片描述

6.2 LncReader在独立内部数据集上的应用与评估

尽管去冗余后的 5 折交叉验证数据集具有一定的独立性,但由于数据源偏差,模型仍有可能出现过拟合。为了进一步检验基于 cncRNAdb 数据集训练的 LncReader 预测模型的性能,作者通过并行分析生成了独立的内部数据集,包括 RNA-seq、Ribo-seq 和 MS,以使用四种方法识别双功能 lncRNA不同的白血病细胞系(图 3A )。
在这里插入图片描述
在这里插入图片描述

6.3 LncReader 跨物种评价

由于人类以外物种的数据很少,因此有必要评估我们的模型在不同物种中的表现。用于跨物种分析的数据集包括两个物种(小家鼠和黑腹果蝇)。
在这里插入图片描述

6.4 RNA 特征对 LncReader 的资源成本和性能影响

作者评估了排除物理化学性质和 RNA 二级结构对模型性能的影响。
在这里插入图片描述

这篇关于论文解读:《LncReader:使用多头自注意机制识别双功能长链非编码 RNA》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/322535

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma