深度学习在人类基因组学中的应用：下一代测序数据的综述

本文主要是介绍深度学习在人类基因组学中的应用：下一代测序数据的综述，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Mamoon Rashid的一篇关于深度学习在基因测序方面应用的综述论文。基因组学正朝着数据驱动的科学方向发展。随着高通量数据生成技术在人类基因组学中的出现，我们被大量的基因组数据所淹没。为了从这些基因组数据中提取知识和模式，人工智能尤其是深度学习方法起到了重要作用。在当前的综述中，作者讨论了深度学习方法/模型在人类基因组学不同子领域中的发展和应用。

理解多样物种的基因组，特别是对超过30亿个碱基对的智人DNA进行研究，是基因组学研究的重要目标。基因组学从全面的视角出发，涉及一个生物体内的所有基因，包括编码蛋白质的基因、RNA基因、顺式和反式元件等。这是一门数据驱动的科学，涉及到下一代测序（NGS）高通量技术的发展，可以生成一个生物体的完整DNA数据。这些技术包括全基因组测序（WGS）、全外显子组测序（WES）、转录组学和蛋白质组学分析。随着这些组学数据的快速积累，人们越来越关注在多个基因组学应用中表现优越的生物信息学和机器学习（ML）工具。这些应用包括寻找基因型与表型之间的关联、生物标记物的鉴定、基因功能预测，以及绘制生物医学活跃的基因组区域，例如转录增强子等。

机器学习（ML）被认为是人工智能（AI）的核心技术，它使得算法可以基于数据学习并做出关键预测，而不仅仅是遵循指令。它有广泛的技术应用；然而，标准的ML方法在处理复杂、自然、高维度的原始数据方面，比如基因组数据，过于狭窄。相反，深度学习（DL）方法是目前在基因组学中应用广泛的一种有前景且令人兴奋的领域。它是ML的一个派生，通过自动应用神经网络（NN）来提取特征。深度学习已经成功应用于图像识别、音频分类、自然语言处理、在线网络工具、聊天机器人和机器人技术等领域。在这方面，将DL作为基因组学的方法是完全适合分析大量数据的。尽管DL在基因组学中仍处于初级阶段，但它有望更新临床遗传学和功能基因组学等领域。毫无疑问，DL算法已经在计算建模方法中占据主导地位，目前不断扩展以回答各种基因组学问题。

图 1

尽管深度学习（DL）理论的第一个概念源自20世纪80年代，基于感知器模型和神经元概念，但在过去十年中，DL算法已经成为处理大数据的先进预测技术。在基因组学中，DL预测模型的初次高效实现发生在2000年代（图1）。DL模型要求训练大量的数据集，并且需要强大的计算资源，这限制了它们的应用。现在，DL模型（也称为DNNs）的架构已经在各个领域实现。传统的神经网络只包含两到三个隐藏层，而DL网络将这个层数扩展到200层。因此，"深度"一词反映了信息传递的层数。然而，DL要求优越的硬件和大量的并行处理才能应用。

在基因组学中，软件、硬件（GPU）和大数据的演进促进了基于深度学习的预测模型的发展，用于预测基因组中的功能元素。这些来自NGS数据的遗传变异可以预测基因组DNA中的剪接位点，通过分类任务预测转录因子结合位点（TFBSs），对错义突变的致病性进行分类，并预测药物反应和协同作用。增强DL实现的技术演进的一个例子是云平台，它提供GPU资源作为DL解决方案。GPU可以显著提高训练速度，因为神经网络训练风格在某些模型架构情况下可以更灵活，从而通过使用更多的处理单元和更大的内存容量进行快速数学处理。云计算平台的主要例子包括亚马逊网络服务（Amazon Web Services）、谷歌计算引擎（Google Compute Engine）和微软Azure。

对于所有机器学习（ML）模型，评估指标对于理解模型性能至关重要。在基因组数据集中，通常生成高度不平衡的类别，这使得它们在应用于ML和DL模型时更具挑战性。在这种情况下，通常采用一些解决方案，如迁移学习和Matthews相关系数（MCC）。一般来说，每个ML任务可以分为回归任务（例如预测疾病的某些结果/效果）或分类任务（例如预测是否存在某种疾病）；此外，从这些任务中获得多个测量指标。通常，用于ML基于回归的方法的一些性能指标包括：平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）和决定系数（R2）。相比之下，ML基于分类的方法中的性能指标包括：准确率、混淆矩阵、曲线下面积（AUC）或/和接收者操作特征曲线下面积（AUROC）以及F1分数。分类任务最常用于基因组学研究领域的问题，并用于比较不同模型的性能。例如，AUC是评估模型性能最广泛使用的指标，范围在[0, 1]之间。它衡量了真阳性率（TPR）或敏感性、真阴性率（TNR）或特异性以及假阳性率（FPR）。此外，F1分数用于在高度不平衡的数据集中测试模型的准确性，它是精确度和召回率之间的调和平均值（也在[0, 1]之间）。对于AUC和F1分数，数值越大表示模型性能越好。此外，混淆矩阵通过测量模型准确性来描述完整的模型性能，计算真阳性值加上真阴性值，并将总和除以样本总数。

基因组学中的深度学习工具/软件/流程

图 2

多个基因组学领域（例如变异调用和注释、疾病变异预测、基因表达和调控、表观遗传学和药物基因组学）充分利用高通量数据的生成，并利用深度学习算法的强大功能进行复杂预测（图2）。DNA/RNA测序技术和机器学习算法特别是深度学习的现代演进开辟了一个新的研究篇章，能够将大型生物数据转化为基因组学各个子领域的新知识或新发现。作者提供了一个短列表，其中包含变异调用和注释的工具/算法及其源代码链接（表1），以便于为特定数据类型选择最合适的深度学习工具。

表 1

新一代测序（NGS），包括全基因组或全外显子组测序，为个性化医学的早期发展奠定了基础，并在孟德尔病研究中有着已知的影响。随着大规模并行高通量测序技术的出现，测序数千个人类基因组以鉴定遗传变异已成为基因组学中的日常实践，包括癌症研究。对于变异调用，现有复杂的生物信息学和统计学框架可供使用。高通量测序过程的缺陷在于存在显著高的技术和生物信息学误差率。由于大量中等或低覆盖度的基因组序列、短读取片段以及个体间的遗传变异，产生了许多计算问题。这些缺点使得NGS数据依赖于生物信息学工具进行数据解释。在下一代测序领域，现代深度学习工具已被提出，以克服传统解释流程的局限性。例如，Kumaran等人证明了将基于深度学习的变异调用器DeepVariant与传统的变异调用器（如SAMtools和GATK）结合使用，可以提高单核苷酸变异和Indel检测的准确性评分。在DNA测序数据解释中实施深度学习算法还处于初期阶段，就像最近由Google开发的先驱性例子DeepVariant一样。DeepVariant依赖于输入图像中的图形差异来执行从NGS短读取中的遗传变异调用的分类任务。它将映射的测序数据集视为图像，并将变异调用转换为图像分类任务。然而，该模型没有提供有关变异信息的细节，例如确切的替代等位基因和变异类型。

后来，引入了几种用于变异调用和注释的深度学习模型。例如DeepSV，一种遗传变异调用器，旨在预测从测序读取图像中提取的长基因组缺失（> 50 bp），而不是其他类型的结构变异，如长插入或倒位。它以BAM格式或VCF文件作为输入，并将结果输出为VCF形式。在评估DeepSV时，它与另外八种缺失调用工具和一种名为Concod的机器学习工具进行了比较。结果显示，尽管在样本较少的情况下Concod的训练时间较短，但DeepSV在使用相同数据集时显示出更高的准确性评分和更少的训练损失。另一个基因组变异过滤工具，GARFIELD-NGS，可以直接应用于变异调用器的输出。它依赖于一个多层感知器（MLP）算法来研究来自Ion Torrent和Illumina平台的外显子测序数据中的真实和假变异。它通过处理标准VCF文件，在低覆盖度数据（高达30X）下表现出强大的性能，并生成另一个VCF文件。

表 2

基于深度学习的用于预测致病变异的模型，它们的应用以及输入/输出格式和源代码列在表2中。考虑到来自患者亲属或相关群体的额外数据，医学遗传学家在变异调用和注释后经常对观察到的基因变异进行优先级排序和过滤。变异优先级排序是一种确定在遗传筛查中最可能的致病变异的方法，这些变异损害了基因功能并导致疾病表型。变异优先级排序包括对变异进行注释以发现临床上无意义的变异，如同义变异、深入内含子变异和良性多态性。随后，剩余的变异，如已知变异或未知临床意义的变异（VUS），变得可行。此外，解释个体中罕见遗传变异的复杂性，例如了解它们对疾病风险的影响，影响了诊断测序的临床能力。例如，在罕见遗传疾病中众多且不常见的VUS代表了个性化医学和健康人群评估中测序实施的一大挑战。尽管统计方法，如GWAS，已经在将遗传变异与疾病相结合方面取得了巨大成功，但它们仍需要大量样本来区分罕见遗传变异，并且无法提供关于新生变异的信息。因此，当前的注释方法在优先选择致病变异方面具有一定的优势，尽管面临一些缺点。对于这些问题，已经实现了基于深度学习的模型，以利用深度神经网络（DNN）体系结构对变异进行优先选择。

表 3

作者列出了聚焦于基因组中基因表达和调控领域中最高效的基于深度学习的工具应用各种深度学习算法的几种模型，并在可用的情况下总结了关于剪接和基因表达应用的信息和源代码（表3）。基因表达涉及初始转录调控因子（例如pre-mRNA剪接、转录和多聚腺苷酸化）到功能蛋白质的产生。测试数千个合成序列的高通量筛选技术已经提供了关于基因表达的定量调控方面丰富的知识，尽管仍存在一些限制。主要的限制是无法使用实验或计算技术来探索大的生物序列区域。尽管最近的NGS技术在基因调控领域提供了巨大的知识，但大部分自然mRNA筛选方法仍然利用染色质可及性、ChIP-seq和DNase-seq信息，它们着重研究启动子区域。因此，需要一种强大的方法来理解基因调控结构的各个区域之间的关系以及它们的网络表达连接。同样，目前的RNA测序技术已经赋予了单个细胞直接测序的能力，称为单细胞RNA测序（scRNA-seq），它允许在独特的意图上查询生物系统。例如，scRNA-seq数据为细胞异质性提供了有价值的信息，可以扩展对人类疾病和生物学的解释。scRNA-seq数据的主要应用涉及检测细胞的类型和状态。然而，两个主要的计算问题是如何对数据进行聚类以及如何检索它们。

表 4

作者总结了表观基因组学中最新的深度学习模型、它们的实现、数据类型和源代码（表4）。基因型未发生变化的表型改变被称为表观遗传学。它被定义为研究基因表达中可遗传的修改，不包括DNA序列的修改。包括DNA甲基化、组蛋白修饰和非编码RNA在内的表观基因组学机制被认为在理解疾病发展和寻找新的治疗靶点方面是基础性的。尽管在临床实施中，表观遗传学尚未完全得到应用。近年来，由于下一代测序和微阵列技术的进步，产生了大量的表观遗传学数据，导致了数据解释工具的发展困难。目前缺乏适用且高效的计算方法，导致当前研究将重点放在单个表观标记上，尽管在体内可能存在多个标记相互作用和基因型。之前的几项研究揭示了深度学习模型在表观基因组学中的基本应用。它们在预测三维染色质相互作用、单细胞数据集中的甲基化状态和基于DNase-Seq数据的组蛋白修饰位点方面取得了巨大成功。

表 5

作者列出了最值得关注的深度学习药物基因组学模型，它们的常见目的、输入/输出格式和源代码（表5）。尽管在过去几年中对深度学习方法产生了极大兴趣，但直到最近，深度学习工具在药物基因组学问题中的应用仍很少，比如预测药物反应。关于巨大基因群集甚至整个基因组中的遗传变异与不同药物的影响之间的关联的知识被称为药物基因组学[87]。现代治疗方法面临的一个主要挑战是理解变异性的潜在机制。有时候，通过某个人群的药物反应分布明显是双峰的，表明一个变量起主导作用，通常是遗传因素。然而，对药代动力学或药效学潜在机制的理解可用于检测候选基因，其中这些基因变体的功能可能解释了不同的药物反应。在调查药物组合效果时，临床实验会产生各种错误，这是耗时和费用高昂的。此外，它可能使患者接受过多的风险治疗。为了在不伤害患者的情况下确定替代药物协同策略，可以利用高通量筛选（HTS）来使用几种浓度的几种药物对癌细胞系进行实验。利用现有的HTS协同性数据集允许使用准确的计算模型来研究巨大的协同空间。这些可靠的模型将为体外和体内研究提供指导，并为个性化医学迈出重要的一步，例如预测抗癌协同治疗、系统生物学、动力学方法和基于计算的基因表达模型，可用于单药和剂量反应处理后的筛选。然而，这些方法仅限于特定的靶标、途径或某些细胞系，并且有时需要特定化合物处理的细胞系的特定组学数据。

基因组学中使用的深度学习算法/技术

表 6

深度学习是机器学习的一个当代且快速发展的子领域。它通过构建多层次的深度神经网络（DNNs）来对各种数据进行建模，从而创建数据的逻辑，如图片、声音和文本。通常，深度学习具有两个特点：第一，非线性处理部分的结构是多层次的；第二，每个层次上的特征提取方式可以是监督或非监督方法。在1980年代，初始的深度学习架构是建立在人工神经网络（ANNs）上的，但真正的深度学习的实力在2006年开始显现。从那时起，深度学习已经在多个领域得到应用，包括基因组学、生物信息学、药物发现、自动语音检测、图像识别和自然语言处理。

人工神经网络（ANNs）受到人类大脑神经元及其网络的启发。它们由完全连接的节点或神经元组成，通过神经网络展示了大脑中突触的刺激传递。这种深度学习网络的架构被用于特征提取、分类、数据降维或作为更深层次框架（如CNN）的子元素。多组学研究产生了大量数据，如前面提到的，主要是由于基因组学的进步和生物技术的改进。典型的例子包括高通量技术，其范围包括数千个基因表达或非编码转录，如miRNA。此外，基因分型平台和NGS技术以及相关的GWAS产生可测量的基因表达数据，例如RNA-Seq，发现了各种人群中的许多遗传变异和其他基因组改变。然而，一些深度学习模型仅依赖于DNA序列数据，似乎缺乏对特定细胞系方法的预测能力，因为不同细胞系的DNA序列是相同的。为了克服这个缺陷，已经提出了几种混合的深度学习模型，并通过将DNA序列数据与生物实验信息结合，某些研究显示出明显的改进。

表 7

作者收集了基于深度学习架构开发的最高效、用户友好的基因组学资源（表7）。尽管这些工具在基因组学和生物信息学中取得了巨大的成功，但采用不同的深度学习解决方案和模型仍然受到限制。其中一个原因是缺乏基于深度学习的已发布协议，以适应需要进行大量数据工程的新的异质数据集。在基因组学中，高通量数据被用于训练神经网络，并已成为疾病预测或理解调控基因组学的典型方法。类似地，开发新的DL模型并在新的数据集上测试现有模型面临巨大的挑战，原因是缺乏全面、可推广、实用的面向生物学的深度学习库。在这方面，软件框架和基因组包对于快速采用新的研究问题或假设、整合原始数据或使用不同的神经网络结构进行研究至关重要。

结论

作者对基因组学的不同子领域中开发的不同深度学习工具/软件进行了分类，以满足各种基因组学分析的预测任务。详细讨论了不同基因组学测定中的数据类型，使读者能够对使用人类基因组学数据集开发基于深度学习的预测模型的基本要求有初步了解。在文章的后部分，作者简要介绍了不同的深度学习架构，帮助基因组学科学家决定适合其特定数据类型和/或问题的深度学习网络架构。作者还简要讨论了深度学习技术在基因组学中的最新应用及其潜在原因和解决方案。

参考资料

Alharbi, W. S., & Rashid, M. (2022). A review of deep learning applications in human genomics using next-generation sequencing data. Human Genomics, 16(1), 1-20.