阐明天然产物生物效应的机器学习方法

2024-03-31 21:44

本文主要是介绍阐明天然产物生物效应的机器学习方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

🌞欢迎来到带你看论文的世界 
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创!

📆首发时间:🌹2024年3月30日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


目录

摘要

介绍

使用机器学习方法预测天然产物生物活性的指南和工具

2.1数据集准备

2.2特征生成

2.3常用ML算法介绍

线性模型

贝叶斯算法

基于实例的算法

基于树的算法

人工神经网络

迭代随机消除(ISE)

2.4评价

ML辅助的生物活性预测和NPs的SAR研究案例示例

3.1抗微生物

3.2抗癌

3.3抗炎症

3.4蛋白靶标调节

3.5混杂的


摘要

      机器学习(ML)是预测生物活性和研究结构-活性关系的有效工具。在过去的十年里,为了应对发现生物活性的挑战,将这些方法与天然产物研究相结合的新趋势已经发展起来。在本综述中,我们将介绍使用ML方法研究生物活性的基本原理和方案,引用一系列关于抗菌、抗癌和抗炎等研究的实际例子。ML算法处理与生物活性相关的各种分类和回归问题,从线性到非线性,从纯化合物到植物提取物。受文献中报道的案例和我们自己的经验的启发,我们强调了减少建模误差的一些关键点,包括数据集准备和适用领域分析。

介绍

    传统上在药物中使用天然产物(NPs)和受天然产物启发的支架或片段是一种常见做法,它们是药物发现的重要来源。1981年至2019年间,所有新批准的小分子药物中,约有三分之一是NP或NP衍生化合物。如果考虑到NP启发的合成化合物,这一比例高达三分之二。

对天然产物(NPs)进行分离和鉴定技术的发展使得从自然资源中创造新化合物变得更加高效。然而,探索天然产物(NPs)的生物效应仍然具有挑战性。与定制合成化合物相比,发现NPs往往是偶然的,没有预期它们的结构会具有功能性。此外,当最初获取时,NP的数量可能非常少(通常以毫克计),这阻碍了对其生物活性的广泛筛查。研究人员已经开发了各种策略来帮助发现生物活性NPs,例如预分级高通量筛选,代谢组学引导的分级等。计算方法,在药物研究领域有着广泛的应用,也在寻找生物活性NPs方面发挥着越来越强大的作用,包括虚拟筛选、靶点挖掘和结构活性关系(SAR)分析。

     在过去几十年中,人工智能(AI)的概念和工具已经渗透到各个研究领域,并成为药物发现中关注的焦点。

     当前人工智能的应用主要被称为弱人工智能,或者机器学习(ML)。在天然产物(NP)研究范围内,机器学习算法已经被用于结构识别、分类、构象模拟和类似天然产物的库设计。在药物设计领域,机器学习方法的应用旨在识别:

(1)正确的靶点;(2)正确的化合物;(3)正确的患者;(4)优化的临床前模型和临床试验的适用性;(5)改进的遗传诊断基础。后三个方面将不在本文中讨论,因为它们涉及药理学和医学领域,对化合物是天然产物还是合成物的考虑较少。机器学习的目标是使计算机能够从数据中学习信息。一般来说,所有基于配体的方法都是机器学习算法,包括基于配体的药效团建模和三维比较分子场分析(CoMFA)。然而,这些方法也是基于知识的,假设氢键位点、芳香位点、疏水表面等是决定化合物生物活性的关键因素。在本文中,我们将重点放在严格定义的机器学习技术上,通过这些技术,模型直接从数据中训练而成,没有预定义的模式或规则(除了线性算法中的线性假设)。机器学习任务可以简单地分为回归或分类,即分别对连续值或离散值进行建模。

      具体而言,在当前的主题背景下,机器学习工具已被用于解释一系列生物活性天然产物的定量结构-活性关系(QSAR)(回归),或者预测特定天然产物是否活性或非活性(分类)。

      已经开发了许多基于机器学习的模型用于预测生物活性和在SAR研究中的应用,其中大多数代表性案例用于类似药物或合成化合物,正如先前发表的综述所总结和讨论的那样。与合成化合物相比,天然产物具有许多特殊的结构和物理化学特性。一般来说,天然产物具有较大的分子量、较高的log P值、较少的氮原子、较多的氧原子和较多的手性中心,表明它们的立体复杂性。关于药效团,天然产物更多是脂肪族的,含有较少的芳香环和显著更多的羟基团比合成化合物。由于这些特征,天然产物占据了一个相对独特的化学空间,使其成为发现新型生物活性结构的资源。然而,出于同样的原因,为合成或类药物化合物建立的模型可能无法正确处理天然产物。因此,需要一篇专门的综述,以了解使用机器学习模型预测天然产物生物活性的一些进展和挑战。

       一些与此相关的很好的综述已经发表。Yang等人发表了一篇全面的综述,介绍了ML算法在药物设计中的应用,从专家的视角介绍了人工智能的概念和算法,并提供了涵盖药物设计不同目的的案例示例。在天然产物研究领域,Lagunin等人总结了用于药用植物的化学和生物信息学辅助药物发现的可用资源,包括数据库、在线服务和软件。

     实际上,已经给出了一些关于QSAR建模、对接和天然产物系统生物学研究的实际例子。Ol等人描述了利用天然产物进行药物发现的计算方法的贡献,包括对天然产物化学空间的分析、虚拟筛选、靶点挖掘和QSAR研究。Pereira和Aires-de-Sousa的另一篇综述更具体地聚焦于海洋天然产物。Fang等人的综述中的一部分总结了使用机器学习工具预测天然产物药物靶点相互作用的应用。这些综述再次验证了将计算工具纳入天然产物研究中的重要性。在这里,我们将介绍使用机器学习方法阐明天然产物生物活性的综述,包括一般直觉和具体应用。


使用机器学习方法预测天然产物生物活性的指南和工具

       图1展示了使用机器学习方法预测天然产物生物活性的一般流程。在构建机器学习模型之前,需要正确定义待解决的问题。在阐明天然产物生物活性的背景下,可能是一个二分类任务,用于区分活性和非活性化合物,也可能是一个多分类任务,将化合物与不同疾病的治疗联系起来,或者是一个回归任务,揭示给定化合物与其生物活性之间的定量关系。

2.1数据集准备

      作为生成成功的机器学习模型的先决条件,预期需要获取高质量的天然产物数据集,以提供有关分子结构、物理化学性质、自然起源、生物活性等的准确信息。

机器学习方法预测天然产物生物活性

一些可用的含有天然产物结构和生物活性信息的数据库包括:

a 列出的数据库都是开放获取的,提供了易于检索的天然产物结构和生物活性信息。

b 数据库的大小是指具有正确结构的天然产物数量,由参考文献53估算得出。

      医学应用等领域。目前可用的天然产物数据库包括百科全书(如 Super Natural II、Universal Natural Product Database),或者根据地理区域或针对性疾病构建的:BIOFACQUIM(墨西哥)、p-ANAPL(非洲)、IMPPAT(印度)、TCMID(中药)、NuBBE(巴西)、ADNCD(糖尿病)、CVDHD(心血管疾病)、BioPhytMol(抗结核菌)、NPACT(抗癌)、InflammNat(抗炎性)。在表1中,我们列出了结构和生物活性信息的天然产物数据库,这些数据库是开放获取且易于检索的。Sorokina等人的综述中提供了有关天然产物数据资源的最新介绍和评论,该综述涵盖了2000年至2019年间发表的123个用于天然产物研究的数据库。Chen等人于2017年发表的综述提供了有关25个虚拟数据库和31个物理库的详细信息,这些资源对于计算机辅助发现生物活性天然产物非常有用。不幸的是,缺乏大量高质量的生物活性数据是基于配体的机器学习方法所面临的一大挑战。在天然产物领域,情况更为严重,因为前述的生物活性探索困难。正如表3所示,目前天然产物的机器学习预测模型通常是通过合成/类药物小分子进行训练的。

       分子数据库或来自文献和实验数据编制的内部数据库。尽管有各种公共天然产物数据库可供使用,但为了特定的研究目的,可能仍然需要从开放获取或商业数据库、文献或内部实验数据中编制新的数据集。数据准备是一项耗时的工作,但高质量的数据总是会使模型性能更好。Cherkasov等人提供了关于化学数据库筛选的专业知识和逐步建议,包括混合物和重复项的移除、结构清理以及对不正确和不完整信息的手动检查。以下是一些我们自己的经验中值得考虑的具体方面,用于准备机器学习模型训练的数据集。

  1. 平衡的正负样本 在机器学习中一个常见的问题是训练数据集的类别不平衡,即一个类别的实例数量远远大于另一个类别。这导致了对较小类别的不充分学习和泛化,新的实例往往被预测为属于较大类别的成员。因此,最好创建每个类别具有相似数量实例的数据集。DUD-E是一个提供了102个蛋白质的配体和假配体的数据库,对于构建基于靶点的预测模型非常有用。如果很难获取平衡的活性和非活性数据,可以使用一些技术来改善类别不平衡的影响,例如欠采样、过采样、SMOTE(合成少数类过采样技术)等。对于用于QSAR研究的回归模型,训练数据集中的实例在生物活性值的范围上分布广泛也是至关重要的。

  2. 适用性域 为了获得良好的预测性能,测试数据集或查询实例应位于训练数据集的结构和属性空间(适用性域)中。使用天然产物数据集构建的模型更适合预测天然产物的生物活性,因为使用合成化合物训练的模型可能会导致结果不佳。然而,在使用模型进行预测之前,需要定义适用性域,并对测试集应用过滤器。

  3. 数据一致性 从不同资源收集的生物活性信息可能使用了不同的细胞或动物模型,不同类型的生物测定(例如底物抑制、结合亲和力测试等),以及生物活性的指标(IC50,或在给定浓度下的抑制百分比)和单位(mM或mg ml^-1)。在实践中,为了扩大用于模型训练的实例数量,数据的一致性可能会受到影响,例如将来自两个不同肺癌细胞系的数据合并。然而,仍然重要的是确保数据经过仔细检查和转换,以保证数据的完整性。此外,天然产物数据库中的生物测定数据急需标准化和协调。高质量的大规模数据库(如ChEMBL、PubChem、DTC(Drug-Target Commons)和Drugbank)已经建立了示例。由于存储的数据数量庞大且不断涌现,社区力量应该被利用来整合当前的数据库,并通过采用为了方便数据库之间的交流,建议对生物测定数据的单位进行标准化,例如将IC50的单位统一为mM,并使用广泛接受的标识符,例如标准的IUPAC化学标识符(InChI)用于天然化合物,微生物生物测定本体论(mBAO)用于生物测定,UniProt ID用于蛋白质。

  4. 不可避免的数据错误 即使数据集具有数量可观的实例,并且数据的形式经过仔细检查,预测的准确性仍可能受到实验误差的限制,实验误差被认为是模型预测的最大不确定性来源。这个问题可以通过选择考虑误差估计或容忍部分不准确数据的机器学习系统来缓解。来自高通量筛选(HTS)的数据可能具有不可忽视的系统误差,需要统计方法来纠正这些误差。

  5. 数据库结构 为了构建一个专门用于天然产物生物活性研究的定制数据库,可能希望为化合物包含多重信息,如化学结构、物理化学性质、自然起源、分子、细胞或动物水平的生物活性等。为了方便进一步的数据处理,可以使用SQL(结构化查询语言)来格式化和管理这些信息。有关构建复杂生物数据库用于机器学习的建议,请参阅Duran-Frigola等人的综述。

    如何选择机器学习算法(LR:线性回归;LoR:逻辑回归;NB:朴素贝叶斯;kNN:k近邻;SVM:支持向量机;DT:决策树;RF:随机森林;ANN:人工神经网络)

2.2特征生成

     在组织好数据集之后,接下来的步骤是为机器学习模型训练生成特征。已经开发了大量的描述符和指纹来表示分子性质的不同方面,包括拓扑描述符、图论描述符、实验描述符和量子化学描述符,或简单地说是1D、2D、3D和4D描述符。指纹表示是一组分子描述符,以位串的形式描述化合物的结构和特征。最常用的指纹包括MACCS、CDK、PubChemFP、ECFP等。最近,还为天然产物开发了一组基于片段的分子指纹(NC-MFP)。

用于生成分子描述符和指纹的可用工具包括PaDEL、Dragon、RDkit等,以及大多数药物设计软件包。由于天然产物中立体构型的确定具有挑战性,3D描述符可能无法准确计算,而且也有迹象表明,3D描述符对于预测天然产物生物活性的贡献有限。已经确定,最常用的拓扑描述符在预测性能方面的准确性约为90%,而3D描述符只能增加约5%左右。

     常用机器学习算法简介 机器学习算法通常可以分为监督学习和无监督学习,具体取决于学习者是否“知道答案”。ML算法的选择与数据数量和质量、学习任务类型(分类或回归)以及对结果的解释程度有关。已经被采用来阐明天然产物生物活性的ML算法大多被归类为监督学习。在表2中,我们总结了最常用的监督学习算法的主要优缺点。在应用中,有许多令人印象深刻的例子使用了这些算法。

算法在配体基药物发现中的应用,如神经保护化合物、抗胶质瘤化合物、钠通道抑制剂、BACE-1抑制剂、BRD4抑制剂、CDK抑制剂、泛试验干扰化合物等。在接下来的章节中,我们为初学者读者提供了一些案例研究部分描述的算法的基本信息。

2.3常用ML算法介绍
线性模型

线性模型对于大型高维数据集工作快速且效果良好,并且相对容易解释。然而,线性模型可能不适用于无法线性分隔的数据。在这里,我们介绍线性最小二乘回归(LR)、逻辑回归(LoR)和线性判别分析(LDA)。

LR是一种经典的统计工具,也是最常用的预测技术。线性回归对数据结构提供了强大的假设,可以表示为多个加权变量的总和。线性回归广泛用于QSAR研究,其结果易于解释。

LoR可以看作是线性回归的一种特殊形式。与线性函数不同,逻辑函数适用于训练实例,因此输出要么是0,要么是1。因此,LoR作为一个分类器,用于预测活性和非活性的天然产物。

LDA旨在通过将数据集投影到低维空间来分隔数据。在二元分类的情况下,数据集被投影到一条线上,以使来自同一类的数据点足够接近,而来自不同类的数据点足够远离彼此。LDA是一种常用的分类器,除了是一种降维工具外。

贝叶斯算法

朴素贝叶斯(NB)分类器是一种流行的基于贝叶斯定理的机器学习算法,它预测了例如化合物具有特定特征时其生物活性的概率。贝叶斯定理的“朴素”版本简化了所有特征的联合概率的计算,假设所有特征都是相互独立的。

高斯过程(GP)模型源自贝叶斯统计,并在药物开发中用于回归和分类。该过程从一组函数开始,这些函数可能模拟分子属性(或描述符)的生物活性的依赖关系。然后,这些函数的组合会根据输入的训练数据进行更新,以便表示出关系。最后,保留的函数组合将用作对新数据的预测器。GP模型不仅预测了查询分子的SAR或类别,还估计了预测的置信区间。

基于实例的算法

基于实例的方法旨在从训练数据中学习广义规则。基于实例的方法的示例包括最流行的机器学习算法,如k最近邻(kNN)和支持向量机(SVM)。

在kNN方法中,将查询实例的特征与具有最小距离(或k个最相似实例)的k个邻居进行比较。根据其k个邻居的标签为查询实例分配一个标签,使用例如多数投票。邻居的数量是kNN的最重要参数,它决定了模型的复杂性。kNN的一个主要缺点是对不相关特征的干扰。因此,需要对特征空间进行预处理,包括特征选择和归一化。此外,要预测的生物活性必须位于训练数据的活动范围内,当接近该范围的边界时,预测会变得不准确。

另一个广泛使用的基于实例的方法是支持向量机(SVM),它通过将数据转换到更高维的空间来处理原始输入空间中的非线性分离。通常,SVM方法使用核函数将数据拟合到更高维的空间,例如高斯函数或径向基函数(RBF)。SVM既可用于分类任务,也可用于回归任务,并且在低维和高维数据中均表现良好,但在大型数据集上的效率会降低。与kNN一样,SVM还需要进行特征选择以减少不相关特征的噪声。还需要对输入数据进行仔细的归一化,以确保所有特征处于相同的尺度。

基于树的算法

决策树(DT)模拟了树的生长过程 - 从根部到其分支,最终到叶子。递归分割是传统的DT形式。在最顶层的根节点中,所有的训练实例都属于同一类。然后,训练实例通过一系列特征测试在内部节点进行分割,不断被分成两个或更多的子集。分割的结果被输出到叶节点,直到子集的“纯度”是可接受的(终端节点)。DT不依赖于任何先验知识,因此所有特征都可以用来分割数据。然而,一些异常数据可能会导致过多的分支,而使用不相关的特征可能会导致过拟合问题。DT在生物活性NP分类研究中的应用已经被详细描述。

随机森林(RF)是一种集成算法,它生成许多DT组成的模型。每个DT由原始数据集的随机抽样实例组成,并随机选择特征。最终的预测是通过组合每棵树的预测进行的,对于分类采用多数投票,对于回归则合并平均值。通过这种方式,RF可以识别最重要的特征,并避免来自不相关特征的噪声。RF是一种广泛应用于分类、回归和特征选择的方法。

旋转森林(RoF)是另一种基于树的集成学习算法。在RoF中,对从训练数据的特征集中分割出的每个子集使用主成分分析(PCA)。每个PCA的主成分被保留为一个矩阵,然后被旋转以形成分类器的新特征。保留所有主成分的特征提取过程保证了分类器的多样性和准确性。

人工神经网络

人工神经网络(ANN)由分布在几个神经层中的人工神经元组成:一个输入层、隐藏层和输出层。输出层代表了对所需生物效应的预测。单层感知器是最简单的ANN,只有输入层和输出层,仅限于线性可分问题,而多层感知器可以有多个隐藏层,即通常所说的神经网络可以用于非线性问题。最基本的ANN是前馈神经网络,它直接从输入层连接到隐藏层,最后到输出层,没有循环。相反,循环神经网络(RNN)在网络内部具有循环。通过使用记忆单元,RNN可以处理序列数据。隐藏层不仅从时间t的输入层接收输入,还从时间t - 1的隐藏层输出中接收输入,然后存储在内存单元中。

迭代随机消除(ISE)

     已在案例研究部分的一系列研究中进行了描述,并作为一种特征选择技术运行。ISE旨在从高维特征空间中找到最重要的属性,以及确保分子具有生物活性的一系列变量的值。该过程从为每个变量分配随机值并评分结果开始。多次重复迭代此抽样操作将提供得分的直方图。通过关注高分和低分区域,可以发现描述分子活性或非活性的变量组合和值范围。通过这种方式,可以构建一系列“过滤器”来评估候选分子,并对它们进行评分,以决定它们是否具有生物活性。除了对生物活性化合物的分类外,ISE算法还可以用于蛋白质结构的研究。

2.4评价

一个好的机器学习模型应该能够从未包含在训练数据集中的新数据中进行准确预测,这种特性被称为泛化能力。如果模型构建过于复杂以适应训练数据,比如考虑了非泛化特征,那么模型可能会过拟合。相反,如果模型过于简单,忽略了训练数据的重要共同特征,那么就可能发生欠拟合。欠拟合和过拟合都可能导致对新数据的预测不准确。因此,在将模型用于预测任务之前,需要进行评估过程来指导模型优化(即超参数调整、特征选择),并评估模型是否能够总结数据的一般特征。

已经开发了各种指标来评估模型预测的性能,例如误差和准确率、精确度和召回率、富集因子(EF)、马修斯相关系数、皮尔逊相关系数、接收者操作特征(ROC)曲线等,此外还有线性回归的均方误差(R2)。之前已经对指标的性质和选择进行了详细讨论。常用的评估方法包括留出法、交叉验证和自助法。留出法将数据集分为训练集和测试集。交叉验证将数据集分为k个子集,每次将k-1个子集作为训练集,剩下的一个子集作为测试集。自助法表示用替换进行抽样,对小数据集很有用。


ML辅助的生物活性预测和NPs的SAR研究案例示例

下面讨论的案例总结在表3中。

a表示分类;R表示回归;CMC表示综合医药化学数据库;NCI-60 DTP表示NCI-60开发治疗项目;GDSC表示癌症药物敏感性基因组学。

3.1抗微生物

Egieyeh等人报道了使用不同的机器学习算法预测天然产物的抗疟生物活性,包括朴素贝叶斯(NB)、支持向量机的顺序最小化优化(SMO)、随机森林(RF)和投票感知器(VP)。使用SMOTE处理了训练数据集的类别不平衡问题。为了最小化将活性化合物错误分类为非活性的可能性,采用了成本敏感型分类器,将假负例的权重设定为两倍。为了确保测试化合物位于训练化合物的化学空间中,使用主成分分析(PCA)定义了适用域。使用10折交叉验证进行的模型评估表明,RF和SMO的性能优于NB或VP,分别达到了ROC曲线下面积(AUC)值为0.91、0.86、0.74和0.72。RF和SMO模型用于对一个包含450个化合物的天然产物库进行了体外筛选,结果表明54%的化合物具有一定的抗疟活性。

Masalha等进行了一项研究,利用ISE识别来自天然产物的抗菌化合物。在这项研究中,628种抗菌药物代表活性领域,而非活性领域则包括2892种天然产物。值得注意的是,用于非活性领域的天然产物并非真正“非活性”,但作者认为,如果训练集中的假阴性限制在1-2%以下,则影响将很小。ISE生成的36个过滤器用于构建预测模型。使用ISE,假设活性分子将通过更多数量的过滤器,而非活性分子将通过最少数量。通过分子生物活性指数(MBI)评估分子具有生物活性的机会,与通过每个过滤器的分子的预测准确性相关。该模型产生了相当不错的AUC值为0.96,MBI值为7.0。使用该模型对一个天然产物数据库进行虚拟筛选,确定了10个可能具有高度抗菌性的候选化合物。其中两种已经在实验中验证为活性,而其余八种化合物等待验证。该组还使用ISE算法和类似的协议预测抗癌、抗糖尿病、抗炎症和抗真菌的天然产物。

                             应用机器学习预测天然产物对抗MRSA的活性。

为了预测天然产物对抗甲氧西林耐甲氧西林金黄色葡萄球菌(MRSA)的抑制活性,Dias等人报告了采用两种方法构建的预测模型(图3):方法A:利用分子描述符构建QSAR回归模型,预测针对MRSA的最小抑制浓度(MIC);方法B:使用1D核磁共振(NMR)数据作为描述符构建分类模型,以预测放线菌样本(包括粗提物、分离物和纯化化合物)的活性和非活性。对于方法A,采用随机森林(RF)特征选择程序选择了两组描述符:一组包括四个指纹(MACCS、SubC、PubChem和CDK Ext),另一组包括从CDK Ext指纹中选择的150个最重要的描述符。加入3D描述符并没有提高预测能力,反而使预测结果变得更糟。随后,采用三种机器学习算法:RF、支持向量机(SVM)和高斯过程(GP),以确定描述符与pMIC之间的QSAR关系。使用四个指纹作为描述符的共识模型(平均三种算法的预测值)取得了最佳结果,测试集的R2为0.683。将测试集细化到模型的适用域后,R2增加至0.693。然后,利用该模型对StreptomeDB数据库进行虚拟筛选,得到了150个预测pMIC > 5.3的命中结果。在方法B中,采用RF和SVM算法,在卷积神经网络(CNN)中对放线菌样本进行分类,以其对抗MRSA的活性进行分类。使用100个最重要的NMR描述符进行共识建模,测试集的准确率为0.77。

3.2抗癌

Pereira等人利用经验CDK和半经验量子力学(QM)描述符(PM6)构建了一个ML分类模型,以预测海洋天然产物的抗生物活性和抗肿瘤性能。在三种ML算法中,支持向量机(SVM)、随机森林(RF)和决策树(DT)中,RF在第一个测试集上表现最好。然后在第二个测试集上使用RF,结果表明CDK和PM6描述符的组合表现优于仅使用CDK或PM6描述符。最佳模型用于筛选AntiMarin数据库。然而,与当前报道的实验结果相比,获得了大量假阳性(FPs)。作者详细讨论了FPs的生物活性潜力,认为这些化合物被认为是不活跃的,因为它们从未被实验性地测试过其预测的生物活性。与仅使用CDK分子描述符的模型相比,加入量子描述符增加了区分生物化合物的预测性能。

CDRUG是一个在线工具,用于预测分子的抗癌性能,它是在一个包含来自NCI-60发展性治疗项目的8565个抗癌化合物和9804个非活性化合物的基准数据集上进行训练的。根据与已知活性化合物的相似性,预测测试化合物的活性或非活性。开发了一个相对频率加权的指纹来描述分子,并引入了一个混合分数(HSCORE)来衡量分子相似性。HSCORE基于相对频率加权的Tanimoto系数(RFW_TC)和MinMax核(KMM)。Dai等人使用CDRUG对台湾中药数据库中的21334个化合物进行筛选。从中,鉴定了5278个潜在的抗癌天然产物和57种抗癌植物。

与基于单个细胞系预测天然产物的抗癌性能不同,Yue等人建立了一个模型,以预测癌细胞对天然产物的敏感性,使用了多个细胞系。从癌症药物敏感性基因组学(GDSC)数据库构建了训练和测试数据集,使用17种天然产物或天然产物衍生物,每种化合物279-565个细胞系,总共6450个癌细胞系-天然产物相互作用。癌细胞系和天然产物分别由基因表达水平和1D/2D分子描述符描述。特征选择过程确定了用于模型训练的最重要的1000个特征,其中包括468个基因组特征和532个化学特征。使用决策树(DT)、支持向量机(SVM)、随机森林(RF)和旋转森林(RoF)算法训练了许多ML模型,以确定细胞系对查询天然产物的敏感性或耐药性。RoF取得了最佳表现,10折交叉验证的AUC为0.87。作为预测模型的测试,选择姜黄素和白藜芦醇进行评估。对于姜黄素和白藜芦醇,分别有7个中的6个和8个中的5个癌细胞系被正确地预测为敏感。

开发了一个多元线性回归分析(MLR)模型,用于对海藻化合物的抗癌活性进行建模。细胞毒性(IC50)与2D分子描述符相关联。使用遗传算法进行特征选择,然后使用MLR进行回归。虽然为每个化合物生成了630个描述符,但观察到只有四个描述符足够地表现出良好的预测质量。独立拓扑描述符的对齐起着至关重要的作用,突出了氧、溴和氯原子的重要性。为六个细胞系中的每一个构建了预测模型,其中HeLa和MCF-7取得了最佳结果,两个测试集的R2值分别为0.79/0.78和0.74/0.77。

王等人利用因果发现算法从人参提取物中识别抗癌化合物。在该研究中,它对28种人参提取物中9种人参皂苷与MCF-7细胞系的细胞毒性进行了相关性分析。考虑到多种活性化合物的叠加或协同作用,进行了条件依赖性测试,以确定特定人参皂苷是否与MCF-7的细胞毒性相关。为了选择活性人参皂苷,为条件独立统计的相应概率设定了阈值。因果发现算法显示出比逐步回归更稳健的性能。结果,人参皂苷Rb1被选为最活跃的化合物,经过MTT试验验证其对MCF-7的细胞毒性。

3.3抗炎症

利用线性判别分析(LDA)构建了抗炎症天然产物的分类模型。采用拓扑描述符生成判别函数(DF),将活性和非活性分子分离开来。通过逐步特征选择确定哪些描述符对分离提供了最大的贡献。结果,DF涉及了五个描述符,描述了分子键(TI1)、原子质量(ATS7m)、范德华体积(ATS4v、ATS7v)和原子极化率(ATS1p)。DF的正负值表明化合物是否被分类为活性或非活性。训练集的DF值范围从-8到7,因此超出此范围的化合物被标记为“未分类”。对于训练集和测试集,生成的DF对于检测非活性分子的准确性较高(分别为98%、86%),但对于活性化合物而言相对较差(分别为50%、59%)。该分类模型用于对MicroSource纯天然产物进行虚拟筛选研究,该数据库包含约800种天然产物。从中选出了74种DF介于2和6之间的化合物作为潜在的抗炎症化合物,其中55种已经在文献中报道为活性化合物。

在类似的方法中,使用分子拓扑描述符和LDA构建了抗过敏和抑制IL-6的天然产物的QSAR模型。

3.4蛋白靶标调节

尽管天然产物生物活性研究蓬勃发展,但分子靶标的确定是一个具有挑战性的领域。例如,仅约三分之一的在细胞基础试验中验证的抗炎天然产物据报道具有靶标水平的活性。因此,对于辅助天然产物的靶标捕获,计算方法需求量巨大。除了以逆向对接为代表的基于结构的方法外,机器学习已被用于开发基于配体的靶标捕获方案。

Keum等人采用二部局部模型技术开发了一个模型,用于预测生物活性草药化合物的蛋白质靶标。首先,该模型利用了化合物的2D结构相似性、蛋白质的序列相似性以及化合物-蛋白质的亲和性。

这些相互作用被正式化为一个矩阵。然后,根据化合物与所有蛋白质(目标蛋白质除外)的相互作用来标记化合物,在与化合物相互作用的基础上,根据它们与蛋白质的相互作用来标记蛋白质(目标化合物除外)。因此,采用SVM为预测的化合物-蛋白质相互作用分配得分。使用10倍交叉验证,该模型对于六个靶标类别的化合物-靶标相互作用预测取得了良好的性能,GPCRs、离子通道、转运体、受体和酶的AUC值约为0.9。

STarFish是一款在线靶标预测工具,针对天然产物进行训练,训练数据集包含107190个化合物-靶标对,并在一个包含5589个化合物-靶标对的天然产物数据集上进行测试。RF、kNN和ANN(多层感知器)被用来开发预测模型。使用10倍交叉验证的不同模型表现出色,AUC值范围从0.94到0.99不等。然而,在天然产物数据集上进行测试时,AUC急剧下降至0.70至0.85。为了提高其预测能力,逻辑回归被用作元分类器,然后与上述算法结合。这个堆叠模型取得了0.94的AUC,基于这个模型构建了STarFish网络应用程序。

通过采用归纳逻辑编程(ILP),建立了一个QSAR模型,用于从天然产物中筛选SIRT1抑制剂。ILP本质上与DT类似,基于给定数据生成层次性假设。在这项研究中,收集了346个SIRT1抑制剂和54个活化剂,用于训练激活剂、抑制剂和差异模型(用于区分激活剂和抑制剂)。由于训练实例数量有限,激活剂模型的AUC值仅为0.67,被放弃进一步筛选。抑制剂模型获得了与差异模型相媲美的AUC值(0.86/0.9),但具有更好的RMSE(0.79/0.62)、Pearson相关系数(r)(0.75/0.68)和Spearman等级相关系数(rho)(0.74/0.67)。然后,使用抑制剂模型对从中草药提取的1444880个化合物进行筛选,从中确定了十二个化合物作为SIRT1抑制剂。

为了从天然产物数据库中鉴定雌激素受体α(ERa)拮抗剂,Du等人开发了基于2075个ERa拮抗剂和7000个伪装化合物的预测模型。化合物由MOE和Discovery Studio软件包生成的2D描述符描述,另外还包括ECFP-6指纹,模型使用NB和DT(递归分割,RP)算法进行训练。最佳性能由带有MOE 2D描述符加上ECFP-6的NB和RP模型实现,在测试集上获得了0.95的MCC。这两个模型同时用于对一个包含13166个化合物的内部天然产物数据库进行虚拟筛选,从中预测出162个化合物被认为是ER拮抗剂,随后通过分子对接进行评估。在聚类分析后,选择了12个具有代表性结构的高分化合物进行与ERa的结合亲和性测试。八种化合物的IC50值低于10 mM,进一步进行抗雌激素活性测试。

记者基因分析。发现这8种化合物都能够在30 mM以下的浓度下降低ERα的表达。将机器学习辅助预测、基于结构的虚拟筛选和分子细胞水平的实验验证结合起来,为综合引物发现提供了极好的示例。

为了预测天然产物中有效的PPARγ激活剂,使用了144个已发表的PPARγ配体对机器学习模型进行训练。化合物通过分子描述符(CATS2D、MOE2D、Ghose-Crippen片段)和结构图(拓扑、元素和药理特性)来表示。支持向量回归(SVR)、线性岭回归(RR)和高斯过程回归(GP)被用来训练模型。GP模型与不同的核函数结合:径向基函数和有理二次核用于分子描述符,而迭代相似性最优分配核(ISOAK)用于结构图。共生成了16个不同组合的机器学习算法和描述符的预测模型。在比较了SVR、RR和GP模型的性能后,选择了三个GP模型用于对含有36万个化合物的天然产物数据库进行虚拟筛选。在每个模型的排名前10位的化合物中(总共30个化合物),有15个被认为具有活性和基本结构新颖性,在对PPARγ激活活性的细胞试验中进行了测试,其中8个化合物表现出对PPARα、PPARγ或两者的激动作用。

3.5混杂的

建立了一个血脑屏障(BBB)渗透性分类模型,该模型基于一个包含2000多种化学药物的数据集,这些药物具有实验性的BBB穿透数据。一个包含93个化合物的天然产物数据集,其中的有效渗透性值(log Pe)经过实验确定,用于外部测试。总共生成了1468个特征,包括2D/3D分子描述符,以及MACCS和ECFP6指纹。在去除低方差和高度相关的特征后,选择了244个标准化特征来描述这些化合物。使用四种机器学习算法进行模型训练:支持向量机(SVM)、随机森林(RF)、朴素贝叶斯(NB)和概率神经网络。然而,所有四个使用合成药物构建的模型在天然产物测试集上都表现出较差的预测性能。为了确保训练集和测试集具有相似的适用域,使用NP数据集对上述四种算法进行了面向NP的模型训练。只有所有四种算法都将化合物分类为BBB+的化合物才被视为穿过BBB。NP定向模型表现出良好的AUC值大于0.90,用于对包含11887个化合物的中药数据集进行筛选,以预测可能对中枢神经系统具有活性的化合物。BBB可穿透化合物的数量被大大高估,这可能是由于训练集中BBB-化合物数量较少所致。体外实验数据证实,32种化合物中有26种被准确预测为BBB+或BBB-。这32种化合物随后被添加到NP数据集中,生成了最终的预测模型。由于NP模型仅用125种分子进行了训练,...Onguene等人使用Derek软件和剑桥大学小分子药代动力学预测(pkCSM)网络服务器来预测非洲植物来源的天然产物的毒性(共806个化合物)。 Derek软件是一种基于知识的工具,可识别分子中可能产生毒性警报的亚结构。 pkCSM网络服务器提供了一种基于机器学习的方法,用于预测小分子的许多药代动力学和毒性性质。化合物的结构由图形描述符表示。分类模型使用RF和LoR算法进行训练,回归模型使用GP和模型树回归。化合物的结构由图形描述符表示。分类模型使用RF和LoR算法进行训练,回归模型使用GP和模型树回归。 甜味化学品的味道是一种涉及味觉受体激活的生物过程。 Cheron等人建立了一个预测模型来识别天然甜味剂。基于SweetnerDB中的316个化合物,构建了四个QSAR模型,使用2D和3D描述符表示分子,RF和SVR用作学习算法。SVR模型的回归性能优于RF模型使用测试集的回归性能,但对于2D和3D SVR模型来说,回归性能相似,R2值分别为0.83和0.85。由于2D描述符的计算速度更快,因此使用2D SVR模型对SuperNatural II数据库进行了甜味剂的潜在筛选。在筛选之前,将与SweetnersDB的化学空间相似性较低的天然产物移除。总共,4585个天然产物被确定为潜在的甜味剂,其log S(甜味的对数)> 2,且具有低毒性的骨架。在中医药中,草药可以被分类为不同的经络,即体内特定的通道。最近使用了一种ML方法来预测中草药和其成分化合物的经络。数据集来自TCMID数据库,该数据库提供了有关中草药的经络和化学成分的信息。总共有18,140个草药-化合物对,包括646种草药和10,053种成分化合物用于构建模型。化合物由化学指纹和ADME性质描述。使用SVM、DT、RF和kNN算法生成了84个预测模型,并采用了所有可能的组合。结果表明,化合物水平的预测比草药水平的预测更准确。滤除具有较差ADME性质的化合物可改善对某些经络类型的草药水平的预测。不同ML方法的化合物水平预测的比较表明,RF显示出了所有七种经络的最佳性能,其次是kNN。

这篇关于阐明天然产物生物效应的机器学习方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/865418

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Git中恢复已删除分支的几种方法

《Git中恢复已删除分支的几种方法》:本文主要介绍在Git中恢复已删除分支的几种方法,包括查找提交记录、恢复分支、推送恢复的分支等步骤,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录1. 恢复本地删除的分支场景方法2. 恢复远程删除的分支场景方法3. 恢复未推送的本地删除分支场景方法4. 恢复

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

Window Server2016加入AD域的方法步骤

《WindowServer2016加入AD域的方法步骤》:本文主要介绍WindowServer2016加入AD域的方法步骤,包括配置DNS、检测ping通、更改计算机域、输入账号密码、重启服务... 目录一、 准备条件二、配置ServerB加入ServerA的AD域(test.ly)三、查看加入AD域后的变

Window Server2016 AD域的创建的方法步骤

《WindowServer2016AD域的创建的方法步骤》本文主要介绍了WindowServer2016AD域的创建的方法步骤,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、准备条件二、在ServerA服务器中常见AD域管理器:三、创建AD域,域地址为“test.ly”

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服

Java 字符数组转字符串的常用方法

《Java字符数组转字符串的常用方法》文章总结了在Java中将字符数组转换为字符串的几种常用方法,包括使用String构造函数、String.valueOf()方法、StringBuilder以及A... 目录1. 使用String构造函数1.1 基本转换方法1.2 注意事项2. 使用String.valu

Python中使用defaultdict和Counter的方法

《Python中使用defaultdict和Counter的方法》本文深入探讨了Python中的两个强大工具——defaultdict和Counter,并详细介绍了它们的工作原理、应用场景以及在实际编... 目录引言defaultdict的深入应用什么是defaultdictdefaultdict的工作原理

使用Python进行文件读写操作的基本方法

《使用Python进行文件读写操作的基本方法》今天的内容来介绍Python中进行文件读写操作的方法,这在学习Python时是必不可少的技术点,希望可以帮助到正在学习python的小伙伴,以下是Pyth... 目录一、文件读取:二、文件写入:三、文件追加:四、文件读写的二进制模式:五、使用 json 模块读写

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,