华东理工李洪林课题组开发 Macformer,加速大环类药物发现

本文主要是介绍华东理工李洪林课题组开发 Macformer,加速大环类药物发现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大环类化合物是指由 12 个以上原子组成的小分子或肽。相较于其他小分子化合物,大环类化合物在结构和性能上有着诸多优势,也因此被视为各类靶点的潜在治疗药物。

基于药物化学合成的大环类似物是大环类药物的一个主要来源。然而,由于合成方法匮乏、合成难度高、参考资料少,大环类药物的开发鲜有人问津。

为此,华东理工大学的李洪林课题组基于 Transformer 开发了 Macformer。Macformer 成功将无环药物菲卓替尼大环化,得到了药效更强的新化合物,为药物开发提供了新方法。

作者 | 雪菜

编辑 | 三羊

大环类药物的前世今生

大环类化合物 (Macrocycles) 是指由 12 个以上原子组成的小分子或肽。这类化合物有着高分子量和大量氢键供体,有着更强的亲和力、选择性和药理学特性。大环类药物已经被视为各类靶点的潜在治疗药物,如激酶 (Kinases)、蛋白酶 (Proteases) 和 G 蛋白偶联受体 (G-Protein-Coupled Receptors)。

大环类药物格尔德霉素(左)和阿奇霉素(右)

大环类药物格尔德霉素(左)和阿奇霉素(右)

除天然的大环类药物外,基于药物化学合成的类似物也是大环类药物的一个主要来源。将已知的无环 (Acyclic) 药物大环化,就可以直接有效地得到新的大环药物,并实现所需要的药理学性能。然而,由于合成方法的匮乏和合成难度高,大环类药物在药物设计中仍很少被人关注。

目前线性分子的大环化主要依赖经验推断。而且,即使文献会呈现出最终的合成结果,但药物的合成和推断过程却总是语焉不详。不透明、不标准的合成过程,提高了行业的门槛,阻碍了大环类药物的开发。

深度学习虽然在药物开发的不同阶段中展现了巨大的潜能,但是神经网络的训练需要大量数据。考虑到临床批准的大环类药物不足 90 个,因此尚没有研究利用深度学习算法进行药物的大环化。

为此,华东理工大学的李洪林课题组基于 Transformer 开发了 Macformer,以实现线性分子的大环化。他们将同一化合物用不同简化分子线性输入规范 (SMILES) 表示,实现了数据的扩充。

随后,以美国食品药品监督管理局 (FDA) 通过的 JAK2 抑制剂菲卓替尼 (Fedratinib) 为例,利用 Macformer 将其大环化,得到了新的大环化合物。这一化合物有着更好的选择性和药代特性,因此所需剂量较菲卓替尼更低。这一成果已发表于 「Nature Communication」。 

图片

这一成果已发表于 「Nature Communication」

获取论文:

https://www.nature.com/articles/s41467-023-40219-8

关注公众号,后台回复「大环药物」获取完整论文 PDF

实验过程

数据集:数据扩充的 ChEMBL 数据集

首先,研究人员从 ChEMBL 数据库收集了 18,357 个有生物活性的大环化合物,并进行了筛选。随后,遍历大环化合物的任意两个化学键,将其连接子拆分,找到对应的无环化合物。最终共得到 237,728 对大环-无环化合物,作为本研究的数据集。 

图片

Macformer 拆解大环化合物的过程

任一化合物均有特定的 SMILES 表达式。然而,最近的研究显示,使用化学上相同但句法不同的一组随机 SMILES 表达式进行模型训练,可以显著提高深度学习模型的性能。研究人员将扩充 2、5、10 倍的数据与原始数据进行了对比,所有数据在 50,000 step 之后均有较好的收敛效果。 

图片

数据扩充流程

模型架构:Transformer 的编解码

Macformer 基于 Transformer 架构实现。输入化合物和目标化合物的 SMILES 序列都被嵌入到可训练的矩阵中,并通过正余弦函数进行位置编码。

输入化合物的嵌入矩阵被馈送到编码器中生成潜在表示 (Latent Representation) ,以初始化编码过程。每个编码器层由一个多头注意力层和位置前馈网络组成。

Macformer 的最终目标是通过交叉熵损失函数,最小化预测序列和对应目标序列之间的差距,输出预测的大环化合物

图片

Macformer 的架构

对比研究:ChEMBL 数据集

研究人员将 Macformer 和非深度学习模型 MacLS 进行了对比。在输入无环化合物之后,二者均能输出一个大环的类似物。因此,大环化合物的化学有效性、新颖性和唯一性将作为模型性能的评价标准

和原始数据集对比,扩充 2 倍的数据集全面提升了模型的性能,尤其是在回收率 (96.09% vs. 54.85%)、有效性 (80.34% vs. 66.74%) 和连接子新颖性 (58.91% vs. 40.56%) 上,而数据集的进一步扩充没有继续提高模型的性能。 

图片

Macformer 和 MacLS 基于 ChEMBL 的性能对比

MacLS_self 使用非循环的 SMILES 从头开始生成构象,而 MacLS_extra 会从目标大环化合物的低能量 3D 结构中提取构象。

MacLS_self 的有效性仅有 17.05%,而 MacLS_extra 的化合物新颖性和唯一性超越了 Macformer。但是,MacLS 只能从训练集中搜索连接子,因此连接子的新颖性为 0。而且,MacLS 回收大环化合物的比率也很低,不足 5%。 

 

对比研究:ZINC 数据集

进一步的,两个模型在外部数据集 ZINC 上进行了对比。扩充 5 倍的数据集训练的 Macformer 模型有着 80% 以上的回收率、84% 以上的有效性和 99% 以上的新颖性。上述结果说明数据扩充后的 Macformer 有着优秀的泛化能力。 

图片

Macformer 和 MacLS 基于 ZINC 的性能对比

由于 MacLS 没有 Macformer 的学习能力,其在不同数据集的结果基本类似。 

化学分布:Macformer 与输入更相似

如果不考虑连接子的新颖性,Macformer 和 MacLS 都有生成新的大环化合物的能力。因此,研究人员对比了二者生成的化合物在化学空间的分布。

首先,通过谷本系数 (Tanimoto coefficient) 对比了化合物之间的相似性。由于无环化合物和大环化合物结构上的相似性,模型生成的绝大多数化合物谷本系数均在 0.7 以上。然而,Macformer 生成化合物与原始化合物的结构相似性较 MacLS_extra 更高。 

图片

模型的谷本系数对比 (a) 和 UMAP 图 (b)

这一结果比较反常,因为 Macformer 能够推断出训练集中不存在的连接子,而 MacLS 不具备这一能力。为此,研究人员利用统一流形逼近与投影算法 (UMAP) 进行了数据降维。结果显示,Macformer 生成的新连接子均分布在 ChEMBL 训练集附近。 

实验验证

药物开发:菲卓替尼的大环化

近年来,大环类化合物作为潜在的激酶抑制剂饱受关注。为验证模型的预测性能,研究人员利用 Macformer 设计了 JAK2 的抑制剂。JAK2 属于 JAK 家族激酶,是治疗骨髓增生性肿瘤和类风湿性关节炎的重要靶点。

模型的输入为菲卓替尼,这是一种用于治疗骨髓纤维化的小分子药物。菲卓替尼对 JAK2 的选择性优于其他 JAK 激酶,但对于其他激酶的选择性较差,导致其他副作用。

大环化的连接点设置为两个末端苯环,并去除可能不利于与 Asp994 靶点接触的叔丁基黄酰胺。为了增加预测的大环药物的多样性,将每个源 SMILES 序列扩充 10 倍。最终,Macformer 输出了10,700 个结果,包括 281 个新的大环类药物。 

图片

菲卓替尼的大环化过程

在评估了大环类药物和靶点的结合情况,及合成可行性后,研究人员最终选择了 3 种化合物进行合成评估测试。其中,化合物 1 的连接子尚未报道于大环药物的设计或是 JAK2 抑制剂的开发中

而在 MacLS 设计的 300 个大环药物中,没有发现这 3 个化合物,这再一次证明了深度学习算法在新药设计的潜力。 

体外评估:酶和细胞水平的活性

随后,评估这 3 种化合物对 JAK2 的活性,其半抑制浓度 (IC50) 分别为 0.07、0.364 和 0.006  μM。对最有效的 1 和 3 进行 100 μM 的特异性评估,分别只有 10 和 17 种野生型激酶受到抑制,而菲卓替尼对 34 种野生型激酶有影响,说明化合物 1 和 3 的选择性更好。 

图片

化合物 1、3 和菲卓替尼对 468 种激酶的选择性测试

同时,还对化合物 1-3 对 JAK2 依赖的细胞的抗增殖性能进行了评价。结果显示,化合物 1 和 3 可以 JAK2 依赖细胞的增殖,且剂量较菲卓替尼更低。 

体内评估:药代动力学测试

最后,研究了化合物 1、3 和菲卓替尼静脉注射 (iv, 5 mg/kg) 和口服 (po, 5 mg/kg) 的药代动力学 (PK,  pharmacokinetic)。

除生物利用度 (9.4% vs. 11.7%) 外,化合物 3 全面优于菲卓替尼。同时,化合物 1 在口服特性上也有优势,如全身暴露 (106.00 vs. 50.19 h*ng/mL) 和生物利用度 (14.1% vs. 11.7%)。上述结果说明,大环化有利于提升菲卓替尼类药物的代谢稳定性。 

图片

化合物 1、3 和菲卓替尼的药代动力学参数

活体测试:化合物 3 对炎症的抑制

据报道,JAK2 的过表达会导致炎症性肠病 (IBD),也就意味着抑制 JAK2 的活动可能有助于炎症性肠病的治疗。研究人员在小鼠模型上进行了大环类药物的测试实验,以评估其在 IBD 治疗中的作用。

根据药代动力学的测试结果,菲卓替尼的给药剂量是化合物 3 的两倍。结果显示,化合物 3 和菲卓替尼都缓解了 IDB 引起的体重减轻,且实验组的疾病活动指数从第 8 天起显著降低。

最后用 HE 染色分析炎症的严重程度。对照组出现了显著的炎症反应,包括炎症细胞浸润、杯状细胞丢失等,而实验中炎症反应较轻,结肠结构完整。 

图片

不同组别的结肠 HE 染色结果

自左至右分别为:空白组;对照组;药物 SASP 治疗:化合物 3 治疗;菲卓替尼治疗

上述结果说明,Macformer 推断得到的大环化合物在药代动力学和选择性上优于传统药物,且可以用更低的剂量实现疾病治疗。

高药效、难合成,大环的喜与悲

截止 2020 年,美国食品药品监督管理局 (FDA) 共批准了 67 种大环类药物,占所有批准药物的 4%。其中,有 59 种是天然的大环类药物,非天然的仅 8 种。2008 年,FDA 批准了首款非天然的大环类药物,普乐沙福 (Plerixafor),用于肿瘤治疗。

大环类药物的主要适用症为传染病,占比 44.4%,其后分别为肿瘤 (20.8%) 和抗真菌 (8.3%) 。近年来,大环类药物在抗肿瘤方向的使用激增。2007 年之前仅有 4 种,而其后批准了 11 种。

图片

FDA 批准的大环类药物的适用症

大环类药物能够在半刚性、预组织的结构中提供多样的功能和复杂的化学结构,这可以增加大环类药物与传统小分子难以结合的靶点的亲和力和选择性,进而提升药效。而且,某些大环类药物能够调整构象,使其适应外部环境。这一能力提高了其水溶性和细胞渗透性。

然而,大环类药物的合成却很复杂。大环结构在增强与特定靶点结合能力的同时,也导致了环张力 (Ring Strain)、空间相互作用和非共价的跨环相互作用,使得分子结构和性质的预测变得更加困难

AI 在药物开发中的应用越来越广泛。然而,有限的数据量往往会限制 AI 的性能。本研究中,研究人员使用随机的 SMILES 表达式进行了数据扩充,在保障数据集丰富度的同时,提升了 Macformer 的预测性能。

未来,随着人们对药物结构和性质的理解不断深入,AI 在新药研发过程中会有更高的参与度,为人们的健康保驾护航。

参考链接:

[1]https://www.cambridgemedchemconsulting.com/resources/hit_identification/macrocycles/macrocycles.html

[2]https://pubs.acs.org/doi/10.1021/acs.jmedchem.3c00134

这篇关于华东理工李洪林课题组开发 Macformer,加速大环类药物发现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/398621

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

Linux_kernel驱动开发11

一、改回nfs方式挂载根文件系统         在产品将要上线之前,需要制作不同类型格式的根文件系统         在产品研发阶段,我们还是需要使用nfs的方式挂载根文件系统         优点:可以直接在上位机中修改文件系统内容,延长EMMC的寿命         【1】重启上位机nfs服务         sudo service nfs-kernel-server resta

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

v0.dev快速开发

探索v0.dev:次世代开发者之利器 今之技艺日新月异,开发者之工具亦随之进步不辍。v0.dev者,新兴之开发者利器也,迅速引起众多开发者之瞩目。本文将引汝探究v0.dev之基本功能与优势,助汝速速上手,提升开发之效率。 何谓v0.dev? v0.dev者,现代化之开发者工具也,旨在简化并加速软件开发之过程。其集多种功能于一体,助开发者高效编写、测试及部署代码。无论汝为前端开发者、后端开发者

pico2 开发环境搭建-基于ubuntu

pico2 开发环境搭建-基于ubuntu 安装编译工具链下载sdk 和example编译example 安装编译工具链 sudo apt install cmake gcc-arm-none-eabi libnewlib-arm-none-eabi libstdc++-arm-none-eabi-newlib 注意cmake的版本,需要在3.17 以上 下载sdk 和ex