一日千里,追风逐月 | 深势科技发布极致加速版分子对接引擎Uni-Docking

本文主要是介绍一日千里,追风逐月 | 深势科技发布极致加速版分子对接引擎Uni-Docking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

362d0e4c690545a7ff7b807d38aea0be.gif

a1000e5a7095b552af3b172d67453388.jpeg

近日,在先后推出Uni-Fold、Uni-FEP、Uni-EM 、Uni-Mol等“Uni-”系列产品后,深势科技继续“追风逐月”发布GPU极致加速版分子对接引擎Uni-Docking在NVIDIA V100 GPU上实现了相比单CPU核心超1000倍的加速。研发团队使用Uni-Docking以KRAS G12D为测试靶点,对Enamine Diverse Real类药数据库3820万分子开展了分层高通量虚拟筛选仅花费11.3小时,助力药物设计人员圆梦“一夜筛遍千万级分子库的高通量虚拟筛选”工作。相关成果以《Uni-Dock: A GPU-Accelerated Docking Program Enables Ultra-Large Virtual Screening》为题[1],发布在ChemRxiv上(点击文末“阅读原文”查看)。

eb095358b54e4921bec0aea4acfc853f.png

Uni-Docking完善高通量虚拟

筛选的“阿喀琉斯之踵”

发现与目标靶点具有良好结合能力的命中物分子是药物设计早期最重要的目标。虚拟筛选由于具有通量大、速度快、富集能力好的特点,成为发现命中物最重要的手段之一。而其中,分子对接通过计算模拟实现对候选分子与目标靶点的结合活性进行快速评估,表现出了可靠的阳性分子富集能力,被广泛应用于虚拟筛选的过程中[2]

据估计,潜在的类药性分子化学空间及分子数量已经远远超出已有的早期发现化合物数据库,并随着分子量变大而呈指数上涨[3]。超高通量虚拟筛选,不仅可以帮助药物设计人员在早期筛选中,扩展分子库的化学多样性,还可以同时提升筛选命中化合物的质量[4]。然而,目前主流的分子对接软件计算速度上受到各种因素限制筛选速度仍然非常有限。同时,受限于有限的计算资源,药物研发机构往往只能对几十万分子开展分子对接,较小的分子数据集规模使得发现优秀命中物的概率更低。另一方面,面对诸如Covid-19新冠肺炎疫情、猴痘病毒感染人体等紧急公共卫生事件,人类对分子对接计算速度提出了更高的要求,期望在最短时间内快速完成大型数据库的超高通量虚拟筛选。基于分子对接的虚拟筛选在待筛库的通量大小和计算速度层面上亟待取得质的突破。

为了满足大型数据库的快速高通量虚拟筛选需求,深势科技团队发布了GPU极致加速的分子对接引擎Uni-Docking实现了相比单CPU核心超1000倍的加速,同时支持vina、vinardo和ad4打分函数,在速度上超过了现有的GPU加速工作如AutoDock-GPUVina-GPU并保持了与Vina持平的精度。研发人员使用Uni-Docking在KRAS G12D靶点上对Enamine Diverse Real类药数据库3820万分层高通量虚拟筛选使用带有100张NVIDIA V100显卡的计算集群仅花费11.3小时,平均速度超过3.7万次分子对接/卡时。

ff9fee02229e9635e2c86d77ca4be5da.png

Uni-Docking技术实现

Uni-Docking从GPU的大规模并行能力入手,首次实现了多配体、多构象同时对接,对GPU异构加速体系的进行了数据结构与计算逻辑上的深入调优。

99bc24921ec35a5c94fcb620c9f42a06.png

图1: AutoDock Vina 1.2(左)和Uni-Docking(右)的算法架构比较

Uni-Docking采用了和AutoDock Vina 1.2(Vina)相同的构象搜索策略:每个搜索线程对应一个配体构象,用蒙特卡洛方法(Monte Carlo method)全局搜索可旋转键键角、朝向和位置的组合,并在搜索的每一步求能量和力、使用BFGS算法进行梯度下降局部优化,以获取局部能量最低的分子构象。

Uni-Docking实现了多构象并行搜索。通过增加同一个配体的搜索线程数,增加初始构象多样性,实现构象空间的充分覆盖;同时减小每个搜索线程的Monte Carlo迭代步数,通过搜索线程数和迭代步数的调整,实现构象空间的高效搜索。(阶段一)

同时,Uni-Docking实现了多配体并行搜索。在每次GPU调用中同时对数百个配体开展分子对接,并基于显存空间动态分配并行配体数,来充分利用GPU的并行能力,显著缩短了单个配体的平均计算时间。(阶段二)

另外,Uni-Docking通过计算逻辑和数据结构的优化,降低了CPU-GPU之间的通信开销,通过合理的精度优化节省了GPU的显存空间,并通过异步机制合理分配CPU读写文件和GPU计算模拟的时间,来实现Uni-Docking分子对接软件的极致加速。(阶段三)

8a7975d24c1193089aa263c21df57a88.png

图2: Uni-Docking三个优化阶段相比AutoDock Vina(exhaustiveness=32)在保持精度持平的情况下,实现120倍、925倍和1627倍的速度提升

我们以AutoDock Vina 1.2在DUD-E中8个靶点的富集能力的表现作为精度衡量标准(相关参数设置为:exhaustiveness=32、Vina打分函数、半柔性对接),实验证明Uni-Docking的三个优化阶段均保持了可比较的计算精度。相比于AutoDock Vina(使用单个Intel® Xeon® Platinum 8269CY〔Cascade Lake〕2.5 GHz CPU核心)对接,Uni-Docking(使用NVIDIA V100 32G GPU)实现了1627倍的对接加速比。

8a15a91c22cd85bad174f3b7f77b6dbd.png

Uni-Docking性能表现

分子对接软件在不同场景下的应用对精度和速度有不同的需求。例如,在大规模数据库的虚拟筛选中通常需要高效率,而在分子结合模式预测中则需要高精度。Uni-Docking提供了三种搜索模式来满足速度和精度的不同需求。

我们使用含有285个蛋白-配体复合物的CASF-2016数据集来评估Uni-Docking预测蛋白-配体结合构象的能力,使用含有102个靶点的DUD-E数据集来评估Uni-Docking富集阳性分子的能力,采用vina打分函数进行实验。另外,我们在DUD-E中的8个靶点上开展了不同打分函数在不同搜索模式下的平均对接时间计算。以上实验使用NVIDIA V100 GPU开展。蛋白残基设置为刚性,小分子设置为柔性。

0f93c1dbb0ad26cb599c9a04203fbed1.png

fa7f4ab6baeb7dbe150431e424b516a6.png

图3: Uni-Docking三种计算模式的计算精度和速度表现

从实验结果可以看到,Uni-Docking Fast模式计算速度快,对接每个配体的平均时间最低仅为0.10s,且保持了良好的阳性分子富集能力,非常适合于特大型数据库的虚拟筛选。Uni-Docking Detailed模式计算精度高,无论在阳性分子富集能力或是结合构象预测上都具有良好的表现。而Uni-Docking Balanced模式在速度和精度上表现较为平均,适用于中等规模数据库的快速准确评估。

另外,Uni-Docking在使用vina和vinardo打分函数时,三种计算模式对应的平均对接时间分别为Fast模式0.10s、Balanced模式0.31s、Detailed模式0.38s;使用ad4打分函数速度分别为Fast模式0.46s、Balanced模式0.79s、Detailed模式0.89s。这样的计算速度意味着极大分子数据库的虚拟筛选能以合理的时间和成本开展。

4f6dfce4d35270da64403157442477b6.png

Uni-Docking筛选KRAS G12D

靶点潜在苗头化合物

我们使用Uni-Docking在KRAS G12D靶点上对Enamine Diverse Real类药数据库3820万分子开展了虚拟筛选。为兼顾速度和精度,我们采用了分层分子对接的方法。首先使用Uni-Docking Fast模式对接了REAL数据集的约3820万个配体。然后,将得分排名前10%的配体(约382万个),使用Uni-Docking Balanced模式进行对接。最后,将得分排名前10%的分子(约38.2万个),使用Uni-Docking Detailed模式进行对接,得到最终结果。

e4a28cfd7b41b673056e7611c46c75c2.png

图4: 在Enamine Diverse REAL数据集上针对KRAS G12D靶点进行分层虚拟筛选的时间消耗

我们使用包含100张NVIDIA V100 GPU的GPU集群开展了上述的虚拟对接流程。在11.27小时内完成了上述的虚拟筛选流程。三步不同层级的分子对接分别花费了7.88小时、2.52小时和0.87小时。

fa1cb12b69a7a3259cf815affab7a128.png

总结与未来发展

深势科技Uni-Docking分子对接引擎的发布将基千万级分子数据库的虚拟筛选带入了可及可用可靠“三可”实用时代。Uni-Docking极致的分子对接速度,意味着药物研发项目在药物研发早期能以可接受的成本探索更大的化学空间,有更多的机会发现优良命中物分子,为新药研发提供了更多可能性和更好的基础。同时,作为药物研发的基础工具,Uni-Docking给例如打分函数调优、Uni-Mol数据标注等应用铺平了道路。深势科技将基于Uni-Docking分子对接引擎持续发展,提出更多实用的新药研发工具和策略。

虽然目前Uni-Docking将千万级分子数据库的虚拟筛选带入了实用时代,然而对于十亿级别乃至更大分子空间的虚拟筛选,单一的Uni-Docking引擎并不是最优选择。未来,我们将Uni-Docking与三维分子预训练模型Uni-Mol[5]进行深度融合,为10亿分子数量级以上的超高通量虚拟筛选提供解决方案,敬请关注!

Uni-Docking将于近期完成在Hermite™平台的对接和工程化部署,若您想抢先体验,请扫描文末Hermite™二维码

参考文献

[1] Yu, Y., Cai C., Zhu Z., Zheng H., 2022. Uni-Dock: A GPU-Accelerated Docking Program Enables Ultra-Large Virtual Screening. DOI: 10.26434/chemrxiv-2022-5t5ts.

[2] Prieto-Martínez FD, Arciniega M, Medina-Franco JL. Molecular docking: current advances and challenges. TIP. Revista especializada en ciencias químico-biológicas. 2018;21.

[3] Lyu, J., Wang, S., Balius, T.E., Singh, I., Levit, A., Moroz, Y.S., O’Meara, M.J., Che, T., Algaa, E., Tolmachova, K. and Tolmachev, A.A., 2019. Ultra-large library docking for discovering new chemotypes. Nature, 566(7743), pp.224-229.

[4] Gorgulla, C., Boeszoermenyi, A., Wang, Z.F., Fischer, P.D., Coote, P.W., Padmanabha Das, K.M., Malets, Y.S., Radchenko, D.S., Moroz, Y.S., Scott, D.A. and Fackeldey, K., 2020. An open-source drug discovery platform enables ultra-large virtual screens. Nature, 580(7805), pp.663-668.

[5] Zhou, G., Gao, Z., Ding, Q., Zheng, H., Xu, H., Wei, Z., Zhang, L. and Ke, G., 2022. Uni-Mol: A Universal 3D Molecular Representation Learning Framework. DOI: 10.26434/chemrxiv-2022-jjm0j.

上下滑动查看更多

关于Hermite™

Hermite™是深势科技打造的基于人工智能、物理建模和高性能计算的新一代药物计算设计平台,致力于为药物研发工作者提供一站式解决方案,满足多种场景的药物研发需求。Hermite™以网页应用的形式,提供多种药物设计功能,帮助药物设计人员完成从靶点结构解析、预测与精修,到苗头化合物筛选,再到先导化合物优化和性质预测的一体化工作。Hermite™提供友好的可视化交互界面、功能实时更新,同时支持本地和云上的私有化部署。

了解和试用Hermite™,请扫码添加平台官方微信,加官方交流群:

caedb75cf3dd3da9bacb5b15733abf25.jpeg

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

60b0be4ed9b9cac2d2dfc56dc2e9a998.jpeg

这篇关于一日千里,追风逐月 | 深势科技发布极致加速版分子对接引擎Uni-Docking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/594932

相关文章

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展

【科技明说 | 科技热点关注】 2024戴尔科技峰会在8月如期举行,虽然因事未能抵达现场参加,我只是观看了网上在线直播,也未能采访到DTF现场重要与会者,但是通过数十年对戴尔的跟踪与观察,我觉得2024戴尔科技峰会给业界传递了6大重要信号。不妨简单聊聊:从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展? 1)退出中国的谣言不攻自破。 之前有不良媒体宣扬戴尔将退出中国的谣言,随着2

速了解MySQL 数据库不同存储引擎

快速了解MySQL 数据库不同存储引擎 MySQL 提供了多种存储引擎,每种存储引擎都有其特定的特性和适用场景。了解这些存储引擎的特性,有助于在设计数据库时做出合理的选择。以下是 MySQL 中几种常用存储引擎的详细介绍。 1. InnoDB 特点: 事务支持:InnoDB 是一个支持 ACID(原子性、一致性、隔离性、持久性)事务的存储引擎。行级锁:使用行级锁来提高并发性,减少锁竞争

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们

如何更优雅地对接第三方API

如何更优雅地对接第三方API 本文所有示例完整代码地址:https://github.com/yu-linfeng/BlogRepositories/tree/master/repositories/third 我们在日常开发过程中,有不少场景会对接第三方的API,例如第三方账号登录,第三方服务等等。第三方服务会提供API或者SDK,我依稀记得早些年Maven还没那么广泛使用,通常要对接第三方

禅道Docker安装包发布

禅道Docker安装包发布 大家好, 禅道Docker安装包发布。 一、下载地址 禅道开源版:   /dl/zentao/docker/docker_zentao.zip  备用下载地址:https://download.csdn.net/download/u013490585/16271485 数据库用户名: root,默认密码: 123456。运行时,可以设置 MYSQL_ROOT_P

Smarty模板引擎工作机制(一)

深入浅出Smarty模板引擎工作机制,我们将对比使用smarty模板引擎和没使用smarty模板引擎的两种开发方式的区别,并动手开发一个自己的模板引擎,以便加深对smarty模板引擎工作机制的理解。 在没有使用Smarty模板引擎的情况下,我们都是将PHP程序和网页模板合在一起编辑的,好比下面的源代码: <?php$title="深处浅出之Smarty模板引擎工作机制";$content=

MySQL技术内幕_innodb存储引擎

MySQL技术内幕_innodb存储引擎 INNODB innodb中如果表没有主键 表是否由 非空唯一键,有则该字段为主键没有,则自动创建一个6字节大小的指针 innodb存储引擎的所有数据都存储在表空间中,表空间由段,区,页(块)组成。 如果启用了 innodb_file_per_table, 则每张表内的数据可以单独放在一个表空间中即使启用了上面参数,共享表空间也会因为 系统事务信息