提速2920倍!用AutoDock Vina对接2800万个分子

2023-10-14 22:20

本文主要是介绍提速2920倍!用AutoDock Vina对接2800万个分子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

dc920504d6c3080e9f2f6e470aac73fa.png

AutoDock Vina是用于分子对接和虚拟筛选的开源程序,由Scripps研究所分子图形实验室的Oleg Trott博士设计和实现,目前使用最为广泛的分子对接软件之一

分子对接技术,作为计算机辅助药物设计(Computer Aided Drug Design,CADD)的重要方法,已广泛应用于药物发现阶段的早期虚拟筛选、药物分子设计、先导化合物优化、药物潜在作用靶点发现、药物-靶点相互作用机制、为重要的药物代谢酶寻找特异性配体等。

目前,限于算力,或者高效灵活地调用大规模计算集群的能力,当前的虚拟筛选通常仅采样百万到千万个分子,而事实上目前可用于药物发现的有机分子已经超过10的60次方

173a11dfd7191e30beba82a51a68ee74.png在《15小时虚拟筛选10亿分子,Nature+HMS验证云端新药研发未来》这篇文章里,哈佛大学医学院的研究人员论证了:分子化合物的质量会随着虚拟筛选规模的扩大而提升

如何在本地资源有限的情况下,提高虚拟筛选规模和质量,把漫长的药物研发周期缩短一点?

我们用实证给你一个答案。

与前两次实证不同,本次生信实证有两大特点:

1. 任务数量多,云上同一地区某种类型机型可能不足,因此会涉及到多区域资源调度;

2. 可根据用户偏好匹配合适的资源调度策略,满足用户不同需求。

实证背景信息

某大型药企在本地建设有机房,计算资源总计为104核。

使用AutoDock Vina进行小分子对接:

当设定exhaustiveness=8时,筛选56643个原始分子共需90小时;

当设定exhaustiveness=1时,耗时需18小时。

7e6cd3e44e318ed21202472c53341189.png

AutoDock Vina是用于分子对接和虚拟筛选的开源程序,由Scripps研究所分子图形实验室的Oleg Trott博士设计和实现,是目前使用最为广泛的分子对接软件之一。exhaustiveness是AutoDock Vina中的一个设定参数,用来控制对接的细致程度,会影响计算时间。)

当筛选范围扩大到整个VS数据库(2800万个分子)时,不同参数条件下本地资源所需的运算时间在约2.6-5年不等。

c19bea1e7f68d6c1ea7535d88c39b889.png

研发负责人认为这么长的时间周期是无法接受的,其本地现有IT架构和资源完全无法满足研发需求。

实证目标

1、AutoDock Vina任务能否在云端有效运行?

2、fastone平台能否大幅度缩短任务运行时间?

3、fastone平台能否有效控制任务运行成本?

4、针对AutoDock Vina任务小,数量大的特点,fastone平台是否有针对性策略?

实证参数

平台:

fastone企业版产品

应用:

AutoDock Vina

适用场景:

分子对接,研究配体(药物分子)与其受体(已知的靶蛋白或活性位点)之间的详细相互作用,预测其结合模式及亲合力,还可以用来发现并优化药物先导物分子,进而实现基于结构的药物设计

云端硬件配置:

AutoDock Vina在运行时需要对接海量分子,对计算性能要求较高,因此平台为用户推荐选择了匹配其应用特点的计算优化型实例机型。

技术架构图:

3aa3d8626a94088fa79d23d1158d04ef.png

以下是两个实证场景。

实证场景一:我们通过10000分子分别进行了AutoDock Vina的云端线性扩展性验证及成本验证;

实证场景二:基于不同用户策略,我们帮用户进行了2800万量级的大规模分子对接。

1、时间优先策略以速度为第一优先级:资源选择以OD按需实例为主,在满足用户时间要求的前提下尽可能通过抢占SPOT实例来优化成本。

2、成本优先策略以成本为第一优先级:资源选择以SPOT实例为主,并在满足用户成本要求的前提下使用OD按需实例来优化时间效率。

SPOT:可被抢占实例,又称竞价实例。价格最低可达到按需实例价格的10%,相当于秒杀,手快有手慢无,价格可高可低波动大,随时可能被抢占中断,需要有一定的技术实力才能使用。

OD:On-Demand,按需实例。针对短期弹性需求,按小时计费,灵活精准,避免浪费,但价格比较高,通常为SPOT实例的3-10倍。

实证场景一:10000分子

AutoDock Vina云端线性扩展性及成本验证

结论一:在云端调度不同核数的计算资源对接10000分子,验证AutoDock Vina在云上具有线性扩展性,即当处理器数量增加一倍,运算时间也会缩短一半。

5e33251e4956759a2a09d8e91002a51c.png

实证过程:

1、云端调度36核计算资源对接10000分子,采用时间优先策略需耗时527分钟;

2、云端调度80核计算资源对接10000分子,采用时间优先策略需耗时314分钟;

3、云端调度144核计算资源对接10000分子,采用时间优先策略需耗时215分钟;

4、云端调度288核计算资源对接10000分子,采用时间优先策略需耗时98分钟;

5、云端调度540核计算资源对接10000分子,采用时间优先策略需耗时52分钟;

6、云端调度1080核计算资源对接10000分子,采用时间优先策略需耗时20分钟。

结论二:在云端调度不同核数的计算资源对接10000分子,当用户选择成本优先策略时,fastone平台以SPOT实例为主要资源选择,确保成本为第一优先级。

比时间优先策略,成本降幅最多可达67%-90%。

596e8f6b3fb36ec908baaf9b9629544a.png

实证过程:

1、云端调度36核计算资源对接10000分子,采用成本优先策略抢占SPOT实例,耗费82元;

2、云端调度80核计算资源对接10000分子,采用成本优先策略抢占SPOT实例,耗费84元;

3、云端调度144核计算资源对接10000分子,采用成本优先策略抢占SPOT实例,耗费79元;

4、云端调度288核计算资源对接10000分子,采用成本优先策略抢占SPOT实例,耗费64元;

5、云端调度540核计算资源对接10000分子,采用成本优先策略抢占SPOT实例,耗费58元;

6、云端调度1080核计算资源对接10000分子,采用成本优先策略抢SPOT实例,耗费68元。

实证场景二:2800万分子

大规模业务验证:基于不同用户策略

fastone基于用户2800万分子对接需求,提供时间优先成本优先两种策略供用户选择。

01

用户以时间为第一优先级

结论:

1、通过fastone平台采用时间优先策略调用10万核计算优化型实例对接2800万个分子,耗时约15.23小时,运算效率提高2920倍;

2、fastone平台根据用户计算需求,自动化构建并调度云上10万核大规模算力集群,完成计算任务;

3、时间优先策略下,当任务数量达到一定规模时,云上同一地区某种类型机型可能不足,fastone平台可跨区、跨类型自动为用户调度云资源,以最快速度完成计算任务;

4、fastone平台自动帮用户确定中断可能性最低的SPOT池,保障任务顺利高效完成,本次实证任务的中断率为0.95%(通常<5%)。

云端部署手动模式 VS 自动模式之间的巨大差异可查看EDA云实证Vol.1:从30天到17小时,如何让HSPICE仿真效率提升42倍?

实证过程:

1、设定exhaustiveness=8,本地104核计算资源对接约2800万个分子,经估算需耗时约1853天

2、设定exhaustiveness=8,云端调度10万核计算资源对接约2800万个分子,采用时间优先策略需耗时约15.23小时(含配置,安装,调度等时间)。

3d1746e04057eb40b0409396a01f3750.png

计算资源越多,运算时间越短。

在满足用户时间要求的前提下,可通过尽可能抢占SPOT实例来帮助用户优化成本。

当所需的计算资源达到十万核这个数量级以后,单个区域内我们的目标类型资源可能会瞬间告罄,造成任务排队,从而大大拖慢运算时间。

我们需要通过fastone平台的Auto-Scale功能自动调度本区域及其他区域的目标类型或相似类型SPOT实例资源,以最快速地完成任务。

f56207a2d75c5927d662b471d378b6f1.png

简单说,就是优先抢低价的SPOT实例,抢完同类型的再抢其他类型的,抢完同区域的再抢其他区域的

这只是Auto-Scale功能的一部分。

fastone的Auto-Scale功能可以自动监控用户提交的任务数量和资源的需求,动态按需地开启所需算力资源,在提升效率的同时有效降低成本。可以让用户根据自身需求,设置调度集群规模上下限,且所有操作都是自动化完成,无需用户干预

02

用户以成本为第一优先级

使用AutoDock Vina进行分子对接的一大特征是任务数量庞大而单个任务计算时间短,单个分子对接的时间通常在几分钟以内(与参数设置有关)。

这一特征天然匹配云端的SPOT实例。

云端SPOT实例有四大特点:

1、 便宜是真便宜。

2、 不是人人都能用好。

3、 不是你想要啥就有,不是你想用的时候就能用。

4、 或迟或早,最终一定会被抢走。

f895eea694599b06c6b08ef4cdab4c1c.png

OD按需实例价格通常为SPOT实例的3-10倍。

可参考:《云资源中的低成本战斗机——竞价实例,AWS、阿里云等六家云厂商完全用户使用指南

当便宜且随时可能被抢占中断的SPOT实例遇到迷你却海量的分子对接任务,简直就是天造地设的一对。

1、常规分子对接任务几分钟即可算完,特别适合SPOT这种分分钟可能被抢走的状态;

2、fastone平台具备自动重试功能,一个任务被中断可以自动重新提交,任务之间互相不影响,重新提交单个任务影响很小。

fastone平台会按以下顺序依次进行自动化调度:

1、同一区域目标类型的SPOT实例;

2、同一区域其他类型的SPOT实例;

3、其他区域目标类型的SPOT实例;

4、其他区域其他类型的SPOT实例;

5、同一区域目标类型的OD实例;

6、同一区域其他类型的OD实例;

7、其他区域目标类型的OD实例;

8、其他区域其他类型的OD实例。

652401402be5c3157e174cf15999c9b8.png

实证小结

最后我们回顾一下实证目标:

1、AutoDock Vina任务能在云端有效运行;

2、fastone平台能够大幅度缩短任务运行时间;

3、fastone平台能够有效控制任务运行成本;

4、fastone平台的Auto-Scale功能可完美匹配AutoDock Vina任务小,数量大的特点;

5、fastone平台能根据用户不同需求,为用户提供不同的自动化调度策略。

本次生信行业Cloud HPC实证系列Vol.3就到这里。

在下一期的实证中,我们将为大家带来Amber上云实证,这次涉及到了云端GPU资源的使用。

未来我们还会带给大家更多领域的用云“真香”实证,请保持关注哦!

 END -

我们有个生物/化学计算云平台

集成多种生命科学领域应用,大量任务多节点并行

应对短时间爆发性需求,连网即用

跑任务快,原来几个月甚至几年,现在只需几小时

5分钟快速上手,拖拉点选可视化界面,无需代码

支持高级用户直接在云端创建集群 

扫码免费试用,送300元体验金,入股不亏~

844dfb8ae972c1846e2027ef5a2f1c0c.png

更多电子书

欢迎扫码关注小F(ID:imfastone)获取

e3e99359dae2db4a494c537f2e4bab20.png

你也许想了解具体的落地场景:

这样跑COMSOL,是不是就可以发Nature了

Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?

1分钟告诉你用MOE模拟200000个分子要花多少钱

LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置

揭秘20000个VCS任务背后的“搬桌子”系列故事

155个GPU!多云场景下的Amber自由能计算

怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

国内最大规模OPC上云,5000核并行,效率提升53倍

提速2920倍!用AutoDock Vina对接2800万个分子

从4天到1.75小时,如何让Bladed仿真效率提升55倍?

从30天到17小时,如何让HSPICE仿真效率提升42倍?

关于为应用定义的云平台

这一届科研计算人赶DDL红宝书:学生篇

一次搞懂速石科技三大产品:FCC、FCC-E、FCP

AI太笨了……暂时

【2021版】全球44家顶尖药企AI辅助药物研发行动白皮书

EDA云平台49问

国内超算发展近40年,终于遇到了一个像样的对手

帮助CXO解惑上云成本的迷思,看这篇就够了

花费4小时5500美元,速石科技跻身全球超算TOP500

c39c028535cadfea54ac2740599fff13.png

这篇关于提速2920倍!用AutoDock Vina对接2800万个分子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/213532

相关文章

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

如何更优雅地对接第三方API

如何更优雅地对接第三方API 本文所有示例完整代码地址:https://github.com/yu-linfeng/BlogRepositories/tree/master/repositories/third 我们在日常开发过程中,有不少场景会对接第三方的API,例如第三方账号登录,第三方服务等等。第三方服务会提供API或者SDK,我依稀记得早些年Maven还没那么广泛使用,通常要对接第三方

对接话费充值API接口的开发步骤以及各种优势

对接话费充值API接口通常涉及以下步骤: 1.选择API提供商: 研究并选择一个可靠的话费充值API提供商。考虑因素包括覆盖范围、费率、交易限额、客户支持和用户评价。 2.注册和获取API密钥: 在选定的API提供商平台上注册账户,并获取API密钥或访问令牌,这是调用API时进行身份验证的必要信息。 3.阅读API文档: 仔细阅读API文档,了解如何构建请求、需要哪些参数、API的

Java应用对接pinpoint监控工具的时候,应用名称长度超出限制而导致接入失败

一、背景 java应用需要接入pinpoint,同一个虚拟机上的其他应用接入成功,唯独本应用不行。 首先排除是pinpoint agent的问题,因为其他应用都正常。 然后,我就对比二者的启动脚本。 -javaagent:/opt/pinpoint/pinpoint-bootstrap.jar -Dpinpoint.agentId=DA301004_17 -Dpinpoint.applic

替换Windows AD时,网络准入场景如何迁移对接国产身份域管?

Windows AD是迄今为止身份管理和访问控制领域的最佳实践,全球约90%的中大型企业采用AD作为底层数字身份基础设施,管理组织、用户、应用、网络、终端等IT资源。但随着信创建设在党政机关、金融、央国企、电力等各行各业铺开,对Windows AD域的替换成为企业信息安全建设中不可避免的议题之一。 鉴于AD在企业中的应用程度不同,可将企业分为轻度、中度及深度三类Windows&nbsp;AD

Java8对接三方流式接口,并实时输出(GPT)

Java对接模型流式接口,并流式输出 核心依赖 <dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>2.0.33</version></dependency><dependency><groupId>org.springframework.boot</groupId><a

淘宝订单 API 接口:获取淘宝平台数据的 api 接口(电商 ERP 订单对接方案)

taobao.seller_order_list 获取卖家订单列表 taobao.custom 自定义淘宝开放平台 API 公共参数 请求地址: 登录 - 凡邦跨境电商平台接口提供商 数据采集公司 数据接口定制服务 企业级数据服务商 seller_order_list 参数说明 请求参数 请求参数:page=&tabCode=&dateBegin=&dateEnd=&buyerN

电影票API接口对接全攻略,让你轻松对接API

电影票API接口对接是指将第三方电影票销售平台的服务集成到自己的应用程序或网站中,使用户能够直接购买电影票。这种集成通常通过API(应用程序编程接口)实现。以下是电影票API接口对接的一般步骤和注意事项: 一般步骤: 1.需求分析: 确定你的平台需要哪些电影票服务,如查询电影信息、查看放映时间、选择座位、购票等。 2.选择API服务提供商: 选择一个提供电影票API的服务提供商,这可

Java对接微信支付V3流程及示例代码

微信支付V3对接流程如下: 创建商户平台账号:在微信支付商户平台(pay.weixin.qq.com)上注册并创建商户平台账号。 开通微信支付功能:在商户平台上完成实名认证,并申请开通微信支付功能。 获取API证书:在商户平台上下载API证书,并将证书保存在安全的地方。 配置回调接口:在商户自己的服务器上配置一个用于接收微信支付结果通知的回调接口,并确保能够正确处理通知。 获取接口调用

抖音团购cps小程序源码搭建 cps+已对接主流平台+优惠券返利

抖音团购CPS小程序是为商家量身定制的一种营销工具,它允许商家在微信、抖音上发布团购活动,并通过小程序的形式展示商品信息、优惠价格及购买链接。同时,该小程序支持CPS模式,即商家根据推广者带来的实际销量支付佣金,从而激励推广者积极推广团购商品。 一、优势与特点 高效引流:抖音平台拥有庞大的用户基础和高活跃度,商家通过发布团购活动可以迅速吸引目标用户关注并产生购买行为。低成本营销:CPS模式使得