本文主要是介绍人工智能是如何进入这一切并加速化学(物质)发现的,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
首先,机器学习改进了现有的模拟化学环境的方法。我们已经提到计算化学允许我们部分绕过实验室实验。然而,模拟量子力学过程的计算化学的计算在计算成本和化学模拟的准确性方面都很差。计算化学的核心问题是求解复杂分子的电子薛定谔方程 —— 也就是说,给定原子核集合的位置和电子总数,计算感兴趣的性质。只有单电子系统才有可能得到精确的解决方案,而对于其他系统,我们必须依赖「足够好」的近似值。此外,许多用于近似薛定谔方程的流行方法以指数方式扩展,使得蛮力解决方案难以解决。在上个世纪,人们开发了许多方法来加速计算而不牺牲太多的准确性。然而,即使是一些「更便宜」的方法也可能导致计算瓶颈。
人工智能加速这些计算的一种方法是将它们与机器学习相结合。另一种方法通过直接将分子表证映射到所需属性来完全绕过物理过程的建模。这两种方法都允许化学家更有效地检查化学数据库的各种属性,例如原子电荷、电离能等。
生成式化学的兴起
虽然更快的计算是一种改进,但它并没有解决我们仍然局限于已知化合物的事实 —— 这只是活性化学空间的一小部分。我们仍然必须手动指定想要分析的分子。我们如何扭转这种范式并设计一种算法来搜索化学空间并为我们找到合适的候选物质呢?答案可能在于将生成模型应用于分子发现问题。
但在我们开始之前,有必要谈谈如何以数字方式表示化学结构(以及哪些可以用于生成式建模)。在过去的几十年中已经开发了许多种表示,其中大部分属于以下四个类别之一,分别是字符串(string)、文本文件(text )、阵列(array)和图(graph)。
异戊烷的表示。
当然,化学结构可以表示为阵列。最初,分子的阵列表示用于辅助化学数据库的搜索;然而 2000 年代初期引入了一种称为扩展连接指纹 ( Extended connectivity fingerprint, ECFP ) 的新型阵列表示。ECFP 被专门设计用于捕获与分子活动相关的特征, 它通常被认为在尝试预测分子特性方面的第一批表征之一。
化学结构信息也可以转储到文本文件中 —— 这是量子化学计算的常见输出。这些文本文件可以包含非常丰富的信息,但是,它们作为机器学习模型的输入通常不是很有用。另一方面,字符串表示在其语法中编码了很多信息。这使得它们特别适合生成建模,很像文本生成。
最后,基于图的表示更加自然,它不仅允许我们在节点嵌入中编码特定于原子的属性,而且还可以捕获边缘嵌入中的化学键。此外,当与消息传递相结合时,图表征允许我们解释(和配置)来自其邻居的节点对节点的影响,这反映了化学结构中原子如何相互影响。这些属性使基于图的表示成为深度学习模型的首选输入表示类型。
这篇关于人工智能是如何进入这一切并加速化学(物质)发现的的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!