中大唯信·唯信计算

引言

AI为化合物的属性预测，药物设计以及分子逆合成提供了有效的解决方案，来自赛诺菲的Christoph Grebner在JMC专刊Artificial Intelligence in Drug Discovery中报道了基于AI的从头分子设计研究结果。

自动化分子从头设计已经被研究了大约20年，尽管许多工具已经被建立起来，许多成功的案例也已经被知晓。分子自动化从头设计仍然没有被普及开来。其中的部分原因可能是由于设计的分子很难被合成出来。本文介绍了基于强化学习来进行化学空间的探索的方案；同时，也对相关的评分方法进行了研究；最后，在对典型药物研发项目的回顾性研究中，作者研究了如何生成项目进展所需的相关分子，以及如何定制方案以满足分子合成和优化的相关需求。

生成性神经网络被训练以用于从头设计具有指定属性的化合物。训练过程主要包括两个步骤。首先，使用大型化学数据库来生成模型，该模型将会学习如何生成正确化学结构。在第二步中，使用RL训练这些模型，以便可以将生成的化学结构放到指定的化学特性空间中。

（1）生成模型，使用RNN（循环神经网络）来生成新型化学分子结构，这样的训练是基于一个非常庞大的分子数据库。RNN会学习SMILES的语法规则-SMILE是一种描述化学分子的简单线性语言。RL（增强学习）被用于指导RNN如何生成具有指定属性的可用分子。首先训练出的神经网络模型被称之为“prior”。

图 1. 强化学习路线图

来源：JMC

（2）化学空间，三个不同的数目庞大的化学数据库被用于训练prior。其中ChEMBL（version 24, ~1.45 million molecules），Sanofi（~3.37 million molecules）代表的生物活性分子，而Enamine(~5.36 million molecules)代表的是虚拟可及性分子。使用SMILES来展示这些分子，互变异构体暂时不被考虑在内。同时为了探索一些化学亚结构的遗失会对模型有什么影响，训练集移除了一些特定亚结构，形成了几个新的化学亚空间用于训练。A: No amides ;B: No amidines ;C: No guanidines;D: No benzene;E: No five-membered rings。

图 2.不同训练数据集的组成

来源：JMC

（3）打分函数，Prior 可以被用于生成化学结构，但是对于先导化合物的合成以及优化而言，需要去生成一些在特定范围内的化学分子。作者通过各种打分（包括化学相似性和各种基于QSAR的生物活性模型）将新分子的生成导向了所需的化学属性空间。被使用的打分函数：a:2D相似性（ECFP6 分子指纹）；b:3D相似性（ROCS-3D）；c: 2D-QSAR模型（基于Cubist regression trees）；d：2D-QSAR-model （基于GraphConvolutions）；e:组合打分函数

总结

AI在目前的生活中扮演着重要的角色，在药物发现中AI已经被应用了数年，并为相关的任务（如属性预测，分子设计和化学逆合成）提供了有潜力的建议。这些活动将加快会对药物相关分子的搜索，并有助于缩短工业界和学术界的药物研发周期。本文研究了人工智能分子从头设计的几个实际应用。为此，作者使用强化学习方法进行分子从头设计，评估了不同化学空间作为输入训练集，以及不同评分函数和组合对最后结果的影响。

这些结果表明，在研究中，可以设计一套定制的方案来助力药物研发相关工作。如果是想要生成相似化合物，在强化学习中使用2D方法进行打分可能有用，但显然会产生更为保守的结果。另一方面，如果目标是识别新的先导化合物，则单独或组合使用3D-shape和QSAR模型来对RL进行评分，可以获得更好的效果。因此，将更复杂的方法（例如3D-shape或QSAR模型）集成到打分中，可以对化学空间进行比较无偏的采样，从而提供新颖的思路。

参考文献

Grebner, C., et al., Automated De Novo Design in Medicinal Chemistry: Which Types of Chemistry Does a Generative Neural Network Learn? Journal of Medicinal Chemistry, 2020.

实时关注公司行业最新动态

JMC | 赛诺菲研究基于AI的分子从头设计