JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

引言

在传统药物设计中,在确定了一个靶点后,研究人员常使用高通量筛选、虚拟筛选等技术寻找苗头化合物。以循环神经网络为代表的一系列分子生成模型,具有一定的药物设计能力,可以生成满足Lipinski规则等许多性质的候选化合物。研究人员继续使用分子对接和药效团模型评估生成的分子与靶点的亲和力。

之前报道了一种叫做“water pharmacophore(WP)”的药效团模型。这个模型通过分子动力学发现结合空腔中的水合位点,提取药效团特征。这种模型的优势在于不依赖于阳性化合物的信息,避免使用已知化合物建模引入偏差,促进模型发现具有全新骨架的化合物。

作者本次将上述两种方法相结合,从大规模的化合物库中筛选出匹配药效团特征的分子,以这些分子作为输入,训练分子生成模型。最后用药效团筛选生成的分子,得到一批候选化合物。作者使用DUD的6个靶点做测试,结果表明该方法产生的分子在5个测试案例中优于对照化合物库。

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图1. 六个测试案例中建立的药效团模型

图片来源:JCIM

 

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图2. 药效团与最佳抑制剂的结合模式

图片来源:JCIM

 

结果

1. 药效团模型的建立与化合物筛选

作者选取了乙酰胆碱酯酶(AChE, PDB:4EY7)、雄激素受体(AR, PDB: 1XQ2)、糖皮质激素受体(GR, PDB:1M2Z)、过氧化物酶体增殖物激活受体-γ(PPARγ, PDB: 1ZEO)、多聚ADP 核糖聚合酶(PARP,PDB:1EFY)、孕激素受体(PR, PDB: 1SR7)六个靶点做方法测试。作者首先使用薛定谔软件预处理蛋白,接着在AMBER运行10 ns的分子动力学模拟,找到空腔中含有水分子最多的1埃球体的坐标。在删除球内的水分子后,使用能量、氢键等热动力学的参数,评价这些坐标作为药效团特征的可行性,并选出关键的4-8个药效团特征(如图1所示)。其中的能量包含了系统能量、转化熵、取向熵等多种指标。最后使用富集率度量药效团模型,并与已知的阳性药对比,证明了药效团模型的合理性(如图2所示)。从ZINC15数据库得到了12934474个化合物,这些化合物的分子量在200-500,logP在-1和5之间。每个化合物使用薛定谔的ConfGen模块生成50个3D构象,并存入Phase数据库中。考虑到模型训练需要足够多的样本和时间的成本,作者使用药效团模型筛选化合物库时,调整筛选条件使得选出的分子数在2万到10万之间。如果筛选出的化合物数量超过了10万个,则随机选出10万个化合物。

2. 使用模型生成化合物

LSTM是传统RNN模型的一种改进形式,能有效解决传统RNN中梯度爆炸和消失的问题。在RNN模型中,分子通常被表示成SMILES的形式,并经过独热编码成一个矩阵,最后输入模型中训练。这种表示方法在之前的文献已有报道并取得良好的效果。作者本次使用的神经网络由两个LSTM层和一个全连接层组成。筛选出的分子被随机分成了训练集和测试集,训练集中含有75%的分子,测试集中含有了25%的分子。所有层的激活函数都是ReLu,采用交叉熵作为损失函数,梯度下降则采用了Adam算法,学习率初始设置为0.005,最多训练1000轮(如图3所示)。当损失下降过快时,学习率减半,避免过早收敛,陷入局部极小值。在训练过程中,监测模型在训练集和验证集上的损失。随着训练进行,损失会逐渐缩小,收敛到一个值(如图4所示)。当训练完成后,使用模型生成新的SMILES。每次生成的SMILES会与之前的SMILES相比较,如果相同或者无效,就会被丢弃。这保证最后能生成10万个不同的分子(如图5所示)。

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图3. 分子生成模型和训练后学习后的模型

图片来源:JCIM

3. 生成的分子具有靶点特异性

药效团模型从化合物库中预先筛选出的一批分子,作为分子生成模型的训练集,使得生成的分子具有靶点特异性(如图6所示)。对不同的靶点,都要单独训练一次模型。另一个方案是先训练一个通用的分子生成模型,进而生成一批差异化的分子,最后经不同的靶点的药效团过滤得到新化合物。这个方案效率更低。使用预先筛选过的分子训练模型,能缩小模型的采样空间,对一个小空间的充分采样更有可能发现新的化合物。还有一种方案是使用样本对预训练好的分子生成模型做迁移学习。这个方法适用于样本量少的情形。此次药效团筛选后依旧有充足的分子,因此不使用迁移学习。

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图4. 六个测试案例中模型在训练过程中在训练集和验证集上的损失变化曲线

图片来源:JCIM

 

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图5. 从模型生成分子的流程

图片来源:JCIM

4. 药效团筛选生成的分子

在已有的化合物库中,匹配药效团的分子比例不超过5%,但是在生成的化合物中,匹配药效团的分子比例增长了近四倍。之前筛选化合物时采用了较为宽松的标准。本次为了得到候选化合物,提高了筛选标准。在PR和PARP测试案例中,虽然药效团距离误差依旧在1.5埃,但是要求匹配所有药效团特征。最后分别得到了1个和37个候选化合物。值得注意的是,在PR测试案例中,采用同样标准筛选ZINC15库,没有找到符合条件的分子;但是在10万个生成的分子中找到了1个匹配药效团模型的分子。在PARP测试案例中,从1200万个分子的ZINC15仅筛选出63个分子,从生成的10万个分子中就能找到37个。这表明该方法能有效生成结合特定靶点的全新化合物。在AChE和PPARγ靶点的测试中,稍微降低筛选标准,至少匹配6个药效团中的5个,分别筛选出18个和173个分子。

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图6. 生成具有靶点专一性的分子的整体流程

图片来源:JCIM

5. 评价生成的分子质量

为了快速预测分子的结合自由能和结合构象,作者采用Glide对接了生成的分子。作者还选取了文献报道的阳性化合物,从DUD中为各个靶点选取了阴性对照分子。除了PPARγ外,其他测试案例中生成分子的平均结合能低于阴性对照,表明生成分子更加匹配结合位点。在AR、GR、PR和PARP的测试中,新生成的分子的平均结合能更是低于阳性化合物,甚至有些分子的结合能比最佳阳性化合物更低,可见生成分子与靶点的结合能力与阳性化合物相当。在AChE和PPARγ的案例中,生成的分子结合能依旧高于阳性化合物。作者推测是两个靶点的结合位点较大,生成的药效团不连贯导致的。因此,这套方法更适用于基于片段的分子生成。此外,作者发现增加生成分子的数量,比如达到10万以上,有望找到比阳性药结合能更低的化合物。

作者在评价分子的结合能后,继续评价分子的新颖性。作者计算了生成分子的Morgan指纹并计算了Tanimoto分子相似度。从分子比例上看,生成的大部分分子(AR, 97%; GR, 99%; PR, 99%; PARP 100%)的相似度低于0.7,满足新颖的要求。从总体的相似度上看,生成的分子与阳性化合物差异性较大,AR、GR、PR的平均相似度低于0.3(如图7所示)。虽然生成的分子与已知分子或是阴性对照分子不同,但是它们与阳性化合物在结合位点处有着相似的结合模式(如图8所示)。比如生成的分子在PARP(PDB: 1EFY)的构象与共晶复合物的配体有着相似的相互作用,与Gly863形成氢键作用,与Tyr907形成π-π堆积作用。共晶中的配体结合能是-7.364 kcal/mol,生成的分子的结合能是-8.070 kcal/mol。 

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图7. 结合能超出均值的化合物的相似度分布图

图片来源:JCIM

 

JCIM | 靶向药物设计方法:深度学习与水药效团模型的结合

图8. 生成的分子与PARP抑制剂的结合模式对比

图片来源:JCIM

讨论

本次研究证明药效团与RNN架构的分子生成相结合,能生成全新的靶点特异性化合物,这些分子在分子对接中展现出对靶点的亲和力。这种药物设计方法有望快速找到具有潜力的苗头化合物。在六个靶点的测试案例中,生成的分子在五个案例中比阴性对照展现出更低的结合能。这个方法可以从生成的分子中找到具有靶点亲和力的化合物。如果能够从模型中无限生成化合物,那么这将大大提高早期新药发现效率。这个方法不仅是与基于受体的药效团模型结合,也可以推广到与基于配体的药效团模型组合生成新的分子。此外,这个方法与基于片段的药物设计策略相结合,有助于在大结合位点上的药物设计。

参考文献

Minsup Kim, Kichul Park, Wonsang Kim, Sangwon Jung, and Art E. Cho, Journal of Chemical Information and Modeling, 2021, 61 (1), 36-45. DOI: 10.1021/acs.jcim.0c00757