中大唯信·唯信计算

在药物化学研究中，阐清分子结构与化学活性之间的关系一直以来十分重要。早期的研究一般通过构建定量构效关系模型来对该问题进行分析。近几年来，基于人工智能的新方法，尤其是深度学习模型在诸多领域中取得了良好的成绩，也越来越受到化学及药学领域的关注。近日，我司参与研发一种基于深度学习模型及自注意力机制的定量构效关系分析模型1-2。通过分析分子序列的语法，该模型不仅可以准确地预测分子的物理化学性质（如稳定性，溶解性等）与活性（包括毒性），还能给出分子子结构与性质之间的对应关系，辅助化学家设计合成更具潜力的化合物分子。

图1:基于深度学习与注意力机制的定量构效关系模型

作者采用了一种基于自注意力机制及长短期记忆系统的神经网络。该模型由一个嵌入层，长短期门控层（LSTM），自注意力机制层，全连接层，以及softmax激活函数组成。其中训练环节是将每个分子以序列格式（SMILES）表示，并切分成字符，随后组合成词典。利用字典映射后将分子的词向量按时间步输入网络。随后，将LSTM每个时间步的输出合并，输入到自注意力机制层。自主力机制层的输出结果与原结果进行加权相乘，输入到全连接层。最终通过softmax或者sigmoid函数输出结果。

图2: 定量构效关系模型简图

作者从物化性质，活性，毒性等三种不同类型的数据（共27个数据集）进行了实验分析，对结果进行了详细的阐述。

图3: 稳定片段（红）与不稳定片段（红）

作者通过对稳定性数据建模，以81.2%的准确率取得了目前该数据集表现的最佳结果。同时，作者进一步分析网络的注意力权重，将其以热图的形式展现出来。如图3所示，模型能较好的识别出一个分子的活性与不活性片段，作者认为模型对子结构的抓取也是模型对后继分子性质判断的依据。

图4: 毒性片段（红）

随后作者在TOX21毒性数据集上进行建模，也取得了目前文献报道中最佳的结果，平均AUC达到84.2%。作者使用了同样的方法对数据集中的部分毒性分子进行了性质相关的子结构识别，发现热点部分（红色）与数据库中报道的毒性片段高度重叠。作者也对DUD-E活性数据集进行了建模，由于数据集的特殊性，该模型在多个蛋白活性数据上取得了0.99的准确率。在后继分析注意力权重时，作者发现热点和分子与蛋白的结合部分也有所重叠。

图5: 注意力权重的热点部分与真实结合位置重叠（红）

总之，该模型作为一种完全基于分子序列的端到端定量构效关系模型。该模型不仅能很好的判断分子性质，还能识别出性质相关的子结构片段，为化合物优化提供线索。

参考文献

1.Zheng, S.; Yan, X.; Gu, Q.; Yang, Y.; Du, Y.; Lu, Y.; Xu, J., QBMG: quasi-biogenic molecule generator with deep recurrent neural network. J Cheminform 2019, 11 (1), 5.

2.Zheng, S.; Yan, X.; Yang, Y.; Xu, J., Identifying Structure-Property Relationships through SMILES Syntax Analysis with Self-Attention Mechanism. J Chem Inf Model 2019, 59 (2), 914-923.

实时关注公司行业最新动态

AI药物分子设计系列(2)-分子性质的预测