JCIM | Frag20-可基于3D结构和深度学习探索化学空间的数据集

JCIM | Frag20——可基于3D结构和深度学习探索化学空间的数据集

引言

数据集是深度学习模型开发的基础,深度学习模型的成功在很大程度上取决于数据集的质量和大小。在这项工作中,作者提出了一个新的数据集准备步骤,并建立了一个基于片段的大型数据集——Frag20,该数据集包含优化了3D几何形状并在Merck分子力场(MMFF)和在B3LYP/6-31G*级别的DFT下计算出的分子特性。整个数据集包含超过五十万个由H,B,C,O,N,F,P,S,Cl和Br组成且不超过20个重原子的小分子。基于新的数据集,作者使用简化的PhysNet框架针对DFT和MMFF优化的小分子几何结构开发了健全的分子能量预测模型,该模型在多个测试集包括基于实验晶体结构的CSD20和Plati20上均达到或优于化学精度(1 kcal/mol)。

背景介绍

分子能量计算对于构象分析和基于结构的药物设计至关重要。近年来,使用深度学习模型来获取分子能量逐渐崭露头角。深度学习模型可以使用多个非线性层从原始数据中提取高级原子或分子表示,并以更少的计算成本提供可靠的能量预测。而深度学习方法的成功在很大程度上取决于数据质量,覆盖广泛化学空间的数据集对于开发具有良好泛化能力的鲁棒模型是必不可少的。大部分用于分子能量预测的深度学习模型都是使用QM9数据集开发的,该数据集涵盖了使用DFT方法在B3LYP/6-31G(2df,p)的级别上计算的133,885个由H,C,N,O和F组成且不大于9个重原子的分子的平衡态结构和分子性质,已成为深度学习模型的经典基准数据集。但是,由于DFT几何优化的计算成本,基于DFT优化几何结构的深度学习模型的预测分子能量的适用性将受到很大限制。最近,Glavatskikh等经过详细的键距和官能团分析后指出,QM9缺乏化学多样性。因此,为了在使用3D几何结构开发用于分子能量预测的更健全和适用的深度学习模型方面取得进一步的进步,我们需要更大、更多样化的分子数据集。在本文工作中,作者提出了一种新的数据准备过程,并建立了一个基于片段的分子数据集——Frag20。Frag20基于ZINC和PubChem数据库中的可商购和公开报道的分子构建而成,并且主要从以下三个方面进行了改进:(1)分子大小和元素覆盖:Frag20包含超过五十万个分子,但不大于20个重原子,并涵盖有机类药物化合物中的常见元素(H,B,C,N,O,F,P,S,Cl,Br);(2)化学多样性和化学空间覆盖范围:在Frag20的构建中,使用Murcko片段化和扩展官能团(EFGs)选择具有代表性和多样性的分子;(3)几何形状和性质:Frag20提供使用B3LYP/6-31G*理论级别的DFT和Merck分子力场(MMFF)计算的几何形状和分子性质。除了Frag20外,作者还使用Platinum数据集中的蛋白-配体结合分子和Cambridge结构数据库(CSD)中的晶体结构来构建Plati20和CSD20作为外部数据集,以评估所建模型的泛化性能。基于具有DFT和MMFF优化的分子几何结构的数据集,作者使用简化的PhysNet(sPhysNet)建立了健全的分子能量预测模型。

Frag20,Plati20和CSD20数据集

本文构建的Frag20,Plati20和CSD20数据集总结如表1所示。图1展示了Frag20的数据准备过程,它主要包括四个步骤:数据预处理、分子片段化、分子选择以及1D(SMILES)到3D(几何构型)标记。作者从ZINC15下载了超过10亿个分子量不超过400 D且LogP不大于5的分子的SMILES字符串,从PubChem下载了约9,600万个SMILES。首先合并两个数据集并删除重复项,然后过滤分子以仅保留不大于20个重原子且由H,B,C,N,O,F,P,S,Cl和Br组成的分子,并且去除了立体化学,仅保留了去盐后的最大碎片,最后得到包括98,449,207个分子的SMILES的Mol20数据集。由于Mol20含有大量分子,对所有分子进行QM计算十分困难,所以作者使用Murcko片段化将分子分解为片段,不能通过Murcko裂解的分子则被去除。经过分子裂解后,数据集的大小减少到大约900万(8,659,028)。为了进一步减少具有大于10个重原子的分子的数量,作者基于扩展功能基(EFG)库进一步选择分子。EFG的生成已在python包中实现。作者为初始Mol20生成了一个EFG库,并且仅保留了Mol20中频率最高的前10%EFG,最终的EFG库包含4520种不同的EFG,涵盖了Mol20中99.9%的分子。

图2展示了从1D SMILES到生成3D几何结构的过程,作者使用RDKit中的ETKDG方法为每个分子随机生成1个构象。对于每个分子,作者使用RDKit中的MMFF94(MMFF)优化了其几何形状,并在MMFF优化的几何结构的基础上,使用B3LYP/6-31G*的级别的DFT方法进行了QM几何优化和频率计算。此外,作者还删除了带有部分电荷或自由基的分子,以确保数据集仅包含中性分子。

整个数据准备过程已实现为python包(Frag20Prep),可用于其他的数据集构建。

表1. 用于机器学习模型开发和评估的数据集,其中Frag20,Plati20和CSD20数据集是本文工作中新开发的

表格来源于JCIM

JCIM | Frag20——可基于3D结构和深度学习探索化学空间的数据集

JCIM | Frag20——可基于3D结构和深度学习探索化学空间的数据集

图1. Frag20的构建过程

图片来源于JCIM

 

JCIM | Frag20——可基于3D结构和深度学习探索化学空间的数据集

图2. 1D(SMILES)到3D(Geometry)标记流程

图片来源于JCIM

深度学习模型

最近的PhysNet在QM9数据集上实现了用于分子能量预测的最新性能。PhysNet的架构(图3A)受到ScheNet和HIP-NN的启发。类似于许多其他基于3D几何结构的用于分子能量预测的深度学习模型,PhysNet的输入包括核电荷矢量Z和成对距离矩阵。PhysNet中的每个模块都会产生一个原子预测,并将它们汇总到所有模块中。最后,通过汇总每个分子中的每个原子获得分子级属性。PhysNet可以同时预测能量、力、电荷和偶极矩,因此,其损失函数是每个项的损失的加权总和。为了确保每个模块的预测随着模块深度的增加而分层递减,还添加了非分层惩罚的正则项。PhysNet还通过添加静电相互作用和色散校正项来整合远程相互作用。本文中,作者通过探索模型超参数,找到了PhysNet的简化版本(sPhysNet)(图3B),该版本将可训练参数的数量显著减少至约74万,同时保留了在QM9数据集上相似的性能。作者将主模块的数量从5个减少到3个,删除了主模块中的一个残差层,并在交互层中删除了2个残差层,同时将原子embedding维数(num_feature)从128个增加到160个。

JCIM | Frag20——可基于3D结构和深度学习探索化学空间的数据集

图3. 1D(SMILES)到3D(Geometry)标记流程

图片来源于JCIM

结果

如表2所示,我们可以看到sPhysNet与PhysNet具有相同的性能,并且两个模型的性能都明显优于DTNN_7ib。sPhysNet模型通过微调可以在QM9上达到0.19 kcal/mol MAE,在QM9M上达到0.35 kcal/mol MAE。由于sPhysNet模型比PhysNet复杂度低,训练效率高,并且微调比单独迁移学习产生更好的结果,因此sPhysNet模型更值得关注。

表2. 三种深度学习模型在QM9和QM9M数据集的性能

表格来源于JCIM

JCIM | Frag20——可基于3D结构和深度学习探索化学空间的数据集

基于Frag20数据集,作者进一步探索了使用sPhysNet开发分子能量预测模型的方法。为了广泛检查模型的性能,作者不仅使用了Frag20保持测试集,还使用了两个额外的测试集CSD20和Plati20。在使用DFT优化的几何结构作为输入时,sPhysNet模型对于Frag20可以达到0.34 kcal/mol MAE,对于CSD20可以达到0.82 kcal/mol MAE,对于Plati 20可以达到0.72 kcal/mol MAE,都优于1.0 kcal/mol的化学精度。同时,对于Frag20,CSD20和Plati20测试集,以MMFF优化的几何结构作为输入,sPhysNet模型的MAE分别为0.63、1.36和1.40 kcal/mol。尽管使用DFT优化的几何结构作为输入的深度学习模型优于MMFF优化的几何结构,但是获得DFT优化的几何结构的计算成本是获得MMFF优化的几何结构的数千倍。从这个角度来看,需要DFT优化的几何结构作为输入的深度学习模型在实际应用中价值有限。因此,我们的结果表明,以力场优化的几何结构作为输入来开发用于预测分子能量的深度学习模型是一个非常有希望的方向,同时也仍有待改进的地方,而我们基于Frag20训练的sPhysNet模型可以用作未来开发的基准模型,以探索具有3D几何结构的化学空间。

总结

本文中,作者提出了一种基于分子片段的数据集构建过程,并建立了Frag20数据集。Frag20显示出广泛的化学空间覆盖范围和广泛的化学基团多样性,这将增强深度学习模型的性能。Frag20提供了DFT和MMFF优化的几何形状,因此可以可用于开发用于预测分子能量的深度学习模型。此外,Frag20可以用作开发新的分子数据集的基础,以预测其他分子特性,例如溶剂化作用和分子光谱。同时通过开发的用于预测分子能量的sPhysNet模型进一步证明,开发基于力场的几何结构来预测分子能量的深度学习模型是一个有前途的方向,这将有助于使用3D几何结构有效地探索化学空间。

代码下载

sPhysNet:

https://www.nyu.edu/projects/yzhang/IMA

Frag20_prepare:https://github.com/jenniening/Frag20_prepare

参考文献

Jianing Lu, Song Xia, Jieyu Lu, and Yingkai Zhang, Dataset Construction to Explore Chemical Space with 3D Geometry and Deep Learning, J. Chem. Inf. Model., 2021, 61, 3, 1095-1104. DOI: 10.1021/acs.jcim.1c00007