JCIM | 机器学习和虚拟筛选的无偏基准数据集

引言

虚拟筛选方法的比较评估需要在不同的、现实的和公正的数据库上执行严格的基准程序。许多研究表明,使用经典的人工构建的配体集(例如DUD、DUD-E、MUV)会受到明显和隐藏的化学偏差的影响,因此虚拟筛选方法的真实准确性被高估了。基于此,斯特拉斯堡大学Didier Rognan团队创建了专门为虚拟筛选和机器学习而设计的无偏数据库LIT-PCBA。

JCIM | 机器学习和虚拟筛选的无偏基准数据集
JCIM | 机器学习和虚拟筛选的无偏基准数据集

图1. 设计LIT-PCBA数据集的工作流程

图片来源:JCIM

LIT-PCBA数据集的设计思想

研究团队选择PubChem生物分析数据库作为实验生物活性数据的来源。沿着以下四个主要思想设计了一个专门用于虚拟筛选和机器学习的无偏数据库:

1. 应提供所有化合物(包括非活性物质)的实验结合数据。每一种真正的活性物质都应该有完整的剂量-反应曲线来确认;

2. 靶标应该是单个蛋白质,PDB中有其高分辨率的X射线结构。此外,靶标应该至少结晶一次,配体表现出与相应生物测定中活性化合物相同的表型(如抑制剂、完全激动剂、中性拮抗剂);

3. PubChem目标集应适用于虚拟筛选。评估了三种非正交虚拟筛选方法(2D指纹相似度、3D形状相似度、分子对接)的性能,以选择三种拟筛选方法中至少有一种方法的真阳性丰富度大于2的目标集,即比随机挑选好两倍。

4. 当比较化学空间中的真实活性和真实非活性,以及通过拆分训练集和验证集时,最终选择的目标集合应该尽可能地不偏不倚。

LIT-PCBA基准数据集

LIT-PCBA包括15个靶标,7844个确认的活性化合物和407381个确认的非活性化合物。使用2D相似性、3D形状匹配、对接进行的初步虚拟筛选尝试表明,该数据库在标记的活性化合物之间不存在效力分布偏差的情况下也具备良好的可靠性。LIT-PCBA在命中率(活性化合物与非活性化合物的比率)和效力分布方面完全可用于虚拟筛选,且已经具有为机器学习应用程序提供无偏见的随时可用的输入文件(配体和靶点)。 

JCIM | 机器学习和虚拟筛选的无偏基准数据集

图2.比较21个目标集的三种VS协议(2D:ECFP4指纹相似性搜索,3D:形状相似性搜索,SD:分子对接)的性能

图片来源:JCIM

 

JCIM | 机器学习和虚拟筛选的无偏基准数据集

 图3. LIT-PCBA数据库的15个靶标集的最终列表

图片来源:JCIM

总结

严格的配体数据库准备是虚拟筛选和/或机器学习方法进行基准测试所必需的。由于已知实验数据的主体不断增加,这样的基准数据库需要定期修改,以消除人类决策固有的明显和隐藏的偏差。否则,错误就会在文献中传播,并妨碍对新的方法论发展进行真正的比较。已有多份报告明确表明,化学信息学界目前正面临这种情况,特别是对人工智能方法(例如深度神经网络)在应用于基于结构的配体设计时的实际结论过于乐观的报道。

该研究中创建了LIT-PCBA作为新一代虚拟筛选基准数据库,专门设计用于揭示计算方法在虚拟筛选中真正的潜力。该数据库中活性和非活性化合物都有明确的定义。重要的是,仔细检查元数据可以消除化验伪影、频繁命中和误报。这个数据库带来的特殊挑战将使我们能够更清楚地利用基于结构的虚拟筛选场景中的现代人工智能方法。

LIT-PCBA数据库可在http://drugdesign.unistra.fr/LIT-PCBA免费访问。

 

参考文献

Tran-Nguyen V K, Jacquemard C, Rognan D. LIT-PCBA: An unbiased dataset for machine learning and virtual screening[J]. Journal of Chemical Information and Modeling, 2020. DOI:10.1021/acs.jcim.0c00155

X