中大唯信·唯信计算

虽然神经网络在许多分子建模和结构特性预测任务中表现优秀，但难以泛化到域外样本。本文利用证据性的深度学习来量化不确定性。证明了不确定性度量能够用来校准预测、引导主动学习进行有效训练、在虚拟筛选活动中提高实验命中率。

背景介绍

尽管神经网络在QSAR 建模中应用越来越多，但是对域外样本的预测缺乏稳健性。文献中对样本预测的不确定计算方法主要是从模型不确定性和固有噪声的数据不确定性两个角度展开的。然而，这些方法需要随机采样来计算潜在不确定性函数的近似值，往往计算量大且成本高。

作者开发了证据性深度学习作为不确定性度量方法，用于分子结构-性质预测（图 1）。这个方法无需采样，直接学习认知不确定性表示。它将学习看做证据获取过程，从新的训练示例来参数化网络似然函数的概率分布。证据性神经网络通过修改训练损失函数可以实现与特定领域架构的紧密集成。

图1. 证据性深度学习用于分子性质预测与药物研发。图片来源于ACS Cent. Sci.

模型原理

证据性深度学习扩展了学习概率分布参数的思想，预测原始似然参数本身的高阶分布。模型通过直接学习原始似然参数来估计不确定性。假设一个成对训练样本的回归数据集，预测目标服从高斯分布，在网络模型中通常假设似然参数是确定和固定的，因此在训练期间优化模型可以直接预测这些值。作为这种方法的扩展，证据模型假设这些参数是未知的，必须用概率估计。这是通过在似然参数上预设先验来实现的，这样平均值 μ 取自高斯分布，而方差 σ² 取自反Inverse-Gamma分布，由此产生的高阶分布（也称为证据分布）因此可以由正态逆伽玛分布 p(θ|m) 表示。这种证据分布由四个参数 m = {γ, λ, α, β} 指定。对于连续目标，证据模型直接学习这些参数 m，这些参数 m 反过来在似然参数 {μ, σ² } 之上定义完整分布，从而捕获模型预测中的不确定性（图 2A，B）。因此，该模型为每个目标输出四个值，对应于 m 的四个参数，并使用多目标损失进行训练，该损失旨在共同最大化模型拟合，同时最小化证据错误（图 2C）。

图2. 建立并训练一个证据性模型的流程。图片来源于ACS Cent. Sci.

不确定性的基准

作者证明了证据性学习算法可以在分子和原子性质预测任务中产生所需的不确定及评估了预测的不确定性是否根据错误进行了正确排序。我们将证据性的方法集成到D-MPNN神经网络中，并评估了模型在小样本数据集中对溶解度（Delaney）、溶剂化能(Freesolv)、亲脂性（Lipo）和原子化能 (QM7)的表现（图 3A）。证据性学习算法在对错误的不确定性进行排序的能力方面表现良好（表 1）。当仅考虑四个数据集中的三个数据集的前 5% 的确定性预测时，证据方法在所有测试方法中实现了最低的测试误差。在 Delaney 和 QM7 数据集上，证据模型返回的误差远低于 50% 置信度临界值的第二个最佳执行方法（图 3B、C）。QM7 的显著改进与之前的观察结果一致，即单个神经网络模型比 QM7上置信度最高的百分位数中的集成更准确。不过，在小样本中，跨数据集的性能存在一些差异。在亲脂性数据集上，在 0.25 及以下预测回归的不确定性截断百分位数下计算的 RMSE 高于（更差）基于 dropout 的采样方法，显示在选择最准确预测的测试集分子方面没有优势超过 dropout（表 1）。

表1. 模型在不同的置信百分位数临界值的误差。图片来源于ACS Cent. Sci.

在大数据集上，我们比较了证据性2D MPNN模型在QM9数据集和配体对接数据集上的表现（图 3D）。对于大于 50% 的所有置信百分位截断值，证据回归预测的误差都低于基于集成和 dropout 的方法，这表明作为置信度函数的误差下降幅度更大（图 3E，表 1）。

图3. 分子性质预测的不确定性基准表现。图片来源于ACS Cent. Sci.

作者通过在 3D 分子构象异构体上运行 SchNetPack 软件，将证据回归损失函数集成到神经网络中实现（图 3D）。虽然在没有截止计算的情况下集成模型预测更准确（表 1），但证据性的模型更好地刻画了样本的预测偏差（图 3F）。当仅考虑 95% 置信百分位数的预测时，证据方法优于集成方法（图 3F，表 1）。这些结果证明了证据回归在实现跨数据集和分子表示的良好排序的不确定性估计方面的前景。

研究者还探索了证据学习在分子特性预测中的校准特性。为了量化校准精度计算了观察到的校准曲线和奇偶校验线（完美校准）之间的面积，用于评估数据集中的每个 λ 值。对于除 QM7 之外的所有小样本数据集，存在一个 λ 值，在该值处，证据回归比集合基线更校准（图 4C）。λ 值默认为0.2。

图4. 证据性不确定性计算的参数调整。图片来源于ACS Cent. Sci.

模型应用场景：主动学习及贝叶斯优化

在证实了证据性深度学习能合理度量预测任务的偏差后，作者利用该不确定性来指导模型训练。

首先使用 QM9 数据集进行主动学习实验。以随机 15% 的训练样本做初始子集，模型从库中迭代选择样本，重复 6 次。在每个步骤中，对未选择的样本评估不确定性。选取最不确定的 k 个样本添加到训练集中，随后使用新数据集重新训练模型，然后在测试集测试（图 5A）。对于所有验证集上的结果，随机样本选择作为不确定性算法的基线。结果发现基于证据不确定性的主动学习表现与完整训练数据相当，但数据减少了 60% 以上（图 5B）。此外，与dropout相比，该方法提高了数据效率。模型集成相对随机选择改进最大，但是这需要巨大的计算成本。相比之下，证据学习凭借单模型就获取了更高的训练效率，效果与集成方法相当（图 5C）。

图5. 证据性模型与贝叶斯优化。图片来源于ACS Cent. Sci.

接着研究者尝试使用证据性的方法度量贝叶斯优化参数的不确定性，期望快速发现具有目标特性的分子。作者使用含有5万个分子的对接数据集来尝试从少数的对接中来识别最佳配体。主动学习迭代地从随机的 1% 子集开始，根据给定的不确定性为置信上限采集新样本。同时使用 D-MPNN 作为替代模型，预测对接分数和不确定性。结果发现相比随机方法，三种不确定的方法均产生了明显的改进。证据性方法在探索了不到2万个分子后，从 5万个分子中发现了500 个最佳对接分子中的一半以上（图 5D）。证据性方法采样的分子与其10 个最近的训练集样本之间的平均距离显著增加，探索的样本更具多样性（图 5E）。

证据性深度学习加速新药高通量筛选

作者还在一个抗生素的虚拟筛选中，基于置信度和预测活性来过滤筛选库并确定用作抗生素药物的优先级。

团队开发了一个虚拟筛选中不确定性引导的优先级框架（图 6A）。使用含标签的较大数据集来训练证据模型，然后用一个小型无标记的数据集预测分子特性和不确定性。根据预测结果对候选分子按其相关属性排序，然后根据最大预测置信度进一步过滤。

考虑到抗生素发现中的问题，作者用OD600 表征药物的体外生长抑制程度。在数据集上训练具有证据损失和预测数值的 D-MPNN，模型在验证集上的准确性如图 6B所示。而后将验证集的分子与训练集的分子可视化以对比估计的证据不确定性（图 6C）。在较高证据不确定性的区域，训练集的样本较少。

然后利用证据不确定性，对高可信度的候选抗生素排序，确定具有高实验命中率的分子集并根据预测的抗生素活性对分子排序。该分析表明，使用基于置信度的过滤和证据不确定性来增强网络预测可以提高实验命中率（图 6D）。增加置信百分位数丰富了实验命中的候选集，从原始过滤的 78% 的命中率到使用证据方法进行置信过滤后的 95% 以上（图 6D）。

图6. 不确定性指导虚拟筛选中的新药推荐

总结

本文介绍了一种可扩展、高效且易于使用的不确定性量化方法，用于化学和物理科学中的分子特性预测。证据性深度学习算法可以并入常见的网络架构中，用于模型训练可以促进不确定性感知神经模型的稳健性，具有可扩展性和效率优势。

参考文献

Ava P. Soleimany, Alexander Amini, Samuel Goldman, Daniela Rus, Sangeeta N. Bhatia, and Connor W. Coley, Evidential Deep Learning for Guided Molecular Property Prediction and Discovery, ACS Central Science, 2021, 7, 8, 1356-1367.

实时关注公司行业最新动态

ACS Cent. Sci. | 证据性深度学习指导分子性质预测