中大唯信·唯信计算

文章简介

药物发现中的虚拟高通量筛选（vHTS）是一种识别苗头化合物的有效方法，它可以比实验性高通量筛选方法更快，更便宜。但是，主流的vHTS工具一般都有较大的局限性，这主要源于基于配体的筛选方法依赖于现有化学物质的知识和经验，而基于结构筛选的工具（例如分子对接）涉及很大的近似值，从而限制了它们的准确性。随着计算方法的发展以及GPU的计算处理的显著提速，采用更严格的方法来提高vHTS方法的预测能力的成为可能。在本文中，我们认为使用基于全原子分子动力学模拟的炼金术结合自由能计算方法已经发展到可以在虚拟筛选工作中应用的水平，其主要可以在最终打分阶段优先选择最佳分子进行实验测试。具体来说，我们提出炼金术绝对结合自由能（ABFE）计算在严格的统计热力学框架内为虚拟筛选所需的各种分子的结合能的计算提供了最直接、计算效率最高的方法。ABFE计算对于当前的药物发现十分有用，尤其是现在大规模基因组学数据和化学生物学方法的融合揭示了许多有希望的但还没有小分子药物发现的疾病靶标，而这恰恰是包括基于配体的筛选方法以及传统的对接方法目前所不能真正发挥作用的地方。

背景介绍

高通量筛选（HTS）是大型制药公司用于寻找靶标潜在苗头化合物的传统方法，历经数十年来，已经积累了数百万种化合物。尽管如此，HTS仍然非常昂贵且耗时，并且对具有挑战性的靶标（例如KRAS，MYC，STING，PPI等）的命中化合物也很少，这是因为现有的化合物库更多的是围绕相对传统的靶标（例如激酶，蛋白酶和GPCR等）且可能不包含任何与感兴趣的靶标结合的分子。

近年来，虚拟高通量筛选（vHTS）通过计算筛选分子库来发现苗头化合物，其命中率显著高于随机筛选。当配体和结构信息同时存在时，可以组合使用多种方法以产生更好的结果。目前已经提出了许多改进对接打分方法的方法，例如MM/GBSA，其中添加了对接方法中缺少的一些能量项（如使用隐式溶剂模型处理水或包括有限的蛋白质动力学），但其在对接后重新打分上的准确性尚无定论，在某些情况下可以改善结果，而在其他情况下则不会。

本文提出炼金术自由能方法是最严格的用于预测结合自由能的全原子方法，计算效率最高，因此十分适合用于虚拟筛选。严格的结合自由能方法说明了对结合的主要能量贡献，包括水（显式表示），蛋白质动力学和系统的熵，以及更常用的能量项如蛋白质-配体相互作用和配体张力。此外，由于模拟的无偏性和考虑到蛋白质的灵活性质以及避免了基于配体的方法所需的参考配体，基于物理的严格的自由能方法比其他方法具有更多的优势。尽管在本文撰写之时对数百万个分子进行严格的炼金术模拟尚不切实际，但在数以千计的分子上进行模拟是可行的，这可以为最终购买的用于实验测试的分子的挑选带来十分有益的参考。即使在将数十亿个类药物分子的超大型化合物库对接以采样广阔的化学空间的情况下，也可以通过结合自由能模拟计算来评估最高打分结果，并以更高的打分质量来提高传统的虚拟筛选的工作效率。图1中显示了一个分层的虚拟筛选漏斗，其中引入了绝对结合自由能（ABFE）模拟作为最终计算阶段，然后才人工选择要购买的化合物并进行实验测试。

图1 引入ABFE计算的虚拟筛选过程

图片源自JCIM.

分子结合的热力学过程

在讨论虚拟筛选方法之前，我们先简要介绍生物分子识别（例如蛋白质-配体结合）背后的热力学，这对于理解各种vHTS方法的优劣势至关重要。在图2中，我们展示了蛋白质-配体结合的特定热力学分解。初始状态是一种蛋白质和配体在水溶液中分离的状态，类似于未结合配体的实际情况。配体存在于一组构象中（每个构象自由能的玻尔兹曼加权），并且由于侧链和其他热力学可及的运动，蛋白质同样表现出运动。该蛋白质首先采用适合于所讨论的特定配体的诱导契合构象（A），而该配体仍在溶液中（B）采取生物活性构象。接下来，以与结合过程（C和D）一致的方式使蛋白质和配体脱溶剂。最后，去溶剂化配体的生物活性构象与去溶剂化蛋白质的诱导契合构象一起形成蛋白质-配体复合物（E）。在此过程中，我们可以确定结合自由能的重要组成部分，包括构型熵的变化，蛋白质和配体的高能张力，水从配体和蛋白质表面转移到本体溶剂中相关的去溶剂化能，以及蛋白质和配体之间的非键（焓）相互作用。

图2 蛋白质-配体结合过程的热力学分解

图片源自JCIM.

传统虚拟筛选方法

传统的虚拟筛选方法可大致分为“基于配体的”和“基于结构的”两种。其中前者包括基于一种或多种已知结合分子通过化学指纹、形状、形状加静电、药效团特征或可以与机器学习算法一起使用的其他表示形式。后一种方法（基于结构）主要由对接方法决定，该方法首先要生成可能的配体构象，然后在与蛋白质结合时评估这些配体结合模式的对接得分（即“采样和打分”）。即使对接算法可以提供足够准确的结合模式来表明复合物的所有关键相互作用（氢键，盐桥，疏水相互作用，诱导契合效应等），也仍然存在从静态表示中估算配体-蛋白质复合物能量不够准确的事实，并且不准确的程度将随着蛋白质柔性的提高而增加。例如，对接方法通常忽略了图2中的箭头A和C，当靶标蛋白是刚性的并且具有被所有配体均等去溶剂化的掩埋结合位点时，这可以是一个合理的近似值。但是，此类情况只是例外，而不是常规。另一方面所有这些打分函数都在许多方面受到图2所示项的不正确描述的困扰：1.去溶剂化（配体和蛋白质）；2.熵罚（配体，蛋白质和水）；3. 构象张力（配体和蛋白质）。最后，基于知识的打分函数通过使用机器学习直接从训练数据中进行学习，从而避免了由力场和经验打分函数的固定功能形式带来的限制。因此，基于知识的打分函数可以隐式捕获难以明确建模的分子间结合相互作用。此前已经报道了许多基于知识的打分函数的实现，包括ML方法，例如随机森林（RF），支持向量机（SVM），深度神经网络（DNN）和卷积神经网络（CNN）。

严格的结合自由能方法

虽然使用严格的自由能方法尚无法筛选数百万种化合物，但如今在已经有了虚拟筛选背景下这些方法可以作为很好的补充，并且随着计算资源的不断提高以及计算成本的不断下降，可以使用严格的自由能方法处理的化合物的数量将继续增长。下面，我们将讨论相对结合自由能（RBFE）的计算方法，因为它是药物发现应用中最常用的炼金术自由能方法，即使RBFE计算不完全适用于虚拟筛选，因为它取决于分子之间的共性。而在虚拟筛选库中，通常不存在这种共性，因为筛选的分子是多样的。因此，对于虚拟筛选，ABFE计算更直接适用，并且我们认为ABFE是vHTS速度和准确性方面的最佳方法。

RBFE计算。1980年代中期，如McCammon和Jorgensen的实验室首次证明的那样，分子动力学和蒙特卡洛方法以及计算机的发展使将Zwanzig方程应用到实际系统成为可能。Zwanzig方程可用于蛋白质-配体结合的封闭热力学循环，如图3所示。常用的RBFE计算方法如FEP和TI，并且目前已经取得了不错的计算精度和速度，具体的方法原理和发展过程可以参见此前文章“自由能方法及应用（三）炼金术自由能计算方法在药物发现中的历史”。

图3 用于RBFE计算的封闭热力学循环

图片源自JCIM

绝对结合自由能计算。在图4中，我们可以看到绝对结合亲和力的计算是相对自由能计算的一种特殊情况，其中第二个配体其实并不存在。这些计算取决于自由能循环，类似于上面的图3中所示，但是被突变的配体（L’）替换为“nothing”（配体不再与系统相互作用）。ABFE方法具有与RBFE方法截然不同的扰动，并具有其自身的难点和特殊考虑。例如，“端点灾难”由于较大的扰动而特别明显，并且可能涉及溶剂分子进入结合腔。与蛋白质侧链重组相比，水扩散的过程可能较慢（纳秒与数百皮秒），因此，ABFE通常需要比RBFE更长的模拟时间才能获得良好的准确性。幸运的是，用于虚拟筛选的将结合分子与非结合分子区分开所需的准确性低于典型的hit-to-lead和先导化合物优化工作，在这种情况下，对分子进行小的化学修饰通常会导致能量变化小于1千卡/摩尔，这抵消了ABFE相对于RBFE的一些其他计算要求。从药物设计的角度来看，RBFE和ABFE代表了两个截然不同的适用范围。当接近化学准确性（例如1 kcal/mol）对于做出正确的预测至关重要时（如分子A是否比分子B具有更好的结合亲和力，其中B代表对A的微小修饰），RBFE更适合于hit-to-lead和先导化合物的优化工作，而对于虚拟筛选，ABFE准确性仅需要足以将结合分子与非结合分子分离即可。

图4 用于ABFE计算的封闭热力学循环

图片源自JCIM.

严格的结合自由能方法的局限性

严格的结合自由能方法最主要的误差来源是低质量力场和采样不足。系统的所有组件都需要高质量的力场参数，以确保获得可靠和准确的结果，包括蛋白质，溶剂，配体分子和其他辅助因子。其他局限性还包括模拟的设置，例如，通常在自由能模拟期间不对系统拓扑进行采样，因此在整个模拟过程中将持续存在不正确的状态（例如互变异构体和质子化状态）。最后，从vHTS的全面角度看，最重要的是，高质量自由能的计算取决于结合位点（以及任何金属，辅因子和其他生物学相关分子）中受体和配体结合模式的合适起始模型。在虚拟筛选的情况下，结合的配体结构必须来自分子对接或相关方法，这些方法具有上述对接部分所述的所有限制。此外，在严格的自由能计算的背景下，蛋白质-配体复合物中相互作用的数量越多，计算结果的误差也会线性增加。

总结

尽管有许多严格的结合自由能方法可以用于虚拟筛选，但我们建议，炼金术ABFE方法最适合vHTS，因为其包含了计算结合能的所有相关物理原理，同时避免了昂贵且具有挑战性的计算结合/解结合路径。可以肯定的是，在vHTS工作流程中应用ABFE涉及许多挑战，主要包括正确准备体系，优化模拟方案，采用增强的采样方法，自动生成高质量的配体力场参数以及自动化在许多配体上运行ABFE模拟的过程。但是，这些问题可以通过适当的努力和专业知识来解决。随着计算资源的不断增加和计算成本的下降，严格的自由能计算方法将对虚拟筛选更具吸引力，最终将成为该领域的首选方法。

参考文献

Rigorous Free Energy Simulations in Virtual Screening.Zoe Cournia, Bryce K. Allen, Thijs Beuming, David A. Pearlman, Brian K. Radak, and Woody Sherman. J. Chem. Inf. Model. 2020, 60, 4153−4169. DOI: 10.1021/acs.jcim.0c00116

实时关注公司行业最新动态

JCIM | 算力大增的时代考虑绝对自由能计算提高虚拟筛选准确率