JCIM | 六种共价对接软件的基准测试

前言

在过去的二十年中,靶向共价抑制的研究备受关注,以加强药物的发现和设计,使得共价对接方法的发展也激增。共价抑制剂的典型特征是配体的亲电部分(弹头)和蛋白受体上的亲核残基(主要是半胱氨酸)之间形成化学键。共价抑制剂的反应类型有迈克尔加成、亲核加成,亲核取代反应,开环反应,二硫化物的形成等。由于半胱氨酸靶向共价抑制剂(包括FDA批准的药物)的大量存在, György M. Keseru课题组从Protein Data Bank(1995-2018)中获得了54个靶标的207个半胱氨酸结合的高分辨(≤2.5Å)共价复合物的蛋白数据集,包含了七种反应机制(图1)。并比较了六种共价对接程序AutoDock4, CovDock, FITTED, GOLD,ICM-Pro和MOE,重现这些共价复合物中配体的晶体模式的准确率,同时探究了影响对接性能的关键因素。

 图1. 对接数据集中配体的亲电部分(弹头)的分布

图片来源JCIM

六个对接程序的性能测评

共价对接方法首先以预测207个共价配合物中的实验结合模式(晶体结构中的状态)进行评估,预测精度用配体重原子的预测结构与晶体结构RMSD值表示,目前文献中的评判标准是RMSD<2 A。作者选择了最高得分(Top1)和前十名得分复合物(Top10)的RMSD来分析对接结果(图2)。以RMSD=2.0Å作为成功预测的标准,以Top1的结果可以看到,ICM-Pro以最高的成功率(62% )重现了实验结合模式;当以top10的结果时,ICM-Pro的成功率可以达到88% 

图2. 预测实验结合模式的成功率。明亮的颜色指最佳评分(Top1)对接构象中的成功率;较浅的颜色指打分top10的成功率

图片来源JCIM

为了确定对接工具可能存在的评分和采样误差,作者对结果进行了更详细的分析。打分误差(scoring error)代表最接近晶体配体的构象的打分却不是最高,抽样误差(sampling error)表示top10得分中不能重现晶体构象。表1中展示了六种共价对接程序的结果。ICM-Pro (≈26%)和FITTED(≈25%)的误差主要来源于打分误差,其他几种程序的错误率主要来源于采样误差,尤其是MOE。

表1. 六种共价对接程序的top1结合模式的误差分析

表格来源JCIM

图3展示了打分误差和采样误差的复合物结合模型例子, ICM-Pro对2YJ2复合物的评分误差是对结合模式中非共价相互作用的不准确评估造成的,预测的Top1对接模式缺少弹头邻位酰胺基形成的氢键作用,因此与实验姿态产生了较大的偏差(12.6Å)。GOLD对酪氨酸激酶复合物5P9K的采样误差是没有采集到与铰链区形成氢键作用的配体构象,这种误差可以通过配体过滤器进行避免,比如定义抑制剂的结合机制要与铰链区形成氢键作用,以确保只有ATP竞争构象。

 

图3. 打分误差(左)和采样误差(右)的复合物结合模型例子。晶体中配体显示为紫色,Top1对接构象为橙色,Top10的对接构象为绿色

图片来源JCIM

影响对接性能的因素

接下来,作者进一步分析了配体和靶标对共价对接工具性能的影响。在配体方面,首先是配体的弹头类型的影响(图4)。ICM-Pro和CovDock在Michael additions方面显示了最佳性能(71%、68%),是目前针对Michael受体库虚拟筛选的方法。当涉及醛基、酮基和腈基弹头的亲核加成时,除了MOE,其他方法都成功地重现了50%以上的晶体结合模式;并且ICM-Pro和FITTED在醛基上的成功率最高(67%),GOLD在酮类上的成功率更好(58%),而AutoDock4在腈基上的成功率最高(62%),这些发现可以指导不同共价反应机制选择合适的工具。另外,增加配体的大小和柔性通常会降低预测的成功率。 

图4.不同的共价结合类型的对接结果分布。表明括号内每种反应类型的复合物数量

图片来源JCIM

增加目标半胱氨酸的溶剂可及表面积(SASA)有助于改进结合模式预测,一般大于30 Å2便可提高到70%的准确率。另一方面,活性位点的体积也会影响对接的成功率,当口袋体积大于300 Å2时候,六种对接程序的成功率都得到了提高,并且ICM-Pro的成功率与口袋的体积呈现一种线性关系(图5)。接下来,作者又研究了蛋白质靶点对共价对接工具预测精度的影响,分析同一组蛋白质的Top1结果揭示了对接程序的靶标特异性,有助于找到对感兴趣的靶标进行虚拟筛选的合适工具。通过对蛋白质家族的研究,除MOE不超过30%的成功率外,其他对接程序的重现率都可以达到50%左右,其中,ICM-Pro能准确地预测激酶的共价结合模式(90%)

图5. 蛋白质描述符对共价对接性能的影响:(a)反应性半胱氨酸的溶剂可及表面积(SASA)对Top1成功率的影响(b)结合位点体积与Top1中的成功率

图片来源JCIM

总结

本文比较了六种共价对接程序重现207个共价配合物中的实验结合模式(晶体结构中的状态)进行评估,对接结果都是使用的默认参数获得的,预测精度用配体重原子的预测结构与晶体结构RMSD值表示,采用的评判标准是RMSD<2 Å。考虑打分top10的配体结合模式,ICM Pro可以达到90%,除了MOE的准确率在50%左右,其他四个对接程序AutoDock4、CovDock、FITTED和GOLD都处于65%-75%。

进一步对结果分析,总结了影响对接程序预测精度的关键因素有以下几点:

Ø 迈克尔加成、亲电加成和亲核取代反应比开环和二硫化物形成反应更能重现配体的实验模式;

Ø 增加配体大小和柔韧性通常不利于共价对接;增加非共价药效团数量可以提高FITTED和ICM-Pro的预测精确度;

Ø 增加目标半胱氨酸的可及性和活性口袋的体积也有助于提高结合模式预测的精确度;

Ø 不同对接程序对蛋白靶点也有特异性,因此建议首选依赖于靶点的对接工具,比如ICM-Pro能以90%的准确率预测激酶的共价结合模式;

Ø 配体在形成共价键前后的构象变化也是需要考虑的重要方面,如果对接程序可以在反应后进行构象取样,可以更好地预测结构修饰比较大的配体。

 

总的来说,笔者个人的想法是目前并没有100%准确的共价对接程序,所以要针对感兴趣的蛋白靶点,用目前准确度相对较高的几种程序进行综合评测,选择最合适的。

 

参考文献:

 Scarpino, A., Ferenczy, G. G., & Keserű, G. M. (2018). Comparative evaluation of covalent docking tools. Journal of chemical information and modeling, 58(7), 1441-1458.