中大唯信·唯信计算

金属蛋白复合物基准测试数据集

在基于结构的药物设计研究领域，分子对接程序发挥了非常重要的作用。目前，已有超过70个对接程序可供使用。针对具体的研究体系，如何合理的选择适合的对接程序是每个研究人员都要面临的问题。金属蛋白几乎占到了人类蛋白质组的一半。Emel Timuçin课题组从PDBbind（2017）中获得了含213个蛋白-配体复合物的非冗余金属蛋白数据集(图1)。然后针对7个可以免费获得的对接程序，在打分 (scoring)、排序(ranking)，结合模式预测(posing)和筛选四方面对分子对接能力进行了比较评估。

图1. 金属蛋白数据集构建。（A）以蛋白只含有一个金属，配体参与金属配位（小于4Å）来精制PDBbind(2017)数据集获得了710个金属蛋白-配体复合物（左），然后进行聚类剔除冗余数据（右）。（B）非冗余的210个金属蛋白根据分子功能进行PANTHER分类的结果

图片来源JCIM

七个对接程序的性能测试

研究人员首先对七个对接程序的打分和排序能力进行了分析，如表1所示，这7种对接程序的打分和排序能力都很差。具体地，当根据金属类型分类分析时可发现，Vina（r = 0.59），QVina（r = 0.57）和LeDock（r = 0.46）的对接打分与含Ca蛋白子集的亲和力数据有较好的正相关，而ADZn的打分对Zn蛋白子集的亲和力数据有较好的相关性（表1），但没有一个程序能够成功地对Mg2+和Mn2+子集进行打分或排序。紧接着，他们还专门针对同一蛋白与不同配体结合的情况进行了打分和排序能力评估，测试用的数据集由217个碳酸酐酶组成。在这一数据集下，ADZn和LeDock，具有最好的打分能力（0.61和0.59），而AutoDock则是表现最差的程序。但这样的测试数据集只含一种锌蛋白，有明显的偏向性，笔者认为不具有太大参考价值。

图2. 7个对接程序打分和排序性能比较

图片来源JCIM

结合模式预测能力(即posing power)是指分子对接程序找到天然结合模式(即native state, 晶体结构中的状态)的能力，一般用预测结构与晶体结构三维结构重叠后计算RMSD值是否小于2Å来判断。如图3所示，研究人员中从最佳打分（以打分排序）和最佳姿势（以RMSD从小到大排序）两个方面来评价该能力。基于最佳打分来评价时（图3A），PLANTS和LeDock在所有对接程序中脱颖而出，对接结果中最低能（打分最高）构象有51%能与晶体结构吻合。其次是Vina和QVina，预测准确度分别为43％和40％， AutoDock和ADzn则表现最差仅有20%左右正确玄。而基于最佳结合模式来评价时（图3B），除Dock6外其它各类方法整体精度都或多或少有所提高。PLANTS（80%）和LeDock（77%）仍然是表现最好的两个程序。而无论采用最低能量还是RMSD方法来评价，AutoDock（48％）和ADZn（46％）的结合模式预测能力都是最差的。

图3. 七个对接程序的结合模式预测能力。（A）最佳打分（最低能量）和（B）最佳结合模式（最低RMSD）的累积曲线。RMSD≤2Å认定为正确的预测

图片来源JCIM

图4. 7个对接程序筛选性能比较

图片来源JCIM

随后研究人员通过分析对于活性配体和非活性（诱饵，decoy）配体的各分子对接软件的区分能力来评估筛选能力。如表4汇总了ROC曲线下面积（AUC）和富集因子（enrichment factors, EF）的平均值，整体而言，针对每种金属蛋白都是PLANTS的AUC值最高。

总结

Emel Timuçin课题组的研究人员选取了7个免费学术分子对接软件，针对一个非冗余金属蛋白数据集(213个金属蛋白)，从打分、排序，结合模式预测和筛选能力四个方面进行了全面的比较评估，研究人员最终提出了对于金属蛋白分子对接软件选用的一些见解。但是值得注意的是，配体参与金属配位的对接是一个极为复杂的问题。不同的金属，配位情况又有很大差异，比如锌离子存在4，5，6配位的可能，而大多金属配位结构都存在水分子参与配位的问题。文章中配体原子与金属例子以小于4Å作为配位依据是很粗糙的，测试数据集中可能会引入根本不配位的情况。另一方面，仅从RMSD是否小于2来判断预测的结合模式是否一致，通过距离金属距离最近的三个原子是否和晶体中相同来判断配位是否一致，这样做法用于判断金属离子的配位其可行性是存在明显不足的。所以笔者认为，本文得到的结果有一定的参考价值，但是需要谨慎对待。不过考虑到目前对于小分子配体参与金属配位的分子对接预测算法发展仍然处于初级阶段，既没有统一的测试集，又没有成熟的评价方法，而原本针对非金属蛋白的评价方法可供选择但显然是不够的。相信，随着广大科研人员的不懈努力，未来该领域有更多新成果出来。

参考文献：

Süleyman Selim Çınaroğlu and Emel Timuçin, Comparative Assessment of 7 Docking Programs on a Non-Redundant Metalloprotein Subset of the PDBbind Refined. 2019, ASAP, https://doi.org/10.1021/acs.jcim.9b00346

实时关注公司行业最新动态

JCIM | 金属蛋白分子对接程序哪家强？七种对接程序的基准测试