中大唯信·唯信计算

Nat. Comput. Sci. | 打通蛋白结构预测最后一公里：深度图神经网络有效加速蛋白模型优化

背景介绍

高精度的蛋白质结构预测，有助于从分子水平上理解生物过程。在过去的几年中，由于深度卷积残差网络(ResNet)以及最近在AlphaFold2中实现的注意力网络的引入，蛋白质结构预测有了很大的进展。然而，相当大比例预测的蛋白质结构模型仍然偏离其真实结构，从而限制了它们在下游应用中的价值。为了进一步提高模型质量，人们在开发模型优化方法方面进行了大量的工作，主要目标是将初始模型进一步优化，生成更高质量的新模型。然而，这是一个非常具有挑战性的任务，因为较差模型的空间比较好模型的空间大得多。许多CASP参与者提交的优化后模型的质量反而比他们的初始模型要差。

典型的模型优化方法，包括侧链重装、能量最小化和约束结构抽样。由于能量函数通常很难优化，如果没有大规模的构象抽样，模型质量可能无法得到提升。目前，最成功的优化方法是通过分子动力学(MD)模拟或片段组装进行大规模构象采样，例如，Feig等人采用平底谐波约束迭代MD模拟采样构象，利用Rosetta评分函数选取样本模型的子集，取平均值，建立最终的优化模型；Baker组采用局部误差估计方法，通过片段组装的方法指导构象采样，并通过重新组合二次结构片段和替换扭转角的方法迭代优化模型，利用Rosetta评分函数确定最后一次迭代的最低能量模型，然后与构象邻域进行平均，建立最终的优化模型；由Seok组开发的GalaxyRefine2采用多种构象搜索策略，模型误差估计可以约束采样空间，防止稳定结构区域的退化；DeepAccNet使用3D和2D卷积网络来估计残差精度和残差间隔距离误差，然后将其转换为罗塞塔约束来指导构象采样。尽管这些方法在某些蛋白质上表现良好，但它们依赖于广泛的构象采样，因此，即使是单个蛋白质模型也需要大量的计算资源。

目前，优化蛋白质模型以获得更好的模型质量是极具挑战性的工作。而最成功的优化方法，依赖于广泛的构象采样，因此，优化一个蛋白质模型通常需要几个小时，几天，甚至更长的时间。为此，来自美国芝加哥丰田计算技术研究所的许锦波教授等研究者，提出了一种快速有效的方法，可以在非常有限的构象采样的情况下优化蛋白质模型。该方法采用GNN(图神经网络)从初始模型预测优化的原子间距离概率分布，然后以预测的距离为约束条件重建模型。相关的研究成果以“Fast and Effective Protein Model Refinement by Deep Graph Neural Networks”为题发布在国际著名期刊Nature Computational Science上。

方法概述

研究者提出了一种新的模型优化方法——GNNRefine，它可以快速提高模型质量，而不需要大量的构象采样。GNNRefine的流程图，主要包括以下三个步骤：

(1) 将初始模型表示为图，从初始模型中提取原子、残差和几何特征；

(2) 利用图神经网络(GNN)预测图中每条边的优化距离；

(3) 将预测的距离概率转化为距离势能函数，并将其输入到PyRosetta FastRelax中，通过侧链组装和能量最小化产生优化模型。

GNNRefine主要由三个模块组成：原子嵌入层、多个消息传递层和输出层。原子嵌入层用于学习一个残基的原子级结构信息，所得到的原子嵌入与其他残基特征相连接，形成残基的最终特征。蛋白质图建立在残基特征(节点)和残基对之间的键或接触特征(边)上。通过多个消息传递层迭代更新节点和边缘特征，获取全局结构信息。最后，利用一个线性层和一个softmax函数从边缘特征预测距离概率分布。(图1)

将预测的距离概率转换为距离势能，然后将距离势能输入到PyRosetta FastRelax中，建立优化模型。在CASP13数据集上测试，当使用10个cpu运行FastRelax(生成50个优化模型)时，研究者的方法平均只需要15分钟来优化一个蛋白质模型。相比之下，Baker组的DeepAccNet需要在50个cpu上工作超过10个小时，才能优化一个有120个残基的蛋白质模型。

优化目标性能

在此，研究者将上述方法与CASP13优化类别中的两个领先的人工组(FEIGLAB和BAKER)以及5个服务器组(Seok-server、Bhattacharya-Server、YASARA、MUFold_server和3DCNN)进行了比较。评估的第一个提交的模型的质量，如表1所示；图2为ΔGDT-HA分布的箱线图。即使仅为每个初始模型生成5个优化模型，GNNRefine也具有与这两个人工组相当的性能，并且在质量改进方面优于所有5个服务器组。此外，研究者的方法只生成4个较初始模型质量稍差的优化模型，但所有其他方法包括两个人工组，都产生了许多更差的优化模型。因此，使用GNNRefine来优化模型是非常安全的。(表1和图2)

同时，研究者也在37个CASP14优化目标上测试了该方法，并也将其与两个人工组(FEIG和BAKER)以及四个服务器组(FEIG-S、Seok-server、Bhattacharya-Server和MUFold_server)进行了比较。表2总结了相关性能，图3给出了ΔGDT-HA分布的箱线图。总的来说，在CASP14的优化目标上，GNNRefine比FEIG的方法略差，与BAKER的方法相当，但优于其他方法。同时GNNRefine产生了最少的更差的优化模型。(表2和图3)

GNNRefine成功地大幅度优化了5个CASP测试模型(3个CASP13模型和2个CASP14模型)的质量，把它们的GDT-HA分数提高最少10个点。图4显示了4个已经有公开实验结构的模型，表明该方法可以在不同的二次结构区域(螺旋、片和线圈)优化初始模型。(图4)

GNNRefine优于现有的独立软件

研究者还将GNNRefine方法与一些公开可用的软件，如GalaxyRefine和ModRefiner进行了比较。GalaxyRefine采用默认配置在本地运行。ModRefiner在[0,100]中有一个可配置的参数强度，来控制从初始模型中提取的约束的强度，强度0表示没有约束，而强度100表示初始模型的约束非常严格，研究者采用了三个不同的强度值(0, 50, 100)运行ModRefiner。作为对比，研究者也不使用GNNRefine预测的距离约束来运行PyRosetta FastRelax。表3显示了在CASP13测试模型上三种方法的性能和运行时间，从所有指标来看，GNNRefine优于其他方法。(表3)

GNNRefine距离预测改善的原因

研究者从top L接触精度和lDDT两方面评估了GNNRefine预测的距离。对于每个残差对，将8Å以下距离的预测概率求和为预测接触概率。根据其各自递增的Cβ-Cβ欧几里德距离来选择初始模型中的top L接触残差对。为了计算GNNRefine预测的距离的lDDT，对于每个残差对，研究者使用预测概率最高的区间的中间点作为其距离的预测。与此同时，研究者只考虑预测距离小于20Å的Cβ-Cβ对。从表4可以看出，GNNRefine预测的距离在接触精度和lDDT方面都优于启动模型。(表4)

GNN在模型细化方面优于ResNet

卷积残差神经网络(ResNet)，已经广泛应用于蛋白质接触和距离预测。Baker组开发了一种基于ResNet的DeepAccNet方法用于模型的优化。为了在有限的构象采样条件下测试DeepAccNet的性能，研究者将DeepAccNet生成的距离势能输入到PyRosetta FastRelax中，使用与GNNRefine完全相同的方法建立优化模型。此外，研究者还开发了一个内部的ResNet模型(包含41个2D卷积层)来预测与初始模型的距离，并测试其预测的距离是否可以用于优化模型。为公平地比较这三种方法，在实验中研究者只使用了一个GNNRefine模型来进行细化。

对于每种方法，研究者从每个初始模型中生成10个优化模型，并选择能量最低的模型作为最终的优化模型。表5显示，GNN方法大大优于研究者内部开发的ResNet方法，而ResNet又优于DeepAccNet。也就是说，DeepAccNet在不使用广泛的构象采样时无法优化模型，但GNN方法是有效的。(表5)

GNN比ResNet在模型优化方面工作得更好的根本原因是GNN比ResNet更容易建模多个残基的相关性。大多数蛋白质的半径与它们长度的立方根成正比，所以任何两个在一级序列上完全分开的残基都可以在蛋白质图中，通过比蛋白质长度立方根短的路径连接起来。因此，ResNet更适合于初步预测残基间关系，而GNN更适合于进一步优化残基间关系。

消融研究

为评估单个因素对GNNRefine的贡献，研究者评估了如表6中不同数据和不同特征训练的GNNRefine模型。结果表明，大的训练数据、残差方向和DSSP衍生的特征是三个最重要的因素，而总体上原子嵌入并不能提供有用的信息。(表6)

图表汇总

图 1. 用于蛋白质模型优化的GNNRefine方法。图片来源于Nat. Comput. Sci.

表1. CASP13优化目标上的性能。表格来源于Nat. Comput. Sci.

图2. ΔGDT-HA值在CASP13优化目标上分布的Box图。图片来源于Nat. Comput. Sci.

表2. 所有CASP14优化目标上的性能。表格来源于Nat. Comput. Sci.

图3. ΔGDT-HA值在CASP14优化靶点上分布的Box图。图片来源于Nat. Comput. Sci.

图4. GNNRefine对CASP13的R0974s1、R0976-D2和R0993s2以及CASP14的R1082目标的成功优化范例。图片来源于Nat. Comput. Sci.

表3. 在CASP13优化目标上独立软件的性能。表格来源于Nat. Comput. Sci.

表4. 预测距离与初始模型中距离的比较。表格来源于Nat. Comput. Sci.

表5. 基于GNN和ResNet的方法在CASP13优化目标上的性能。表格来源于Nat. Comput. Sci.

表6. 对不同特征和训练数据的GNN在CASP13优化目标上的性能研究。表格来源于Nat. Comput. Sci.

结论总结

本文作者提出了一种新的蛋白质模型优化方法GNNRefine。GNNRefine利用图神经网络(GNN)从初始模型预测残差距离分布，然后将预测的距离信息输入PyRosetta FastRelax建立优化模型。由于只使用有限的构象抽样，GNNRefine可以非常快速地改进模型。研究表明，即使从一个初始模型中生成5个优化模型(约耗时15分钟)，GNNRefine也可以提高模型质量，几乎和生成50个优化模型一样好，而且GNNRefine可以比一些使用广泛的构象抽样的方法更好。此外，当构象采样受限时，GNNRefine在蛋白质模型优化方面比ResNet好得多，因为GNN可以比ResNet更好地预测初始模型优化后的距离。

数据下载

In-house data: http://raptorx.uchicago.edu/download/

DeepAccNet data: https://github.com/hiranumn/DeepAccNet

CASP13 and CASP14 models for refinement: https://predictioncenter.org/

CAMEO models: https://www.cameo3d.org/modeling/

参考文献

Xiaoyang Jing, Jinbo Xu, Fast and Effective Protein Model Refinement Using Deep Graph Neural Networks, Nature Computational Science, 2021, ASAP. DOI: 10.1038/s43588-021-00098-9.