中大唯信·唯信计算

内容简介

在过去的十年里，冷冻电子显微镜，简称冷冻电镜（cryo-EM）已经成为结构生物学中一项非常有价值的技术(图1)。由于仪器、样品制备和图像处理软件的最新发展，cryo-EM现在已经达到原子级别的分辨率（当分辨率足够高，便可以对蛋白质中大多数原子的独特位置进行结构建模）。目前的发展进程很快，在EMDB数据库，2019年期间1818张分辨率高于15Å的单粒子电镜图中，61%和86%在分辨率上分别优于4Å和6Å，到目前为止，过去几年的单粒子电镜图中有45%的分辨率超过5Å，冷冻电镜结构解析的最高分辨率是1.54Å的载脂蛋白（EMD9865）。随着可用cryo-EM数据集的数量迅速增加，大家可能会想到计算模拟是否会带来什么？本文的重要观点便是计算模拟方法可以补充cryo-EM数据提供的大量信息。传统上，模拟方法是被用来获得与密度图匹配的结构。在这里，作者强调了一些新的应用，以扩展这一方向。

图1. cryo-EM技术解析蛋白结构

图片来源于：Curr Opin Struct Biol

Cryo-EM除了是一种测定PDB结构的强大技术外，还有其他用途。由于实验只能获得单分子性质，而生物大分子通常具有内禀的柔性，其动态结构变化一直是结构生物学的研究重点之一。冷冻电镜的优势在于可以捕捉生物分子在溶液中的形态，并记录下不同构象下的投影。这些特征可以直接从原始数据中获得，即从冷冻在一层薄冰中的生物大分子电镜图像中提取结构信息。目前最常见的做法是在不同的构象状态下得到多个三维（3D）密度图，进一步根据这些图建立不同的原子模型，并且从重建后的粒子数量中可以获得有关它们相对种群的一些信息。

“构象图像”和“单一结构”之间的差距可采用集成建模（ensemble modeling）的手段弥补，计算的进步将在这一新方向上发挥关键作用。虽然图像分类技术通常能够在二维类平均图上区分不同的构象状态，但体系的高动态部分有时甚至很难用集中分类方法来识别。因此，cryo-EM的低分辨率区域可能隐藏多个不同但可建模的构象，其密度在处理原始数据时已取平均值。这些区域呈现连续动态的情况尤其具有挑战性，生物体结构中高柔性部分往往对特定的生物功能至关重要，如短环或其他无序区域，单靠cryo-EM很难解决。在这些情况下，将单个结构或多个独立精化模型生成密度图的传统建模方法可能没有帮助，因为它们可能无法真实地表示体系的结构如何变化。

近年来，人们提出了几种不同的计算方法来确定与实验数据的统计平均值相一致的构象集合体。这些方法通常与溶液实验结合使用，例如核磁共振（NMR）谱或小角度X射线散射，在分子动力学（MD）模拟过程中提高力场的质量，或者在实验中优化先前使用MD或其他建模技术生成的集成。这些方法现在可以扩展到从cryo-EM密度图中生成结构集。

Metainference是一种基于贝叶斯概率框架确定结构集的方法，用于将噪声、集合平均、实验数据集成到MD模拟中。这是一个很好的方法来描述图谱中的构象异质性，这种构象异质性阻碍了进一步的3D分类，最近ClpP蛋白酶的门控区域动力学（图2）和乙酰化对α-微管蛋白影响的研究表明了这一点。在MD模拟中的分子力学力场精确地描述了不同的生物环境及其与大分子的相互作用，当大分子和其他更小的组分（脂类、离子、溶剂、配体等）在原子密度图中可见时，将cryo-EM数据与MD结合的一体化方法，提供了一个新的机会，其可以更准确地描述它们之间的相互作用。尽管这些方法比基于Real-space refinement构建原子模型技术付出更高的计算成本，但它们可以提供蛋白质与其环境相互作用的重要信息。

图2. ClpP蛋白酶的门控区域构象变化

图片来源于PNAS

随着冷冻电镜分辨率的提高，体系中越来越多之前未报道的微小组分趋于明显，如有序水分子、脂质和离子。用于单结构优化的软件通常不提供或是简化生物体系周围环境的物理化学模型，例如，可溶性蛋白质通常在三维密度图中使用能量函数进行模型精修，能量函数只描述基本的立体化学性质，而不描述周围环境，既不使用隐式水模型，也不使用显式水模型。即使对于使用更精确的分子力学力场（如metainference）的集成建模方法，对有序水和脂质密度的建模仍然具有挑战性，需要进一步的方法学发展。

集成建模方法面临的主要挑战之一是如何区分数据中的构象异质性和噪声，这两个原因都可能导致低分辨率区域的存在。为了克服这阻碍，需要一种能够同时考虑结构异质性和噪声的建模方法，以及能够（单独）很好地描述体系动力学的结构先验和对实验误差的精确估计。

新的方法不再依赖于3D密度图，而是使用原始的2D粒子堆栈，这些粒子堆栈可以在EMPIAR公共数据库中找到。值得注意的例子是流形嵌入、BioEM、和变分自编码器，这些方法的主要优点在任何聚类或平均过程之前使用原始数据，因此充分体现了cryo-EM实验的单分子性质。目前，这一领域的方法发展受限于EMPIAR数据库中原始数据存入的间断进行。这些方法大多受到单个粒子低信噪比的限制，随着探测器的不断发展，信噪比将得到及时缓解。

计算模拟还可以提供cryo-EM实验的几个方面的信息，这些方面需要将结果与溶液、室温综合联系起来。例如，多尺度方法可以研究颗粒如何与空气-水界面相互作用，也可用来确定玻璃化过程对产生的分子集的有效“温度”。

在数据收集之前，样品在室温下的溶液中制备，然后迅速冷却至低温。冻结的时间尺度还不完全清楚，可能需要数百微秒到几毫秒。在这个时间尺度上，数量稀少的“激发”态相对于稳定态更容易受到影响。在更局部的尺度上，卷曲和环结构（rotamers、loops）通常在微秒尺度上具有高度的灵活性，因此它们在冷冻期间可能有时间进行结构重组。因此，cryo-EM单颗粒图像所代表的构象可能与室温下的生物大分子结构有所差异。

研究这些效应的一个潜在方法是非平衡态MD，通过模拟从溶液中提取的一组初始构象的冻结过程，可以用平衡态MD在300k的室温下模拟到低温下模拟到低温集成，这样的模拟可以突出冷冻电镜图和室温集合体之间的潜在差异。最近的实验已经开始通过在冷冻和玻璃化过程之前，将样品在不同温度下孵育来解决这些问题，将为分子模拟提供有用的比较点。

尽管EMDB数据库中冷冻电镜图的数量正在迅速增加，但大部分可用数据仍处于中低分辨率。旨在结合不同类型实验的综合建模方法，提供了一种很好的方法补充这种分辨率范围内cryo-EM电磁数据的缺少的信息，从而确定更准确和精确的结构模型。cryo-EM与NMR数据结合的一个最新例子，从4.1Å分辨率电镜图开始，将468kDa氨基肽酶TET2的结构测定到<1Å的精度,在该分辨率下，仅使用cryo-EM数据很难追踪主链并分配序列，但通过结合以NMR数据模建的二级结构，就有可能确定精确的模型。使用一体化的集成建模方法（图3），将cryo-EM数据与其他实验相结合，以获得更精确的蛋白质构象集成。例如，可以结合NMR的数据来改进生物体系中高度灵活部分的特征，而这些部分通常在cryo-EM聚类和重构过程中取平均。

图3.拟合和优化cryo-EM密度图中的原子模型

图片来源于：Curr Opin Struct Biol

如何平衡不同类型实验数据所提供的信息，是单结构集成方法面临的主要挑战。在这些方面，贝叶斯统计是一个有效的框架，可以用来结合体系所有可用的信息来源，即实验数据或物理化学知识，基于准确性和信息内容对它们进行加权。

总之，虽然我们正处于爆炸性的cryo-EM数据中，但计算建模和分子模拟在未来仍然可以发挥重要作用。这些方法必将为结构生物学的许多领域提供重要的贡献，从改进蛋白质构象集成的描述到阐明冷冻对生物体系行为的影响，准确地描述复杂的物理化学环境，以及将cryo-EM与其他类型的实验数据结合起来。

参考文献：

Fraser J S, Lindorff-Larsen K, Bonomi M. What Will Computational Modeling Approaches Have to Say in the Era of Atomistic Cryo-EM Data? J. Chem. Inf. Model. (2020) DOI: 10.1021/acs. jcim.0c00123

实时关注公司行业最新动态

JCIM | 计算模拟遇上冷冻电镜