中大唯信·唯信计算

腺相关病毒(AAV)载体作为一种首选的基因传递载体，在一些临床适应症中使治疗性基因得以表达。佛罗里达大学Zolotukhin教授的一篇观点类文章详细介绍了AAV衣壳工程的最新趋势，利用定向进化、序列分析和机器学习等技术可以开发新的衣壳突变体，以提高其靶向特异性、安全性和耐用度。

我们已有多模型基因传递载体了吗？

重组AAV（rAAV）载体已被证明在几种遗传疾病中具有积极的治疗效果，但rAAV载体由天然血清型构建，缺乏细胞、组织以及器官靶向特异性，容易被患者预先存在的免疫中和。研究人员为了改善这些缺点，通过天然分离、合理设计、组合衣壳突变或其组合，获得了新一代的载体。但是发现或设计新衣壳在技术上具有一定的挑战性，产生的临床转化载体很少。本文为研究人员提供有关衣壳工程趋势的最新动态，特别是与计算方法有关的促进具有优化特性的新型衣壳突变设计。

基于结构的衣壳工程

截止文章撰写时，AAV血清型（分配到所有抗原分支）的衣壳结构已经确定，剩余的AAV7、11、12和13也被添加到数据库中。这些血清型的加入使得来自所有已建立分支的AAV血清型衣壳的结构图谱和3D文库变得完整，这是结构生物学界的一项重大成就。也使得基于结构的衣壳项目成为可能，这些项目从众所周知的AAV2“主力”及其硫酸肝素受体开始。本文介绍了受体足迹模块化的概念提出及其发展的过程，该概念在结构导向的正交方法中得到进一步的测试，可进化新的衣壳，躲避预先存在的抗AAV中和抗体(NAbs)，而不影响效力、转导效率或组织向性。

图1. 野生型AAV9的3D模型。图片来源：Trends Mol Med.

衣壳突起的突出通过利用其表面暴露loop环的灵活性，特别是可变区（VR）-IV和VR-VIII（图1），以最合理的方式被使用。随着想象力的不断发展，科研人员使用所有野生型AAV血清型作为支架以及基因工程嵌合衣壳生成了大量的组合肽展示库。这种方法产生了一些非常有效的衣壳突变体，如靶向光感受器的AAV2-7m8，靶向神经元的AAV-PHP.B，靶向骨骼肌、心脏和隔膜AAVMYO或MyOAAV。后三种突变体使用AAV9支架进行设计，其本身就是一个相当有效的衣壳。

组合肽展示虽然成功，但对缓解预先存在的AAV免疫没有什么作用，这是临床应用的一个主要问题。暴露在衣壳表面的肽插入物引入了一个新的表位，但在野生型AAV框架上存在的表位在结构上不会有太大的不同。例如，无论是AAV9VR-VIII中的PHP.B插入还是S肽插入，都不会影响VR-VIII之外的衣壳蛋白结构，包括空间上相邻的VR-IV。此外，这些抗原表位似乎在许多血清型中保守。可以考虑首先获得逃避中和抗体的衣壳（NAb-evading capsid），然后用先前确定的靶向肽装饰它。然而，这一概念有待于实验验证，因为肽与靶向部分的相互作用显然依赖于衣壳框架。

衣壳工程由功能的映射决定因素决定

作者随后简要介绍了AAV载体设计相关的受体去重靶向性和转导效率。以AAV2血清型及其主要的聚糖受体硫酸肝素蛋白聚糖(HSPG)为例，简述了受体去重靶向的历史。AAV在突变的过程中可能会导致HSPG的高亲和力，而如何降低HSPG亲和力的同时不干扰衣壳使用HSPG进入细胞的能力，是需要解决的一大问题。在最近出现的新型人工智能算法如RoseTTAFold，AlphaFold和AlphaFolf-Multimer的加持下，通过计算设计衣壳来靶向特定的受体成为可能。

另外，与活细胞中的任何其他过程一样，来自VP1、VP2和VP3单体的AAV衣壳的组装是随机的，由于离子的二十面体对称性，预计约有10¹²种独特的衣壳配置。三个单体的化学计量比“最优”值为1：1：10，适当的增加VP1和VP2的比例可以增加转导效率，一旦VP1：VP2：VP3比率太远离“最优”值，病毒的产量会急剧下降。

衣壳设计的计算方法

1. “singletons”序列和祖先序列重建

细小病毒，特别是Dependoparvoviruses属（该属成员含AVVs），感染了动物数千万年，由于相对较高的突变率，它们进化出具有不同同源程度的血清型的大量分支。所有这些野生型AAV分离株都提供了宝贵的氨基酸(AA)序列数据集，可用于计算分析，以确定对其各自的药理、免疫学和分子特性所必需的残基。例如，一些对自然发生的AAV衣壳分离物的研究确定了衣壳位置的某些可变残基，而这些残基在许多其他血清型中是保守的。这些残基被称为“singletons”，Singletons为衣壳的适应度提供了结构上的见解，并为反向遗传学实验提供了一个工具。

图2. 如何重建祖先序列。图片来源：Free Radical Biology and Medicine.

有假设指出，在AAV衣壳上存在一个或多个singletons残基会对载体的生产和/或基因转移效率产生负面影响。当singletons被恢复到默认保守残基，由此产生的衣壳提高了它们的产量和体外转导率。在这些对自然现存AAV分离株的原始研究的逻辑扩展中，两组研究者使用祖先序列重建(ASR)算法在计算中预测了假定的祖先AAV衣壳单体的AA序列。采用相似的方法，但将各自的ASR算法引导到不同的现存AAV分离株集，一组创建了一个2¹¹排列的概率序列空间，另一组创建了一个明显更复杂的文库，理论多样性为2.5×10¹¹。前者允许研究人员小批量合成、筛选和分析候选先导物，然后单独分析，而后者只能将文库作为一个单一的池进行筛选。

研究中的一个突变体(Anc80L65)形成了优秀的衣壳，具有更高的热稳定性(比AAV2和AAV8高15°C-30°C的热稳定)和中等产量(与AAV2相当)。在脑实质内注射，甚至静脉注射后，该突变体在靶向肝脏、肌肉、视网膜、内耳毛细胞、肾间充质细胞和中枢神经系统方面非常有效。

基于此，得出几条经验教训：1. AAV进化迅速，形成病毒准种（也称为突变群或突变云），并通过获得singletons来适应物种、特定的宿主、组织，甚至细胞类型；2. 已知的野生型衣壳分离物的池显然只是可能作为训练数据集的一小部分；3. 分析算法和输入参数的选择与序列数据集一样重要。这就是为什么机器学习(ML)等创新的计算方法能为未来的衣壳工程打开新大门的原因。

2. 机器学习

对衣壳工程的探索仍未转化为临床相关的适应症。最近出现的新的分子和计算工具可能提供了开发自定义向量的替代方法——ML——与组合优化的原理携手并进(即，从有限的对象集（衣壳池）中找到满足特定用户定义目标的最优对象（衣壳）)。

一般来说，在突变衣壳基因中有两种经常重叠的方法：系统（无监督）和靶向（监督）。系统方法在AAV2衣壳的所有735个位置上以综合系统的方式引入单一的AA残基替换和插入。由于这种系统突变的结果，在计算中发现了另一种AAV编码蛋白，从而使总数达到9个。它是一种新的+1移框ORF（开放阅读框），位于AAV VP1/VP2基因中，被称为“膜相关辅助蛋白”(MAAP，AAV2帽位置27-147)。这一发现来自于一种智能诱变方案，目的是通过比较在替代阅读框中终止密码子存在或不存在时同义帽突变体之间观察到的适应度差异。MAAPs似乎也被其他血清型编码，通过细胞外囊泡关联途径促进病毒运出。

靶向诱变方法可以彻底改变一个有限的序列或表面暴露的VRs的一个子集。后者显然来源于关于表面VRs的相对可塑性的实验数据，但很少考虑过拟合的ML概念。但随后使用支持向量机算法或浅层人工神经网络对数据集进行分析，能够预测未知的衣壳变体是否可能组装成可行的病毒样结构。

为了使ML模型有用，一个训练数据集必须包含一个相当数量的匹配突变体。生成它们的一种方法是使用一个叠合模型，通过评估每个突变位置，计算创建一个到目标的安全“路径”，在多个突变体的短时间内评估附近突变的适应度。另一种提高训练集适应度的方法是通过对装配突变体进行逐步组装和生物选择，一次进行一个超突变的VR。

图3. 机器学习引导的 AAV 衣壳设计优于随机诱变。图片来源：Science.

一旦生成了训练数据集，就必须在最适合该数据集的模型类别中识别出特定的概率ML模型。对于AAV衣壳适应度预测，几种模型架构被同时进行比较：逻辑回归(LR)模型、卷积神经网络(CNNs)、递归神经网络(RNNs)和变分自编码器，以及主成分分析的统计方法。通过测试所有模型的所有数据集组合发现所有模型都检测到了与野生型框架显著不同的可行序列变异。然而，CNN和RNN的设计策略在深度多样化的所有精度水平和所有数据集上都比LR更成功。此外，在所有模型中，包含更多的训练数据并不能保证更好的模型性能。

对于ML算法训练数据集，并不是所有的组合库都是相同的。例如，在VR-VIII的顶端有一个短AA序列的肽显示，由于其对整体结构的影响有限，因此无法推导出整个衣壳适应度的有用预测算法。一个基于其他3D结构特征扰动的更多样化的数据集将会更重要。因此，组合文库包含了多个位置的暴露在外以及隐藏在内部的突变，这些应该对于3D建模更有用，可以识别上位性残基和衣壳的交错。

3. 技术局限

基于计算设计的局限性主要在于组合库的复杂性和衣壳的产量。

组合库的复杂性是ML算法的新突变体和数据集的主要来源。由于文库通常首先构建在细菌质粒主链上，主要的瓶颈与细菌的转化效率有关。可以通过切换到另一个替代连续酶反应的体外方案，累积产生一个封闭式双链AAV基因组和多达10¹⁰个变异的复杂性，可以突破该上限。

病毒衣壳的产量的限制则是转染方案和用于病毒包装的HEK293细胞的数量。问题并不在于AAV组合衣壳库的技术限制，而是达到高度复杂性的实用性，因为即使在10⁹，所有突变体的深度序列覆盖仍然是一个无法实现的目标。即使建立了这样一个复杂的库，由于目前的测序限制，它的纯粹卷积也不会为ML训练提供信息。初始ML训练必须遵循一个逐步的方法，首先组装可行的衣壳和各自的数据集，导出ML算法，然后应用于一个包含更高比例的可行衣壳的新库，用于抗体躲避筛选。

结论

最近涉及重组AAV介导的基因传递的临床试验的成功和缺陷突出了该载体的安全性和有效性的重要性。现在科学界的普遍共识是，天然分离株不会在人类患者中达到安全、有效和持久的GT的所有要求，因为显然它们没有进化到被用作传递治疗基因的载体。当多个期望的属性被合并到一个衣壳中时，不可避免地，每个属性都最终成为最佳和价值之间的权衡，只要它们的总体性能通过了选择标准，这是衣壳工程的挑战。

参考文献

Zolotukhin S, Vandenberghe LH. AAV capsid design: A Goldilocks challenge. Trends Mol Med. 2022 Mar;28(3):183-193. doi: 10.1016/j.molmed.2022.01.003. Epub 2022 Jan 29. PMID: 35093287.

实时关注公司行业最新动态

Trends Mol Med. | AAV衣壳设计：一个恰到好处的挑战