Nature Computational Science | 量子计算生物学的实际应用

Nature Computational Science | 量子计算生物学的实际应用

引言

生物学的许多领域,都涉及到解决复杂的计算问题,如模拟化学反应、基因组组装、药物发现、蛋白质折叠等。尽管计算生物学领域取得了巨大的进步,但许多现实生活中的问题,仍然具有挑战性,因为它们需要大量的计算资源,超出了现有设备的能力。然而,这为开发一个基于完全不同的原理,即量子物理定律的计算设备,提供了机会。例如,在量子物理学中,一个物体可能同时处于多种状态,这种现象被称为量子叠加。在计算的语言中,量子叠加意味着比特(在这种情况下,称为量子比特或量子位)可以同时是0和1,这种“并行”的计算过程。描述N个量子位元的量子状态,通常需要大量的信息,按指数尺度按2N扩展。在如此大的计算空间中操纵概率振幅的艺术是开发量子算法的核心,人们希望量子算法在解决许多不同的任务时提供显著优势。

今天,科学界和工业界都在大力开发量子计算机,因为他们坚信量子计算机,有能力解决世界上最困难(计算)的问题。最近,量子优势已经被证明可用于随机电路模拟问题,这是一个在生成认证随机数方面,具有潜在应用前景的具体问题。另一个最近的论证与玻色子采样问题有关。讨论了玻色子取样在化学和数学中的应用。众多领域有望用于,证明量子优势之所在。其中之一便是生命科学,它正在与大量繁重的计算作斗争。由于更精确地模拟生物物体的化学和物理过程,以及用于预测和数据处理的新算法,从基因组学到药物发现,量子计算的潜在改进有望实现。这对于量子生物系统来说是特别有趣的,因为量子现象的解释对于足够的描述是必要的,例如,酶催化反应和光收集等。Emani等人,对量子计算在计算分子生物学中的应用前景进行了详细的回顾,从量子计算的基本方面出发,为现有的噪声中尺度量子(NISQ)器件和未来的量子计算机发生器的应用提供了广阔的前景。这篇综述中,研究者论了量子计算对计算生物学、遗传学和生物信息学的潜在影响,简要回顾了量子计算,并重点讨论了几个潜在应用的具体例子。

量子计算构架

量子处理器单元(QPUs),可认为是计算设备中额外的协处理器,可增强经典处理器单元(CPUs)的现有加速器,例如,现场可编程门阵列和图形处理单元(GPUs)。因此,可通过使用QPUs,来解决那些基于经典原理的设备无法解决的问题。

1.1 基于门的(数字)量子计算机

基于门的QPU体系结构(也称为数字模型)在概念上看起来,与现有的经典计算设备的体系结构相似。量子信息的单位是量子位。经典位元的值可以是0或1,而量子位元可以是两种经典态的线性叠加。基于量子门的量子计算机的思想是,在量子位下,实现量子算法作为逻辑操作序列的量子门。然而,与经典比特不同的是,一个由N个0和1组成的字符串就足以描述N个比特的状态,而一个由N个(纠缠)量子位组成的物理系统需要2N个复数。另一个不同之处在于,量子算法的实现以测量为终点,这导致了不可逆的干扰。为了实现量子算法,人们必须能够准备初始量子态,实现量子逻辑门的通用集合,实现系统状态的测量。

理想情况下,基于门的量子计算机的计算能力是通过量子位的数量来衡量的。然而,在现实中,量子位元的状态受到噪声(由退相干效应引起)的影响,这限制了量子位元操作的数量和质量。退相干会导致错误,例如位反转和相位反转。由于不克隆定理的存在,开发量子纠错码具有挑战性。

目前这一代基于门架构的量子计算设备,属于NISQ的时代(见图1),所以它们有大约50-100个量子位,没有纠错工具。这些设备已经解决了超出现有经典计算设备能力的计算任务。然而,它们在解决有用的计算问题上,仍然没有表现出优势。

最终的目标是开发一种容错量子计算机(FTQC),可通过实现有效的纠错技术,或者通过创建不受退相干影响的量子位(例如,拓扑保护的量子位)。FTQCs承载没有生命周期限制的量子位,所有操作都可以在没有错误的情况下执行。这个目标就是量子计算的圣杯。

1.2 绝热量子计算机

另一类重要的QPU设备是绝热量子计算机。其思路是编码一个感兴趣的问题,比如想要最小化的目标函数,在量子系统的设备中,使该函数被系统的哈密顿量描述。从一些构型开始进化,这些构型在它的基态中准备,然后进化到编码这个问题的哈密顿量。量子力学的绝热定理保证,如果一个系统被制备成哈密顿量的基态,并且这个哈密顿量变化得足够慢,系统将始终保持其瞬时基态。因此,通过测量系统在最终状态下的配置,研究者可以得到问题的解,从而使优化问题得到解决。

Nature Computational Science | 量子计算生物学的实际应用

图1. 量子计算机的硬件架构

图片来源于Proc. Natl. Acad. Sci. U. S. A., 2017, 114, 7555-7560.

1.3 量子退火

一个相关的计算协议被称为量子退火。量子退火算法属于元启发式工具,适用于求解二元优化问题。量子退火器件,可用来解决二次无约束二进制优化(QUBO)问题,其中每个量子位代表一个变量,量子位之间的耦合器代表与量子位对相关的成本。由于计算生物学中的许多问题,都可以表述为寻找复杂高维函数的全局最小值,量子退火可以被认为是一个有前途的工具。

1.4 类和可编程量子模拟器

类量子模拟器(见图2概念图)的理念,是建立一个量子装置来模拟系统的行为。这种模拟器,更适合在定性层面上研究量子物理现象。最近,模拟量子模拟器也被认为是解决化学问题的工具。可以预期,模拟量子模拟器的应用领域,将会得到扩展。一些可编程的量子模拟器,能够在不同的机制(模拟量子模拟,基于门和绝热量子计算)之间切换,已经被用于,诸如优化等实际任务中。 

Nature Computational Science | 量子计算生物学的实际应用

图2. 类量子模拟器概念图

图片来源于Nature, 2019, 574, 215-218.

量子算法

量子计算机,可以解决各种各样的任务。然而,定义和检测量子加速是微妙的,因为这个概念依赖于经典算法和量子算法的比较。在许多情况下,最佳算法是未知的。例外的是,量子搜寻算法已被证明是,搜索问题中可能的最佳二次加速。

2.1 因式分解和离散对数

肖尔量子算法,是一个著名的量子算法的例子,在解决整数分解问题和离散对数问题时,量子算法提供了一个显著的加速,超过最著名的经典算法(但可能不是最好的经典算法)。该量子算法可用于,目前已部署的公钥密码算法的密码分析。同时,肖尔算法中使用的量子算法子例程,如量子傅里叶变换,也可以作为其他量子算法的子例程。

2.2 搜索

Grover的搜索算法,在查询的N种可能中,找到一个特定的单个输出,这是最优的。Grover算法本身就很有趣,它也是计算生物学中更复杂数据处理算法的一个子程序,比如关于蛋白质序列比较和先进的量子机器学习算法的早期建议。

2.3 模拟

量子计算机,可以通过编程来模拟局部量子系统。这意味着,被研究的量子力学对象(例如,一个分子)的状态和动力学,可以被编码在量子位和一系列量子门中。与此同时,人们普遍认为(但严格地说,还没有得到证实),经典计算机不能精确地有效地模拟量子系统。这就是为什么量子计算机,有希望精确模拟与生物相关的化学系统和过程。

2.4 数据分析

数据分析,也是一个可以利用量子计算的领域。现有的方法,包括求解线性方程和微分方程的量子算法,这是数据处理算法的子程序。哈罗·哈西姆·劳埃德量子算法,可以比任何现有算法,以指数速度解决某些线性系统。这些算法被认为,在计算生物学的数值模型和更复杂算法的子程序中都很有用,例如,在机器学习中(见下文)。

2.5 优化

量子计算机,也被认为是解决复杂优化问题的工具。与此同时,量子计算机在优化问题上的加速,还没有被证明。量子优化的工具,包括解决QUBO/Ising问题的量子退火协议和使用基于门模型的量子近似优化算法(QAOA),可以使用NISQ设备进行测试。

2.6 机器学习

增强机器学习方法的量子技术日益受到关注,这与几个启发式论据有关:(1)量子系统产生的概率分布,被认为是很难用经典工具取样的;(2)量子系统在指数大的计算空间中运行;(3)大多数经典的机器学习算法都涉及大量的线性代数计算,而量子处理器可以加速这些计算。这些计算包括执行傅里叶变换,计算向量内积,寻找矩阵特征值和特征向量,以及求解线性方程组等,然而,仍然存在一些挑战,特别是在输入/输出中读取的成本。此外,量子优化的设备,也可以用于从经典吉布斯分布采样,这导致在经典马尔可夫链上的几个例子的加速。

量子计算生物学

在这里,研究者描述了一组代表性的,涉及量子计算在生命科学中的使用的研究方向。早期的协议,包括将量子算法直接应用于各种生物任务,特别是用Grover算法解决蛋白质序列比较问题。在生物学中使用量子计算的想法,已经发展了近几十年,从问题和量子算法的观点来解决它们。

3.1 生物化学和生物物理

生物学的研究要求,在分子水平上对生物系统进行准确的表征,并对生物化学反应进行研究。这些量子化学问题可以用量子计算机潜在地解决,而传统的计算技术无法解决这些问题。

生物化学研究生物大分子(如蛋白质、核酸、碳水化合物和脂类)和小分子(如氨基酸和核苷酸)的结构、功能和相互作用。活细胞的生物学特性,也取决于小分子和离子的反应。酶活性位点的化学,构成了生物世界中一些最复杂的多参考量子化学问题。同样,模拟合成多相催化剂的作用机理仍然是一个挑战。

现有的NISQ设备可以用于量子化学,例如,使用变分量子特征解算器(VQE),它由于其适度的要求而受到了极大的关注。然而,在NISQ时代解决量子化学问题,受到硬件(量子位的数量和量子门实现的质量)和算法实现(如选择一个良好的初始配置,或ansatz, VQE)的限制。量子计算能力的提高,对于准确理解化学性质至关重要,从而能够研究某些系统的非绝热效应。这些作用,在DNA突变和许多酶的作用机制中,都很重要。

质子耦合电子转移,是一类重要的生物物理过程。从高精度的多分量量子方法到复杂的嵌入方案,再到先进的基于密度泛函理论(DFT-based)的方法,以及经典方法都在这一领域做出了重要的贡献。同时,量子化学问题如质子耦合电子转移,超出了NISQ设备的能力。进一步的发展可能来自使用相位估计算法,然而,这需要FTQC设备。

另一个问题,是理解固氮酶的固氮作用(见图3)。利用近乎理想的量子计算机和资源,解决酶化学问题是可能的,这使得人们可以对108个自旋轨道中54个电子的活性空间,进行完整的构型相互作用计算。Reiher等人,已经提出了一个具体的指南和相应的量子电路来进行这种计算,这需要接近FTQC时代。最新的研究是,Lee等人的方法表明,在假定1 μs的循环时间和物理门错误率不低于0.1%的情况下,使用大约400万个物理量子位元,可以在4天的运行时间内模拟FeMoco。

Nature Computational Science | 量子计算生物学的实际应用

图3. 来自巴斯德氏梭菌的氮酶MoFe蛋白的X射线晶体结构4WES

图片来源于Proc. Natl. Acad. Sci. U. S. A., 2017, 114, 7555-7560.

进一步的步骤,是研究各种复杂的生物物理过程,如光收集。需要在光的存在下,解决量子化学问题来揭示光化学过程。这类天然共轭系统的一些突出例子包括植物的光收集复合体中的类胡萝卜素和叶绿素色素,以及与视觉相关的视紫红质系统。这些问题与计算量子化学传统上具有挑战性的方面有关,如计算电子结构,寻找基态和激发态的势能面,以及研究环境对光谱的影响。然而,随着量子效应作用的增加和/或尺度的增加,人们可以预期,在量子系统复杂性指数增长的情况下,经典算法将面临精确求解的计算困难。

3.2 蛋白质折叠

计算生物学中最著名和最困难的问题之一,是预测给定氨基酸序列的三维蛋白质结构(见图4)。这一问题的解决方案将会有广泛的应用,比如理解细胞的组成部分,使药物发现更快、更先进。值得一提的是,为了使蛋白质折叠问题与现有的量子计算机兼容,它已经被重新表述为晶格问题。晶格蛋白质折叠,可以被模拟为一个组合优化问题,它等价于找到相应的伊辛哈密顿量的基态。利用现有的设备,基于量子退火的蛋白质折叠算法,只能应用于小规模问题。然而,这种方法似乎对下一代量子退火机很有希望。这个问题的互补方法,包括基于门的量子计算机上的QAOA。因此,虽然解决晶格蛋白质折叠问题的现有量子算法不能直接适用于原始的生物学问题,但人们希望获得一些关于量子计算设备适用性的有趣见解。更接近原始的蛋白质折叠生物学问题陈述,在Rosetta能量函数和共形体采样中,正在进行一些关于旋转体采样的量子算法的研究。

Nature Computational Science | 量子计算生物学的实际应用

图4. 现代物理模型计算的一些小蛋白质的折叠结构

图片来源于Science, 2012, 338, 1042-1046.

3.3 转录因子-DNA结合

一个生物学相关的问题,可能是感兴趣的量子计算,是DNA中转录因子结合位点的鉴定。转录因子是基因表达调控的重要组成部分,但其在DNA分子中识别其功能结合位点,从而激活或抑制靶基因转录的机制尚不完全清楚。利用量子退火器件,解决了一个由单核苷酸序列特征组成的模型,该模型在分类性能上略有优势,对于相当小的训练数据集的排序性能几乎相同。这种方法是基于量子退火和机器学习相结合的方法,它允许人们根据结合亲和力对候选位点进行排序。该算法是在实际结合亲和实验中,得到的少量DNA序列简化数据集上,进行训练的。并与模拟退火、模拟量子退火、多元线性回归、套索和极端梯度增强等经典方法,进行了比较。此外,更强大的量子设备,将允许人们在更大的尺度上解决这个问题。

3.4 DNA从头组装

高效和经济的计算解决方案,对于基因组装问题是必要的,以受益于不断增长的能力的测序机器。这个领域的一个特殊问题是在没有参考的情况下重建基因组,这被称为从头组装(见图5)。由于基因融合和基因组重排是导致恶性肿瘤的常见原因,从头组装目前可用于转录组和癌症分析。重新装配的问题可以归结为找到一个哈密顿循环,即到图的每一个节点只运行一次并在起始节点结束的路径,包括装配中的每一个读取节点。在NP-完备集中,没有已知的有效算法可以找到哈密顿循环。

最近的研究表明,只要这个问题,能重新表述为QUBO问题,人们就可以用量子退火来解决它。特别是,量子增强基因组装配已被应用于一个关于噬菌体的ϕX 174的问题(利用量子退火和经典量子退火)。这一领域的进一步发展,需要克服现有量子硬件在大小和操作质量上的局限性。基于门的量子计算机,也可以应用于这个问题。特别地,Grover搜索作为近似匹配的子程序,也可以用于基因组学的错误读取和对DNA序列量子编码的多个解决方案的分布式搜索。在使用量子计算机改进基因组分析算法方面,这两个方向都有望取得进一步进展。

Nature Computational Science | 量子计算生物学的实际应用

图5. 使用量子退火器和量子启发算法解决从头基因组组装问题

图片来源于https://arxiv.org/abs/2004.05078 (Preprint, 2021)

Nature Computational Science | 量子计算生物学的实际应用

表1. 量子计算在计算生物学中的应用,以及NISQ和FTQC设备对一系列生物学相关问题的预期影响

展望与结论

量子计算设备有潜力解决计算生物学中出现的各种问题(表1)。由于现有能力的限制,各种类型的量子设备,如数字量子计算机和量子退火器,可能被用于原型量子算法和解决计算问题在适度规模。然而,在量子化学或结构生物学中,解决现实的生物问题需要量子硬件,而量子硬件目前还不具备。

值得注意的是,量子算法与不断改进的经典方法竞争。因此,最好的选择可能是找到经典方法和量子方法之间的协同作用,量子算法将加速深深扎根于系统量子本质的部分问题。量子计算设备在计算生物学中的一些可能的应用,来自于量子计算与机器学习的结合。该领域的最新成果,包括使用近期量子设备从经典吉布斯分布采样,这可能与计算生物化学和基因组学模型相关。计算生物学中的量子计算和机器学习之间的协同作用似乎很有希望,特别是从AlphaFold应用的最新进展来看。计算生物学量子算法发展的下一个有趣阶段,是改进计算机辅助药物发现的计算方法。在这个领域,潜在的量子优势与量子化学和机器学习都相关。

新的量子算法的开发是量子信息技术的关键挑战之一,它需要量子物理学和计算科学界的共同努力。在计算生物学的情况下,保持原始的、生物动机的问题陈述,是至关重要的。特定领域的计算生物学和生物信息学算法,应该在这个特定领域的适用性进行测试。

参考文献

1. Fedorov, A. K., Gelfand, M. S. Towards practical applications in quantum computational biology. Nature Comput. Sci., 2021, 1, 114-119. DOI: 10.1038/s43588-021-00024-z.

2. Markus, R., Nathan, W., Krysta, M. S., Dave W., Matthias T. Elucidating reaction mechanisms on quantum computers. Proc. Natl. Acad. Sci. U. S. A., 2017, 114, 7555-7560. DOI: 10.1073/pnas.1619152114.

3. Argüello-Luengo, J., González-Tudela, A., Shi, T., Zoller, P., Cirac, J. I. Analogue quantum chemistry simulation. Nature, 2019, 574, 215-218. DOI: 10.1038/s41586-019-1614-4.

4. Dill, K. A., MacCallum J. L. The protein-folding problem, 50 years on. Science, 2012, 338, 1042-1046. DOI: 10.1126/science.1219021.