中大唯信·唯信计算

引言

机器学习（ML）在药物发现中的普及度持续增长，并取得了令人印象深刻的成果。随着其使用量的增加，它们的局限性也越来越明显。这些局限性包括对大数据的需求、数据的稀疏性以及缺乏可解释性。此外，这些技术并不是真正的自主性技术，甚至在部署后也需要重新训练。在这篇综述中，作者详细介绍了先进机器学习技术的使用来规避这些挑战，并举例说明了其在药物发现和相关学科中的潜在应用。作者预期本文提出的技术将扩大ML在药物发现中的适用性。

背景介绍

ML在药物发现领域中的应用不断增长，越来越多的制药公司证明了ML的成功，在这些公司中ML是其业务模式中的核心（表1）。此外，大型制药公司也在探索ML用于药物发现。这样的成功证明了ML用于药物发现的必要性和实用性，并且明确表明药物发现将与ML本质上联系在一起，即其目标是降低药物发现的资源和劳动强度，尤其是高通量筛选（HTS）技术。ML的另一个目的是避免动物试验的必要性，因为近来动物试验受到了负面宣传。

表1. 将ML作为业务模式核心的制药公司示例

图片源自Drug Discovery Today

ML的成功在于它能够识别复杂和大容量数据集中的模式（patterns），而且ML技术（MLT）可以使用包括Python和R在内的通用编程语言开发，大多数研究人员都可以访问这些语言。此外，还有一些第三方软件可以为不熟悉编程的研究人员提供访问ML技术的渠道，比如苹果的Create ML。传统的MLTs在药物发现中已经得到了深入的探索。这些技术包括有监督和无监督的MLTs，如k-最近邻（kNN）、决策树、随机森林、支持向量机（SVM）、人工神经网络（ANN）、主成分分析（PCA）和k-均值。与传统的预测算法相比，这些技术的吸引力来自于它们的简单性、计算量不大，同时预测精度也有所提高。同样，非计算机科学家研究人员可以从认知上理解常规技术的底层机制。例如，对于kNN来说，用户只需要控制一个参数，即k值，而k值又是基于多个投票确定分类搜索空间。

传统的MLTs尽管简单，但也有其缺点。kNN受到维度的影响，即在高维空间，预测性能开始减弱。同样，当维数大于样本大小时，SVM的性能也开始下降。在随机森林中增加树的数量可以提高预测精度，尽管大量的树结果会导致算法对于实时监测效率低下。然而，对MLT有两个主要的批评，一是其对大数据的需求，二是缺乏透明度。鉴于数据的收集具有挑战性、成本高且耗时长，因此需要解决这些限制。此外，透明度可能会促进用户对发现过程的理解，并尽量减少他们对ML理解过程的依赖。传统MLT的另一个限制是它们缺乏自主性。例如，监督学习需要标记目标变量（即要预测的变量）。此外，一旦部署，它将需要后期维护，特别是随着数据集的发展。为了解决这些局限性，研究人员已经采用了新的ML技术，并取得了可喜的成果。预计这些先进的技术将进一步扩大ML的应用范围，最终目标是实现药物发现管道中的人工智能（AI）。AI是计算机科学中一个广泛的分支，旨在利用机器创造人类智能，而ML是实现这一目标的核心。近年来，ML的一个分支–深度学习作为一种能够在处理结构化和非结构化数据时从大数据中获得较高准确性的技术，获得了越来越多的应用。

先进机器学习技术

对MTL的一些批评包括对大数据集和人工干预的需求。从这些评论中，人们研究了先进的技术来解决传统的MLT的缺点，从而进一步扩大了它们的适用性。这些先进的技术包括强化学习（RL），它弥补了与自主学习技术之间的差距；迁移学习以及多任务学习，用于在缺乏大数据的情况下开发预测模型。在这里，作者提供了这些先进技术的概述，并举例说明了它们在药物发现中的应用实例。表2中列出了这些技术的概要。

表2. 本综述中介绍的先进技术概要

图片源自Drug Discovery Today

1. 强化学习(RL, Reinforcement learning)

RL与有监督和无监督学习的区别在于，它是一种自主学习的持续学习形式。RL通过接收来自其环境的强化信号，从经验上学习要采取的最佳决策。当代RL集中于从头分子设计或分子优化。Popova等人针对药物的全新设计进行了将这两个方面结合起来的值得注意的研究。通过这种方法，RL与两种深度学习技术相结合，一种是生成模型，作为媒介，生成表面上化学可行的分子；另一种是预测模型，作为批评者奖励或惩罚生成模型的每一个生成的分子。使用这种方法，研究人员使用了来自CheMBL21数据库的约150万个结构来训练基于SMILES字符串的生成模型。结果表明，合成了100万个化合物，其中95%的化合物通过ChemAxon的结构检查器被证实是可行的。该研究还进一步证明，通过深层RL，可以优化理想的物理性质、化学复杂性或生物活性的新型化合物。虽然该研究表明RL可以被利用来生成新的化合物，但还需要进一步的工作来完善该模型。例如，所采用的策略可能无法保证特定于药物的化合物。此外，该研究使用了SMILES，尽管SMILES是一种简单而优雅的化合物表示，但在生成模型中的使用也引发了一些问题。虽然在药学领域，RL的应用仅限于药物设计，但在更广泛的医学界如组学、生物成像和医学研究等中均已经探索了该算法的其他潜力。RL的示意性表示如图1a所示。

2. 迁移学习(Transfer learning)

如果数据短缺，那么有一些技术可以用来规避这个问题。其中一种技术是迁移学习，它将从解决一个任务获得的知识迁移到另一个相关任务的过程。该技术利用从大数据集（A用于预测其目标变量Ya）生成的特征，并依次迁移知识以从数据集B（数据不足）预测不同的目标Yb。在深度学习的背景下，使用更大的数据集训练模型的学习权重，然后将其迁移到执行新的类似任务的模型（图1b）。研究发现，该方法的性能优于在较小数据集上训练的常规MLT。此外，由于优化过程已经完成，因此可以将迁移学习快速部署到新模型中。它假设较大数据集中的预测特征原则上可以应用于不同但又相关的任务。另外，如果特征在物理上是相关的，则可以将学习到的特征部分地作为目标域的输入特征进行迁移。迁移学习目前已经在光谱、图像、音频、文本、和数字数据类型等方面得到了较好的实现和应用。最近，迁移学习还被应用于各种材料，包括小分子、聚合物和无机晶体材料。该研究能够成功地将迁移学习应用于观测值较少的数据集。此外，还揭示了小分子和聚合物之间、无机化学和有机化学之间的潜在联系。

3. 多任务学习(Multitask learning)

迁移学习是顺序学习以及随后知识向另一任务的迁移，而多任务学习是在一个模型中同时学习不同任务。研究发现，与单独学习任务时相比，学习相关任务可同时提高预测性能。多任务学习的好处在小批量数据集或噪声很大的情况下特别有用。此外，发现多任务学习优于传统的MLT，尤其是在数据相对稀疏的情况下。使用神经网络的示例，传统体系结构一次学习单个任务，并为预测任务输出单个层。相比之下，多任务学习输出对应于预测任务数的多个隐藏层。相关任务在输出层可能是不相关的，但应在内部表示级别将它们相关。多任务学习允许任务之间进行知识的归纳式传输。这优化了多个损失函数，可以使模型更好地概括多个任务。在多任务学习中，由于相关任务之间共享了额外的信息，因此数据得到了放大（图1c）。多个任务能够相互学习，并且能够在相关特征和不相关特征之间进行过滤，尤其是在数据很少或存在大量噪声的情况下。此外，由于可以同时学习多个任务，因此可以减少偏置和过度拟合的情况。多任务学习既可以用于有监督的学习，也可以用于无监督的学习，并且可以通过不同的MLT实现，例如神经网络、kNN、贝叶斯多元线性回归和SVM。

在药物发现中，多任务学习已发现可以用于解决多靶点药物的作用。对此类候选物进行研究是因为它们具有严重的不利影响，这是对多个靶标采取行动的不利结果。同样重要的是，最近还发现，在多种复杂疾病（例如癌症和代谢性疾病）中，多目标药物比单目标药物更有效。Li等人利用了这一基本原理，他们表明多任务学习可以发现受同一药物影响的有用的多个靶标。研究人员将无监督的ML用于他们的方法以及表达数据和化合物结构信息。杨等开发了一个名为“Macau”的多任务框架，用于大规模药物筛选，同时获得了有关药物特性与细胞系之间相互作用的可解释的见解。

图1. (a)强化学习(RL)，(b)迁移学习和(c)多任务学习的原理示意图

图片源自Drug Discovery Today

4. 主动学习(Active learning)

主动学习是一种独特的半自动化机器学习方法，它试图使用用户反馈来解决低标签数据集的问题。与被动学习相比，主动学习是理想的选择，因为在这种情况下，大量无监督的训练数据需要昂贵且耗费资源的实验来标记。因此，用户可以进行实验并随后为数据集的子集标记数据，并使用主动学习来获得对其余未标记数据的预测。例如，使用ML预测药物通过血脑屏障的渗透率时，一个人可以对10％的分子进行实验，并使用该10％的分子训练模型以对另外90％的分子进行预测。如果模型不确定，它将进行查询，然后研究人员可以对这些样本进行实验。因此，与被动学习相比，它有可能需要相当少的标记数据，从而在最小化成本的同时加快了药物开发过程。最新研究表明，主动学习还可以用于预测小分子生物活性、配体-靶标相互作用和毒性。

5. 生成模型(Generative models)

如前所述，生成模型是能够生成新样本的MLT。它常被用于RL de novo应用程序，但其也可以用作独立技术。生成模型通过直接从输入数据中学习而将自己与区分模型区分开，并不一定要求用户编写明确的规则。生成模型可以通过实现数据分布的概率估计器来生成新数据实例，其中新数据位于分布内。换句话说，生成模型能够为给定的分布生成新的样本。这与判别模型形成对比，判别模型在给定数据实例的情况下揭示了标记数据的概率，而与数据实例是否有效无关（图2）。最近的研究使用了深度学习生成模型，该模型除了生成新化合物外，还可用于处理小型数据集时的数据扩充和降维。

图2. (a)判别模型与(b)生成模型之间的差异。判别模型通过建立例如决策边界来进行分类，而生成模型着眼于类别的概率分布

图片源自Drug Discovery Today

6. 贝叶斯神经网络(BNN, Bayesian neural networks)

BNN是使用贝叶斯推理将多个神经网络模型组合在一起的集合模型。与需要大量数据进行训练的常规神经网络不同，BNN可以处理较小的数据集，因为其具有避免过度拟合的能力。过度拟合是与大多数常规MLT相关的问题，BNN通过事先的概率分布来计算训练期间众多模型之间的平均值，从而产生网络的正则化效应，进而避免了过拟合问题。换句话说，神经元的权重和偏置不是一个单个值，而是从分布中采样出来的，该分布会定期更新以训练BNN。对于药物发现，目前BNN的使用还没有被彻底探索。最近的一项研究表明，利用ChEMBL数据集，贝叶斯图网络在预测分子的抑制活性方面优于传统图网络。最近，BNN被用于识别药物分子，其中单个分类器的贝叶斯误差分布可以产生93％的准确度，以区分药物样分子与非药物样分子。尽管BNN能够解决神经网络的某些缺点，但它们需要付出较大的努力来设计神经网络，这可能会导致建立偶然的影响力，而这种影响力可以通过对其进行单独编程来识别。

7. 可解释性算法(Explainable algorithms)

ML的使用确实可以促进和加快决策，特别是对于日常任务。因此，可能没有必要了解该模型实现的决策过程。但是，了解ML做出的决策过程将带给研究人员进一步的信心。解释模型可以帮助研究人员解决模型出现错误时的问题。此外，决策过程中的洞察力可能会引发合理的研究问题。另外，它可以通过提供对决策的见解来促进对研究的理解。同样，如果要将该技术商业化，透明度也可能会引起对监管机构的信任。最近一个可解释的机器学习示例被应用到构效关系建模中，其中发现半监督的回归树优于监督的回归树。Rodriguez-Perez和Bajorath使用不同的策略来预测活性，他们开发了一种方法，该方法阐明了传统技术以及集成和深度学习模型的预测过程，从而消除ML模型的“黑匣子”性质。在他们的方法中，为每个特征分配了给定预测的重要性值，并依次概述了哪些特征对模型的贡献最大。

新兴机器学习技术

1. 混合量子机器学习(H-QML, Hybrid quantum-machine learning)

机器学习与量子计算的混合已经成为预测分析中的一项强大技术。量子计算的主要前景是能够解决复杂问题的效率，而这些问题对于传统计算机而言却过于昂贵。在经典模型中，处理单元计算的位为0或1，而对于量子计算，量子位qubit处于0和1的叠加状态。量子位由量子逻辑门处理，与经典逻辑门相反，量子逻辑门是可逆的。这就产生了计算能力，并且可以防止信息丢失，而拥有更快的分析和较低的功耗能力。混合量子ML的定义尚待确定。迄今为止，它包括使用量子计算机执行ML算法或在ML中采用量子信息处理。前一种方法可以看作是量子增强型ML，而后者可以看作是量子启发式ML。H-QML的优势确实可以在制药科学中加以利用，但是，在撰写本文时，该技术尚未得到应用。2018年，IBM发表了一篇关于量子计算在药物发现中的潜力的文章，其中作者将量子ML的潜力纳入了其综述范围。最近，Google LLC发布了针对python的开放访问量子ML框架，该框架将使研究人员能够使用混合量子ML。因此，在制药科学中混合量子ML有望很快实现。

2. 推荐系统（Recommendation systems）

推荐系统在2006年因Netflix竞赛而声名鹊起，该竞赛旨在为其用户创建准确的用户偏好内容。推荐系统是一种ML框架，它基于在一组用户（例如，客户）到一组项目（例如，产品）之间建立链接的数据。推荐系统在电子商务中（例如，亚马逊和YouTube）大量使用，以推动其销售。此类技术的优势在于它们具有处理数据稀疏性，在无法获得先验信息的情况下进行预测的能力，以及通过解释推荐系统如何做出决策来提供透明度的能力。推荐系统已被应用到了医疗研究中，其根据患者的病史可以提出正确的治疗方案。但是，在药物发现和开发中的应用尚未建立。Sosnina等开发了用于化合物与靶标相互作用预测抗病毒药物发现的推荐系统。作者使用了基于内容的过滤推荐系统，该系统适用于稀疏数据和可解释性。此外，他们的模型使执行冷启动预测成为可能，其可以在没有实验数据的情况下进行预测。鉴于药物发现和开发中的数据受这三个问题的困扰，预计推荐系统的使用将会增加。

总结

本文作者详细介绍了ML在无需人工干预的情况下实现流程自动化的方法。在缺乏大数据时使用迁移学习和多任务学习；BNN可以避免过度拟合；以及可以说明模型决策过程的可解释算法。此外，本文还讨论了新兴技术及其在药物发现中的潜在作用。混合量子ML有可能进一步提高预测性能，而推荐系统可以解决数据稀疏性。预期在不久的将来将采用本文所讨论的技术，并且它们的应用将进一步促进药物发现的研究。另一方面，模型做出的预测的质量将取决于数据的质量，因此，ML在药物发现中的应用将受益于战略性和统一的数据库。

参考文献

Moe Elbadawi, Simon Gaisford, and Abdul W. Basit, Advanced Machine-learning techniques in drug discovery, 2021, 26, 3, 769-777. DOI: 10.1016/j.drudis.2020.12.003.

实时关注公司行业最新动态

Drug Discovery Toady | 药物发现中的先进机器学习技术